关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

内容分享14小时前发布
0 0 0

上一篇写道v6.0,直接开始7.0

v7.0版本

只使用触发词:lihuazhou

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

都挺不错眉心的红点也没了,比v6.0效果好一些,就是06的头发有点混乱

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

one是真的瑟,权重到1的时候06会出现坏点,最好在权重0.8左右

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

wai模型日常翻车,感觉就是spda的原因(v6.0也是)

完善触发词

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

没啥问题,06领带都有问题,最适合权重在0.8

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

one模型只有权重1时候领带才正常,看上去也就在08和10选择

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

wai模型也一样,不过10的模型表现会好一些,权重0.9左右

v7.0总结

最终选择是10,综合评分最好,不过手指方面没有太大问题

v8.0版本

只使用触发词:lihuazhou

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

都没啥问题,就是吐槽一下衣服….有衣领然后没有了??直接露肩,那这个衣领为啥不设计成吊带!!…有这种设计的吗?

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

10的衣服花纹很多很乱,那个衣服设计我怀疑就是ai自己没有完整生成,暂时预定06-10

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

one开始翻车,06手感觉反过来了,而且出现不明肢体,10的话,全是腿,我怎么知道这个角色是不是立华奏啊…..权重0.9最好

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

奇怪,wai竟然没翻车(一样有spda),10表现不好,反而是06表现好

完善触发词

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

janku竟然翻车了,明显细节全部不对,至于那个裙子我知道什么问题,训练集有一张裙子有问题,就是颜色一部分出错,权重0.9最适合,暂时看10表现最好

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

one看来08和10好一些(10更好),10权重高的时候会出现手指问题,最好权重在0.8

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

wai全面翻车…说实话v8.0只是把bs改为2,怎么会变化这么大?我查了一下lora的信息,发现我把学习率调度器改成了constant(恒定),看到有up说神童的话这个好一些…..

v8.0总结

基本上可以放弃了,效果都不太好,一定要选的话10好一些,盲猜是学习率调度器的问题,要么就是bs加大会影响质量

v9.0版本

只使用触发词:lihuazhou

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

janku效果都还行,06-10

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

one直接翻车,权重1的时候肢体甚至有问题,没有一个像的

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

wai也是翻车….

完善触发词

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

janku暂时看只有08和10,08领带容易出问题,10表现良好

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

one只有权重1正常,目前看只有10,算是翻车

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

wai的话….08校服出现了护臂,而且校服长度有问题,硬要选的话就是10

v9.0总结

硬要选的话就是10,v9.0版本我换回了余弦重启,把bs开到了4,明显bs开高了质量下降挺多…

大总结

先整理一下,我的电脑配置:

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

炼制lora肯定不能太久,才1900步怎么用一天太过分了….

所以肯定是使用3.0之后的版本了

时间对比

v3.0只启用xformers,速度2.44s/it,时间是1个多小时(忘了截图最后,但是速度肯定比一开始快)

v4.0、v5.0参数调节错误,导致显示有问题,并且完全没法用,等下后面讲

v6.0只启用了spda,速度2.15s/it,时间1小时8分

v7.0同时启用xformers和spda,速度1.89s/it,时间59分钟48秒

v8.0把batch_size设置为2,速度3.26s/it,时间52分钟8秒(960步)

v9.0把batch_size设置为4,速度6.48s/it,时间52分钟55秒(490步)

其实时间上差不多,盲猜spda和xformers差不多,可以同时开启,但是感觉质量会稍微下降

v8.0和v9.0我使用了多bs,8.0是2,9.0是4,依次翻倍

明显开启多批次是可以节省步数,但是我发现相应的速度也会升高,理论上不会才对…这样我开跟不开区别不大,因为只快一点点,质量确明显下降….

显卡问题(个人猜测)

看一下我开到4bs的时候

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

显存占了14g了,再开高应该就要爆炸了,当然我怀疑是5060ti的显存带宽还有核心都占满了,所以高bs的作用基本没有,速度翻倍增长…..

当然只是个人的猜测,准不准不知道,不然为啥多批次速度反而升高….

不过显存够了,还是能运行,总比运行不了的好

速度与质量

一般速度越快,质量会越低(当然除非显卡牛逼)

根据测试:

开启xformers,再开启sdpa,速度还会加快,但是质量会稍微降低

多bs的情况要看显卡情况,也是加速度降低质量(有时候效果会更好)

我自己的配置最多bs=2,再高没意义

如何知道你的显卡瓶颈在哪?

用「nvidia-smi」或「NVTop」(更直观的监控工具)观察训练时的显卡状态,快速定位瓶颈:

若显存占用接近 100% → 瓶颈是「显存容量」(再增大 bs 会 OOM,只能降 bs 或用梯度累积);若显存占用没满,但「显存带宽利用率」接近 100% → 瓶颈是「显存带宽」(再增大 bs 会让传输耗时激增,单步耗时变长);若「CUDA 核心利用率」接近 100%,但显存带宽没满 → 瓶颈是「CUDA 核心数」(此时增大 bs 能轻微提速,但边际效益递减);若 Tensor Core 没开启(比如没开 FP16 混合精度) → 瓶颈是「Tensor Core 未利用」(开启后能提升并行计算效率,让 bs 增大的提速效果更明显)

这里需要自己去测试了

建议

1.按照我第一篇的加速就行,不会有啥问题(关于随机打乱标签我下一篇讲)

2.xformers和sdpa可以同时开启,但是会降低质量,我推荐用xformers

3.bs的数量得看自己显卡,有时候批次高对模型也会有好处,看下图

关于comfyui的lora训练加速调节以及质量筛选(加速15倍)(二)

4.如果时间只差了30分钟以内的,推荐不要加速,要质量

5.bs的加速会明显降低质量

© 版权声明

相关文章

暂无评论

none
暂无评论...