|
lora训练来源:网络Huhtikuu文章 首先任何一个lora都会有三重属性,易调用性、泛化性和还原性,任何一个lora只能完美满足其中的两项;
正则化是什么一般来说正则化在图像生成领域中有两种理解思路,一种是正则化集中的图片会预先将一个概念给锚定下来,也就是会提前将本次模型中的一些信息固定下来,第二种是在训练过程中正则化会不断将想要偏离的lora给扳回来,也就是起到了限制lora肆意发展的能力 ![]() 如上图中首行表示的是在底膜没有添加lora时提示词为A dog生成的图片,中间是使用不使用任何正则化训练的lora之后再次使用提示词为A dog生成的图片;最后一行是在使用了正则化之后的lora提示词为A dog生成的图片,至于为什么这里生成的狗子和素材中的狗子完全不一样,这是因为模型的易调用性降低了,需要通过引导词来引导lora来生成与训练素材相似的图片,后面会解释如何使用引导词 据此我们也就可以引出正则化的意义 正则化的意义首先正则化最重要的意义是降低lora的过拟合度,提高lora的泛化性 在最初接触lora训练的使用者认知中,lora的泛化性往往是最不受重视的,他们觉得易调用性和还原性是最重要的,因为易调用性和还原性是很直观的,一用便知的,所以重视起来效果会显著的 然而一个过拟合的lora往往姿势呆板,表情僵硬,衣服也没办法变化,也几乎无法和任何lora一起使用,一起使用时便会出现大量的非正常色块甚至是噪音点 出现该问题的主要原因是lora在训练过程中对底膜本身理解某些提示词时产生了干扰,让底膜本来理解的a dog变成了素材中出现的狗,而并不是狗这个概念的抽象集合,也就是对a dog这个标签产生了污染 所以简单理解正则化在图像生成中的意义就是降低lora训练过程中对标签的污染,让模型本身避免记新忘旧的情况,以及拆解素材中的各个概念到不同的提示词中,避免素材信息过度集中在某几个提示词中导致的lora高权重生成图像固定,lora低权重生成素材完全不像的情况 正则化的使用正则化的使用分为两步,第一步是提示词的修改,第二步是创建正则化素材集 在lora训练中素材的提示词我看过很多教程,里面有一个比较显著的问题,那就是他们总认为素材中的提示词越多那么lora的效果也就越差,其实这是一个很典型的错误,因为lora泛化性恰恰就需要对提示词尽可能细致的描写,但是觉得lora效果差的原因是,在lora泛化性提高的同时,易调用性和还原性就会下降,不能仅在提示词中打开lora而复现了,于是就认为只有删掉想要固定在lora中的提示词,lora才能学到这些提示词所代表的信息 所以想要lora的泛用性足够好,那么就必须要足够详细的用提示词描写画面中的所有细节 创建正则化素材集是一个概念上难以理解,但是实际很好操作的事情,简述就是如果你要训练的是一位女性的人物lora,那么就仅使用1girl作为标签,使用和训练时所用的底膜相同的模型生成图片即可,数量等于训练素材数量即可 举例:当想要训练的是图1中所描述的青蛙样式,那么正则集存放1frog生成的图片即可 ![]() ![]() 正则化的效果下面是一个个人训练的崩坏3苏珊娜lora,所使用的仅为官方公开的8张素材,选素材中其中一张放在下面供还原性参考 ![]() 触发词为susana \(hoi\), 1girl, solo 以下结果没有经过细致的提示词修改,高清修复和任何controlnet的控制,仅为展示lora本身的效果 使用触发词+人物外貌描述+服装描述可完美触发,触发效果如下: ![]() 仅额外添加一个漫画风格的lora ![]() 仅额外添加一个平涂风格的lora ![]() 不更改提示词,仅更换为厚涂风格的底膜 ![]() 在厚涂底膜上额外添加版画风格lora ![]() 更换服装为bikini(训练素材中是没有bikini穿着的苏珊娜的) ![]() 总结lora训练中的正则化和提示词细化对lora使用时的泛化性有非常大的帮助,可以仅使用少量的素材就训练出姿势灵活,发色、瞳色、服装随意搭配的人物lora,并且结合其他底膜和lora可以共组成风格有差异,但人物形象确定的画面 |









