论文略读:LoRA Learns Less and Forgets Less
202405 arxiv
1 主要思想
LORA相比于全参数训练,学的少,但忘的也少
2 实验分析
2.1 训练的表现
- 在编程和数学任务中,LoRA相比全参数微调表现出明显的劣势
2.2 遗忘的表现
- 这边的遗忘,是指在数据集A上预训练,然后在数据集B上继续finetune,看在数据集A上的表现
- 相比全参数微调,LoRA学会的东西较少,但遗忘也相对更少
3 论文的分析:Lora的正则化特性
- LoRA提供了比经典正则化技术,如权重衰减和dropout,更强的正则化效果。
- 在下游任务上LoRA的表现低于大多数正则化方法(左图);在遗忘上LoRA优于所有正则化方法(右图)
原文地址:https://blog.csdn.net/qq_40206371/article/details/140440077
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!