【LLaMa-Factory】监督微调训练方法

🕗 发布于 2024-11-06 19:32 llama 深度学习 人工智能

命令行

您可以使用以下命令进行微调：

llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml

examples/train_lora/llama3_lora_sft.yaml 提供了微调时的配置示例。该配置指定了模型参数、微调方法参数、数据集参数以及评估参数等。您需要根据自身需求自行配置。

### examples/train_lora/llama3_lora_sft.yaml
model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct

stage: sft
do_train: true
finetuning_type: lora
lora_target: all

dataset: identity,alpaca_en_demo
template: llama3
cutoff_len: 1024
max_samples: 1000
overwrite_cache: true
preprocessing_num_workers: 16

output_dir: saves/llama3-8b/lora/sft
logging_steps: 10
save_steps: 500
plot_loss: true
overwrite_output_dir: true

per_device_train_batch_size: 1
gradient_accumulation_steps: 8
learning_rate: 1.0e-4
num_train_epochs: 3.0
lr_scheduler_type: cosine
warmup_ratio: 0.1
bf16: true
ddp_timeout: 180000000

val_size: 0.1
per_device_eval_batch_size: 1
eval_strategy: steps
eval_steps: 500

备注

模型 model_name_or_path 、数据集 dateset 需要存在且与 template 相对应。

重要训练参数
名称	描述
model_name_or_path	模型名称或路径
stage	训练阶段，可选: rm(reward modeling), pt(pretrain), sft(Supervised Fine-Tuning), PPO, DPO, KTO, ORPO
do_train	true用于训练, false用于评估
finetuning_type	微调方式。可选: freeze, lora, full
lora_target	采取LoRA方法的目标模块，默认值为 `all`。
dataset	使用的数据集，使用”,”分隔多个数据集
template	数据集模板，请保证数据集模板与模型相对应。
output_dir	输出路径
logging_steps	日志输出步数间隔
save_steps	模型断点保存间隔
overwrite_output_dir	是否允许覆盖输出目录
per_device_train_batch_size	每个设备上训练的批次大小
gradient_accumulation_steps	梯度积累步数
max_grad_norm	梯度裁剪阈值
learning_rate	学习率
lr_scheduler_type	学习率曲线，可选 `linear`, `cosine`, `polynomial`, `constant` 等。
num_train_epochs	训练周期数
bf16	是否使用 bf16 格式
warmup_ratio	学习率预热比例
warmup_steps	学习率预热步数
push_to_hub	是否推送模型到 Huggingface

摘自SFT 训练 - LLaMA Factory 方面后面查找阅读。

原文地址：https://blog.csdn.net/weixin_41784510/article/details/143575307

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：uln2003驱动28BYJ-48步进电机
下一篇：C6.【C++ Cont】cout的格式输出

imageio 图片转mp4
imageio 图片转mp4
阅读更多2024-11-08
RAG（检索增强生成）的实现流程；RAG怎么实现检索增强的
它通过将传统的检索技术与现代的生成式模型结合，在用户提出问题时，首先从海量数据中检索相关信息，再基于这些信息生成更精准的答案。：将加载的文档分割成更小的段落或部分，有助于提高检索的准确性和效率。RAG
阅读更多2024-11-08
刷新认知！国产大模型已超GPT-4
一个很重要的认知应该被刷新：中国的大模型已经超越了GPT-4在2023年的版本，并且与GPT-4在8月份的版本处于同一水平。这表明中国的大模型已经完全可用，中国AI正在赶上甚至超越国际领先水平！
阅读更多2024-11-08
ArcGIS Pro SDK （二十四）任务
【代码】ArcGIS Pro SDK （二十四）任务。
阅读更多2024-11-08
linux 下调试 mpu6050 三轴加速度
供自己备忘；
阅读更多2024-11-08
黑马程序员linux学习【持续更新】
Linux已经安装并且配置好了，接下来我们要来学习Linux的基本操作指令。而在学习之前，我们还需要做一件事情，由于我们企业开发时，Linux服务器一般都是在远程的机房部署的，我们要操作服务器，不会每
阅读更多2024-11-08
基于Java Web的传智播客crm企业管理系统的设计与实现
本文研究的是通过构建CRM企业管理系统的优势进行信息化管理，通过调查和分析现在企业业务的相关信息，综合对大部分企业的现状和未来发展趋势进行分析，进而提出比较好的管理策略和方针。5.1 在校学生管理（查
阅读更多2024-11-08
31-自定义地图：分层地图
carla教程
阅读更多2024-11-08
2024 信友队 noip 冲刺 10.8
考虑一个数字能被选择的条件。假设我们已经把 kkk 个数选进答案子序列中，那么对于没选择的数 iii，它能被选当且仅当 [i,n][i,n][i,n] 中有剩下没选的所有数字。我们考虑对于每个 iii
阅读更多2024-11-08
探索 Java 中 String 类的常用方法
String类的这些常用方法为处理字符串提供了极大的便利。掌握这些方法，可以帮助你更有效地编写代码，处理各种字符串相关的问题。在实际开发中，合理利用这些方法，可以提高代码的可读性和效率。
阅读更多2024-11-08

【LLaMa-Factory】监督微调训练方法

命令行

相关文章