swift使用代码结构解析

🕗 发布于 2024-10-06 17:17 lmm 多模态大语言模型

多模态模型的训练llamafactory也可以训练，但是总的来说，llamafactory对多模态模型的支持还是不太多，ms-swift支持的多模态模型更多，因此有时候去找框架是否够支持相应的模型时会有所困难，所以对这些框架的代码也要稍微熟悉一些。

1.model_type

模型支持在swift/llm/utils/model.py中，目前能够支持的多模态模型还是很多，这对我们做一些实验室相对方便的，直接我记得我sft qwenvl时还有bs不能大于1的bug，不知道目前解决了没有，目前我实验的llava和internvl2都没有bs=1的限制了。目前llama-vision只能在最新的swift的main分支中，还有合并进最新版本，不过问题也不大。

2.swift对数据的支持包括两种

一种是data.jsonl中添加，这和llamafactory一致的

另一种直接加载相应的转换格式的jsonl或者json文件。

3.template_type

swift中的参数基本都是一致的，没有太多需要调的空间，唯一需要调整的也就是model_type和template_type了，swift/llm/utils/template.py，其实这种框架本质上都是依赖hf的transformer和peft等库进行训练的，当然trainer基本都是自家封装的，但是训练这块基本都是相似的transformer的模式，因此其实更多的还是数据转换，一些预处理之类的东西有所区别。

4.参数

swift/llm/utils/argument.py中，主要关注的就是SftArguments了。

原文地址：https://blog.csdn.net/u012193416/article/details/142713841

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：MySQL 8.0 新特性之自增变量持久化
下一篇：2024年10月6日历史上的今天大事件早读

Java 实现 Feed 流实时更新数据的设计与实现
在现代社交媒体、新闻推送等场景中，Feed 流（Feed Stream）作为一种常见的数据展示形式，已经成为了用户获取实时信息的主要方式之一。Feed 流可以动态地向用户展示所关注的内容，例如微博的动
阅读更多2024-10-08
鹏哥C语言62---第9次作业：函数递归练习
/-------------------------------------------------------------------------------------------第九次作业函
阅读更多2024-10-08
CSS 效果：实现动态展示双箭头
使用 CSS 实现了一个简单但精致的箭头样式，就是包含突出和内缩箭头的视觉效果。
阅读更多2024-10-08
Deformable Transformer论文笔记（2）
在编码器中，我们从 ResNet (He et al., 2016) 中阶段 C3 到 C5 的输出特征图中提取多尺度特征图 {xl}l=1->L-1 (L = 4)（各层特征最终再由 1 ×
阅读更多2024-10-08
26.删除有序数组中的重复项
思路:只要不和前面的数一样就可以移动指针，进行赋值。
阅读更多2024-10-08
Java对象的比较
2. 用户也可以选择使用比较器对象，如果用户插入自定义类型对象时，必须要提供一个比较器类，让该类实现Comparator接口并覆写compare方法。1. Comparble是默认的内部比较方式，如果
阅读更多2024-10-08
项目前置知识
简单介绍 bind 接口函数绑定，timerfd 系统的定时器，时间轮的设计，正则库解析HTTP请求行的简单使用，日志打印宏的设计，通用类型Any的设计
阅读更多2024-10-08
国庆出行消费热情高涨滴滴订单量同比上涨15%
北京、成都、西安、广州、海口等旅游城市的租车需求量位于前五位，而安徽宣城、内蒙古乌兰察布、宁夏吴忠三城增速最快，较中秋假期分别增长约308%、300%、260%。济南、成都、南宁、苏州、太原等热门线路
阅读更多2024-10-08
AI知识库如何提升服装电商的运营效率
探讨AI知识库在服装电商中的应用，提升管理效率与用户体验。
阅读更多2024-10-08
大模型公司对标：360
*在通用大模型领域，360自研360智脑大模型和奇元大模型。**聚焦大模型应用，共建行业解决方案。360近年持续投资AI相关企业，主要聚焦AI行业应用，今年7月首次投资大模型服务商硅基流动，专注于构建
阅读更多2024-10-08

swift使用代码结构解析

相关文章