scaling 的作用

🕗 发布于 2024-10-08 20:50 算法 人工智能

scaling 控制适应程度指的是对原始模型权重的修改幅度。让我用具体例子解释：

假设我们有一个原始的权重矩阵：

原始权重 = [[1000, 2000],
           [3000, 4000]]

现在看两种不同的 scaling 值如何影响更新：

当 scaling = 2 (alpha=8, r=4) 时：

LoRA更新 = [[80, 100],
           [180, 228]]

新权重 = [[1080, 2100],   # 1000+80, 2000+100
         [3180, 4228]]   # 3000+180, 4000+228

这种情况下的改变相对温和，大约是原始值的 8-10%

当 scaling = 8 (alpha=32, r=4) 时：

LoRA更新 = [[320, 400],    # 80*4, 100*4
           [720, 912]]    # 180*4, 228*4

新权重 = [[1320, 2400],   # 1000+320, 2000+400
         [3720, 4912]]   # 3000+720, 4000+912

这种情况下的改变更剧烈，大约是原始值的 30-40%

所以 “适应程度” 具体表现在：

对原始模型的影响大小
- scaling 小：微小的调整，保持模型主要特性
- scaling 大：显著的改变，更强的任务适应性
学习新任务的速度
- scaling 小：学习较慢，但稳定
- scaling 大：学习较快，但可能过拟合
在实践中的选择
- 如果新任务与原始任务很相似：用小的 scaling
- 如果新任务差异较大：可以用大的 scaling
- 通常从小的 scaling 开始尝试，根据效果调整

比如在情感分析任务中：

原模型已经理解基本的语言结构
小的 scaling (如2)：微调模型识别特定领域的情感词
大的 scaling (如8)：让模型学习完全不同的情感表达方式

原文地址：https://blog.csdn.net/liuchenbaidu/article/details/142767676

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：[Notes] How covariance matrix determind 3DGS and 2DGS
下一篇：【LeetCode】动态规划—712. 两个字符串的最小ASCII删除和（附完整Python/C++代码）

C++模板初阶速成
温馨提示：本篇文章依旧是c++速成系列的文章，但和以往有所不同的是，本篇文章带大家简单了解并能够学会使用模板。
阅读更多2024-10-13
热成像人像算法呈现方式!
通过设定变化阈值，比对前后两帧的同一位置像素点的差值，若满足条件，则将该像素点标记为“warm”pixel。因此，热红外成像可以不受光照条件的影响，且在图像中，人体由于温度较高，通常会比背景显得更亮。
阅读更多2024-10-13
证件照制作工具
声明：本站大部分素材均源于互联网收集整理，若侵犯第三方权益，请及时联系我们删除。
阅读更多2024-10-13
安当数据库透明加密组件：守护您的 ClickHouse 数据安全
ClickHouse是高性能列式数据库，安当推出透明加密组件保护数据安全，支持整库、表级、列级加密，透明不影响性能，提供高效灵活的数据安全解决方案。
阅读更多2024-10-13
ClickHouse 数据保护指南：从备份到迁移的全流程攻略
clickhouse-backup 是社区开源的一个 ClickHouse 备份工具，可用于实现数据迁移。其原理是先创建一个备份，然后从备份导入数据，类似 MySQL 的 mysqldump + SO
阅读更多2024-10-13
打假！制裁不良网站
众所周知，Chrome是一个很好用的浏览器。然后今天装了虚拟机Win 10，想着下个Chrome用来开发，随即发现了：看着好像很正经，对吧？但其实，这是一个盗版网站！包括MS Defender也说了
阅读更多2024-10-13
docker入门（二）之容器命令及私有仓库的部署（本地和harbor）
所以我们大致应该能明白守护进程是给需要在后台默默执行的程序。如redis，如果不添加守护进程，ctrl+c，前台进程结束，容器就停止了，显然不能接受。通过下图可以看到redis开始在正常运行在前台，假
阅读更多2024-10-13
图论day59|并查集理论基础、107.寻找存在的路径（卡码网）
图论day59|并查集理论基础、107.寻找存在的路径（卡码网）
阅读更多2024-10-13
Solon-Boot 与 SpringBoot 的概念差别
平常我们是拿 Solon 生态与 SpringBoot 生态作比较。而非 Solon-Boot（仅是功能模块）与 SpringBoot 生态，但这两名字太容易让人误解了。
阅读更多2024-10-13
STM32—W25Q64
2的24方=16777216 / 1024 = 16384KB /1024 =16MB 所以24位地址的最大寻址空间是16MB W25Q40到Q128，使用3字节24位的地址都是足够的
阅读更多2024-10-13

scaling 的作用

相关文章