推理阶段不同batch size对大模型推理结果的影响

🕗 发布于 2024-09-21 12:40 大语言模型 人工智能 大模型 batch inference 模型推理

大模型推理阶段，进行batch inference批处理推理解码，会像预期的那样速度很快推完吗？会不会有什么问题？

batch inference推理的结果居然会和一条一条推理结果差的很远？！！
Batch Decoding/Inference of LLMs will cause different outputs with different batch size?!

行为表现

测试中可以发现，即使是在推理阶段，不是在训练阶段，对于多模态大模型VLLM，如果推理时候为了加速推理，不是一条一条数据让模型推，而是一次推理batch_size>1条数据，对比batch_size=1和batch_size>1的结果，会发现这两份结果分布是不一样的，why？

可能表现为，batch_size=1测下来的模型推理结果基本上都是对的，例如本身让模型回复“是”或者“否”，很短的回答，模型回答的挺好的，不仅正确而且简短没有废话
调试好了之后大规模数据上batch inference批处理，batch_size>1，发现推理没有变快，推理结果还有问题，准确性大幅下降，模型甚至给出了很多长回复(例如模型开始解释，或者开始模棱两可说为什么不能回答这个问题)

是否是模型随机种子、采样影响

推理阶段影响模型随机性的参数

推理阶段影响模型随机性的参数，可以控制的主要有3个，分别为temperature、topK和topP：

temperature:温度参数影响输出的概率分布，当温度接近0时，模型会变得非常确定性，几乎总是选择具有最高概率的下一个词，从而产生更加一致但可能较为重复或缺乏创意的输出。如果希望减少随机性，可以将温度设得低一些
topK：只考虑最有可能的k个词汇，并从中进行随机选取，设置一个较小的k值可以帮助减小随机性，因为只有少量高概率的词汇会被选中
topP：它基于累积概率来决定候选词汇集。具体来说，模型会选择累积概率达到p阈值的最少数量的词汇作为候选。p值通常设定为0.8或0.9左右，这意味着大约80%或90%的累计概率被覆盖。如果想进一步降低随机性，可以提高这个值

有的人会觉得batch inference结果的差异是模型本身随机性导致的，从分布里面采样，采出来结果不可能每次都一样。为了去掉随机性干扰，可以把temperature设置为0，topK和topP都做类似的设置。当然最好的方式，直接设置do_sample或者是sampling=False，解码时不进行随机采样，这样结果按理就是确定的。

结果表明，即使sampling=False，batch inference的结果还是会和batch_size=1不一样

batch inference结果受到哪些因素影响

在do_sample=False的情况下，已知的，会影响推理结果的因素主要有：

batch size，不同batch size大小结果会很不一样
padding side (left/right)，无论左还是右都不能消除，左和右的推理结果也会很不一样
padding value (<unk><eos><bos><0>)，用不同的padding值都不能消除差异，不同padding的值也会右影响
dtype，数据类型也会有影响（有人怀疑是RMSNorm导致的浮点溢出的问题），FP32、BF16、FP16等都会有影响，即使和原始模型的dtype一样，batch inference解码结果也会不一样
KV-cache，是否打开KV-cache也会影响，但是关闭KV-cache并不能解决问题

已知的，会影响到的模型包括所有使用旋转位置编码的模型

解决方法：无，目前还没有修复，可以参考下面的github上gante的comment

缓解的方式

在使用多模型模型MiniCPM-V-2.6尝试，保证每个batch里面输入的token长度是一样的（都是问同一个问题，并且图片的数量一样），这种情况下就不需要padding，得到的batch inference的结果统计下来和batch_size=1的结果是一致的

参考

探究inference阶段batch inference差异的论文：The batch size can affect inference results，Openreview
github上的深入探究：huggingface的探究

原文地址：https://blog.csdn.net/qq_37734256/article/details/142413688

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【C++】STL----stack和queue常见用法
下一篇：Django-cookie和session

Mysql 面试题
SQL注入漏洞是一种常见的网络安全攻击方式，攻击者通过在输入的数据中注入恶意SQL代码，从而在后台数据库中执行非法的SQL操作，例如删除、修改、插入、查询等，从而获得敏感信息或者破坏数据库的完整性。为
阅读更多2024-09-22
Android实现自定义下拉列表绑定数据
Android实现自定义下拉列表适配器key-value
阅读更多2024-09-22
Qt开发技巧（四）“tr“使用，时间类使用，Qt容器取值，类对象的删除，QPainter画家类，QString的转换，用好 QVariant类型
"tr"使用，时间类使用，Qt容器取值，类对象的删除，QPainter画家类，QString的转换，用好 QVariant类型
阅读更多2024-09-22
【网络安全】学过编程就是黑客？
黑客，相信经常接触电脑的朋友们对这个词都不陌生，各类影视视频中黑客总是身处暗处，运筹帷幄，正是这种神秘感让我走向学习编程的道路，也正是如此让我明白黑客远没有我想象中那么“帅气”。
阅读更多2024-09-22
[Meachines] [Medium] Querier XLSM宏+MSSQL NTLM哈希窃取(xp_dirtree)+GPP凭据泄露
#XLSM宏 #MSSQL NTLM哈希窃取(xp_dirtree) #GPP凭据泄露
阅读更多2024-09-22
[mongodb][查询]MongoDb查询和模糊查询
在MongoDB中，您提供的查询示例使用了不同的查询操作符来执行不同类型的查询。这个查询使用了正则表达式来模糊匹配name字段。表示匹配任何包含"HLCSOU17649"（不区分大
阅读更多2024-09-22
MySQL缓冲池详解
在MySQL查询数据的时候，是通过存储引擎去磁盘做IO来获取数据库中的数据，这样每次查询一条数据都要去做一次或者多次磁盘的IO，无疑是非常慢的。而缓冲池就能非常好的解决这个问题。当数据从磁盘中取
阅读更多2024-09-22
QT 中中文乱码的问题处理
在使用 QT 开发应用程序时，可能会遇到中文乱码的问题，这是因为 QT 使用的编码方式和系统的编码方式不一致导致的。第一步：在 QT 中，可以使用 QTextCodec 对象来设置编码方式(软件启动
阅读更多2024-09-22
智能指针：作用 | 使用 | 原理 | 内存泄漏
智能指针：作用 | 使用 | 原理 | 内存泄漏
阅读更多2024-09-22
前端开发——（1）使用vercel进行网页开发
在现代前端开发中，选择一个高效的部署平台至关重要。Vercel 提供了快速、简便的部署方式，特别适合静态网站和 Next.js 应用。本文将带你逐步了解如何使用 Vercel 部署并运行你的网页项目。
阅读更多2024-09-22