神经网络：什么是交叉熵？

🕗 发布于 2025-01-16 01:56 人工智能 神经网络

在机器学习和深度学习中，交叉熵（Cross Entropy） 是一种常见的损失函数，特别适用于分类问题。尽管这个术语听起来可能有点复杂，但通过一个类比，我们可以更直观地理解它的含义和作用。

类比场景：寻找最佳路径的导游

假设你是一位导游，需要带领游客探索一片未知的森林。你事先得到了一张“概率地图”，这张地图告诉你哪些路径更可能通往目的地（例如，河流旁的小路有70%的可能性，而丛林深处的小径只有10%的可能性）。

与此同时，有另一位资深探险家，他熟悉这片森林，并知道每条路的真实概率分布。

你的任务是根据自己的“概率地图”选择路径，同时不断向资深探险家学习，希望最终你的预测（概率地图）能尽可能接近真实分布。

核心问题

如何量化你的“概率地图”与真实概率之间的差异？这正是交叉熵要解决的问题。

什么是交叉熵？

交叉熵可以看作是用一种方式衡量两种概率分布之间的“距离”。

第一种概率分布是你的预测概率分布，代表你认为每条路通向目的地的可能性。
第二种概率分布是真实的概率分布，告诉你每条路通向目的地的真实可能性。

通过计算交叉熵，你可以知道当前的“概率地图”离真实分布有多远，并根据这个信息不断调整你的预测。

数学公式

假设森林中共有 $N$ 条路径，每条路径的编号是 $i$

$p_{i}$ 表示真实分布中路径 $i$ 的概率。
$q_{i}$ 表示你预测分布中路径 $i$ 的概率。

交叉熵公式为： $H(p,q)=-\sum_{i=1}^{N}p_{i}log(q_{i})$

这个公式可以分解成两部分：

$p_{i}$ ：真实分布告诉我们哪些路径更重要。
$log(q_{i})$ ：用预测分布告诉我们，你对这些路径的概率估计是否足够准确。

解释公式

是资深探险家的建议。他说：“路径1的可能性是70%，路径2的可能性是20%，路径3的可能性是10%。”
是你自己的判断。假设你认为路径1的概率是60%，路径2是30%，路径3是10%。

资深探险家会根据你的选择给出评价。如果你对高概率路径（如路径1）估计得接近真实值，那么整体评分较高；反之，如果你低估了高概率路径或高估了低概率路径，评分就会很低。

为什么负号？

负号是因为 $log(q_{i})$ 是负数（当是小于1的概率时），加上负号可以让交叉熵变成一个正值，方便优化和理解。

应用场景

分类问题：在分类任务中，交叉熵被用来衡量模型的输出概率分布（如Softmax的输出）与真实标签之间的差异。
- 如果真实标签是“猫”（对应分类编号为1），那么 $p_{1}=1$ ，其余 $p_{i}=0$ 。
- 交叉熵会重点考察模型对正确分类的概率预测是否高。
语言模型：在自然语言处理中，交叉熵用来评估语言模型生成某句话的概率与真实句子的概率分布之间的差异。

总结

通过导游和森林的类比，我们可以将交叉熵理解为一种“学习评分”机制。它帮助我们根据真实的概率分布调整预测，使得预测越来越接近真实情况。虽然理论上交叉熵可能看起来复杂，但它的本质只是量化“我们的预测和真相之间的差异”。

原文地址：https://blog.csdn.net/courniche/article/details/145128909

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【RAG学习】如何使用大型语言模型？提示工程、RAG、微调或预训练，什么时候需要哪个
下一篇：C#里使用libxl设置EXCEL里公式计算的例子

【LLM】25.1.10 Arxiv LLM论文速递
LLM 相关文章 UCT+8 时间 1月9日 12:00 - 1月10日 12:00 共更新 44 篇
阅读更多2025-01-16
【解决】undefined reference to `cv::waitKey(int)‘
这个函数的声明），但在链接阶段找不到该函数的实现。这通常与OpenCV库的链接设置有关。”这个错误时，这通常意味着你的程序在编译时能够找到OpenCV的头文件（即你的代码可以识别。注意OpenCV中的
阅读更多2025-01-16
JavaWeb开发（十一）JDBC
在需要用户进行输入的地方例如登录，恶意人员输入的是SQL语句的片段，最终输入的SQL片段与我们代码中写的SQL语句合成一个完整的SQL语句!例如用户在登录时输入的用户名和密码都是为SQL语句的片段!
阅读更多2025-01-16
什么是视频孪生智慧能源？视频孪生智慧能源的应用案例
这些案例展示了视频孪生智慧能源在多个领域的成功应用，体现了其在提高生产效率、降低运营成本、优化资源配置以及确保安全运营等方面的显著优势。‌：与传统的数字孪生技术相比，视频孪生更侧重从真实角度出发，打造
阅读更多2025-01-16
高性能网络模式：Reactor 和 Proactor
高性能网络模式：Reactor 和 Proactor
阅读更多2025-01-16
【机器学习】核方法
核方法通过引入核函数，使得机器学习算法能够有效地处理非线性问题，并且在许多实际应用中表现出优异的性能。通过核方法，机器学习算法可以在高维空间中实现更好的数据表示和模式识别，适用于分类、回归、降维等任务
阅读更多2025-01-16
多租户：租户间的共享功能：某些功能（如平台级分析、跨租户比较）是否应该给予某些用户访问权限？如何确保跨租户数据访问的安全？
对于跨租户数据访问的安全控制，需要采取多层次的措施，包括角色权限管理、数据隔离、细粒度的权限控制、审计与加密等，同时确保用户和角色的权限按照最小权限原则配置。通过技术手段（如RBAC、API网关）和策
阅读更多2025-01-16
TNS-00512问题快速处理
lsof -i :1521 | grep "LISTEN" 可以看到ipv6 的监听在使用着。lsof -i :1521 | grep "LISTEN" 可以看
阅读更多2025-01-16
深度解析 pytest 参数化与 --count 执行顺序的奥秘
pytest 参数化与 --count 执行顺序的奥秘
阅读更多2025-01-16
OSI七层模型
国际标准化组织(nternationalStandaroOrganization,lSO)1984年颁布了开放系统互连(Open SystemInterconnection，OSl)参考模型一个开放式
阅读更多2025-01-16