大模型 VS 大语言模型

🕗 发布于 2024-11-20 08:31 语言模型 人工智能 自然语言处理

最近很多朋友搞不懂大模型和大预言模型的区别，总是把大模型就认为是大语言模型。
今天就用这篇帖子做一个科普。

大模型

概念：大模型是指拥有超大规模参数（通常在十亿个以上）、复杂计算结构的机器学习模型。它通常能够处理海量数据，完成各种复杂任务，如自然语言处理、图像识别等。

大语言模型

概念：大语言模型（Large Language Model，简称LLM），指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务，如文本分类、问答、对话等，是通向人工智能的重要途径。

很明显两者是有明显区别的，大语言模型通常是指我们所用到的对话形式的模型，例如ChatGPT、文心一言之类的模型；而大模型是对超大规模参数的模型统称。

大模型的分类

模型的发展最初是伴随着自然语言处理技术的不断发展的，这是由于文本数据的数据量更大且更容易获取。所以目前大模型最大的分类还是大语言模型，近两年衍生出一些语言与其他形式融合的大模型，例如：

文字生成音乐（MusicLM）
文字生成图像（DALL-E2，Midjourney）
文字图像生成机器人动作（RT-1）

大模型包括但不限于以下几类：

大语言模型（LLM）：专注于处理自然语言，能够理解、生成和处理大规模文本数据。大语言模型在机器翻译、文本生成、对话系统等任务上取得显著成果。OpenAI的GPT系列是其中的代表，包括最新的GPT-4、文心一言、通义千问。开源大模型中有meta 开源的 LLaMA、ChatGLM - 6B、Yi-34B-Chat。你可能会发现了国内的开源模型中，如果名字命名存在chat这个单词的，大概率是大语言模型。
视觉大模型：专注于计算机视觉任务，例如图像分类、目标检测、图像生成等。它们能够从图像中提取有关对象、场景和结构的信息。例如Vision Transformer（ViT）就是一种基于自注意力机制的视觉大模型，用于图像分类任务。
多模态大模型：能够处理多种不同类型的数据，如文本、图像、音频等，并在这些数据之间建立关联。多模态大模型在处理涉及多种感知输入的任务上表现出色，如文图融合、图像描述生成等。多模态是大模型接下来发展的一大趋势。国内的华为盘古大模型就是一个多模态大模型，能够同时理解文本和图像，用于任务如图像分类和自然语言推理，国外的谷歌Gemini也是一个多模态大模型。
决策大模型：专注于进行决策和规划，通常应用于强化学习等领域。它们能够在面对不确定性和复杂环境时做出智能决策。深度强化学习中的模型，如AlphaGo和AlphaZero，是决策大模型的代表，能够在围棋等游戏中取得超人类水平的表现。
行业垂直大模型：专门设计用于特定行业或领域的任务，如医学、环境、教育等。它们通常在处理特定领域的数据和问题时表现出色。在医疗领域有DoctorGPT、华佗GPT，大规模的医学图像处理模型用于诊断和分析。在金融领域，模型可能用于风险评估和交易策略。携程的问道是旅游行业的大模型等等。

由此可见，大语言模型只是大模型的一个分类，我们有时候简称大模型倒也没有什么问题。不过要注意提醒大家一点，大语言模型和行业垂直大模型是有非常明显的区别的，他们的训练数据侧重点不一样，大语言模型更多是理解我们的话里话外的意思，主要负责和人类沟通对话的能力，行业大模型更多是基于语言大模型的基础上再进一步对某些行业的专业知识进行更加深层级的训练。因此你会发现你在用chatGPT类似ai工具的时候，当问到一些专业知识的时候，经常会出现AI幻觉。

举个简单的例子是，开源的LLaMA大模型是一个大语言模型，很多行业大模型都是从这个大语言模型的基础性调教出来的，它就像一个正在读医的大学生。DoctorGPT这个产品就像是一个从业多年的医科教授。因此你问一些专业的医科问题的时候，肯定是医科教授回答更加精准，一些简单的问题可能大学生也能回答。

原文地址：https://blog.csdn.net/cancer_s/article/details/143887186

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Ubuntu20.04 Rk3588 交叉编译ffmpeg7.0
下一篇：【IDER、PyCharm】免费AI编程工具完整教程：ChatGPT Free - Support Key call AI GPT-o1 Claude3.5

Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
阅读更多2024-11-23
解决vm虚拟机中ctrl键粘滞问题（一直处于按下状态）
虚拟机中点击鼠标左键没有问题，单独按下键盘也没有问题，但是如果按下键盘的同时在按下鼠标左键就会卡住。而且100%稳定复现。发现问题原因：vm版本的问题，我的版本是17.5.0，升级成17.5.2 bu
阅读更多2024-11-23
第十章 JavaScript的应用
10.1.1 JavaScript简介1 简单性JavaScript 设计之初就考虑到了非专业程序员的使用，因此它的语法相对简单，容易上手。2 动态性JavaScript 是一种解释型语言，代码可以在
阅读更多2024-11-23
非root用户安装CUDA
4.下载完成后执行.run文件，需要添加两个参数，一个是--override，用于跳过某些检查或限制；另一个是--toolkitpath，它表示安装路径，必须是自己目录下面的路径，如果是根目录就会安装
阅读更多2024-11-23
Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
【代码】## Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
阅读更多2024-11-23
【通俗理解】Jensen不等式与变分分布q(z)在积分计算中的应用
Jensen不等式 #变分分布 #积分计算 #期望 #凸函数 #优化问题 #下界估计 #机器学习。
阅读更多2024-11-23
「Mac玩转仓颉内测版27」基础篇7 - 字符串类型详解
本篇将介绍 Cangjie 中的字符串类型，包括字符串的定义、字面量形式、插值表达、常用操作及应用场景，帮助开发者熟练掌握字符串的使用。
阅读更多2024-11-23
数据科学与SQL：组距分组分析 | 区间分布问题
绝对值分布分析也可以理解为组距分组分析。对于某个指标而言，一个记录对应的指标值的绝对值，肯定落在所有指标值的绝对值的最小值和最大值构成的区间内，根据一定的算法，在把这个区间划分为等距离的几个小区间，，
阅读更多2024-11-23
c++编译报C1004错误的原因及解决办法
可能是你的代码文件最后没有正确的结束符，或者是缺少了一些必要的头文件或语句。默认磁盘驱动器没有足够的空间用于临时文件，需要大约两倍于源文件的空间。编译器到达了源文件尾但未解析构造。计算结果为假的 #i
阅读更多2024-11-23
mysql 去重补全取出重复变量函数和存储过程
mysql 去重补全取出重复变量函数和存储过程
阅读更多2024-11-23

大模型 VS 大语言模型

大模型

大语言模型

大模型的分类

相关文章