大语言模型的发展-OPENBMB

🕗 发布于 2024-09-21 06:55 语言模型 人工智能 自然语言处理

一、自然语言处理的基础

1、图灵测试就是验证人工智能程序有多智能

让计算机像人一样，能够听懂问题，然后给出答案；

自然语言发展历史：

advances in Natural Lannguage Processing --论文

2、自然语言处理的基本任务和应用

2.1任务：

词性质（动词，名词），命名实体识别（人名，地名，机构名），共指消解（it，she代指的是谁），句法的理论（主谓宾，定状补），中文分词任务

2.2 应用：

1、搜索引擎，query和document的相似段

搜索引擎出广告：文本匹配的问题

2、知识图谱：是搜索引擎重要的点

query如何找知识图谱的实体，如何构建知识图谱

使用自然语言处理，把一篇文章，识别出哪些实体是有关系，然后自动输出到知识图谱中，用于后续的知识图谱的查询

3、个人助手

智能音箱，理解人说的话给出回复

4、机器翻译

5、情感分类和意见挖掘

6、社会科学 books.google.com/ngrams

3、词表示：就要把我们说的词转换为计算机可以理解的表示

3.1 one hot 表示

任何一个词都表示词表大小的向量

star 【0，0，1，0，0】

sun【0，1，0，0，0

】

3.2 上下文表示词

词向量的长度也是字典的大小，但是向量中每个值的是上下文中出现的次数

3.3 word embedding

word2vector 方法，使用一个低维度的向量就是表示一个高纬度的向量且信息不丢失

语言模型

根据前面的词预测后面的词

语言模型的假设：后面的词只依赖前面的词；马尔可夫的假设

N-gram模型使用条件概率和联合概率计算下一个词，每个词都是一个符号没有啥含义

问题：上下文不能特别大；词之间的相似度是独立的

Neural labaguage Model 模型

使用前面说的wordembedding表示的向量

大模型基础知识

word2vec，RNN，Elmo，Bert

预训练语言模型作为nlp领域的基础工具

预训练语言模型：从无标注数据学习，使用任务相关数据进行微调，最终获取行业的大模型

这种方式也叫迁移学习

原文地址：https://blog.csdn.net/u011955252/article/details/142373918

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【有啥问啥】弱监督学习新突破：格灵深瞳多标签聚类辨别（Multi-Label Clustering and Discrimination, MLCD）方法
下一篇：30. RabbitMQ消息丢失

Cisco Catalyst 9000 Series Switches, IOS XE Release 17.15.1 ED
思科 Catalyst 9000 交换产品系列 IOS XE 系统软件
阅读更多2024-09-21
大数据处理从零开始————3.Hadoop伪分布式和分布式搭建
伪分布式集群就是只有⼀个服务器节点的分布式集群。在这种模式中，我们也是只需要⼀台机器。但与本地模式不同，伪分布式采⽤了分布式的思想，具有完整的分布式⽂件存储和分布式计算的特点。在进⾏存储和计算时，将
阅读更多2024-09-21
数学建模——熵权+TOPSIS+肘部法则+系统聚类
数学建模——熵权+TOPSIS+肘部法则+系统聚类
阅读更多2024-09-21
Matlab自学笔记三十六：日期时间型的概念及其简单应用
datetime(t,'Format','y-MM-dd HH:mm:ss eeee') %y M d H m s e分别代表年、月、日、时、分、秒、星期。（1）Datetime型，表示日期时间点，
阅读更多2024-09-21
Apache Flink 流批融合技术介绍
本文整理自阿里云高级研发工程师、Apache Flink Contributor 周云峰老师在 Apache Asia CommunityOverCode 2024中的分享。
阅读更多2024-09-21
卡牌抽卡机小程序：市场发展下的创新
卡牌小程序的独特交互形式和吸引力的奖励机制，如个性化定制卡片、设置丰厚的奖励、增加卡牌活动的社交性等，能够有效提高用户粘性，进而获取更多流量。这种模式通过互联网的高曝光和高传播优势，能够提高平台的曝光
阅读更多2024-09-21
调整奇数偶数顺序
输入一个整数数组，实现一个函数，来调整该数组中数字的顺序使得数组中所有的奇数位于数组的前半部分，所有偶数位于数组的后半部分。
阅读更多2024-09-21
小程序与APP的区别
小程序与APP作为两种不同类型的应用程序，它们在多个方面存在明显的区别。综上所述，小程序与APP在开发方式、运行环境、功能复杂度、更新与维护、推广与用户获取、占用空间与存储以及可分享性等方面均存在显著
阅读更多2024-09-21
11年计算机考研408-数据结构
顺序存储和链式存储相对比，顺序存储适合查询不适合增和删，链式存储适合增和删不适合查询，而快速排序用到了大量的查询而没有用到增和删，所以顺序存储更适合。已知一个前序序列或者后序序列+中序序列就能确定这个
阅读更多2024-09-21
四款负载均衡工具Nginx、HAProxy、MetalLB、gobetween 比较
在选择负载均衡工具时，需要根据具体的业务需求、技术栈和预期的负载情况来决定。例如，对于需要处理大量HTTP/HTTPS流量的Web应用，Nginx可能是更合适的选择；而对于需要复杂负载均衡策略和高并发
阅读更多2024-09-21

大语言模型的发展-OPENBMB

相关文章