手撸 chatgpt 大模型:详解 OpenAI 训练 gpt3 模型时使用的数据预处理算法:BPE

🕗 发布于 2024-11-20 01:04 gpt-3 算法大语言模型 人工智能 chatgpt

ChatGPT使用了另一种复杂的分词方案，叫做“字节对编码”（Byte Pair Encoding，简称BPE），最初这是一种数据压缩算法，让我们来看看它的过程。BPE在多次迭代中合并频繁使用的字符对。例如，给定字符串：

“low low low low low lower lower newest newest newest newest newest newest widest widest widest”

单词频率统计如下：

{ “low”: 5, “lower”: 2, “newest”: 6, “widest”: 3, }

现在，我们将单词拆分成字符，字符集将是初始词汇表： {l, o, w, e, r, n, s, t, i, d}

每个单词拆分成字符集合如下：

{ “l o w”: 5, “l o w e r”: 2, “n e w e s t”: 6, “w i d e s t”: 3, }

现在，我们来看每对相邻字符对。例如，“l o w”有两个相邻字符对“lo”和“ow”，由于“lo”出现在“l o w”和“l o w e r”中，前者的频率为5，后者的频率为2，那么字符对“lo”的频率为7。通过这种方式，我们得到以下统计：

{ “l o”: 7, “o w”: 7, “w e”: 8, “e r”: 2, “n e”: 6, “e w”: 6, “e s”: 9, “s t”: 9, “w i”: 3, “i d”: 3, “d e”: 3, }

现在我们可以看到最频繁的字符对是“e s”和“s t”，然后我们将“e s”合并为一个单位，命名为“es”，并将“es”添加到词汇表中： {l, o, w, e, r, n, s, t, i, d, es} 每个单词的字符集合变为：

{ “l o w”: 5, “l o w e r”: 2, “n e w es t”: 6, “w i d es t”: 3, }

此时最频繁的字符对是“es”和“t”，然后我们将它们合并为“est”，并将其添加到词汇表中： {l, o, w, e, r, n, s, t, i, d, es, est} 每个单词的字符集合变为：

{ “l o w”: 5, “l o w e r”: 2, “n e w est”: 6, “w i d est”: 3 }

这时最频繁的字符对是“l o”，我们将它们添加到词汇表中：

{l, o, w, e, r, n, s, t, i, d, es, est, lo}

单词集合为：

{ “lo w”: 5, “lo w e r”: 2, “n e w est”: 6, “w i d est”: 3 }

现在很容易看出，最频繁的字符对是“lo”和“w”，将它们合并并添加到词汇表中： {l, o, w, e, r, n, s, t, i, d, es, est, lo, low}

单词字符集合为： { “low”: 5, “low e r”: 2, “n e w est”: 6, “w i d est”: 3 }

通过这种方式，我们可以继续迭代，直到达到预设的次数或者词汇表达到预期的大小。接下来我们来看如何使用代码实现这个过程：

from collections import defaultdict
# 计算单词频率并将单词拆分成字符集合
def get_vocab(data):
  vocab = defaultdict(int)
  for word in data.split():
          vocab[' '.join(list(word))] += 1
  return vocab

vocab = get_vocab("low low low low low lower lower newest newest newest newest newest newest widest widest widest")
print(vocab)

运行上面的代码，我们得到以下结果：

defaultdict(<class 'int'>, {
   'l o w': 5, 'l o w e r': 2, 'n e w e s t': 6, 'w i d e s t': 3})

接下来我们可以计算相邻字符对的频率：

# 计算相邻字符对的频率
from collections import Counter
def get_stats(vocab):
  pairs = Counter()
  for word, freq in vocab.items(<

原文地址：https://blog.csdn.net/tyler_download/article/details/143815689

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：PyTorch：如何使用TensorBoard优化和监控深度学习模型
下一篇：C++builder中的人工智能（27）：如何将 GPT-3 API 集成到 C++ 中

大数据环境下的高效数据清洗策略
大数据环境下的高效数据清洗是一项系统工程，需要技术、流程、人员等多方面的协同努力。通过应用自动化与智能化工具、实施数据分区与并行处理、建立数据质量监控与反馈机制、加强元数据管理与数据溯源、以及融入业务
阅读更多2024-11-22
数据建模-业务分类、数据域、主题
在实际应用中，主题和业务域的概念经常被结合起来使用，以确保数据仓库的设计既符合企业的业务需求，又能满足数据分析的技术要求。例如，一个企业可能会在"销售"业务域内建立"销售
阅读更多2024-11-22
SparkSQL的执行过程：从源码角度解析逻辑计划、优化计划和物理计划
解析阶段↓初始逻辑计划↓分析计划↓优化计划↓物理计划RDD 生成通过以上步骤，SparkSQL 实现了从用户查询到集群执行的全过程，并通过 Catalyst 提供了高度灵活的优化和扩展能力。
阅读更多2024-11-22
PostgreSQL常用字符串函数与示例说明
regexp_replace(string, pattern, replacement [, flags ]): 使用正则表达式替换字符串中的子字符串。PostgreSQL除了like，还支持正则匹配
阅读更多2024-11-22
用Python爬虫“偷窥”1688商品详情：一场数据的奇妙冒险
通过上述步骤，我们可以实现一个简单的Python爬虫，用于获取1688商品详情。在实际应用中，可能需要根据目标网站的具体结构调整选择器和解析逻辑。此外，随着网站结构的更新，爬虫代码也需要相应地进行维护
阅读更多2024-11-22
Linux 软阵列配置详解教程
在Linux系统中，软阵列（Software RAID）是一种通过软件来管理硬盘阵列的方式，它不依赖于专用的RAID卡，而是使用操作系统内核中的RAID功能来实现。以上步骤提供了一个基本的Linux软
阅读更多2024-11-22
SpringBoot获取配置文件中的配置项
SpringBoot获取配置项的常见3种方式
阅读更多2024-11-22
基于yolov8、yolov5的行人检测识别系统（含UI界面、训练好的模型、Python代码、数据集）
项目中所用到的算法模型和数据集等信息如下：算法模型：yolov8yolov8 + SE注意力机制或yolov5yolov5 + SE注意力机制直接提供最少两个训练好的模型。模型十分重要，因为有些同学的
阅读更多2024-11-22
读写分库分表
读写分库分表
阅读更多2024-11-22
C/C++中的命名空间
例如，一个命名空间内可能包含一些辅助函数和变量，这些内容是不希望被外部直接访问的，只需要将接口函数放在命名空间外或者以适当的方式暴露出来即可。这样的嵌套结构有助于进一步组织代码，例如可以按照层次结构来
阅读更多2024-11-22

手撸 chatgpt 大模型:详解 OpenAI 训练 gpt3 模型时使用的数据预处理算法:BPE

相关文章