深度学习-19-深入理解并训练自己的Tokenizer分词器

🕗 发布于 2024-10-03 19:08 深度学习

1 tokenization是什么

任何一段文本，输入给模型，都是要转换成一串embedding。
这个过程简单概括为：
(1)分词，并把词转换为token（即词的ID）
(2)token转换成embedding

而tokenization就是在做这第一步。

而对于第二步就是常见的Embedding查表操作，即根据token_id的值，去Embedding矩阵中查找第token_id行的数据作为embedding。

对于以下文本：你好，我的小名是小明
在这里插入图片描述

2 Tokenization方法简介

子词Tokenization(可以理解为分词)在很多SOTA NLP模型上得到广泛的使用，包括BERT和GPT-3。
它能很有效的处理未登陆词。

2.1 单词级的Tokenization

假设我们有一个训练数据集。
我们从这个训练数据集中构建一个词表。
为了构建该词表，我们将数据集中的

原文地址：https://blog.csdn.net/qq_20466211/article/details/142633613

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：架构视图和视角
下一篇：树莓派 AI 摄像头（Raspberry Pi AI Camera）教程

美团餐馆预订管理信息系统--课程设计李冬梅
其中，检索策略总计包括以下6种：基于顺序表的顺序查找、基于链表的顺序查找、基于顺序表的折半查找、基于二叉排序树的查找、基于开放地址法的散列查找、基于链地址法的散列查找。逻辑设计的结果应写出每个抽象数据
阅读更多2024-10-08
【初阶数据结构】冒泡排序和选择排序（用C语言实现，主要讲思维）
讲到排序相信大家一定对一种排序很熟悉，它的名字就叫做冒泡排序。这个排序大家在学习各种语言时，都是一道绕不去的坎。本文还会介绍另一个比较简单的排序 —— 选择排序，以及给大家讲一下选择排序的另一种写法（
阅读更多2024-10-08
服务攻防
的 IP 地址与 MAC 地址的对应关系保存进 ARP 缓存表中，如果原有相同 IP 对应关系，原。询字符：--是 Oracle 和 MSSQL 支持的注释符，如果返回正常，则说明为这两种数据库类。每
阅读更多2024-10-08
Linux 安全日志分析及方法
Linux系统拥有非常灵活和强大的日志功能，可以保存几乎所有的操作记录，并可以从中检索出我们需要的信息。本文简介一下Linux系统日志及日志分析技巧。日志默认存放位置：/var/log/查看日志配置情
阅读更多2024-10-08
贪吃蛇游戏
1. Windows 这个多作业系统除了协调应用程序的执行、分配内存、管理资源之外，它同时也是⼀个很大的服务中心，调用这个服务中心的各种服务（每⼀种服务就是⼀个函数），可以帮应用程序达到开启视窗、描
阅读更多2024-10-08
费曼学习法没有输出对象怎么办？
费曼学习法的实施过程中，虽然没有明确的输出对象，但通过自我提问和回答，模拟向他人解释的情景，学习者可以有效地检验自己对知识的理解程度。通过这种方式，学习者不仅能够加深对知识的理解，还能在讲述过程中发现
阅读更多2024-10-08
CSS——文字渐入效果
昨天制作了文字的打字机效果，然后我想到有些网页的文字效果是平滑渐入的，我就去思考这样的实现方式，其实就把之前的 steps() 函数去掉即可，但是我想换种实现方式。之前是使用伪元素遮住父元素，这次我选
阅读更多2024-10-08
【操作系统考研】2进程管理（1）
820操作系统进程管理（1）
阅读更多2024-10-08
【华三】ADVPN概述和组成
ADVPN（Auto Discovery Virtual Private Network，自动发现虚拟专用网络）是一种基于VAM（VPN Address Management，VPN地址管理）协议的动
阅读更多2024-10-08
GRASP七大基本原则+纯虚构&防变异
GRASP是General Responsibility Assignment Software Principle，通用职责分配软件原则。核心思想是“职责分配”。某个方法要交给哪个类来实现比较合适（
阅读更多2024-10-08

深度学习-19-深入理解并训练自己的Tokenizer分词器

文章目录

1 tokenization是什么

2 Tokenization方法简介

2.1 单词级的Tokenization

相关文章