【NLP高频面题 - 分词篇】WordPiece 分词器是如何训练的?
【NLP高频面题 - 分词篇】WordPiece 分词器是如何训练的?
重要性:★★ 💯
NLP Github 项目:
-
NLP 项目实践:fasterai/nlp-project-practice
介绍:该仓库围绕着 NLP 任务模型的设计、训练、优化、部署和应用,分享大模型算法工程师的日常工作和实战经验
-
AI 藏经阁:https://gitee.com/fasterai/ai-e-book
介绍:该仓库主要分享了数百本 AI 领域电子书
-
AI 算法面经:fasterai/nlp-interview-handbook#面经
介绍:该仓库一网打尽互联网大厂NLP算法面经,算法求职必备神器
-
NLP 剑指Offer:https://gitee.com/fasterai/nlp-interview-handbook
介绍:该仓库汇总了 NLP 算法工程师高频面题
WordPiece 与 BPE 有非常相似的思想,都是从一个小词汇表开始,通过迭代地合并连续的词元扩大词表,但在合并的选择标准上略有不同。
WordPiece 不是选择最频繁的对,而是使用一个词元对的评分是根据训练语料库中两个词元的共现计数除以它们各自的出现计数的乘积。
具体的公式如下:
这么做的好处是引入类似点互信息的机制,可以惩罚无太多语义信息的高频词元的权重。
拔高(举一反三):类似的引入点互信息的操作,我们也可以在优化词向量共线矩阵的地方看到。
共现矩阵的元素表示两个单词同时出现的次数。但是,这种“原始”的次数并不具备好的性质。
比如,我们来考虑某个语料库中 the 和 car 共现的情况。在这种情况下,我们会看到很多“…the car…”这样的短语。因此,它们的共现次数将会很大。
另外,car 和 drive 也明显有很强的相关性。但是,如果只看单词的出现次数,那么与 drive 相比,the 和 car 的相关性更强。
这意味着,仅仅因为 the 是个常用词,它就被认为与 car 有很强的相关性,但实际上常见并不代表强相关。
为了解决这一问题,可以使用点互信息(Pointwise Mutual Information,PMI)这一指标。对于随机变量 x 和 y,它们的 PMI 定义如下:
其中,P(x) 表示 x 发生的概率,P(y) 表示 y 发生的概率,P(x, y) 表示 x 和 y 同时发生的概率。
PMI 的值越高,表明相关性越强。
示例:假设语料库的单词数量(N)为 10 000,the 出现 100 次,car 出现 20 次,drive 出现 10 次,the 和 car 共现 10 次,car 和 drive 共现 5 次。这时,如果从共现次数的角度来看,则与 drive 相比,the 和 car 的相关性更强。
而如果从 PMI 的角度来看,结果是怎样的呢?我们来计算一下:
结果表明,在使用 PMI 的情况下,与 the 相比,drive 和 car 具有更强的相关性。这是我们想要的结果。
NLP 大模型高频面题汇总
NLP基础篇
-
【NLP 面试宝典 之 模型分类】 必须要会的高频面题
-
【NLP 面试宝典 之 神经网络】 必须要会的高频面题
-
【NLP 面试宝典 之 主动学习】 必须要会的高频面题
-
【NLP 面试宝典 之 超参数优化】 必须要会的高频面题
-
【NLP 面试宝典 之 正则化】 必须要会的高频面题
-
【NLP 面试宝典 之 过拟合】 必须要会的高频面题
-
【NLP 面试宝典 之 Dropout】 必须要会的高频面题
-
【NLP 面试宝典 之 EarlyStopping】 必须要会的高频面题
-
【NLP 面试宝典 之 标签平滑】 必须要会的高频面题
-
【NLP 面试宝典 之 Warm up 】 必须要会的高频面题
-
【NLP 面试宝典 之 置信学习】 必须要会的高频面题
-
【NLP 面试宝典 之 伪标签】 必须要会的高频面题
-
【NLP 面试宝典 之 类别不均衡问题】 必须要会的高频面题
-
【NLP 面试宝典 之 交叉验证】 必须要会的高频面题
-
【NLP 面试宝典 之 词嵌入】 必须要会的高频面题
-
【NLP 面试宝典 之 One-Hot】 必须要会的高频面题
-
…
BERT 模型面
LLMs 微调面
-
【NLP 面试宝典 之 LoRA微调】 必须要会的高频面题
-
【NLP 面试宝典 之 Prompt】 必须要会的高频面题
-
【NLP 面试宝典 之 提示学习微调】 必须要会的高频面题
-
【NLP 面试宝典 之 PEFT微调】 必须要会的高频面题
-
【NLP 面试宝典 之 Chain-of-Thought微调】 必须要会的高频面题
-
…
原文地址:https://blog.csdn.net/weixin_44025655/article/details/144347601
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!