自学内容网 自学内容网

【NLP高频面题 - 分词篇】WordPiece 分词器是如何训练的?

【NLP高频面题 - 分词篇】WordPiece 分词器是如何训练的?

重要性:★★ 💯


NLP Github 项目:


WordPiece 与 BPE 有非常相似的思想,都是从一个小词汇表开始,通过迭代地合并连续的词元扩大词表,但在合并的选择标准上略有不同。

WordPiece 不是选择最频繁的对,而是使用一个词元对的评分是根据训练语料库中两个词元的共现计数除以它们各自的出现计数的乘积。

具体的公式如下:

这么做的好处是引入类似点互信息的机制,可以惩罚无太多语义信息的高频词元的权重。

拔高(举一反三):类似的引入点互信息的操作,我们也可以在优化词向量共线矩阵的地方看到。

共现矩阵的元素表示两个单词同时出现的次数。但是,这种“原始”的次数并不具备好的性质。

比如,我们来考虑某个语料库中 the 和 car 共现的情况。在这种情况下,我们会看到很多“…the car…”这样的短语。因此,它们的共现次数将会很大。

另外,car 和 drive 也明显有很强的相关性。但是,如果只看单词的出现次数,那么与 drive 相比,the 和 car 的相关性更强。

这意味着,仅仅因为 the 是个常用词,它就被认为与 car 有很强的相关性,但实际上常见并不代表强相关。

为了解决这一问题,可以使用点互信息(Pointwise Mutual Information,PMI)这一指标。对于随机变量 x 和 y,它们的 PMI 定义如下:

其中,P(x) 表示 x 发生的概率,P(y) 表示 y 发生的概率,P(x, y) 表示 x 和 y 同时发生的概率。

PMI 的值越高,表明相关性越强。

示例:假设语料库的单词数量(N)为 10 000,the 出现 100 次,car 出现 20 次,drive 出现 10 次,the 和 car 共现 10 次,car 和 drive 共现 5 次。这时,如果从共现次数的角度来看,则与 drive 相比,the 和 car 的相关性更强。

而如果从 PMI 的角度来看,结果是怎样的呢?我们来计算一下:

结果表明,在使用 PMI 的情况下,与 the 相比,drive 和 car 具有更强的相关性。这是我们想要的结果。


NLP 大模型高频面题汇总

NLP基础篇
BERT 模型面
LLMs 微调面

原文地址:https://blog.csdn.net/weixin_44025655/article/details/144347601

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!