【政策】正文关键词提取总结
附:样本构建流程:
-
候选样本圈选,这一步的目的是选出潜在的高质量样本,找到一部分高难度样本,并过滤掉可能的意图不明或无意义数据。样本圈选的方法见下文。
-
对圈选出的样本随机抽样一小部分进行人工标注。
-
利用少量的标注数据训练多个分类器(base尺寸的BERT fine-tune 很快,而且效果尚可,是一个不错的选择),之后通过投票的方式对未标注样本进行打标。
-
对预测结果进行人工判断,如果数据量较大可采样部分数据。(之所以让人工进行对错判断而不是标注意图类别,是因为当意图分类较多的时候意图类型标注很费时间,而对错判断快很多,能极大提升标注效率。)
-
将人工判断为对的样本当作训练数据重新训练模型。迭代3、4步,终止条件可选择固定轮数,或剩余未标注样本达到一定数量以下。
-
此时未具有正确标签的样本大部分数量将较少,且大概率属于高难度样本,这部分数据交给人工进行意图类型标注。
-
至此,我们便得到了一份质量较高的意图识别样本。
注*:上述方案中也可引入主动学习来优化流程。如果无标注人力,也可考虑通过数据增强的方式来扩充样本。
候选样本的圈选:
-
高频query:高质量样本,也是应该高保的数据
-
召回零少结果query:可能是意图不明、无意义或含有错别字的数据。也可能是由于物料供给不足导致
-
点击率低的query:说明未能提供满意的搜索结果,可能是高难度样本
-
用户行为分散的query:说明未能提供满意的搜索结果,可能是多意图query,或当前系统理解错误的高难度query
当然,为了解决低资源设置下模型学习的问题,除了从数据角度考虑之外还有其他途径,比如预训练迁移学习(预训练)、Few/Zero-shot learning、Prompt Learning、元学习、对抗训练等,大家都可以进行尝试。不过无论如何,在工业场景下数据还是第一位重要的。
原文地址:https://blog.csdn.net/love254443233/article/details/143807760
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!