【政策】正文关键词提取总结

🕗 发布于 2024-11-16 18:09 算法 bert

附：样本构建流程：

候选样本圈选，这一步的目的是选出潜在的高质量样本，找到一部分高难度样本，并过滤掉可能的意图不明或无意义数据。样本圈选的方法见下文。
对圈选出的样本随机抽样一小部分进行人工标注。
利用少量的标注数据训练多个分类器（base尺寸的BERT fine-tune 很快，而且效果尚可，是一个不错的选择），之后通过投票的方式对未标注样本进行打标。
对预测结果进行人工判断，如果数据量较大可采样部分数据。（之所以让人工进行对错判断而不是标注意图类别，是因为当意图分类较多的时候意图类型标注很费时间，而对错判断快很多，能极大提升标注效率。）
将人工判断为对的样本当作训练数据重新训练模型。迭代3、4步，终止条件可选择固定轮数，或剩余未标注样本达到一定数量以下。
此时未具有正确标签的样本大部分数量将较少，且大概率属于高难度样本，这部分数据交给人工进行意图类型标注。
至此，我们便得到了一份质量较高的意图识别样本。

注*：上述方案中也可引入主动学习来优化流程。如果无标注人力，也可考虑通过数据增强的方式来扩充样本。

候选样本的圈选：

高频query：高质量样本，也是应该高保的数据
召回零少结果query：可能是意图不明、无意义或含有错别字的数据。也可能是由于物料供给不足导致
点击率低的query：说明未能提供满意的搜索结果，可能是高难度样本
用户行为分散的query：说明未能提供满意的搜索结果，可能是多意图query，或当前系统理解错误的高难度query

当然，为了解决低资源设置下模型学习的问题，除了从数据角度考虑之外还有其他途径，比如预训练迁移学习（预训练）、Few/Zero-shot learning、Prompt Learning、元学习、对抗训练等，大家都可以进行尝试。不过无论如何，在工业场景下数据还是第一位重要的。

原文地址：https://blog.csdn.net/love254443233/article/details/143807760

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：爆火的AI智能助手ChatGPT中自注意力机制的演化与优化
下一篇：安卓开发怎么获取返回上一级activity事件

Nuxt.js 应用中的 schema：beforeWrite 事件钩子详解
钩子为开发者提供了一个灵活的接口，以便在写入 JSON Schema 之前进行必要的修改和验证。这使得开发者可以在构建过程中插入自定义逻辑，有助于提高应用的稳定性和准确性。钩子允许开发者在 JSON
阅读更多2024-11-17
Python习题 249：判断两个单词为相同字母异序词
（编码题）编写一个函数，判断两个单词（字符串）中有相同的单词（字符），即相同字母异序词。
阅读更多2024-11-17
第四章：ArkTS 语句全解：从基础到高级的控制流与异常处理
本文详细介绍了 ArkTS 中的多种语句，这些语句对于构建程序逻辑、控制执行流程和处理异常至关重要。
阅读更多2024-11-17
Vue.js中computed的使用方法
在Vue.js中，computed 属性是基于它们的依赖进行缓存的响应式属性。这意味着只要computed属性依赖的源数据（如data中的属性）没有发生变化，多次访问computed属性会立即返回之前
阅读更多2024-11-17
【团标】《软件造价评估实施规程》（T-BSCEA002—2023）-标准解读系列14
而对于软件造价业务开展过程中，基准数据以及相关调整因子的选取判定、评估工作开展具体步骤环节、造价输出成果要求（如造价清单、造价报告）等，《软件造价评估实施规程》（T-BSCEA002—2023）则提供
阅读更多2024-11-17
效益登记册&效益管理计划
-全生命周期会update。集商业论证、组织战略计划和其他相关项目集自标。定义管理效益所需的角色和职责;
阅读更多2024-11-17
我手搓了个“自动生成标书”的开源大模型工具
最近我写开源商业文章明显更新少了，不是我不写文章了，而是开源商业化进展很顺利，我写文章的时间都被各种写标书占满了。作为一个开源原生的商业公司，白鲸开源公司的员工几乎都是程序员，而让这些开源贡献者写标书
阅读更多2024-11-17
奥迪股份如何通过升级至SAP S/4HANA实现财务与后勤的高效整合？
为了避免成本高昂的临时解决方案，奥迪公司希望将所有工厂后勤（后勤和生产的一部分）同时迁移到SAP S/4HANA，并集成到生产模板“Progress”中。随着多个项目的筹备，奥迪股份公司在 2023
阅读更多2024-11-17
linux逻辑卷练习
从新硬盘制作三个分区每个分区都 3GB大小，将三个分区只作为物理卷，通过这三个物理卷创建卷组通过卷组生成一个逻辑卷，大小为7G，再将逻辑卷调整到10G。物理卷（physical volume）：简
阅读更多2024-11-17
Vagrant 没了 VirtualBox 的话可以配 Qemu
之前一直是用 Vagrant 搭配 VirtualBox 在 Mac 下使用 Linux 虚拟机，因为不需要用到 Linux 桌面，用 Vagrant 操作虚拟机非常方便。有些尚未听说过，还有一些虽说
阅读更多2024-11-17

【政策】正文关键词提取总结

相关文章