TinyBERT: Distilling BERT for Natural Language Understanding （EMNLP 2020）

🕗 发布于 2024-10-09 06:26 bert 人工智能 深度学习

论文地址：https://arxiv.org/pdf/1909.10351.pdf?trk=public_post_comment-text

代码地址：Pretrained-Language-Model/TinyBERT at master · huawei-noah/Pretrained-Language-Model · GitHub

0、蒸馏transformer模型的推荐文献（以Bert为例）

SKDBert（AAAI-2023）（多教师蒸馏+随机采样分布）✖️

Tinybert （EMNLP 2020）（指定跨层蒸馏）√

MobileBERT(ACL 2020）（体积小）√

PKDBert (2019) 更浅，hidden states 在多个中间层上的知识传输，教师模型经过任务优化微调 √

DistilBert（NeurIPS 2019）深度减半

MiniLM （NeurIPS 2020）

SqueezeBERT（2020）（多层分组卷积）

Internal KD（AAAI 2020） （指定跨层蒸馏）

一、Tinybert

Tinybert （EMNL 2020）（指定跨层蒸馏） √（embedding层，attn和mlp分别做mse loss）

Tinybert > DistilBert，PKDBert ｜ MobileBERT（24层）

跨层方法：

-> TinyBERT6 g(m) = 2 × m

-> TinyBERT4 g(m) = 3 × m

蒸馏目标：L attn，L hidn，L embd：MSE loss；L pred，CE loss

蒸馏阶段：two-stage learning -> pre-training-then-fine-tuning

GD (General Distillation) √

TD (Task-specific Distillation)

DA (Data Augmentation)

消融实验结果

原文地址：https://blog.csdn.net/zmc1248234377/article/details/142761289

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：守护数据安全：.rmallox勒索病毒的防范与应对策略
下一篇：如何基于 RLHF 来优化 ChatGPT 类型的大语言模型

Kafka-参数详解
我们从producer、consumer、broker三方面对Kafka的参数分别做下整理。
阅读更多2024-10-12
c++实战项目：日期计算器的实现
日期计算器的实现
阅读更多2024-10-12
关于不建议使用北京新网数码信息技术公司的服务器和虚拟机的说明（重要说明）
鉴于这些反馈，我们建议用户在选择服务器和虚拟机服务时，要慎重考虑服务提供商的性能和安全性承诺。例如，百度云、腾讯云、阿里云和华为云等，这些都是在业界具有较高评价和较大市场份额的云服务提供商。我们注意到
阅读更多2024-10-12
内部yum源服务器同步阿里yum源
一篇关于如何同步外部YUM源的文章，看完赶紧用起来
阅读更多2024-10-12
利用香港多IP服务器建站蜘蛛池执行SEO策略的实践
丰富的IPv4资源有利于SEO优化，机房基础设施遍布全球主要国家和地区，全球数据中心；独享IP地址，多个IP段自选，弹性拓展，能随时应对高峰负载或突发流量。支持BGP、CN2、电信、联通、移动等多种网
阅读更多2024-10-12
ubuntu24 finalshell 无法连接ubuntu服务器，客户端无法连接ubuntu, 无法远程连接ubuntu。
场景：虚拟机新创建一个最小化的ubuntu服务器，使用finalshell连接服务，发现连接不上。我的问题是安装了openssh server 但是没有配置root可以远程登录，修改即可。2. 查看
阅读更多2024-10-12
预防服务器遭受DDoS攻击
分布式拒绝服务（Distributed Denial of Service，简称DDoS）是指将多台计算机联合起来作为攻击平台，通过远程连接，利用恶意程序对一个或多个目标发起DDoS攻击，消耗目标服务
阅读更多2024-10-12
进程的优先级详解（1）（在Linux中观察进程优先级，优先级的概念，优先级范围，进程的切换和切换的过程和理解）
优先级就是获得某种资源的先后顺序，就比方说每次中午下课之后为什么同学们都争先恐的向食堂冲去，目的就是为了排队早点买饭，那么排队的本质就是确定优先级，谁先到谁的优先级高早买饭，谁晚到那么谁的优先级就是低
阅读更多2024-10-12
LiveGBS流媒体平台GB/T28181常见问题-视频服务器有多个IP多个网段的时候如何配置摄像头下级平台接入多网段收流？
服务器部署的时候，可能有多个网卡多个网段。LiveGBS接入国标摄像头设备，或是下级平台的时候，可能来自于不同的网段。这时候，怎么把不同网络段的设备或是平台都集中收取过来？根据GB28181规范，接入
阅读更多2024-10-12
Java之API
下一节我们继续讲Java的相关知识，从lambda开始讲。
阅读更多2024-10-12

TinyBERT: Distilling BERT for Natural Language Understanding （EMNLP 2020）

相关文章