论文阅读笔记-LogME: Practical Assessment of Pre-trained Models for Transfer Learning

🕗 发布于 2024-10-07 20:53 python

前言

在NLP领域，预训练模型（准确的说应该是预训练语言模型）似乎已经成为各大任务必备的模块了，经常有看到文章称后BERT时代或后XXX时代，分析对比了许多主流模型的优缺点，这些相对而言有些停留在理论层面，可是有时候对于手上正在解决的任务，要用到预训练语言模型时，面对烟火缭乱的语言模型，需要如何挑选合适的模型应用到任务上来。

一个非常直接的方法就是把每一个候选模型针对任务都做一遍微调，因为微调涉及到模型训练，时间至少几个小时起步。有些预训练模型的微调还需要进行超参数搜索，想要决定一个预训练模型的迁移效果就需要将近50个小时！对于没有足够算力的我，苦苦寻觅一个能够高效的选择适合的预训练语言模型的方法，不过资料不好找呀，偶然间我才发现了这篇论文，里面提到的LogME方法值得一试。下图是该方法适配的任务：
在这里插入图片描述

多提一下，我这里说的是预训练语言模型，即在适用于NLP领域内的模型选择打分，而对于适用于CV的一些打分方案，像LEEP、NCE、H scores感兴趣的小伙伴可以找论文看看。

本文在LogME方法的相关描述上，组织基于论文作者所在学院的官方公众号上的一篇文章，可直戳原文阅读。原Paper中开源的代码使用Pytorch进行GPU加速，我在本文的最后附上我改成TensorFlow2的代码，方便直接应用在TensorFlow2的相关模型上。

前情提要

将上面提到的问题，描述成图模型，就是论文中所画出如下的这样：
在这里插入图片描述
在这个任务中，我们假设有 $M$ 个预训练模型组成的集合 $\{\phi_m\}^M_{m=1}$ 和含有 $n$ 个标签的数据集 $\{(x_i,y_i)\}^n_{i=1}$ ，正常情况下，我们是通过微调使用各种评判指标作为衡量模型 $\phi$ 的表现 $T_m$ ，而现在我们想要通过一种方法得到 $S_m$

原文地址：https://blog.csdn.net/mohen_777/article/details/140605570

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：OpenJudge | Shortest Prefixes
下一篇：Linux中的进程信号

Redis事务、管道和发布订阅
冤头债主(一组命令中的一条命令出现问题后整组命令中其他命令依旧可以执行，redis不支持事务回滚，开发者必须在事务执行出错后自觉恢复到发生错误之前的状态)Redis的事务仅仅是保证事务里的操作会被连续
阅读更多2024-10-07
前端模块化进化史：从全局 function 到 ES Modules
随着前端开发的不断进步，模块化已成为现代Web应用中不可或缺的重要组成部分。在这篇文章中，我们将一起回顾前端模块化的历程，从最早的全局函数到今天广为采用的ES Modules，探索每一阶段的技术演变及
阅读更多2024-10-07
Python知识点：在Python环境中，如何使用Transformers进行预训练语言模型应用
Transformers库为NLP任务提供了一个简单而强大的工具集。通过上述步骤，你可以轻松地加载预训练模型，对文本进行编码、生成、分类和实体识别等任务。无论是研究还是商业应用，Transformer
阅读更多2024-10-07
鸽笼原理与递归 - 离散数学系列（四）
鸽笼原理（Pigeonhole Principle）指出：如果有 n 个鸽子放入 m 个鸽笼，并且 n > m，那么至少有一个鸽笼里会有多个鸽子。这一原理看似简单，但在数学证明和计算机科学中有着
阅读更多2024-10-07
面试--开源框架面试题集合
Spring谈谈自己对于 Spring IoC 的了解什么是 IoC?IoC 解决了什么问题?什么是 Spring Bean？将一个类声明为 Bean 的注解有哪些?@Component 和 @Bea
阅读更多2024-10-07
fastreport导出PDF后style bold粗体斜体等字体风格不显示的原因
于是通过查找资料，发现宋体字体就只有一个，宋体的加粗是通过软件插值计算实现的，不像微软雅黑那样是有单独的粗体字体。如果不能通过加载字体简单解决，那么要更改fastreport源码的工作量有点大了，于是
阅读更多2024-10-07
OJ在线评测系统微服务用分布式消息队列 RabbitMQ 解耦判题服务和题目服务手搓交换机和队列实现项目异步化
分布式消息队列是一种用于异步通信的系统，它允许不同的应用程序或服务之间传递消息。消息队列的核心理念是将消息存储在一个队列中，发送方可以将消息发送到队列，而接收方则可以在适当的时候从队列中读取消息。这种
阅读更多2024-10-07
Studying-多线程学习Part4 - 异步并发——async future、packaged_task、promise
异步并发——async future、packaged_task、promise | 原子操作 atomic
阅读更多2024-10-07
【电路基础 · 3】实际电压源 && 实际电流源；两种电源的等效情况；戴维南模型 && 诺顿模型（自用）
所有的电压源电流源电阻混合的电路到最后，都能够被化简为 1 个电压源和 1 个电阻 => 串联的电路。思路是这样：我们能够将左侧的 5A 电流源和与它并联的 3Ω 电阻看做一个整体，也
阅读更多2024-10-07
Mysql(五) --- 数据库设计
上一篇博客中，我们学习增删查改等基本操作，在工作中，每种表之间都是存在关联的，而不是相互独立的，因此这一篇中，我们来学习数据库设计和联合查询• 数据库表的每⼀列都是不可分割的原子数据项，而不能是集合，
阅读更多2024-10-07

论文阅读笔记-LogME: Practical Assessment of Pre-trained Models for Transfer Learning

前言

前情提要

相关文章