自学内容网 自学内容网

My ICLR Learning-Feedback

2024

Poster

RL

Domain Randomization via Entropy Maximization

旨在解决强化学习(RL)中的现实差距(reality gap)问题。现实差距指的是在模拟环境中训练的策略在现实世界中表现不佳的现象

LLM

Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs

试图解决大型语言模型(LLMs)面临的上下文限制问题,这个限制通常源于训练阶段使用的固定输入长度,导致模型难以泛化到更长的上下文

论文方法:

  1. 分而治之:将长输入分割成多个可管理的块(chunks),并在早期的Transformer层级中独立处理这些块。

  2. 分层合并:随着输入通过Transformer的不同层级,逐步合并相邻的块。这种方法允许隐藏状态考虑全局上下文,而不是仅仅局限于局部信息。

  3. 令牌减少技术:在每次合并之前,剪枝接收到最少注意力的token,同时考虑到位置偏差,通过校准技术来优化剪枝过程。

  4. 优化计算顺序:提出了一种优化的计算顺序,通过深度优先搜索(DFS)算法来重新排序处理步骤,使得内存需求与输入长度成对数关系,从而在内存受限的环境中处理长输入。

  5. 传播性细化:在高层次上进行token剪枝后,将剪枝决策传播到低层次的嵌入中,以进一步减少计算负担。

Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment

解决的问题是如何提高大型语言模型(LLMs)与人类偏好的一致性。

论文方法:

  1. 构建精炼的对齐数据集(SPA)

    • 选择LLM在某些查询上表现不佳的数据。

    • 通过奖励模型(如OpenAssistant/reward-model-deberta-v3-large-v2)计算初始回答和人类首选回答的奖励分数。

    • 通过设定阈值过滤数据,只保留那些初始回答质量较低(bad cases)且与人类首选回答质量差异明显的实例。

    • 对初始回答进行修订,以减少与人类首选回答的分布差异,同时保持与原始输出的相似性。

  2. 设计新的损失函数

    • 使用Levenshtein距离来量化初始回答和修订回答之间的相似性。

    • 为不同类型的token(新增、删除或替换)分配不同的权重,以奖励对质量提升有贡献的token,惩罚导致质量下降的token。

视频语言模型

ViLMA: A Zero-Shot Benchmark for Linguistic and Temporal Grounding in Video-Language Models

一个针对视频语言模型(VidLMs)的零样本基准测试

  1. 评估VidLMs的时间理解能力

  2. 设计任务无关的基准测试

  3. 识别和改进VidLMs的不足

  4. 强调VidLMs的预训练偏差

语音

PolyVoice: Language Models for Speech to Speech Translation

解决语音到语音翻译(Speech-to-Speech Translation, S2ST)中的问题

试图解决以下几个问题:

  1. 现有S2ST架构的局限性:传统的S2ST系统主要基于编码器-解码器(encoder-decoder)范式,这可能导致较高的延迟和复杂的模型架构。

  2. 跨语言语义信息的传递:论文提出的框架利用了三种仅解码器(decoder-only)语言模型来处理翻译、持续时间和语音合成任务,这些模型通过不同类型的提示(prompts)来有效提取学习到的信息,并能够在模型之间传递语义信息,特别适用于未书写语言的翻译。

  3. 未书写语言的翻译问题:对于未书写语言,缺乏文本数据使得传统的基于文本的翻译方法不可行。PolyVoice框架使用无监督方法生成的语义和声学单元,使其能够应用于未书写语言的S2ST任务。

  4. 保持源说话者风格的挑战:在S2ST中保持源说话者的风格是一个重要但具有挑战性的任务。PolyVoice通过使用不同的提示类型来提取语言模型中的知识,从而在合成目标语言语音的同时保持源说话者的语音风格。

论文方法:

  1. 三个仅解码器语言模型(Decoder-only Language Models):

    • 翻译语言模型(Translation LM):处理源语言的语义单元,并将它们翻译成目标语言的语义单元。

    • 持续时间语言模型(Duration LM):预测目标语义单元的持续时间信息,并扩展单元序列。

    • 语音合成语言模型(Speech Synthesis LM):预测目标声学单元,然后通过声学单元声码器转换为波形。

  2. 使用不同类型的提示(Prompts)

    • 为了有效地从语言模型中提取知识,论文采用了不同类型的提示,包括将源和目标语义单元以及源声学单元串联起来,形成一个综合提示,用于语音合成语言模型。
  3. 无监督语义单元的使用

    • 通过使用无监督方法生成的语义和声学单元,PolyVoice框架能够适用于未书写语言的翻译。


原文地址:https://blog.csdn.net/m0_73202283/article/details/145145881

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!