自学内容网 自学内容网

Membership Inference Attacks against Language Models / ACL23

标题Membership Inference Attacks against Language Models via Neighbourhood Comparison
链接https://aclanthology.org/2023.findings-acl.719.pdf
会议:ACL 2023
论文摘要:成员推理攻击(MIAs)旨在预测一个数据样本是否存在于机器学习模型的训练数据中,广泛用于评估语言模型的隐私风险。大多数现有攻击依赖于模型倾向于给训练样本分配比非训练点更高的概率这一观察结果。然而,单独对模型分数进行简单阈值处理往往会导致较高的误报率,因为它没有考虑样本的内在复杂性。最近的研究表明,基于参考的攻击将模型分数与从相似数据训练的参考模型获得的分数进行比较,可以显著提高 MIAs 的性能。然而,为了训练参考模型,这类攻击做出了一个强有力且可能不现实的假设,即攻击者能够获取与原始训练数据非常相似的样本。因此,我们在更现实的场景中研究它们的性能,发现它们在用于训练参考模型的数据分布方面非常脆弱。为了研究这种脆弱性是否提供了一层安全性,我们提出并评估了邻域攻击,它将给定样本的模型分数与合成生成的邻域文本的分数进行比较,从而消除了对获取训练数据分布的需求。我们表明,除了与对训练数据分布有完全了解的基于参考的攻击具有竞争力外,我们的攻击明显优于现有的无参考攻击以及知识不完善的基于参考的攻击,这表明需要重新评估对抗攻击的威胁模型。
关键词:成员推理攻击;语言模型;隐私;邻域攻击
创新点

  1. 提出邻域攻击方法
    该方法不依赖于获取训练数据分布来训练参考模型,而是利用合成的邻域文本进行攻击,克服了现有基于参考的攻击方法在实际应用中因难以获取合适参考数据而导致的局限性。
  2. 实验验证有效
    通过大量实验证明,在现实的攻击者获取训练数据的假设下,邻域攻击始终优于基于参考的攻击。即使在攻击者对训练数据有完全了解的情况下,邻域攻击也能与基于参考的攻击表现出竞争性能。

研究方法

  • 实验设计
    使用三个数据集(AG News corpus 新闻文章摘要、Sentiment140 数据集中的推文和 Wikitext - 103 中的维基百科文章摘录)进行实验,将每个数据集分为训练集、测试集(用于分类任务的正负样本)以及用于训练参考模型的额外子集。
    以 GPT - 2 为目标模型,对其进行微调,并使用 Huggingface transformers 库和 PyTorch 获取和微调所有预训练模型。
  • 攻击方法比较
    考虑多种基线攻击方法进行比较,包括无参考的 LOSS 攻击和基于参考的攻击(使用不同的参考模型设置)。
    提出邻域攻击方法,通过使用预训练的掩码语言模型(如 BERT)对给定文本进行单词替换生成邻域样本,然后比较目标样本和邻域样本在目标模型下的损失分数来推断成员关系。
  • 分析参考模型对攻击的影响
    通过改变参考模型的训练数据(如使用不同类别数据、与目标模型数据有偏差的数据等)来训练参考模型,研究参考模型质量对基于参考的攻击成功的影响。
    进行消融研究,分析邻域攻击中生成邻域样本的数量和单词替换数量等因素对攻击性能的影响。

原文地址:https://blog.csdn.net/m0_50967960/article/details/142824333

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!