BLEU和ROUGE评价指标原理和计算方式

🕗 发布于 2024-09-27 05:16 python nlp 中文分词

BLEU和ROUGE是常用的文本生成评价指标，主要用于评估机器翻译和文本摘要等任务的生成质量。下面详细介绍这两个指标的定义、计算方法及其特点。

1. BLEU (Bilingual Evaluation Understudy)

定义：

BLEU是一种自动评估生成文本与参考文本相似性的指标，主要用于机器翻译。它通过计算n-gram的重叠程度来判断生成文本的质量。

计算步骤：

选择n-gram：
- 选择要计算的n-gram的大小，常用的有1-gram、2-gram等。
计算n-gram重叠：
- 对生成文本和参考文本进行n-gram切分，并计算它们之间的重叠个数。
- 例如，若参考文本为"the cat sits"和生成文本为"the cat sits on the mat"，那么对于1-gram：
  - 参考文本的1-gram: ["the", "cat", "sits"]
  - 生成文本的1-gram: ["the", "cat", "sits", "on", "the", "mat"]
  - 重叠1-gram: ["the", "cat", "sits"]
计算精确率：
- 对于每个n-gram，计算精确率（precision），即生成文本中的n-gram与参考文本中出现的n-gram的比例。
计算BP（惩罚因子）

若生成文本长度短于参考文本长度，则需要惩罚。BP的计算方式为：

计算BLEU分数：

最终的BLEU分数为n-gram精确率的几何平均值乘以BP。

def n_grams(tokens, n):
    return [tuple(tokens[i:i+n]) for i in range(len(tokens)-n+1)]

def calculate_bleu(reference, candidate, n=2):
    reference_tokens = reference.split()
    candidate_tokens = candidate.split()
    
    # 计算n-grams
    ref_ngrams = n_grams(reference_tokens, n)
    cand_ngrams = n_grams(candidate_tokens, n)
    
    # 统计重叠的n-grams
    overlap_count = sum(1 for ng in cand_ngrams if ng in ref_ngrams)
    
    # 计算精确率
    precision = overlap_count / len(cand_ngrams) if cand_ngrams else 0
    
    # 计算惩罚因子
    if len(candidate_tokens) > len(reference_tokens):
        bp = 1
    else:
        bp = (1 - len(reference_tokens) / len(candidate_tokens)) if len(candidate_tokens) > 0 else 0

    # 计算BLEU分数
    bleu_score = precision * bp
    return bleu_score

# 示例使用
reference = "the cat sits on the mat"
candidate = "the cat is on the mat"

bleu_score = calculate_bleu(reference, candidate, n=2)
print(f"BLEU Score: {bleu_score}")

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

定义：

ROUGE是一组用于自动评估文本生成质量的指标，主要用于文本摘要。它通过计算生成文本与参考文本之间的重叠情况，尤其关注召回率。

主要变体：

ROUGE-N：计算n-gram的重叠，类似于BLEU，但更关注召回率。
ROUGE-L：计算最长公共子序列（LCS）的长度，用于评估文本生成的连贯性。
ROUGE-W：计算加权最长公共子序列，更强调较长的连续n-gram。

计算步骤（以ROUGE-N为例）：

选择n-gram：选择n-gram的大小。
计算n-gram重叠：
- 类似于BLEU，统计生成文本和参考文本之间的n-gram重叠个数。
计算召回率：
- 计算生成文本的n-gram在参考文本中出现的比例。
计算F1分数：
- 综合精确率和召回率，计算F1分数。

原文地址：https://blog.csdn.net/qq_44117805/article/details/142580324

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Pydantic 是一个强大的 Python 库
下一篇：代码随想录算法训练营第57天 | 寻宝

推荐系统与大模型
目前大模型在推荐系统取得巨大进展的同时也上主要一些的问题。主要有以下三点。1. Position Bias.在推荐系统的生成语言建模范式中，用户行为序列和推荐候选序列等各种信息以文本序列描述的形式输入
阅读更多2024-11-19
element-ui】使用el_upload上传文件无法动态修改action
问题：最近在使用el_upload上传文件时，发现无法动态修改action的值，进行提交时，caseId2还是默认值null。原因：el-upload的先执行上传，后执行action里的响应，也就是赋
阅读更多2024-11-19
JavaScript 如何获取本机IP地址
获取本机IP地址是前端工程师经常需要处理的问题。JavaScript 有几种方法可以获取客户端的IP地址。下面是三种获取本机IP的方法。
阅读更多2024-11-19
如何用 JavaScript 复制到剪贴板
以上就是几种在 JavaScript 中实现文本复制到剪贴板的方法。随着技术的发展，建议尽量使用最新的异步剪贴板 API，但为了兼容性，可以结合使用方法。希望本文能够帮助你更好地理解和应用这些 API
阅读更多2024-11-19
【第29章】MyBatis-Plus之分页插件
的分页插件提供了强大的分页功能，支持多种数据库，使得分页查询变得简单高效。属性名类型默认值描述overflowbooleanfalse溢出总页数后是否进行处理maxLimitLong单页分页条数限制d
阅读更多2024-11-19
weixin-java-miniapp 微信小程序登陆
1. 用户在小程序中选择使用微信授权登录功能。2. 小程序调用 `` 接口，向发起登录请求。3. 微信服务器验证小程序的合法性，如果合法，会返回一个。4. 小程序。5. 后台服务器接收到 **code
阅读更多2024-11-19
都2023年了，Servlet还有必要学习吗？一文带你快速了解Servlet
不得不说，Servlet 确实是一门古老的技术了，现在很少有公司直接使用 Servlet 来写项目了，大家都在用 SpringMVC-Spring-MyBatis / SpringBoot 做开发了，
阅读更多2024-11-19
掌握Java中集合的交集与并集操作
本文还有配套的精品资源，点击获取简介：集合操作是编程中的基础任务，涉及找出多个集合的共有元素（交集）和所有不同元素的总和（并集）。本文介绍如何在Java中利用 HashSet 和 St
阅读更多2024-11-19
Java 环境配置——Java 语言的安装、配置、编译与运行
正确配置 Java 开发环境是进行 Java 开发的第一步。通过本文的详细介绍，读者应能够在不同操作系统上安装和配置 JDK，并熟练编写、编译和运行 Java 程序。随着技术的发展，Java 生态系统
阅读更多2024-11-19
java 配置多数据源
mysql和clickhouse多数据源配置。
阅读更多2024-11-19