自学内容网 自学内容网

【自然语言处理】补充:文本分类及朴素贝叶斯分类器

【自然语言处理】补充:文本分类及朴素贝叶斯分类器

1. 文本分类

  • 文本分类/Text Classification/Text Categorization

    • 给定分类体系,将一篇文本分到其中一个或者多个类别中的过程
    • 按类别数目:binary、mukti-class
    • 按每篇文档赋予的标签数目:sing label、multi label
    • 文本分类任务:垃圾邮件过滤
  • 文本分类的形式化定义

    • 训练:给定
      • 文档空间X:文档都在该空间下表示,通常是某种高维空间
      • 固定的类别集合C={c1, c2, ..., cj}:类别往往根据应用的需求来认为定义(如,相关类和不相关类)
      • 训练集D,文档d用c来标记
        利用学习算法,可以学习一个分类器,它可以将文档映射成类别
    • 应用/测试
      在这里插入图片描述
    • 例:主题分类
      在这里插入图片描述
  • 搜索引擎中的文本分类应用

    • 语言识别
    • 垃圾网页的识别
    • 是否包含淫秽内容
    • 领域搜索或垂直搜索
    • 静态查询
    • 情感识别,如影评或产品评论是贬还是褒
  • 分类方法

    • 手工方法
      • 如果是专家来分类精度会非常高
      • 如果问题规模和分类团队规模都很大的时候,能否保持分类结果的一致性
      • 但是对人工分类进行规模扩展将非常困难,代价昂贵
    • 规则方法
      • 通常情况下都是布尔表达式组合
      • 如果规则经过专家长时间的精心调优,精度会非常高
      • 建立和维护基于规则的分类系统非常繁琐,开销也大
    • 统计/概率方法
      • 文本分类被定义为一个学习问题,包括:通过有监督的学习,得到分类函数,然后将其应用于对新文本的分类
      • 需要手工构建训练集
      • 该手工工作一般人就可以完成,不需要专家

2. 朴素贝叶斯

  • 朴素贝叶斯分类器

    • 朴素贝叶斯是一个概率分类器
    • 文档d属于类别c的概率计算如下:在这里插入图片描述
    • 如果文档的词项无法提供属于哪个类别的信息,那么我们直接选择P©最高的那个类别
  • 朴素贝叶斯规则

    • 给定文档的条件下,我们希望得到最可能的类别

原文地址:https://blog.csdn.net/Ausgelebt/article/details/142420266

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!