NLP专业术语及工具【hanlp、jiolp】
NLP专业术语
缩写 | 术语 | 中文 | 描述 |
---|---|---|---|
tok | Tokenization | 分词 | 将文本切分成独立的语义单位,通常是单词或标点符号等。 |
pos | Part-of-Speech Tagging | 词性标注 | 每个单词标注语法类别,例如名词、动词、形容词等。 |
ner | Named Entiy Recognition | 命名实体识别 | 识别文本中的专有名词,如人名、地名、机构名等。 |
dep | Dependency Parsing | 依存句法分析 | 分析单词之间的语法依赖关系,确定它们在句子中的功能和关系。 |
con | Consituency Parsing | 成分句法分析 | 分析句子在语法上的递归构成,通常表示为树形结构。 |
srl | Semantic Role Labeling | 语义角色标注 | 分析句子的谓词论元结构,即识别谓词和其对应的论元(如施事者、受事者等)。 |
sdp | Semantic Dependency Parsing | 语义依存分析 | 分析句子中单词之间的语义关系,通常表示为有向无环图。 |
amr | Abstract Meaning Representation | 抽象意义表示 | 将句子的意义表示为以概念为节点的单源有向无环图,用于跨语言的语义表示。 |
lem | Lemmatization | 词形还原 | 将单词转换为其基本形式或词根形式的过程。 例如,将动词的过去式、现在分词和过去分词等形式还原为基本动词形式。这有助于减少单词的不同形式带来的复杂性,使得文本处理更加一致和高效。 |
fea | Feature | 特征 | 通常指单词或短语的属性或属性集合 - 形态学特征:如词性(名词、动词、形容词等)、时态(过去时、现在时、将来时)、格(主格、宾格等)、数(单数、复数)等。 - 语义特征:如词义、词义关系(同义、反义、上下义等)。 - 句法特征:如依存关系、句法角色(主语、宾语、定语等)。 - 文本特征:如词频、TF-IDF(词频-逆文档频率)等,这些特征常用于文本分类、文本聚类等任务。 |
sts | Semantic Textual Similarity | 语义文本相似性 | 从语义上比较2段文本的相似性 |
word2vec | Word2Vec是一系列模型架构和优化,可用于从大型未标记数据集中学习词嵌入。在本文中,它被狭义地定义为将离散词映射到密集向量的分布式表示的组件。 word2vec.most_similar(‘上海’) – 广州、北京、上海 word2vec.most_similar(‘非常寒冷’, doc2vec=True)–阴冷 | ||
glove | Global Vectors for Word Representation | 一种用于生成词嵌入(word embeddings)的无监督学习算法。GloVe模型由斯坦福大学和Google的研究人员在2014年提出。它旨在捕捉单词之间的语义关系,并将这些关系表示为向量空间中的点。 | |
FastText | 由Facebook AI Research团队在2016年提出的一个词嵌入算法,它旨在提高文本分类和词向量学习的速度和效率 |
hanlp
hanlp 2.x功能
功能 | RESTful | 多任务 | 单任务 | 模型 | 标注标准 |
---|---|---|---|---|---|
分词 | 教程 | 教程 | 教程 | tok | 粗分、细分 |
词性标注 | 教程 | 教程 | 教程 | pos | CTB、PKU、863 |
命名实体识别 | 教程 | 教程 | 教程 | ner | PKU、MSRA、OntoNotes |
依存句法分析 | 教程 | 教程 | 教程 | dep | SD、UD、PMT |
成分句法分析 | 教程 | 教程 | 教程 | con | Chinese Tree Bank |
语义依存分析 | 教程 | 教程 | 教程 | sdp | CSDP |
语义角色标注 | 教程 | 教程 | 教程 | srl | Chinese Proposition Bank |
抽象意义表示 | 教程 | 暂无 | 教程 | amr | CAMR |
指代消解 | 教程 | 暂无 | 暂无 | 暂无 | OntoNotes |
语义文本相似度 | 教程 | 暂无 | 教程 | sts | 暂无 |
文本风格转换 | 教程 | 暂无 | 暂无 | 暂无 | 暂无 |
关键词短语提取 | 教程 | 暂无 | 暂无 | 暂无 | 暂无 |
抽取式自动摘要 | 教程 | 暂无 | 暂无 | 暂无 | 暂无 |
生成式自动摘要 | 教程 | 暂无 | 暂无 | 暂无 | 暂无 |
文本语法纠错 | 教程 | 暂无 | 暂无 | 暂无 | 暂无 |
文本分类 | 教程 | 暂无 | 暂无 | 暂无 | 暂无 |
情感分析 | 教程 | 暂无 | 暂无 | 暂无 | [-1,+1] |
语种检测 | 教程 | 暂无 | 教程 | 暂无 | ISO 639-1编码 |
hanlp 1.x功能
- 中文分词
- 词性标注
- 命名实体识别
- 关键词提取
- 自动摘要
- 短语提取
- 拼音转换
- 多音字、声母、韵母、声调
- 简繁转换
- 简繁分歧词(简体、繁体、臺灣正體、香港繁體)
- 文本推荐
- 语义推荐、拼音推荐、字词推荐
- 依存句法分析
- 文本分类
- 文本聚类
- KMeans、Repeated Bisection、自动推断聚类数目k
- word2vec
- 词向量训练、加载、词语相似度计算、语义运算、查询、KMeans聚类
- 文档语义相似度计算
- 语料库工具
- 部分默认模型训练自小型语料库,鼓励用户自行训练。所有模块提供训练接口,语料可参考98年人民日报语料库。
JioNLP
JioNLP 是一个面向 NLP 开发者的工具包,提供 NLP 任务预处理、解析功能,准确、高效、零使用门槛。
功能 | 函数 | 描述 | 星级 |
---|---|---|---|
查找帮助 | help | 若不知道 JioNLP 有哪些功能,可根据命令行提示键入若干关键词做搜索 | |
车牌号解析 | parse_motor_vehicle_licence_plate | 给定一个车牌号,对其进行解析 | ⭐ |
时间语义解析 | parse_time | 给定时间文本,解析其时间语义(时间戳、时长)等 | ⭐ |
关键短语抽取 | extract_keyphrase | 给定一篇文本,抽取其对应关键短语 | ⭐ |
抽取式文本摘要 | extract_summary | 给定一篇文本,抽取其对应文摘 | |
停用词过滤 | remove_stopwords | 给定一个文本被分词后的词 list,去除其中的停用词 | ⭐ |
分句 | split_sentence | 对文本按标点分句 | ⭐ |
地址解析 | parse_location | 给定一个包含国内地址字符串,识别其中的省、市、县区、乡镇街道、村社等信息 | ⭐ |
电话号码归属地、 运营商解析 | phone_location cell_phone_location landline_phone_location | 给定一个电话号码(手机号、座机号)字符串,识别其中的省、市、运营商 | |
新闻地名识别 | recognize_location | 给定新闻文本,识别其中的国内省、市、县,国外国家、城市等信息 | ⭐ |
公历农历日期互转 | lunar2solar solar2lunar | 给定某公(农)历日期,将其转换为农(公)历 | |
身份证号解析 | parse_id_card | 给定一个身份证号,识别对应的省、市、县、出生年月、 性别、校验码等信息 | ⭐ |
成语接龙 | idiom_solitaire | 成语接龙,即前一成语的尾字和后一成语的首字(读音)相同 | |
色情数据过滤 | - | - | |
反动数据过滤 | - | - | |
繁体转简体 | tra2sim | 繁体转简体,支持逐字转与最大匹配两种模式 | |
简体转繁体 | sim2tra | 简体转繁体,支持逐字转与最大匹配两种模式 | |
汉字转拼音 | pinyin | 找出中文文本对应的汉语拼音,并可返回声母、韵母、声调 | ⭐ |
汉字转偏旁与字形 | char_radical | 找出中文文本对应的汉字字形结构信息, 包括偏旁部首(“河”氵)、字形结构(“河”左右结构)、 四角编码(“河”31120)、汉字拆解(“河”水可)、 五笔编码(“河”ISKG) | ⭐ |
金额数字转汉字 | money_num2char | 给定一条数字金额,返回其汉字大写结果 | |
新词发现 | new_word_discovery | 给定一语料文本文件,统计其中高可能成词 |
参考
原文地址:https://blog.csdn.net/penriver/article/details/140571561
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!