自学内容网 自学内容网

NLP专业术语及工具【hanlp、jiolp】

NLP专业术语

缩写术语中文描述
tokTokenization分词将文本切分成独立的语义单位,通常是单词或标点符号等。
posPart-of-Speech Tagging词性标注每个单词标注语法类别,例如名词、动词、形容词等。
nerNamed Entiy Recognition命名实体识别识别文本中的专有名词,如人名、地名、机构名等。
depDependency Parsing依存句法分析分析单词之间的语法依赖关系,确定它们在句子中的功能和关系。
conConsituency Parsing成分句法分析分析句子在语法上的递归构成,通常表示为树形结构。
srlSemantic Role Labeling语义角色标注分析句子的谓词论元结构,即识别谓词和其对应的论元(如施事者、受事者等)。
sdpSemantic Dependency Parsing语义依存分析分析句子中单词之间的语义关系,通常表示为有向无环图。
amrAbstract Meaning Representation抽象意义表示将句子的意义表示为以概念为节点的单源有向无环图,用于跨语言的语义表示。
lemLemmatization词形还原将单词转换为其基本形式或词根形式的过程。
例如,将动词的过去式、现在分词和过去分词等形式还原为基本动词形式。这有助于减少单词的不同形式带来的复杂性,使得文本处理更加一致和高效。
feaFeature特征通常指单词或短语的属性或属性集合
- 形态学特征:如词性(名词、动词、形容词等)、时态(过去时、现在时、将来时)、格(主格、宾格等)、数(单数、复数)等。
- 语义特征:如词义、词义关系(同义、反义、上下义等)。
- 句法特征:如依存关系、句法角色(主语、宾语、定语等)。
- 文本特征:如词频、TF-IDF(词频-逆文档频率)等,这些特征常用于文本分类、文本聚类等任务。
stsSemantic Textual Similarity语义文本相似性从语义上比较2段文本的相似性
word2vecWord2Vec是一系列模型架构和优化,可用于从大型未标记数据集中学习词嵌入。在本文中,它被狭义地定义为将离散词映射到密集向量的分布式表示的组件。
word2vec.most_similar(‘上海’) – 广州、北京、上海
word2vec.most_similar(‘非常寒冷’, doc2vec=True)–阴冷
gloveGlobal Vectors for Word Representation一种用于生成词嵌入(word embeddings)的无监督学习算法。GloVe模型由斯坦福大学和Google的研究人员在2014年提出。它旨在捕捉单词之间的语义关系,并将这些关系表示为向量空间中的点。
FastText由Facebook AI Research团队在2016年提出的一个词嵌入算法,它旨在提高文本分类和词向量学习的速度和效率

hanlp

hanlp 2.x功能

功能RESTful多任务单任务模型标注标准
分词教程教程教程tok粗分细分
词性标注教程教程教程posCTBPKU863
命名实体识别教程教程教程nerPKUMSRAOntoNotes
依存句法分析教程教程教程depSDUDPMT
成分句法分析教程教程教程conChinese Tree Bank
语义依存分析教程教程教程sdpCSDP
语义角色标注教程教程教程srlChinese Proposition Bank
抽象意义表示教程暂无教程amrCAMR
指代消解教程暂无暂无暂无OntoNotes
语义文本相似度教程暂无教程sts暂无
文本风格转换教程暂无暂无暂无暂无
关键词短语提取教程暂无暂无暂无暂无
抽取式自动摘要教程暂无暂无暂无暂无
生成式自动摘要教程暂无暂无暂无暂无
文本语法纠错教程暂无暂无暂无暂无
文本分类教程暂无暂无暂无暂无
情感分析教程暂无暂无暂无[-1,+1]
语种检测教程暂无教程暂无ISO 639-1编码

hanlp 1.x功能

JioNLP

JioNLP 是一个面向 NLP 开发者的工具包,提供 NLP 任务预处理、解析功能,准确、高效、零使用门槛。

功能函数描述星级
查找帮助help若不知道 JioNLP 有哪些功能,可根据命令行提示键入若干关键词做搜索
车牌号解析parse_motor_vehicle_licence_plate给定一个车牌号,对其进行解析
时间语义解析parse_time给定时间文本,解析其时间语义(时间戳、时长)等
关键短语抽取extract_keyphrase给定一篇文本,抽取其对应关键短语
抽取式文本摘要extract_summary给定一篇文本,抽取其对应文摘
停用词过滤remove_stopwords给定一个文本被分词后的词 list,去除其中的停用词
分句split_sentence对文本按标点分句
地址解析parse_location给定一个包含国内地址字符串,识别其中的省、市、县区、乡镇街道、村社等信息
电话号码归属地
运营商解析
phone_location
cell_phone_location
landline_phone_location
给定一个电话号码(手机号、座机号)字符串,识别其中的省、市、运营商
新闻地名识别recognize_location给定新闻文本,识别其中的国内省、市、县,国外国家、城市等信息
公历农历日期互转lunar2solar
solar2lunar
给定某公(农)历日期,将其转换为农(公)历
身份证号解析parse_id_card给定一个身份证号,识别对应的省、市、县、出生年月、
性别、校验码等信息
成语接龙idiom_solitaire成语接龙,即前一成语的尾字和后一成语的首字(读音)相同
色情数据过滤--
反动数据过滤--
体转tra2sim繁体转简体,支持逐字转最大匹配两种模式
体转sim2tra简体转繁体,支持逐字转最大匹配两种模式
汉字转拼音pinyin找出中文文本对应的汉语拼音,并可返回声母韵母声调
汉字转偏旁与字形char_radical找出中文文本对应的汉字字形结构信息,
包括偏旁部首(“河”氵)、字形结构(“河”左右结构)、
四角编码(“河”31120)、汉字拆解(“河”水可)、
五笔编码(“河”ISKG)
金额数字转汉字money_num2char给定一条数字金额,返回其汉字大写结果
新词发现new_word_discovery给定一语料文本文件,统计其中高可能成词

参考

hanlp预训练模型


原文地址:https://blog.csdn.net/penriver/article/details/140571561

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!