自学内容网 自学内容网

使用Stanford-CoreNLP命令行进行分词

接上文 https://blog.csdn.net/guotong1988/article/details/136652691

java -cp "stanford-corenlp-4.5.6/*" edu.stanford.nlp.international.arabic.process.ArabicTokenizer normArDigits,normArPunc,normAlif,removeDiacritics,removeTatweel,removeQuranChars < input.txt

其中input.txt每行一句话

建议看源码使用 https://github.com/stanfordnlp/CoreNLP/blob/main/src/edu/stanford/nlp/international/arabic/process/ArabicTokenizer.java


原文地址:https://blog.csdn.net/guotong1988/article/details/139302010

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!