使用Stanford-CoreNLP命令行进行分词
接上文 https://blog.csdn.net/guotong1988/article/details/136652691
java -cp "stanford-corenlp-4.5.6/*" edu.stanford.nlp.international.arabic.process.ArabicTokenizer normArDigits,normArPunc,normAlif,removeDiacritics,removeTatweel,removeQuranChars < input.txt
其中input.txt
每行一句话
建议看源码使用 https://github.com/stanfordnlp/CoreNLP/blob/main/src/edu/stanford/nlp/international/arabic/process/ArabicTokenizer.java
原文地址:https://blog.csdn.net/guotong1988/article/details/139302010
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!