自学内容网 自学内容网

python langid识别一段字符串是哪国语言

分析:

        在利用爬虫抓取亚马逊网站的数据时,有时会出现所抓页面的语言类型发生错误的情况(如抓取沙特站数据时想要英文页面,抓到的确是阿拉伯语页面)。在数据量大的时候人工排查这类异常情况是非常麻烦的,这时候就可以用到langid模块。

        但langid模块的识别结果并不完全正确,但是用作参考还是够用的。

代码:

安装langid

pip install langid

识别语言

import langid


# langid能识别90多种语言,且欧洲许多语言都非常相似,所以最好设置下语言类型
langid.set_languages(['en', 'fr', 'de', 'es', 'sv', 'ja', 'pt', 'it', 'nl'])

print(langid.classify('Compatible Devices'))  # 英文
print(langid.classify('フォームの形式'))  # 日语
print(langid.classify('Varumärke'))  # 瑞典语
print(langid.classify('Caractéristique spéciale'))  # 法语

运行结果


原文地址:https://blog.csdn.net/m0_62410482/article/details/144699678

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!