Python检测多国语言

2020-07-17  本文已影响0人  骆旺达

Python检测多国语言

文档链接:https://pypi.org/project/langdetect/

一、基础介绍

在很多场合中,我们获得的语言会很多种?例如,英文,法语,中文,繁体中文,如何对这些语言进行具有针对性的检测和处理尤为重要!


多国语言交流(图片为网图)

在这里,我们采用谷歌的langdetect库进行语言检测

(1)首先,我们先下载langdetect

pip install langdetect

(2)测试代码

# -*- coding: utf-8 -*-

# 需要识别的句子(这里是中文)
str = '中文'

# 需要识别的句子(这里是英文)
# str = 'Otec matka syn.'

# 引用库
from langdetect import detect
from langdetect import detect_langs

# 当文本过短或模糊时,判断出来的结果会不确定;
# 如果要让结果唯一,添加以下两行:
from langdetect import DetectorFactory
DetectorFactory.seed = 0

# 判断语言种类
print(detect(str))

# 概率
print(detect_langs(str))

(3)输出结果

zh-cn
[zh-cn:0.9999945807402004]

二、语言范围介绍

(1)支持的语言类型:
支持检测55种语言: af, ar, bg, bn, ca, cs, cy, da, de, el, en, es, et, fa, fi, fr, gu, he, hi, hr, hu, id, it, ja, kn, ko, lt, lv, mk, ml, mr, ne, nl, no, pa, pl, pt, ro, ru, sk, sl, so, sq, sv, sw, ta, te, th, tl, tr, uk, ur, vi, zh-cn, zh-tw

(2)语言类型解释:
百度百科:iso 639-1

(3)具体
快速查看:

标签 内容 标签 内容 标签 内容 标签 内容
aa 阿法尔语 fr 法语 li 林堡语 se 北萨米语
ab 阿布哈兹语 fy 弗里西亚语 ln 林加拉语 sg 桑戈语
ae 阿维斯陀语 ga 爱尔兰语 lo 老挝语 sh 塞尔维亚-克罗地亚语
af 南非语 gd 苏格兰盖尔语 lt 立陶宛语 si 僧加罗语
ak 阿坎语 gl 加利西亚语 lu 卢巴语 sk 斯洛伐克语
am 阿姆哈拉语 gn 瓜拉尼语 lv 拉脱维亚语 sl 斯洛文尼亚语
an 阿拉贡语 gu 古吉拉特语 mg 马达加斯加语 sm 萨摩亚语
ar 阿拉伯语 gv 马恩岛语 mh 马绍尔语 sn 绍纳语
as 阿萨姆语 ha 豪萨语 mi 毛利语 so 索马里语
av 阿瓦尔语 he 希伯来语 mk 马其顿语 sq 阿尔巴尼亚语
ay 艾马拉语 hi 印地语 ml 马拉亚拉姆语 sr 塞尔维亚语
az 阿塞拜疆语 ho 希里莫图语 mn 蒙古语 ss 斯瓦特语
ba 巴什基尔语 hr 克罗地亚语 mo 摩尔达维亚语 st 南索托语
be 白俄罗斯语 ht 海地克里奥尔语 mr 马拉提语 su 巽他语
bg 保加利亚语 hu 匈牙利语 ms 马来语 sv 瑞典语
bh 比哈尔语 hy 亚美尼亚语 mt 马耳他语 sw 斯瓦希里语
bi 比斯拉马语 hz 赫雷罗语 my 缅甸语 ta 泰米尔语
bm 班巴拉语 ia 国际语A na 瑙鲁语 te 泰卢固语
bn 孟加拉语 id 印尼语 nb 书面挪威语 tg 塔吉克斯坦语
bo 藏语 ie 国际语E nd 北恩德贝勒语 th 泰语
br 布列塔尼语 ig 伊博语 ne 尼泊尔语 ti 提格里尼亚语
bs 波斯尼亚语 ii 四川彝语诺苏语 ng 恩敦加语 tk 土库曼语
ca 加泰隆语 ik 依努庇克语 nl 荷兰语 tl 他加禄语
ce 车臣语 io 伊多语 nn 新挪威语 tn 塞茨瓦纳语
ch 查莫罗语 is 冰岛语 no 挪威语 to 汤加语
co 科西嘉语 it 意大利语 nr 南恩德贝勒语 tr 土耳其语
cr 克里语 iu 因纽特语 nv 纳瓦霍语 ts 宗加语
cs 捷克语 ja 日语 ny 尼扬贾语 tt 塔塔尔语
cu 古教会斯拉夫语 jv 爪哇语 oc 奥克语 tw 特威语
cv 楚瓦什语 ka 格鲁吉亚语 oj 奥吉布瓦语 ty 塔希提语
cy 威尔士语 kg 刚果语 om 奥洛莫语 ug 维吾尔语
da 丹麦语 ki 基库尤语 or 奥利亚语 uk 乌克兰语
de 德语 kj 宽亚玛语 os 奥塞梯语 ur 乌尔都语
dv 迪维希语 kk 哈萨克语 pa 旁遮普语 uz 乌兹别克语
dz 不丹语 kl 格陵兰语 pi 巴利语 ve 文达语
ee 埃维语 km 高棉语 pl 波兰语 vi 越南语
el 现代希腊语 kn 卡纳达语 ps 普什图语 vo 沃拉普克语
en 英语 ko 朝鲜语韩语 pt 葡萄牙语 wa 沃伦语
eo 世界语 kr 卡努里语 qu 凯楚亚语 wo 沃洛夫语
es 西班牙语 ks 克什米尔语 rm 罗曼什语 xh 科萨语
et 爱沙尼亚语 ku 库尔德语 rn 基隆迪语 yi 依地语
eu 巴斯克语 kv 科米语 ro 罗马尼亚语 yo 约鲁巴语
fa 波斯语 kw 康沃尔语 ru 俄语 za 壮语
ff 富拉语 ky 吉尔吉斯语 rw 卢旺达语 zh 中文汉语
fi 芬兰语 la 拉丁语 sa 梵语 zu 祖鲁语
fj 斐济语 lb 卢森堡语 sc 萨丁尼亚语
fo 法罗语 lg 卢干达语 sd 信德语

参考文献原文路径

1、Python使用谷歌langdetect检测语言
2、Python识别不同国家语言类型
3、github原代码

上一篇下一篇

猜你喜欢

热点阅读