无需登录 数据私有 本地保存

语言检测模拟器 - 基于Unicode范围猜测文本语言

35
0
0
0

语言检测模拟器

基于Unicode字符范围智能分析文本,识别潜在语言类型及混合比例

输入文本后点击检测或自动分析,结果将在此展示

常见问题与知识点

工具基于Unicode字符范围映射技术。每个字符在Unicode标准中都有唯一的码点(Code Point),不同语言的文字系统占据不同的Unicode区块。例如:
• 中文汉字:CJK统一表意文字(U+4E00–U+9FFF)
• 日文假名:平假名(U+3040–U+309F)、片假名(U+30A0–U+30FF)
• 韩文:韩文音节(U+AC00–U+D7AF)
• 阿拉伯文:U+0600–U+06FF
• 西里尔字母(俄语等):U+0400–U+04FF
工具扫描文本中每个字符的码点,统计各语言范围字符的占比,从而推断语言类型。

英语、法语、德语、西班牙语、葡萄牙语等都使用拉丁字母,它们共享基本拉丁Unicode范围(U+0041–U+007A)。不过工具会进一步分析特殊字符来区分:
• 德语特有:ß、ä、ö、ü
• 法语特有:ç、œ、æ、â、ê、î、ô、û、ë、ï
• 西班牙语特有:ñ、¿、¡、á、é、í、ó、ú
• 葡萄牙语特有:ã、õ、ç、â、ê、ô
如果文本仅包含基本拉丁字母而无特殊字符,工具倾向于判断为英语(最通用的拉丁语系语言)。

中文和日文都使用CJK统一表意文字(汉字),但日文额外使用假名(平假名和片假名)。检测逻辑如下:
• 如果文本中同时出现汉字和假名 → 大概率是日文
• 如果文本中仅有汉字而无假名 → 更可能是中文
• 如果出现韩文音节字符 → 判断为韩文(即使混有汉字)
此外,标点符号也提供线索:中文常用顿号(、)和中文引号(「」),日文则常用独特的标点(〄〆)。

置信度基于各语言范围字符数占总有效字符数的比例计算。具体步骤:
1. 过滤掉空格、通用数字(0-9)、通用标点等语言无关字符
2. 将剩余字符按Unicode范围归类到对应语言
3. 计算每种语言字符数 ÷ 总有效字符数 = 置信度百分比
4. 按置信度降序排列展示
对于混合文本(如中英混排),工具会展示各语言的实际占比,反映真实的多语言混合情况。

Unicode是国际通用的字符编码标准,为全球所有文字系统中的每个字符分配唯一的数字码点。目前Unicode已收录超过14万个字符,覆盖150多种文字系统。它在语言检测中的重要性在于:
• 不同语言使用不同的Unicode区块,天然形成分类边界
• CJK统一表意文字区块包含中日韩共用的汉字
• 即使没有词典或语法分析,仅通过Unicode范围就能做出高准确率的语言猜测
• Unicode检测不受文本内容影响,速度快、无需网络,完全在浏览器本地完成

工具覆盖了主流文字系统,包括但不限于:
东亚:中文(简体/繁体)、日文、韩文
拉丁语系:英语、法语、德语、西班牙语、葡萄牙语、意大利语、越南语等
中东:阿拉伯语、希伯来语、波斯语
南亚:印地语(天城文)、泰米尔文、孟加拉文、缅甸文、高棉文、泰文
东欧/中亚:俄语(西里尔字母)、乌克兰语、蒙古文
其他:希腊文、表情符号(Emoji)、特殊符号
对于未覆盖的文字系统,工具会将其归类为"未知/其他"