0755-2651 0808
中文

当AI重塑语言服务:亚洲小语种的数字困境

发布时间: 2026年03月18日浏览量:

技术在重塑人与人的连接方式,这件事本身没有悬念,真正的问题是,当一项新技术开始普及,谁能被服务得更周到,谁又被落下。

把这个问题放在亚洲看,答案会更具体:一个只会说泰语或缅甸语的人,能不能顺畅使用智能助手,或者被搜索引擎准确理解。


这意味着数千万说方言的人,很难获得同等质量的服务。

亚洲聚集了全球六成以上的人口,也是互联网最活跃的地区,但活跃不代表平等。

泰语、缅甸语、马拉地语这些有数千万人日常使用的语言,在人工智能的训练数据集里仍然处于边缘。原因是过去几十年的数字化进程,总是以英语世界为主导,从最早的操作系统、编程语言,到后来的搜索算法、语音交互,底层逻辑大多照着英语的习惯生长。这导致模型训练需要的海量文本,标准英语的数据相对充足,轮到其他语言,能找到的公开语料就少得多了。

拿数据量来说,英语有数以亿计的文本可以用于模型训练,但高棉语或老挝语的语料库,规模就要小很多。

数据不足,模型的学习效果自然受限。即便像印地语这样被覆盖到的大语种,细分到博杰普尔语这类方言时,模型能处理的内容也有限。


更麻烦的是,很多亚洲语言的用法,跟英语的逻辑不太一样。

比如印度人日常说话经常是混着来的,印地语里夹英语,叫Hinglish,这种混搭本地人听着亲切,语音转文字的工具却不容易识别。输入法也是,马拉地语或僧伽罗语的联想输入,选择范围远没有英语丰富。

这种使用体验上的差距,直接影响了人们用母语上网的意愿。

 


这种缺失带来的后果是一连串的。

互联网上绝大部分内容仍是英文,亚洲能流利使用英语的人口只占一成左右。剩下九成的人,如果没法用自己的语言获取信息、使用服务,参与数字经济的机会就会受限。

具体到商业上,东南亚的本地商家建个越南语或泰语的网站,想在搜索平台上获得好的曝光并不容易,搜索引擎对多语言的索引能力还在完善中,内容推广的效果会有差异。AI系统的表现也会受影响,缺乏本地数据训练的模型,有时难以准确理解当地人的情绪和语调,翻译出来的内容显得生硬。

 


技术如果不主动适配语言的多样性,就很难真正服务于不同的人群。

不过,这个问题最近几年开始得到更多关注。
  • 谷歌启动了一个千种语言倡议,目标是做一个能覆盖全球多种语言的模型,其中也包括资源相对较少的小语种
  • Meta那边也出现一个项目叫不落下任何语言,训练系统实现两百种语言的互译,南亚和东南亚的语言涵盖了不少
  • 印度的AI4Bharat走开源路线,专门为22种印度官方语言建数据集和工具,让本地的创业公司也能用上

 


这些项目指向同一个事实:人工智能如果能有更好的包容性,服务的人群会更广,它不该只有一种声音,也不该只照顾一部分人。
为亚洲语言争取技术上的位置,不是在搞特殊化,而是在还原本该有的权利,让一个人能用自己的母语,不用妥协、不用绕路,顺畅地去生活、去创造、去跟这个世界交流。

关于新宇智慧:
深圳新宇智慧科技有限公司是一家锐意创新的语言技术解决方案提供商,聚焦于ICT、知识产权、生命科学、游戏和金融财经等领域,涵盖语言服务、大数据服务和AI技术应用三大业务模块。拥有专职员工 300 余名,在全球超过 40 个国家,拥有 10000 名以上母语翻译专家,可以支持超过 200 种语言。
新宇智慧总部在深圳,在北京、上海、合肥、成都、西安、香港、英国剑桥等地设有分支机构。新宇智慧已为众多世界500强以及国内知名企业提供一站式多语言解决方案,并达成长期稳定的合作关系。

(文章转载于GALA- Inclusivity in Tech for Asian Languages,由新宇智慧编译)

服务热线0755-2651 0808

公司地址深圳市南山区粤海街道高新区社区白石路3709号迅雷大厦1015