谷歌在其翻译服务中添加了首个加拿大土著语言

2024-11-15 08:44来源:本站编辑

这个国家最广泛使用的土著语言之一现在可以通过谷歌的翻译服务获得,这是这家科技巨头第一次在其平台上加入加拿大使用的第一民族语言、姆萨姆蒂斯语或因纽特语。

因纽特人是一个涵盖加拿大、格陵兰岛和阿拉斯加因纽特人所说的不同方言的广义术语,它已被添加到谷歌翻译中,可以将文本、文档和网站从一种语言翻译成另一种语言。

谷歌计划开发一种单一的人工智能语言模型,以支持世界上使用最多的1000种语言。

加拿大统计局的数据显示,加拿大大约有4万名因纽特人。

谷歌翻译平台的高级软件工程师艾萨克·卡斯韦尔(Isaac Caswell)表示,仅凭使用者的数量不足以决定一种语言是否可以被纳入谷歌翻译。

还必须有足够的在线文本数据来创建语言模型。

卡斯韦尔说,加拿大的其他土著语言“数据太少,没有任何可用的机器翻译模型”。

例如,工程师们考虑加入Cree,加拿大有超过86,000人说Cree,但该语言的网站很少。

卡斯韦尔说:“我们不想在产品上添加任何只会产生破碎文本或无意义内容的东西。”

“因纽图特人非常突出,因为它有很多干净的、写得很好的数据,因为我认为,这个社区越来越多地上网。”

在为谷歌翻译添加一种语言时,这家科技公司主要考虑两件事:社区是否有愿望或需要,以及它在技术上是否可行。

在谷歌确定其模型可以识别因纽图特语后,它开始与语言使用者和组织进行磋商。

该公司联系了代表加拿大约7万因纽特人的全国性组织因纽特人Tapiriit Kanatami,以确保该模型的开发符合因纽特语,包括翻译该语言的两种书写系统的能力。

因纽特人使用基于罗马字母的qaniujaaqpait或音节和qaliujaaqpait。

因纽特人Tapiriit Kanatami开发了自己的通用字符数据集,可用于以因纽特人的任何方言进行书写,以帮助简化不同因纽特地区之间的书面交流。

卡斯韦尔说:“如果没有他们的帮助,我们只能用音节来开始,这破坏了他们目前的一些工作。”

该组织对谷歌将因纽特语纳入其中的工作表示欢迎,称有必要振兴、保护和推广因纽特语。

因纽特人Tapiriit Kanatami的主席纳坦·奥贝德(Natan Obed)在接受采访时说:“这是另一种让我们的语言变得有意义、容易理解的方式,让那些根本不懂我们语言的人能够与之互动。”

“这是和解的行动,我真的很感谢那些花时间和我们一起工作的人,他们让我们的语言保持强大,并为我们的语言庆祝。”

随着因纽特语的引入,谷歌的目标是更能代表一个经常被科技行业忽视的群体。

“我希望,如果有的话,这可能会让他们觉得自己更被一家大型科技公司所关注。因为,总的来说,土著社区有很多被技术忽视的经历。”卡斯韦尔说。

用户可以通过谷歌翻译将书面因纽特语翻译成英语,反之亦然。卡斯韦尔说,其他选择,包括口头翻译工具,可能会在晚些时候出现。

Caswell说,人工智能在推广土著语言方面并非没有局限性,但他怀疑,随着技术的进步,越来越多的语言将被解锁,这种情况将会改变。

本报告由加拿大新闻社于2024年10月17日首次发表。

鸡鸣网声明:未经许可,不得转载。