谷歌翻译新增110种语言支持,覆盖6.14亿使用者
这些语言包括阿法尔语、粤语、马恩岛语、恩科语、旁遮普语(沙穆基语)、塔马齐特语(阿马齐格语)和托克皮辛语。该公司表示,新增的语言使用者超过6.14亿,约占世界人口的8%。谷歌指出,这些语言的使用阶段不同。有些语言有1亿使用者,有些语言则无人使用——但人们正在努力保护这些语言。谷歌表示,...
即将支持粤语,谷歌翻译宣布新增 110 种语言:覆盖全球 8% 人口
从粤语到盖克赤语(Q??eqchi??),这些语言覆盖了超过6.14亿的使用者,约占全世界8%的人口。其中一些是拥有超1亿使用者的主要世界语言,其他则是由小型原住民社区使用的语言,还有一些语言几乎没有母语使用者,但正在进行复兴工作。通过谷歌的PaLM2大语言模型,谷歌翻译将新增110种语言,是其有史...
世界上使用人群最多的十种语言,中文第一
如今中国有13亿多人口,中文成为世界上最常用的语言也就不足为奇了。由于中国的面积和人口,中文能够维持许多独特而有趣的语言。说到语言,“中文”一词包括至少15种在中国和其他地方使用的方言。因为普通话是最常用的方言,很多人用中文来指代它。虽然中国大约70%的人说普通话,但也有许多其他方言。四种最流行的中国...
AI 大模型的语言不平等:英语最便宜,其它语言要贵得多
AI大模型的语言不平等:英语最便宜,其它语言要贵得多IT之家7月31日消息,用户所使用的语言对于大型语言模型(LLM)的费用有很大的影响,可能造成英语使用者和其它语言使用者之间的人工智能鸿沟。最近的一项研究显示,由于OpenAI等服务所采用的的服务器成本衡量和计费的方式,英语输入和输出的费用要比其他语言低...
AI 大模型的语言不平等:英语训练费用最便宜,汉语训练费用是英语的...
得益于英语词元序列长度短的优势,在生成式人工智能预训练的成本效益方面,英语可谓是最大赢家,将其他语言使用者远远地甩在身后,间接产生了一种不公平的局面。除此之外,这种词元序列长度的差异也会导致处理延迟不公平(某些语言处理同样内容需要更多时间)和长序列依赖性建模不公平(部分语言只能处理更短的文本)。
69 岁的 Java 之父退休了!近亿人因他受益
InfoQ:Java作为一门盛行不衰的语言,直到现在依旧稳居编程语言的前列,其生命力何在?JamesGosling:Java得以拥有顽强的生命力背后有诸多原因(www.e993.com)2024年7月10日。首先,采用Java能够非常便捷地进行多线程编程,能大大提升开发者的工作效率。其次,Java提供多种内置安全功能,能够帮助开发者及时发现错误、更加易于调试,此外,各种审查机...
创新技术推动两岸融合 闽南语语言模型助力全球闽南语使用者交流
在中共中央、国务院刚刚发布《关于支持福建探索海峡两岸融合发展新路建设两岸融合发展示范区的意见》之际,厦门理工学院智能视听实验室团队于9月15日发布了“以中文为核心的多模态预训练闽南语语言模型”“闽台视频资料AI增强与编辑云平台”等多项科研成果。
神奇的印度:到底有多少种语言?又有多少人说英语?
孟加拉语是使用人口第二多的本土语言,使用者集中在印度的东部,靠近孟加拉国的区域,主要是西孟加拉邦、特里普拉邦和阿萨姆邦。马拉地语是使用人口第三多的本土语言,使用者集中在印度的西部,主要是马哈拉施特拉邦。泰卢固语是使用人口第四多的本土语言,使用者集中在印度的中南部,是安得拉邦、特伦甘纳邦的官方语言。
Sci.Adv.速递:陌生人社会的语言复杂度并不会更低
最近,许多人提出了语言适应环境的观点。语言环境假说认为,母语使用者众多且非母语使用者占很大比例的语言(陌生人社会)往往会失去语法上的区别,与此相反,孤立的社团中的语言应该保持或扩大其语法标记。本文使用全球语法结构数据集Grambank来检验这些说法。作者建模母语使用者的数量、非母语使用者的比例、语言邻居的数...
已使用三千年前的语言失去了最后一位母语使用者
以国家划分的话,最多的是巴西和美国,都占据3席,印尼和巴布亚新几内亚两个国家也各有两种语言“垂危”。其实之所以多分布在这些国家,也和这几个国家的语言多样化有关,像位于南太平洋上的巴布亚新几内亚,虽然人口只有600多万,但是语言却超过了800种,被认为是地球上使用语言最丰富的国家6.巴则海语(Pazeh)是...