AI研习丨低资源东盟语种的预训练语言模型研究
面向多语言的预训练语言模型是处理多语言、跨语言任务的重要基石,同时也是处理低资源语言的重要基础。现有的多语言模型有MultilingualBert(mBERT)、Language-AgnosticSentenceRepresentations(LASER)、Language-agnosticBERTSentenceEmbedding(LaBSE)、CrosslingualLanguageModel(XLM)等,处理的语种完全覆盖东盟国家所使用...
为什么中国给其他国家的国名都很好听,但自己却叫“中间之国”?
而在表音字母中,只能通过字母的排列组合来塑造一个新词,激光的英文名叫“laser”,也叫镭射,极光的英文名叫“aurora”,如果是牛顿创越回现代英国,见到这两个词汇恐怕都会一头雾水。当然,汉语词汇不仅容易识别,在构造新词方面也能赋予很多美好的寓意。在这点上,我们对他国的国家称谓上体现的淋漓尽致。古代人再给...
Facebook 开源增强版 LASER 库:可实现 93 种语言的零样本迁移
融入到LASER的93种语言包括主动宾(SVO)顺序的语言(如英语)、主宾动(SOV)顺序的语言(如孟加拉语和土耳其语)、动主宾(VSO)顺序的语言(如塔加路语和柏柏尔语),甚至是动宾主(VOS)顺序的语言(如马达加斯加语)。该编码器能够泛化到训练期间没有用到过(即便被用作单语言文本)的语言上,Facebook的研究人员观察...
Facebook 开源增强版 LASER 库:可实现 93 种语言的零样本迁移
融入到LASER的93种语言包括主动宾(SVO)顺序的语言(如英语)、主宾动(SOV)顺序的语言(如孟加拉语和土耳其语)、动主宾(VSO)顺序的语言(如塔加路语和柏柏尔语),甚至是动宾主(VOS)顺序的语言(如马达加斯加语)。该编码器能够泛化到训练期间没有用到过(即便被用作单语言文本)的语言上,Facebook的研究人员观察...
汉语语言文化中的西化误区:央视台标该怎么写
另一种方法是意译,例如laser初译“莱塞”,后来钱学森先生将它意译为“激光”,表明是粒子受光或电的激发而发出的光,这个词也完全汉化了。第三种方法是意译和音译相结合,例如NewZealand译为“新西兰”。同样,西方语言也吸收汉语词汇,例如英语中的kungfu来自汉语的“功夫”,kowtow来自汉语的“磕头”,英语并不是直接吸...
汉语中最容易画蛇添足的十个词
导读:汉语中凯旋、士多、目睹、莅临、莘莘学子、问鼎等词语,在实际应用中很容易犯画蛇添足的错误,下文专门把这些词提出来解析,希望能为大家提醒(www.e993.com)2024年11月17日。汉语是世界上历史最悠久的语言之一。经过几千年的发展尤其是近百年来的改良,汉语的词汇不断增加(语义也有较好的继承性);近代以来,汉语也从各种外语那里"拿来"了很多...
【专项训练】汉硕考研《现代汉语》课后习题+参考答案(二十一...
③在现代汉语中,由于词的双音化的发展趋势的要求,有些单音节词或多音节短语在交际中取得了新的双音节形式,也为语言增加了新词。④语言既有的构词材料和构词方式,是生产新词的语言基础。新词大多是复合式的,主要为偏正型、联合型和动宾型。此外,附加式的新词也明显地增多了,产生了一批新的词缀或准词缀,由它们...
中国文化博大精深, 中文里面也有一些你想不到的外来语
来源:英语缩写LASER2.逻辑。来源:希腊语λ??γο??法语logique3.引擎。来源:英语Engine4.幽默。来源:法语Humour,发音yumor5.果酱。来源:英语Jam6.血拼。来源:英语Shopping7.雪碧。来源:英语Sprite8.拖拉机。来源:俄语трактор,发音特拉克托9.康乃馨。来源:英语...
如果汉语没了英源词和日源词,中国人会变哑巴?
1945年,杨令茀在教援华美军学汉语。清代中晚期到民国年间,随着中外交流越来越密切,汉语中涌入了大量外来词,逐渐形成了现代汉语。图/U.S.Army翻译外来词很有技术含量,一个词汇的流行或衰亡,有人为不可把握的规律。鸦片战争后的中国历史是国人不断睁眼看世界的过程,前期对于外来文化的接受带有被动性,到了清末民...
漫威电影首次提到了DC超人|漫威|电影|蜘蛛侠|蝙蝠侠|超人_手机...
"Dad,that'sSupermanwiththecapeandhewasshootinglaserbeamsoutofyoureyes."翻译成汉语:“爸爸,那是披着斗篷的超人,他从你的眼睛里射出了激光束。”现在大家都知道了,这位小男孩指的就是DC的超人,他以为伊卡瑞斯是DC电影里的超人。