为什么机器翻译总是不够准确
最近打开手机APP,频繁占据屏幕的居然是某款红色社交软件,既不是购物APP,也不是拼团软件,更不是某某集团的APP,而是小红书。打开首页不久后,就会看到大量外国IP地址的动态内容,或是外国人的自拍照,又或者是在分享养宠物、交税款之类的内容,还有一些用翻译软件支援的中文或英文社交帖。
若不是自己一直使用小红书账号,且不断确认IP地址,真的会怀疑自己在国外友人的大型认亲现场。这到底是国内还是国外?转瞬间,这个APP突然变得如此国际化,瞬间有点让人难以置信。
为了融入当地社会,外国友人小心翼翼地使用生涩的中文,辅以双语介绍,用词严谨,语气诚恳,似乎展现出小时候写作文的认真态度,生怕因言不当招致当地人的不满。为了避免机器翻译引发歧义,他们贴心地附上英文原文,以显示诚意。
后来人们发现,表情包才是最准确地表达情感的神奇方式。于是,东西方两个世界的人们展开表情包分享盛会,结合着机器翻译的中英文,幽默的表情包充斥在每个外国友人的交流帖下方评论区。
除了寻找乐趣,还发现一个问题。尽管评论区中用英文回复或使用翻译器翻译中文句子很有趣,但也会让人困惑。为了更清楚地理解问题,我通常直接查看英文原文,但只要点击右上角的自动翻译,看到的中文总是与实际意图略有出入。那么机器翻译为何总是词不达意?有人会好奇机器翻译的原理是什么?为什么基本翻译和语气词AI可以做到,但稍微复杂一点的词汇,就容易出现语序混乱,让人莫名其妙呢?
那就由我来简要解释一下~
目前有两种机器翻译方式:规则翻译和统计翻译。
01、规/则/翻/译(RBMT)
通过语言规则对文本进行分析,再借助计算机程序进行翻译。该方法分为三个复杂阶段:分析、转换和生成,根据复杂程度分为三级。第一级是直接翻译:简单词语的直译;
第二级是转换翻译:需要参考原文的词汇、语法和语义信息进行翻译,由于信息来源多样化,有些词汇可能具有多重含义,例如"cell"即可指细胞、单元或监狱,在阅读文献时,经常会看到将单元误译为细胞的情况。而语法规则繁多且存在矛盾和冲突,如此复杂和易错 (有时人类都看不懂,更何况计算机!)。
第三级,目前仍处于概念阶段的国际语翻译,旨在利用通用、与语言无关的形式,实现对语言的解码,相当于让计算机理解表情包 (>_<),想想就知道有多困难了吧?
02、统/计/翻/译(SMT)
通过对大量平行语料进行统计分析,构建统计翻译模型(词汇、对齐或语言模式),然后利用该模型进行翻译,选取出现概率最高的翻译词条,概率算法基于贝叶斯定理。
要实现这种方法,需要大量训练数据,同一文本需要至少翻译成两种语言,称为平行语料库。18世纪,科学家在罗塞塔石碑中发现了涉及古埃及国王托勒密五世登基仪式的用希腊语、象形文字和古埃及文字书写的内容,通过比照不同语言版本,科学家才能解读失传已久的埃及象形文字的含义和结构,这就是计算机统计翻译的雏形。
我尝试解释一下,如有更佳见解,请随意在下面留言,统计翻译系统采用概率思维进行翻译,不是试图给出准确翻译,而是生成成千上万种可能的翻译,再根据最可能正确的进行排序,根据与训练数据的相似性来确定正确性。
工作原理
NO.1 将原始句子分块
首先,将句子划分为简单块,使每块都可以轻松翻译,可根据单词或短语,SMT分为基于词和基于短语的两种翻译,大多数翻译引擎基于短语,将文本自动分为固定长度的短语。
NO.2 找到每块的所有可能翻译
查找数据库中所有人类翻译的相同词块,并根据它们的不同出现概率(A)进行排列。我们找到的不是字典中的直接翻译,而是真实的人在实际句子中如何翻译这些相同词,以此我们可捕捉到不同语境中的所有表达方式。
即使是短语也有多种可能翻译。在这些多种翻译中,一些使用频率较高,我们使用的频率为它们赋予数值,记为概率A。例如,"I’m dying"在中文中大多翻译为"我想要"而不是"我倾向于",在训练库中,它翻译为"我想要"的概率要高于"我倾向于",因此获得更高的权重。
NO.3 生成所有可能句子,找到最合适的
我们列出第二步中找到的所有翻译进行组合排列,生成近2500个句子,例如:
I love | to leave | at | the seaside | more tidy.
I mean | to be on | to | the open space | most lovely.
由于真实世界中存在各种不同语序和词块分解方式,实际翻译句子更加多样化。
统计法是大多数在线搜索引擎采用的翻译方法,如百度、必应和谷歌,凭借庞大数据库和强大搜索能力进行翻译。一些非开源的机器翻译系统也多采用这种统计法。(希望看到这里大家还未晕~)
通过比较这两种方法,我们发现,规则法实际是人类翻译外语的方式,但机器显然无法与人类灵活相提并论,所以面对复杂的语法和规则冲突,机器翻译的结果通常不尽人意。统计法更倾向于概率推断,这种方法更适合机器运算,因为相比直译,机器更擅长数据分析和统计,这也是各大搜索引擎使用统计法的原因。
尽管统计机器翻译系统效果良好,但难以构建和维护。对于每对新的翻译语言,都需要专业人员调试和修正全新的多步骤"翻译流水线"。由于建立这些不同流水线需要巨大工作量,因此幕后程序员必须权衡考虑。如果您希望通过谷歌翻译将泰卢固语翻译成中文,可能会先将其翻译成英文,然后再转为中文。因为人们对泰卢固语直接翻译成中文的需求可能不高,投入大量资源在这对语言上并不太划算。与英文和中文相比,泰卢固语作为一个存在于印度小地区的语言,可以采用更简化的"翻译流水线"。
通过以上解释,机器翻译引擎的基本工作原理已经清晰展现,虽然机器翻译有时让两国人士难以理解句子,但人类最大优势何在?联想及猜测。机器提供大致方向,结合人类联想功能,我们能够解读对方意图。
比如绿泡泡,相信你已知道我的意思,还有红薯、某桃、PDD等,这相当于提供一个大致方向,鼓励人们去联想猜测结果,最终得出正确答案。交流出现问题时,不用担心,翻译或许不准确,但对于交流的影响并不会很大,毕竟还有表情包~
无论情势如何变化,中外网友对彼此的好奇心证明了友好和真诚永远是制胜法宝。中英文交融,交流友好且真挚,或许这才是地球村的本真样貌。数字文化的这场"东方探险记"能持续多久,尚难预测。值此新年即将到来之际,让外国朋友见证中国传统节日的热闹氛围!!祝大家新春快乐,多发表论文。
- END -
新年即将来临,让这些外国友人一同体验中国传统节日的热闹气氛吧!!祝大家春节快乐,发表更多论文。
本文转载自微信:中科院物理所(ID:cas-iop),作者:蓝多多
广告声明:文内含对外跳转链接(不限于超链接、二维码、口令等形式),旨在传递更多信息,节省挑选时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。