Google庞大的服务家庭迎来了一名新成员:Google翻译。其实,语言翻译服务很早就有了,但是因为文化差异、技术算法等各种原因,效果一直都不甚理想,尤其是整句整段全文的翻译,经常无法直视。Google翻译不仅在技术上实现了突破,更是在相关服务上做得十分到位,尤其在与用户的互动方面,真正借助了整个互联网的力量,而且处处体现着人文的关怀。
根据Google官方数据,诞生10年的Google翻译已经支持103种语言,拥有5亿多用户,每天翻译超过1000亿个单词。
在这些单词所组成的语句中,最常被翻译的是:“你还好吗?”、“谢谢”以及“我爱你”。
另外,还有350万人通过翻译社区,为Google翻译提供了约9000万条改进建议。
“房间里还有人吗?”一句常用语句,却可能在危急时刻成为拯救生命的关键。当英国索利的一间民宅发生火灾,消防员就用Google翻译,与被困屋内的俄罗斯保姆取得了联系,并及时挽救了生命。
“加油,别紧张。”一句话,就可能给予患者巨大的力量,更何况是医疗指导。在一位来自刚果的产妇临产的关键时刻,来自爱尔兰科克大学附属医院的急救人员就使用Google翻译,以斯瓦希里语与之沟通,并成功帮助她在路边产下了一名健康的女婴。
美国俄勒冈州,一位中国司机突发疾病,但由于语言不通,现场的警察无法了解他的病情。警察灵机一动,通过手机上的Google翻译应用程序与其沟通,确认其患有糖尿病,及时采取措施,挽救了他的生命。
在加拿大的一个社区,人们通过使用Google翻译,帮助来自叙利亚的难民家庭,更好地开始他们的新生活,也让孩子们的脸上再度洋溢出了快乐的笑容。
这是Google官方给的几个具体事例。你可以说矫情,可以说太软,但这就是Google翻译10年来为人们提供服务的缩影。
Google翻译说:“接下来,我们将继续努力,希望世界离你更近一步,一同期待Google翻译的下一个10年。”
一个人工智能相关的峰会,届时我们会发布一个年度Top 25人工智能项目榜单,目前,我们正在四处拜访人工智能领域相关的业者。最近关于自然语言处理这一块,我们拜访了若干公司,商鹊网是其中一家。如果你也想挑战榜单中的公司,
一个令人苦恼的事实是,英文网页的数量不知道比中文网页多到哪里去,而公共知识库维基百科中,英文词条也远比中文词条丰富。如果是英文苦手,又想避开可能被广告占领的某度百科,就只能借助翻译工具了。
2014年底Skype翻译公布预览版,后来逐渐支持数十种语言的语音及文本实时互译;2006年Google推出在线翻译工具,目前已支持103种语言,覆盖99%的网民。不过使用过就会发现,它们还只能算差强人意,译文不准确,也无法用于内容出版。以Google为例,它经常会词不达意,甚至违背语法规则。这是因为Google机器翻译用的是基于统计分析的算法,需要丰富的语料库才能有较好的效果,而这显然与人类对语言的理解不同。
那机器翻译就不堪重用吗?也不是。在新闻领域,机器人已经能自动生成稿件,数秒内就能将重要资讯传达给用户,不过还仅限财经等句式规范的内容。机器翻译也是如此,商鹊网就认为,机器翻译虽然远未达到成熟,但在科技专利等垂直领域可以取得突破。
skype翻译
在翻译上,商鹊网主要为垂直领域(专利、跨境电商和境外投资等)提供机器翻译引擎产品,应用在译后编辑工作模式中;并以译后编辑(通过少量人工修改以完善机器的翻译)平台提供人机交互翻译服务。
此外,商鹊网还有在线术语管理平台“语帆术语宝”和开放词典网站“一本词典”等产品,并为客户提供技术服务,如语料对齐工具。
商鹊网告诉雷锋网(搜索“雷锋网”公众号关注),其核心技术在以下几个方面:
完整的机器翻译技术,覆盖了自然语言处理技术的各个层面(词法、句法、语义),主要组成部分(分词、术语提取、句法分析、语言模型、语义分析等)和主要技术方案(基于统计、基于实例、深度神经网络等)
人机交互翻译技术,目前应用的是适合行业用户水平的译后编辑技术;
术语提取技术和术语管理系统,这是实现知识图谱和智能知识管理的基础;
完整的数据采集、加工和应用工具、流程及系统。
虽然工厂、写作及翻译上的自动化水平越来越高,但机器翻译还远未达到成熟水平(用过Google和有道翻译的应该有同感)。让机器学会翻译不是件容易的事,语言有很大的复杂性,一些用词与表达往往有多种含义,再加上语序的变化,想想也是为难机器人,毕竟人类之间也经常发生误解。
相比之下人机交互翻译更成熟也更实用。而且通过反馈的方式,可以提高系统的智能化水平。这也是商鹊网使用人机交互翻译,并专注特定领域的原因。
这种方式也让人想到Facebook的人工智能服务“M”。M能提供订餐这样的连续对话服务,这是因为它有被称为“训练员”的人工辅助,遇到无法处理的信息时会由教练处理。这样人工智能可以辅助人工后台,反过来人工后台会训练人工智能。
商鹊网表示,在对自然语言处理最为重要的语料数据上也有持续的积累。在专利等领域,它们已经有了大规模双语语料和双语术语库。2013年启动的人工译后编辑项目,也为其积累了大量人工反馈和行为数据。对比Google在专利领域的翻译,商鹊网认为,虽然Google在句式表达上占优,但自己在术语准确度上有优势,因为每年有超过2亿字的人机专利翻译业务,这对提高翻译引擎的准确度十分重要。
无论是图像识别还是自然语言处理,数据集对人工智能至关重要,反馈越多,系统迭代也越快,准确性也越高。
对于当红的深度学习技术,商鹊网也在将较为成熟的技术如WordEmbedding等应用于技术研发中,并在克服翻译效果、时空性能和用户体验之间的平衡等问题,在垂直领域取得突破。或许再过不久,机器就不再需要人类协助翻译了吧。