当前位置:主页 > 名家专栏 > 专栏

关注AI丨微软首创中对英机器翻译

时间:2018-04-08来源:科印网作者:那福忠
        随着 AI 的发展海德堡,语言的翻译也越来越成熟,口语的翻译多不是问题,但不同语系的文字的翻译,尤其像中文翻译成英文,多年来一直是一大挑战。微软致力这一领域的研究有年收纸,以先进的神经网络深层机器学习,日前宣布了简体中文自动翻译英文的系统,并在网络开放 250 字的实验。我知道了以后,就迫不急待的用了两段文字试验。

        下面是第一段中翻英的对照结果。文稿是去年初写给北京《数字印刷》杂志最后一篇告别文稿的第一段。

        对我这样年纪的人来说,时间过得越来越快RFID,不知不觉已经在《数字印刷》写七年了。每篇虽然仅有一页,莫不尽力简述国外的技术与市场概念。出版与印刷是文化的延伸,国外的营运方式未必适用国内的环境,但如果能带给国内业界朋友对照参考,任务就算有所交代了。

        For people my age字库, time is getting faster and quicker, unknowingly has been in the “digital printing” written for seven years. Each article, although only one page,does not try to describe the foreign technology and market concepts. Publishing and printing is the extension of culture, foreign operations may not be applicable to the domestic environment喷墨, but if you can bring to the domestic industry friend reference, the task even if there is an account.
CTF
        上一段翻译的还算得体,但有一个瑕疵,就是中文的“莫不”两个反意字的正面意思,翻译成 “does not” 一个反意字网络出版,意思正好相反。最后一句“任务就算有所交代了”,翻译的也很些勉强。

        我选用这一段话的用意,在语句略带感性,而微软系统是以新闻类叙述语句为基础,所以试验中出现状况并不意外。下面一段也是我以前在同一刊物写的文稿胶印,是直接的叙述,类似新闻语句,翻译的就比第一段通顺。

        纸本书复苏 的另一原因,是电子书售价的提高,电子书与纸本书同样价格喷墨印刷,读者就自然舍电子而取纸本了。去年出版社与亚马逊协商的结果,电子书可以由出版社自行定价,为了推销纸本书故意抬高电子书价格,使纸本书的销售增加。亚马逊更进一步,把一些大众化的纸本书大幅降价UV印刷,低于电子书,致2015前五个月平装纸本书的销售,增加了8.4%。

        Another reason for the revival of the paper book is the increase in the price of E-books, the same prices for e-books and paper books. Last year, publishers and Amazon negotiated the results书刊印刷, E-books can be priced by the publishers themselves, in order to promote the paper book deliberately raise the price of e-books, so that the sales of paper books increased. Amazon went a step further by slashing some popular paper prices below E-books, adding 8.4% to the sales of paperback books for the first five months of 2015.
印后设备
        这一系统的研发,是从网络报纸撷取 2000 句语句作为样本按需印刷,经反复系统测试,把翻译出来的结果与人翻译的结果比较,同时也邀请双语专家核对翻译的结果,所以新闻性的叙述文稿,目前应能通顺的翻译。公布的研究报告说供水/润版,翻译出错的机率平均在 5%,不正确用词、不正确文法、缺字、名称混淆,是四种主要出错的地方,所以系统仍有改善的空间。

        AI 用在很多地方都超越人的智慧或能力,但说机器翻译的比人更好印刷适性,在逻辑上有些说不通,如果翻译的与人同样的好,所谓 Human Parity,就应是达到目标,所以翻译的好与不好还是由人来评定。微软为此聘用了中英双语专家作裁判糊盒,把翻译的结果与原文在语意上比较,打一个分数,然后把这些分数统计处理,把在统计上没有显著差异的,认为是跟人的翻译相等。但专家与专家不同网印,打分数就像批改作文,所以同样程序重复多次,减少人为的偏差。

        中文计算机的发展,几十年一路走来,从输入法的百家争鸣烟草包装,到单笔字型在计算机画面显示、在印字机印出,发展到多种精美印刷字体,改变了出版与印刷的生态。计算机进一步辨识字型、辨识语音,减少人力打字输入,畅通人与计算机互动包装安全,中文计算机处理遂进入新的境界。但中文计算机处理的最高境界,语意辨识,懂得一个词汇、一句话的内涵意思,形同文化与技术的复杂结合,最为困难印刷市场,而微软的中对英的机器翻译,却克服了这一困难。
胶印
        微软的中对英机器翻译系统,是微软的 AI 研究中心,特别是结合亚洲研究中心的一群中国专家,共同研发的成果。微软技术院士黄学东说金融危机,虽然此次突破意义非凡,但研究人员也提醒大家,这并不代表人类已经完全解决了机器翻译的问题,只能说明我们离终极目标又更近了一步。话虽如此,这仍是了不起的成就油墨,意义深远自不待言。

那福忠专栏

总访问量:57256 更新时间:2018-04-08 16:47:58

主要经历:出生于中国东北,随父母赴台湾,大学毕业留学美国学习信息技术,任职美国化学文摘服务中心十余年,担任化学数据处理与全球早期电脑排版技术工作;其间返台任行政院主计处电子数据处理中心顾问一年;受聘台湾联合报,主持电脑报纸编排计划,完成全球首创中文报纸电脑编排系统,淘汰铅字使用,运作模式逐渐普及报纸等刊物,获台湾经济部“杰出信息人才”奖;后于联合报继续钻研电子出版技术,新闻稿件、广告远程传版、管理信息,使联合报出版作业进入完全自动化。服务联合报其间,提供业界出版技术与市场趋势,分析出版由印刷转向网络发展趋势,撰文演讲协助业界转型。同期,任台湾交通大学资讯工程系兼任副教授十余年,连续五年获聘为全球最大新闻网站竞赛EPpy Awards评审委员,五次协助北大方正主办高水平电子出版研讨会。服务联合报二十五年后,2005年退休,仍继续撰写文稿,刊载于两岸数字出版专业网站与期刊,提供业界前瞻性数字出版信息。

专栏分类
推荐专栏
推荐阅读
人物访谈