由微軟亞洲研究院與雷德蒙研究院研究人員組成的團(tuán)隊(duì)前不久宣布,其研發(fā)的機(jī)器翻譯系統(tǒng)在通用新聞報(bào)道測(cè)試集newstest2017的中—英測(cè)試集上,達(dá)到了可與人工翻譯媲美的水平。
newstest2017新聞報(bào)道測(cè)試集于2017年秋天在WMT17大會(huì)上發(fā)布。為確保翻譯結(jié)果準(zhǔn)確且達(dá)到人類翻譯水平,微軟研究團(tuán)隊(duì)邀請(qǐng)了雙語語言顧問將微軟的翻譯結(jié)果與兩個(gè)獨(dú)立的人工翻譯結(jié)果進(jìn)行了比較評(píng)估。
微軟技術(shù)院士黃學(xué)東稱,這是對(duì)自然語言處理領(lǐng)域一項(xiàng)最具挑戰(zhàn)性任務(wù)的重大突破?!白寵C(jī)器翻譯達(dá)到與人類相同的水平是所有人的夢(mèng)想,我們沒有想到這么快就能實(shí)現(xiàn)。”他表示:“為了消除語言障礙,幫助人們更好地溝通,我們值得為此付出不懈努力?!?
機(jī)器翻譯是科研人員攻堅(jiān)數(shù)十年的研究領(lǐng)域,曾經(jīng)很多人都認(rèn)為,機(jī)器翻譯不可能達(dá)到人類翻譯的水平。雖然此次突破意義非凡,但研究人員也提醒大家,這并不代表人類已經(jīng)完全解決了機(jī)器翻譯的問題,只能說明我們離終極目標(biāo)更近了一步。微軟亞洲研究院副院長、自然語言計(jì)算組負(fù)責(zé)人周明表示,在WMT17測(cè)試集上的翻譯結(jié)果達(dá)到人類水平很鼓舞人心,但仍存在很多挑戰(zhàn),比如在實(shí)時(shí)的新聞報(bào)道上進(jìn)行測(cè)試等。
據(jù)悉,newstest2017新聞報(bào)道測(cè)試集包括約2000個(gè)句子,由專業(yè)人員從在線報(bào)紙樣本翻譯而來。微軟團(tuán)隊(duì)對(duì)測(cè)試集進(jìn)行了多輪評(píng)估,每次評(píng)估會(huì)隨機(jī)挑選數(shù)百個(gè)句子翻譯。然而,機(jī)器翻譯不同于普通人工智能任務(wù)。因?yàn)楸磉_(dá)同一個(gè)句子的“正確”方法不只一種,即使是兩位專業(yè)的翻譯人員對(duì)于完全相同的句子也會(huì)在翻譯中略有不同。周明表示:“這也是為什么機(jī)器翻譯比純粹的模式識(shí)別任務(wù)復(fù)雜得多,人們可能用不同的詞語來表達(dá)完全相同的意思,但未必能準(zhǔn)確判斷哪一個(gè)更好。”
復(fù)雜性讓機(jī)器翻譯成為一個(gè)極有挑戰(zhàn)性的任務(wù)。微軟亞洲研究院副院長、機(jī)器學(xué)習(xí)組負(fù)責(zé)人劉鐵巖認(rèn)為,我們不知道哪一天機(jī)器翻譯系統(tǒng)才能在翻譯任何語言、任何類型的文本時(shí),都能在“信、達(dá)、雅”等多個(gè)維度上達(dá)到專業(yè)翻譯人員的水準(zhǔn)。不過,他對(duì)技術(shù)的進(jìn)展表示樂觀,因?yàn)槊磕晡④浀难芯繄F(tuán)隊(duì)以及整個(gè)學(xué)術(shù)界都會(huì)發(fā)明大量的新技術(shù)、新模型和新算法,“我們可以預(yù)測(cè)的是,新技術(shù)的應(yīng)用一定會(huì)讓機(jī)器翻譯的結(jié)果日臻完善”。
研究團(tuán)隊(duì)還表示,此次技術(shù)突破將被應(yīng)用到微軟的商用多語言翻譯系統(tǒng)產(chǎn)品中,還可以被應(yīng)用到機(jī)器翻譯之外的其他領(lǐng)域,催生更多人工智能技術(shù)和應(yīng)用的突破。