北京時間8月5日,國際頂級學術會議ACL 2021正式頒發“最佳論文”獎項,字節跳動AI Lab的機器翻譯技術論文在3350篇論文投稿中脫穎而出,當選今年度“最佳論文”。這是ACL成立59年以來,華人科學家團隊第二次贏得最高獎項,此前由中科院計算所主導的研究項目曾被評為ACL 2019“最佳長論文”。
ACL大會由國際計算語言學協會主辦,是自然語言處理與計算語言學領域最高級別的學術會議。自然語言處理被譽為“人工智能皇冠上的明珠”,在機器翻譯、搜索、信息流、輸入法等領域有著廣泛的應用。
近年來ACL大會接收的投稿量持續上升,華人團隊在該領域研究取得了舉世矚目的成績,過去數年間曾獲得“最佳長論文”、“最佳學生論文”和“杰出論文”獎項。今年除了字節跳動贏得最高榮譽,大會還評出了六篇“杰出論文”,香港中文大學與騰訊AI Lab的合作論文成功入選。
字節跳動的獲獎論文提出一種新的詞表學習方案VOLT。詞表是所有自然語言處理任務都會使用的基礎組件,其作用就像人類查字典的索引。研究人員創新地把經濟學和數學的知識運用到詞表中:首先用“邊際收益”定義了詞表質量的評價指標,然后以“最優運輸”的數學方法解決最優詞表的生成問題,從而在多種翻譯任務上取得出色的效果。VOLT研究項目現已向全球開發者開源。
ACL官方評審認為,“字節跳動的VOLT方案對機器翻譯中一個重要問題提出了有效且新穎的解決方案,能顯著減少詞表的學習和搜索時間,相信其不僅會在研究界產生重要影響,在工業應用方面也有著巨大潛力”。
據悉,最佳論文研究成果將在字節跳動的火山翻譯業務中逐步落地,為飛書、今日頭條等產品和火山引擎的企業級客戶提供機器翻譯支持。2021年以來,火山翻譯實現多項重要技術突破,研發出支持150個語種互譯的大規模翻譯模型mRASP2,并對外開源了當前業界最快的推理和訓練引擎LightSeq2.0,以及端到端語音翻譯工具包NeurST,獲得開源社區的廣泛好評。
在此前由ACL舉辦的機器翻譯大賽WMT2021上,火山翻譯以獨創的“并行翻譯”系統參賽,奪得德語到英語方向比賽自動評估第一名。“并行翻譯”在國際賽事中首次亮相,就擊敗了從左向右逐詞翻譯的傳統技術,打破后者在機器翻譯領域的絕對統治地位,這項技術的論文也得到ACL 2021大會收錄。(李記)