機器能跟人類交流嗎?能像人類一樣理解文本嗎?這是人類對人工智能最初的幻想。除了大家比較熟悉的感知智能(如圖像識別、語音識別)、行動智能(如機器人)外,語言智能(如自然語言處理)也是人工智能的核心領域之一。
(“圖靈測試”被公認為測試計算機是否具有智能的實驗,在這個實驗中,人和計算機的問答都是通過自然語言進行)
“理解自然語言”到目前為止還只是人類獨有的特權,因此如果語言智能實現(xiàn)突破,將會推動整個人工智能體系的進步。
其中,指代理解(Coreference Resolution)又是語言智能的核心問題之一。
指代理解是機器理解自然語言的關鍵
一篇文章在進行過程中需要描述不同實體間的關系,實體串聯(lián)起了文章各個句子的核心線索,因此做好指代理解是理解多句話和一篇文章的重點,也是更好地構造智能對話系統(tǒng)的基礎——機器才能理解《詩經(jīng)》中的“君子”從一見鐘情到蠢蠢欲動到日思夜想的感情線索,你的Siri也才有可能不止于跟你一問一答地單句聊天,而是更好地懂你。
比如,想要理解《詩經(jīng)·關雎》的這些語言描述了什么場景、傳遞了什么情感,首先要理解各個“之”指的是什么。在上圖中,同種顏色標注的詞語指向同一個實體,指代理解就是要讓機器明白紅色的“之”不是指“雎鳩”“君子”“參差荇菜”“左右”等其它對象或文本,而就是“窈窕淑女”;藍色的“之”不是指“在河之洲”“君子”“窈窕淑女”等,而就是“參差荇菜”。
要是指代理解不給力,機器認為君子日思夜想的是關關和鳴的雎鳩,那故事的延續(xù)豈不就成了風流君子奏起琴瑟、敲起鐘鼓來取悅那對雎鳩?指代理解問題的探索突破則可以使得機器對不同事物間的指代關系有更加明確的理解。
依圖提出全新數(shù)據(jù)集探索指代理解問題
自然語言處理領域頂級會議 EMNLP 2018 不久前(10月31日-11月4日)在比利時布魯塞爾落下帷幕,依圖論文 PreCo: A Large-scale Dataset in Preschool Vocabulary for Coreference Resolution 被錄用為Oral文章。在論文中,依圖提出了一個全新數(shù)據(jù)集 PreCo,用于探索計算機語言學的核心問題之一——指代理解,并宣布對外開放該數(shù)據(jù)集。
相較于現(xiàn)有數(shù)據(jù)集,PreCo 更能體現(xiàn)實體表示等指代理解涉及的核心困難。其數(shù)據(jù)規(guī)模約為目前常用指代理解數(shù)據(jù)集 OntoNotes 的 10 倍,并標注出了所有無指代關聯(lián)的名詞短語。
(依圖在 EMNLP 2018)
其實在 PreCo 之前,依圖已經(jīng)耕耘自然語言處理領域多年,并將技術應用于智能醫(yī)療輔助診斷等方面。如今開放全新數(shù)據(jù)集 PreCo 則是希望能夠幫助更多研究者可以接觸和使用開源的數(shù)據(jù)集進行開發(fā),切實提升算法優(yōu)化的驗證效率,共同探索 AI 領域最有價值的技術問題。
探索的動機源于對智慧無限的好奇,對依圖來說,PreCo 正是這種好奇推動下在自然語言處理領域的成果。愿與你分享這一份好奇。
您可以復制這個鏈接分享給其他人:http://www.hengtetube.com/node/685