12月11日,依圖發(fā)布了依圖短語音聽寫API、和微軟Azure推出依圖語音開放平臺。
其實(shí)早在2016年,當(dāng)計(jì)算機(jī)視覺公司剛開始吸引投資人注意時,語音識別就開始規(guī)?;瘓鼍奥涞亍,F(xiàn)如今,百度、騰訊、京東、小米紛紛發(fā)布智能音箱,各種手機(jī)搭載語音交互,智能翻譯工具、智能客服等語音類產(chǎn)品層出不窮。
那么,相比同類產(chǎn)品,依圖語音技術(shù)的比較優(yōu)勢和市場空間會在哪里?在未來產(chǎn)品化落地上,依圖會有怎樣的規(guī)劃?圍繞這些問題,36氪獨(dú)家專訪了依圖科技首席創(chuàng)新官,前Google Research Scientist呂昊博士。
依圖科技首席創(chuàng)新官呂昊博士
確實(shí),這個時間點(diǎn)進(jìn)入語音行業(yè)挑戰(zhàn)重重,一則先發(fā)優(yōu)勢不再,二則市場擁擠,科大訊飛、BAT大廠紛紛入局,從技術(shù)上升到平臺生態(tài),市場空間看似余地不多。
對此,呂昊表示:依圖團(tuán)隊(duì)對國內(nèi)現(xiàn)有的語音識別技術(shù)都做了調(diào)研,發(fā)現(xiàn)在不少場景下,語音識別效果并不理想,例如通話過程中的聲音轉(zhuǎn)寫準(zhǔn)確率低、遠(yuǎn)距離的聲音采集識別效果差、語料數(shù)據(jù)積累不足等。因此,依圖會從這些可優(yōu)化空間入手,對模型算法進(jìn)行打磨,提升識別率,降低字錯率。
在語音識別領(lǐng)域,15%的字錯率是一條紅線,超過則基本不具備可讀性,而低于3%則是可以被認(rèn)為具備類人的語音識別能力。然而,在實(shí)際說話過程中,人的語速、語氣、口音、語態(tài)等都會影響識別準(zhǔn)確度。此外,不同于英文,中文復(fù)雜的語言元素,以及同音不同意等問題為語音識別帶來了更大的挑戰(zhàn)。那么依圖如何應(yīng)對呢?
呂昊告訴36氪:當(dāng)前業(yè)內(nèi)缺乏系統(tǒng)性的標(biāo)準(zhǔn)測試和測試集,對于語音識別缺乏體驗(yàn)和比較的工具,為提升識別準(zhǔn)確率,依圖團(tuán)隊(duì)搜集了大量真實(shí)對話數(shù)據(jù),以及專業(yè)類、生活類的細(xì)分語料庫,基于此,依圖提出了自己多維度、多場景的測試數(shù)據(jù)集,由此來對模型算法進(jìn)行訓(xùn)練和測試。
據(jù)悉,在基于全球最大中文開源數(shù)據(jù)庫的AISHELL-2的測試中,依圖短語音聽寫的字錯率為3.71%,官方稱領(lǐng)先原業(yè)內(nèi)領(lǐng)先者科大訊飛約20%。在若干近場、混響、噪聲等公開測試集上,依圖平均字錯率 6.39%,領(lǐng)先訊飛 11%。加入電話、口音、語音節(jié)目、遠(yuǎn)場演講等依圖內(nèi)部暫無法公開的測試集后(全部測試集共 50小時、60萬漢字),依圖平均字錯率 8.27%,訊飛是9.30%,依圖仍然領(lǐng)先訊飛 11% 左右。
基于不同數(shù)據(jù)測試集上,依圖語音識別技術(shù)的準(zhǔn)確率表現(xiàn)
其實(shí),如果想實(shí)現(xiàn)真正意義上的語音交互,語音只是一部分,更重要的則是對語義的理解。如果我們把語音技術(shù)比作人的嘴巴和耳朵,用于表達(dá)和獲取;那么語義理解則是人的大腦,能夠幫助信息處理和解析。在語義理解方面,依圖同樣在進(jìn)行技術(shù)積累。
呂昊表示:雖然此次是從語音切入,但是團(tuán)隊(duì)一直是語音、語義兩線并行。2017年時,依圖就曾將自然語言處理(NLP)技術(shù)用于AI+醫(yī)療解決方案,結(jié)合自建的臨床中文知識圖譜,對醫(yī)學(xué)文本等多模態(tài)數(shù)據(jù)進(jìn)行解析和信息提取。今年,依圖的論文更入選NLP頂會EMNLP 2018,針對計(jì)算機(jī)語言學(xué)核心問題之一的指代理解提出全新數(shù)據(jù)集PreCo并對外開放。
此前,在視覺領(lǐng)域,依圖已經(jīng)在智慧城市、醫(yī)療、金融、零售等領(lǐng)域有了產(chǎn)品化、商業(yè)化積累。對于是否會將語音技術(shù)遷移于這些領(lǐng)域,呂昊回應(yīng):這一階段仍舊以技術(shù)積累為主,依圖在開放平臺上提供了自有的API和模型算法,一方面可以經(jīng)由市場驗(yàn)證算法質(zhì)量,另一方面可以由此接近不同行業(yè)和場景。
據(jù)官方信息,依圖與微軟聯(lián)合發(fā)布的語音開放平臺基于Azure Cloud,將依圖的語音識別技術(shù)能力開放給廣泛第三方應(yīng)用開發(fā)者使用。
在未來,依圖計(jì)劃陸續(xù)開放長語音轉(zhuǎn)寫API、實(shí)時語音轉(zhuǎn)寫API等。正如呂昊所說:希望為第三方應(yīng)用開發(fā)者在語音領(lǐng)域提供多一個語音技術(shù)選擇。
筆者認(rèn)為:結(jié)合自有的CV技術(shù)積累,依圖或許可在多模態(tài)情感識別和計(jì)算領(lǐng)域發(fā)力,融合視覺、語音等多重?cái)?shù)據(jù),全方位提升機(jī)器的感知能力。在商業(yè)化層面,雖然當(dāng)下的依圖語音技術(shù)開放平臺仍舊以技術(shù)積累為重心,但依托CV積累的的B端用戶,為企業(yè)級客戶提供語音解決方案只是時間早晚問題。
————
您可以復(fù)制這個鏈接分享給其他人:http://www.hengtetube.com/node/414