狠狠久久久,精品亚洲网站,久久久亚洲精,亚洲福利精品

<small id="xatq6"></small>

<small id="xatq6"><kbd id="xatq6"><cite id="xatq6"></cite></kbd></small>

<rp id="xatq6"></rp>

錯誤信息

Deprecated function: Array and string offset access syntax with curly braces is deprecated in include_once() (line 20 of /home/webadmin/yitu0930/includes/file.phar.inc).

將中文語音識別率提升至96.29%, 依圖科技跨領(lǐng)域推出語音開放平臺

2018-12-11

計(jì)算機(jī)視覺（CV)是AI領(lǐng)域一大吸金賽道，也由此產(chǎn)生了商湯、云從、依圖、曠視這樣的“圖像四小龍”。而這四小龍之一的「依圖科技」卻率先拓寬邊界，踏入語音和自然語言處理（NLP)行業(yè)。

12月11日，依圖發(fā)布了依圖短語音聽寫API、和微軟Azure推出依圖語音開放平臺。

其實(shí)早在2016年，當(dāng)計(jì)算機(jī)視覺公司剛開始吸引投資人注意時，語音識別就開始規(guī)?；瘓鼍奥涞亍，F(xiàn)如今，百度、騰訊、京東、小米紛紛發(fā)布智能音箱，各種手機(jī)搭載語音交互，智能翻譯工具、智能客服等語音類產(chǎn)品層出不窮。

那么，相比同類產(chǎn)品，依圖語音技術(shù)的比較優(yōu)勢和市場空間會在哪里？在未來產(chǎn)品化落地上，依圖會有怎樣的規(guī)劃？圍繞這些問題，36氪獨(dú)家專訪了依圖科技首席創(chuàng)新官，前Google Research Scientist呂昊博士。

36氪首發(fā) | 將中文語音識別率提升至96.29%, 依圖科技跨領(lǐng)域推出語音開放平臺

依圖科技首席創(chuàng)新官呂昊博士

確實(shí)，這個時間點(diǎn)進(jìn)入語音行業(yè)挑戰(zhàn)重重，一則先發(fā)優(yōu)勢不再，二則市場擁擠，科大訊飛、BAT大廠紛紛入局，從技術(shù)上升到平臺生態(tài)，市場空間看似余地不多。

對此，呂昊表示：依圖團(tuán)隊(duì)對國內(nèi)現(xiàn)有的語音識別技術(shù)都做了調(diào)研，發(fā)現(xiàn)在不少場景下，語音識別效果并不理想，例如通話過程中的聲音轉(zhuǎn)寫準(zhǔn)確率低、遠(yuǎn)距離的聲音采集識別效果差、語料數(shù)據(jù)積累不足等。因此，依圖會從這些可優(yōu)化空間入手，對模型算法進(jìn)行打磨，提升識別率，降低字錯率。

在語音識別領(lǐng)域，15%的字錯率是一條紅線，超過則基本不具備可讀性，而低于3%則是可以被認(rèn)為具備類人的語音識別能力。然而，在實(shí)際說話過程中，人的語速、語氣、口音、語態(tài)等都會影響識別準(zhǔn)確度。此外，不同于英文，中文復(fù)雜的語言元素，以及同音不同意等問題為語音識別帶來了更大的挑戰(zhàn)。那么依圖如何應(yīng)對呢？

呂昊告訴36氪：當(dāng)前業(yè)內(nèi)缺乏系統(tǒng)性的標(biāo)準(zhǔn)測試和測試集，對于語音識別缺乏體驗(yàn)和比較的工具，為提升識別準(zhǔn)確率，依圖團(tuán)隊(duì)搜集了大量真實(shí)對話數(shù)據(jù)，以及專業(yè)類、生活類的細(xì)分語料庫，基于此，依圖提出了自己多維度、多場景的測試數(shù)據(jù)集，由此來對模型算法進(jìn)行訓(xùn)練和測試。

據(jù)悉，在基于全球最大中文開源數(shù)據(jù)庫的AISHELL-2的測試中，依圖短語音聽寫的字錯率為3.71%，官方稱領(lǐng)先原業(yè)內(nèi)領(lǐng)先者科大訊飛約20%。在若干近場、混響、噪聲等公開測試集上，依圖平均字錯率 6.39%，領(lǐng)先訊飛 11%。加入電話、口音、語音節(jié)目、遠(yuǎn)場演講等依圖內(nèi)部暫無法公開的測試集后（全部測試集共 50小時、60萬漢字），依圖平均字錯率 8.27%，訊飛是9.30%，依圖仍然領(lǐng)先訊飛 11% 左右。

36氪首發(fā) | 將中文語音識別率提升至96.29%, 依圖科技跨領(lǐng)域推出語音開放平臺

基于不同數(shù)據(jù)測試集上，依圖語音識別技術(shù)的準(zhǔn)確率表現(xiàn)

其實(shí)，如果想實(shí)現(xiàn)真正意義上的語音交互，語音只是一部分，更重要的則是對語義的理解。如果我們把語音技術(shù)比作人的嘴巴和耳朵，用于表達(dá)和獲取；那么語義理解則是人的大腦，能夠幫助信息處理和解析。在語義理解方面，依圖同樣在進(jìn)行技術(shù)積累。

呂昊表示：雖然此次是從語音切入，但是團(tuán)隊(duì)一直是語音、語義兩線并行。2017年時，依圖就曾將自然語言處理（NLP)技術(shù)用于AI+醫(yī)療解決方案，結(jié)合自建的臨床中文知識圖譜，對醫(yī)學(xué)文本等多模態(tài)數(shù)據(jù)進(jìn)行解析和信息提取。今年，依圖的論文更入選NLP頂會EMNLP 2018，針對計(jì)算機(jī)語言學(xué)核心問題之一的指代理解提出全新數(shù)據(jù)集PreCo并對外開放。

此前，在視覺領(lǐng)域，依圖已經(jīng)在智慧城市、醫(yī)療、金融、零售等領(lǐng)域有了產(chǎn)品化、商業(yè)化積累。對于是否會將語音技術(shù)遷移于這些領(lǐng)域，呂昊回應(yīng)：這一階段仍舊以技術(shù)積累為主，依圖在開放平臺上提供了自有的API和模型算法，一方面可以經(jīng)由市場驗(yàn)證算法質(zhì)量，另一方面可以由此接近不同行業(yè)和場景。

據(jù)官方信息，依圖與微軟聯(lián)合發(fā)布的語音開放平臺基于Azure Cloud，將依圖的語音識別技術(shù)能力開放給廣泛第三方應(yīng)用開發(fā)者使用。

在未來，依圖計(jì)劃陸續(xù)開放長語音轉(zhuǎn)寫API、實(shí)時語音轉(zhuǎn)寫API等。正如呂昊所說：希望為第三方應(yīng)用開發(fā)者在語音領(lǐng)域提供多一個語音技術(shù)選擇。

筆者認(rèn)為：結(jié)合自有的CV技術(shù)積累，依圖或許可在多模態(tài)情感識別和計(jì)算領(lǐng)域發(fā)力，融合視覺、語音等多重?cái)?shù)據(jù)，全方位提升機(jī)器的感知能力。在商業(yè)化層面，雖然當(dāng)下的依圖語音技術(shù)開放平臺仍舊以技術(shù)積累為重心，但依托CV積累的的B端用戶，為企業(yè)級客戶提供語音解決方案只是時間早晚問題。

————

您可以復(fù)制這個鏈接分享給其他人：http://www.hengtetube.com/node/414

相關(guān)推薦

上海：上海市徐匯區(qū)云錦路701號西岸國際人工智能中心21層
總機(jī)：021 - 52559588
福州：福州軟件園F區(qū)2號樓11層

北京：北京朝陽區(qū)西壩河南路1號金泰大廈27層

深圳：深圳市福田區(qū)深圳新一代產(chǎn)業(yè)園3棟15層

杭州：杭州市西湖區(qū)紫霞街176號杭州互聯(lián)網(wǎng)創(chuàng)新創(chuàng)業(yè)園4號樓7層

成都：成都市武興四路 166 號西部智谷D區(qū)3棟2層

業(yè)務(wù)咨詢

合作伙伴

歡迎更多的合作伙伴與依圖科技攜手同行

一起探索人工智能的廣闊未來

加入我們留言咨詢

若您已經(jīng)是依圖合作伙伴，請登錄合作伙伴門戶

留言咨詢

Sorry, you need to enable JavaScript to visit this website.

石河子市| 修水县| 晋江市| 阿克苏市| 桐梓县| 威宁| 晴隆县| 珲春市| 江阴市| 含山县| 桑植县| 大同市| 永新县| 巨鹿县| 临颍县| 张家川| 东兰县| 应用必备| 瑞昌市| 商南县| 锦屏县| 平原县| 清涧县| 日土县| 江北区| 金沙县| 新密市| 南乐县| 泽州县| 阜阳市| 阿克陶县| 特克斯县| 无棣县| 错那县| 钟山县| 遂平县| 云霄县| 闻喜县| 蓬安县| 金坛市| 雅江县|

<noscript id="re8so"></noscript>

<source id="re8so"><ins id="re8so"></ins></source>

<small id="re8so"><dl id="re8so"></dl></small>

<track id="re8so"><dl id="re8so"><delect id="re8so"></delect></dl></track>

<track id="re8so"></track><rp id="re8so"></rp>