我是Leo,依圖科技聯(lián)合創(chuàng)始人,UCLA統(tǒng)計(jì)學(xué)博士,從事人工智能研究15年,曾在深度學(xué)習(xí)奠基者Yann LeCun教授實(shí)驗(yàn)室擔(dān)任研究員,2010年獲得PASCAL圖像目標(biāo)檢測(cè)比賽冠軍,2017年獲得美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院NIST和美國(guó)國(guó)家情報(bào)高級(jí)研究計(jì)劃局IARPA人臉識(shí)別全球冠軍。
最近,大量關(guān)于人工智能的研究報(bào)告,投資人、創(chuàng)業(yè)者、學(xué)者熱議AI的趨勢(shì)和對(duì)社會(huì)各行業(yè)的影響,不乏對(duì)AI技術(shù)和產(chǎn)業(yè)發(fā)展的誤解,很容易有誤導(dǎo)性。宏觀上,議題大體分為三個(gè)方面:AI是多大的事?誰是真正的AI player?AI的場(chǎng)景在哪里?
從科學(xué)研究者和創(chuàng)業(yè)者的雙視角談?wù)勎业闹饕^點(diǎn):AI的邊界,只有領(lǐng)軍人物才可能準(zhǔn)確把握和拓展;頂尖企業(yè),因?yàn)檫h(yuǎn)見造就勢(shì)能;AI的未來,無與倫比,沒有歷史可以借鑒,也沒有權(quán)威可以預(yù)測(cè)。
“S”曲線看AI格局
我對(duì)AI發(fā)展歷史和預(yù)測(cè),用上圖的”S”形曲線建模(Sigmoid函數(shù),恰好也是用來刻畫神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的activation function)。橫軸表示時(shí)間,縱軸表示機(jī)器智能水平。曲線上的點(diǎn)表示某個(gè)時(shí)間點(diǎn)的全球最高智能水平。2013年開始是新AI時(shí)代(深度學(xué)習(xí)),2013年前的機(jī)器智能發(fā)展水平相較于近5年的發(fā)展基本可以忽略不計(jì)。紅線代表悲觀派(AI退潮、AI泡沫等),2017年之后很快出現(xiàn)發(fā)展停頓;藍(lán)線代表樂觀派,2017年之后還有快速發(fā)展。值得強(qiáng)調(diào)的是,藍(lán)紅兩條曲線對(duì)AI歷史有相同認(rèn)識(shí),但市場(chǎng)上很多論調(diào)或研究報(bào)告看到的是另一條曲線,很大概率調(diào)研看到的AI水平離最高水平有很大差距。分析AI格局的不同立場(chǎng),可以通過解讀S曲線的三個(gè)方面:
1、AI過去的發(fā)展以及AI未來發(fā)展程度和速率的預(yù)測(cè)
2、AI發(fā)展水平和商業(yè)場(chǎng)景的關(guān)系
3、各個(gè)player的所在位置和差距
具體來說,我們先從AI過去5年的發(fā)展情況談起,以人臉識(shí)別作為例子,把人臉從N個(gè)人中找到的概率在95%,縱軸就是可識(shí)別的規(guī)模(N的大?。?/p>
技術(shù)不是趨同,而是會(huì)放大差距、解鎖場(chǎng)景
2017年人臉識(shí)別最高水平可識(shí)別規(guī)模在20億人,大概比2016年可識(shí)別千萬提高兩百倍,比2015年提高了數(shù)萬倍。在2017年全球最權(quán)威的人臉識(shí)別測(cè)試中(NIST),我們比第二名Vocord團(tuán)隊(duì),在千萬比對(duì)測(cè)試上領(lǐng)先2%(Vocord在另一測(cè)試集比騰訊優(yōu)圖高10%),這個(gè)就是大家常說的技術(shù)水平趨同,高一兩個(gè)百分點(diǎn)沒有意義(引申出難兌現(xiàn)成競(jìng)爭(zhēng)價(jià)值)。這個(gè)誤區(qū)需要從兩個(gè)方面解讀:
第一方面,算法在億級(jí)、十億級(jí)比對(duì)的領(lǐng)先會(huì)快速放大到5%,20%。這是一般的算法性能曲線的規(guī)律。除了可識(shí)別規(guī)模上的重大差異,還體現(xiàn)在難(hard)的數(shù)據(jù)上的識(shí)別率差異。從算法經(jīng)驗(yàn)來說,黑人、女性、小孩、大年齡跨度、遮擋等是較難識(shí)別的群體和類別。在這些子類上,不同算法之間的性能差異會(huì)更大。
超大規(guī)模下的評(píng)測(cè)本身就是一個(gè)不簡(jiǎn)單的學(xué)術(shù)命題,還需要大量的數(shù)據(jù)支撐,真正能觀測(cè)到20億數(shù)據(jù)下性能的人少之又少,例如美國(guó)很難建立20億級(jí)的測(cè)試集。這不是訪談一些人臉識(shí)別研究從業(yè)者就能獲得,這是誤區(qū)的第一個(gè)來源。
第二方面,算法提高,擴(kuò)大可識(shí)別規(guī)模,就會(huì)解鎖更多商業(yè)應(yīng)用場(chǎng)景。百萬、千萬識(shí)別規(guī)模對(duì)應(yīng)的是身份認(rèn)證場(chǎng)景,遠(yuǎn)程認(rèn)證、手機(jī)解鎖都屬于此類。“技術(shù)無差異”的論調(diào)在這個(gè)場(chǎng)景下倒是可以成立。但在對(duì)億級(jí)和十億比對(duì)有剛性需求的場(chǎng)景下,幾乎就是行與不行的問題。“非關(guān)鍵性應(yīng)用”的論斷誤導(dǎo)性極強(qiáng)。
假定每路人流為萬,要在萬路視頻中,搜索性能相當(dāng)于要求算法百億、千億規(guī)模上的可識(shí)別率。這比其他場(chǎng)景的性能要求再提高千倍。以不同算法為基礎(chǔ)的產(chǎn)品端體驗(yàn)差異就被同比例放大。
總結(jié)來說,99%識(shí)別率的算法和99.99%的算法,區(qū)別在于可解鎖的應(yīng)用場(chǎng)景。這些新的場(chǎng)景解鎖,是最先鋒的算法團(tuán)隊(duì)和垂直領(lǐng)域的開拓者共同努力,也不是訪談一般的相關(guān)從業(yè)者就能感知變革的最前沿,這是誤區(qū)的另一個(gè)來源。
技術(shù)水平的三個(gè)層次VIE:Vision(遠(yuǎn)見),Insight(洞見),Execution(執(zhí)行)
技術(shù)實(shí)力該如何評(píng)估比較呢?最常見的是測(cè)試比賽的冠軍、實(shí)際案例、招投標(biāo)PK成績(jī)、論文等。這些或許能區(qū)分是不是前10名的AI團(tuán)隊(duì),但很難區(qū)分最好的團(tuán)隊(duì)。我對(duì)技術(shù)的三層解構(gòu):Vision,遠(yuǎn)見,或戰(zhàn)略格局、技術(shù)趨勢(shì)判斷;Insight,洞見,算法本質(zhì)和客觀世界分布規(guī)律的理解;Execution,執(zhí)行,算法實(shí)現(xiàn)、數(shù)據(jù)獲取、工程計(jì)算平臺(tái)等。具體來說:
最基礎(chǔ)的Execution就是算法做到什么水平,特別是大體框架已知后,能快速實(shí)現(xiàn),包括基礎(chǔ)算法、場(chǎng)景數(shù)據(jù)、計(jì)算實(shí)驗(yàn)平臺(tái)、產(chǎn)品應(yīng)用等。比如,AlphaGo出來后,多快能復(fù)現(xiàn);語音識(shí)別多快能追上全球最好的結(jié)果。頂級(jí)的Execution,不是開源的算法平臺(tái)可以彌補(bǔ)。特定領(lǐng)域的專家能幫助團(tuán)隊(duì)快速提高對(duì)應(yīng)領(lǐng)域Execution的水平。這個(gè)層面,中國(guó)團(tuán)隊(duì)?wèi)?yīng)該是世界一流的。Google如果是世界第一的話,不論是下棋、人臉識(shí)別、語音識(shí)別等,中國(guó)的水平應(yīng)該不會(huì)比 Facebook、Microsoft、Apple、Amazon等差,甚至某些方面稍強(qiáng)些。大部人比較技術(shù),基本就在這個(gè)層次。但更重要的、威力更大的是上面的兩個(gè)層次。
再往上一層是Insight,考察對(duì)技術(shù)的深刻認(rèn)知。包括算法模型的數(shù)學(xué)解釋、客觀世界分布規(guī)律的獨(dú)到見解。Insight指導(dǎo)如何使用數(shù)據(jù)、計(jì)算力(就是指導(dǎo)如何使用算法甚至創(chuàng)新算法)。這層決定能不能比Google做得更好,或者能保持同一發(fā)展節(jié)奏。假定擁有深度學(xué)習(xí)算法框架、海量數(shù)據(jù)在同樣水平,但是大家對(duì)算法性能調(diào)教還有巨大差距。以人臉識(shí)別為例,我們使用了2億張人臉圖片(幾十億張圖片的子集)訓(xùn)練,有效模型參數(shù)達(dá)到10億量級(jí),利用對(duì)人臉這個(gè)對(duì)象的屬性先驗(yàn)的合理假設(shè),包括光照、年齡、種族、運(yùn)動(dòng)模糊、成像解析度等,模型定制、數(shù)據(jù)如何組合、計(jì)算如何加速在性能調(diào)優(yōu)和模型學(xué)習(xí)效率上(就是上面提到的Execution)都有重大差異。這就是為什么擁有算法、算力、數(shù)據(jù)條件的互聯(lián)網(wǎng)巨頭也不見得能在單項(xiàng)AI任務(wù)上能做到全球前三。
Vision:預(yù)測(cè)發(fā)展趨勢(shì)、定義未來方向,想象對(duì)生活、生產(chǎn)的影響。這除了需要對(duì)技術(shù)的深刻理解,還需要對(duì)技術(shù)的創(chuàng)新能力,以及技術(shù)商業(yè)價(jià)值的想象力、創(chuàng)造力。技術(shù)的遠(yuǎn)見,回答AI的場(chǎng)景在哪以及多快到來。
強(qiáng)的Execution,Insight肯定不錯(cuò),但可能毫無Vision;最強(qiáng)的Vision,Insight肯定一流,但Execution可能很差。VIE都很強(qiáng)的團(tuán)隊(duì)全球極其稀缺。用深度學(xué)習(xí)領(lǐng)域最強(qiáng)的兩位大師Hinton和LeCun談一下我的感受。在2010年前,學(xué)術(shù)界不少人已經(jīng)在談大數(shù)據(jù)對(duì)機(jī)器學(xué)習(xí)的重要性,Hinton團(tuán)隊(duì)2012年在LeCun發(fā)明的算法基礎(chǔ)上,用了百萬的訓(xùn)練數(shù)據(jù),在ImageNet上取得世界級(jí)的突破性進(jìn)展;同一時(shí)期,LeCun團(tuán)隊(duì)只用了不到十萬的數(shù)據(jù)。但是在Hinton公布ImageNet結(jié)果的頭兩個(gè)月,LeCun團(tuán)隊(duì)沒法重現(xiàn)Hinton用自己算法的實(shí)驗(yàn)結(jié)果。在Hinton公布算法實(shí)現(xiàn)和技巧后,LeCun團(tuán)隊(duì)的結(jié)果就輕松超過了Hinton團(tuán)隊(duì)的水平。
兩位大師都擁有超一流的Vision,在深度學(xué)習(xí)方向上堅(jiān)持三十年。但是他們Vision的差別以及以此帶來的信念差別使得Insight的差別(是否追求更深刻見解)在當(dāng)時(shí)可能是巨大的,對(duì)深度學(xué)習(xí)算法發(fā)揮的突破條件包括訓(xùn)練數(shù)據(jù)規(guī)模、模型正則化實(shí)現(xiàn)、activation function選取、GPU計(jì)算等的理解還有顯著差異。這些在當(dāng)時(shí),原理還不清楚時(shí),可能完全是憑著Hinton(包括那一期超強(qiáng)的博士生)的直覺。這種Insight的差距,使得LeCun團(tuán)隊(duì)已知所用算法框架和目標(biāo)性能但未知關(guān)鍵實(shí)現(xiàn)時(shí),也不能重現(xiàn)結(jié)果。但之后,LeCun團(tuán)隊(duì)擁有更好的Execution(大規(guī)模系統(tǒng)性調(diào)優(yōu)),能在短時(shí)間內(nèi)算法性能超過。這種最牛高手間信念的微妙差異,到底來源于什么,值得深思。
為什么Vision很重要?就像雷達(dá),對(duì)別人來說是盲區(qū),Vision讓你看見,看見所以相信,相信所以平靜。不僅以此獲得戰(zhàn)略優(yōu)勢(shì),還有定力,排除誘惑和干擾。
Vision如何辨別呢?非常難,甚至幾乎不可能,只能由同樣有Vision的人欣賞。就像taste難以打分一樣,只能由同樣有taste的人欣賞。Vision帶你看到的,就是99%的專家同行都看不到、不相信的。所以,偉大往往和誤解相伴。LeCun在深度學(xué)習(xí)被實(shí)際測(cè)試數(shù)據(jù)驗(yàn)證前,也很難被美國(guó)主流學(xué)術(shù)圈認(rèn)可,甚至發(fā)表頂級(jí)會(huì)議都不是簡(jiǎn)單的事,可如今,幾乎所有的論文都要貼上深度學(xué)習(xí)的標(biāo)簽。
但是判斷過濾沒有Vision的團(tuán)隊(duì),倒是有跡可循。一般來說,無論學(xué)術(shù)還是創(chuàng)業(yè),偉大的突破,都需要多年前后一致的投入和深耕。隔年換領(lǐng)域或者什么模式都在做的(垂直、平臺(tái)等),歸類為沒有Vision應(yīng)該沒什么問題。
有了VIE的拆解,我認(rèn)為,AI新時(shí)代的壁壘只有人,最頂級(jí)的人。領(lǐng)軍人物對(duì)AI技術(shù)和商業(yè)邊界的未來分布判斷無法替代,決定AI發(fā)展基本要素(算法、算力、數(shù)據(jù)和場(chǎng)景)的所需程度和權(quán)重。擁有頂級(jí)Execution和Insight的團(tuán)隊(duì),最知道對(duì)算法有效的數(shù)據(jù)在哪、如何標(biāo)注使用。擁有頂級(jí)Insight和Vision的團(tuán)隊(duì),最早知道技術(shù)的突破帶來最具商業(yè)價(jià)值的場(chǎng)景在哪以及何時(shí)到來。
AI未來:沒有歷史可以借鑒,也沒有權(quán)威能夠預(yù)測(cè)
談了AI發(fā)展,技術(shù)如何解構(gòu),談?wù)凙I的未來?;谏疃葘W(xué)習(xí)的AI新時(shí)代,大大不同于30年歷史上的AI,這是被各種應(yīng)用、在實(shí)際場(chǎng)景、大規(guī)模數(shù)據(jù)驗(yàn)證過性能的技術(shù),而不只是理論或概念。盡管過去5年的發(fā)展,對(duì)得起人們的期待,今天,還有不少人擔(dān)心新AI像過去一樣很快會(huì)退潮。但我認(rèn)為,AI新時(shí)代只是開始。我從新AI的三個(gè)特性簡(jiǎn)要闡述:
1、AI是全新的維度。這是最重要的,決定AI到底是多大的事。
AI技術(shù)如何創(chuàng)新發(fā)展,如何變革商業(yè),沒有歷史可以借鑒,也沒有權(quán)威能準(zhǔn)確判斷。AI不僅僅是一個(gè)技術(shù),AI突破還能突破所有技術(shù)包括人機(jī)交互、搜索、機(jī)器人、芯片計(jì)算、醫(yī)學(xué)、制藥等科學(xué)領(lǐng)域的幾乎所有學(xué)科。
2、AI的發(fā)展速度快、跳躍性強(qiáng)
從S曲線中,可以看到過去5年,AI的發(fā)展及其迅猛,單門類(人臉識(shí)別)算法有了萬倍的增長(zhǎng)。但我對(duì)未來更加憧憬,即S曲線中2018年之后的曲線有多陡。AI發(fā)展帶來的多維度技術(shù)和各場(chǎng)景深度結(jié)合、疊加會(huì)帶來更有沖擊力的體驗(yàn)。從多技術(shù)維度來說,從視覺,到聽覺、語義理解、運(yùn)動(dòng)控制會(huì)在之后幾年都會(huì)快速突破;和芯片結(jié)合,端智能滲透到與用戶的最后30公分的交互體驗(yàn),從Internet Of Things向Internet Of Intelligence跨越,讓智能無處不在。
3、AI領(lǐng)先一步,會(huì)帶來巨大勢(shì)能
在S曲線中,處在不同位置的團(tuán)隊(duì),優(yōu)勢(shì)不只是橫軸時(shí)間的差距,而是技術(shù)領(lǐng)先帶來的累積效應(yīng)(曲線積分)以及更多元(多條AI技術(shù)曲線)AI技術(shù)的疊加,這使得AI能有跨行業(yè)的摧毀性。不僅僅決定某個(gè)行業(yè),第一名和第二名的差距或位置關(guān)系,還能使得AI領(lǐng)先的行業(yè)的領(lǐng)導(dǎo)者撬動(dòng)AI意識(shí)落后的行業(yè)。
AI未來,無與倫比;因?yàn)榭匆姡韵嘈拧?/p>
您可以復(fù)制這個(gè)鏈接分享給其他人:http://www.hengtetube.com/node/354