在過去十年中,人工智能技術(shù)一直是安防行業(yè)智能化發(fā)展的核心驅(qū)動力,為行業(yè)注入了新的活力和機遇。在深度學習的熱潮中,安防是AI應用落地的先行者,當下大模型時代的開啟,安防行業(yè)再次站在了技術(shù)應用的前沿。目前,眾多安防企業(yè)正聚焦于多模態(tài)大模型等關鍵技術(shù)的研究,致力于推動這些技術(shù)的產(chǎn)業(yè)化應用,助力各行各業(yè)實現(xiàn)數(shù)字化和智能化的飛躍。

中國安全防范產(chǎn)品行業(yè)協(xié)會旗下《中國安防》雜志,對依圖科技總裁段愛國進行了深入的采訪,探討了智能安防行業(yè)中大模型的應用實踐、現(xiàn)狀,面臨的挑戰(zhàn)以及未來的發(fā)展趨勢,分享給大家。

多模態(tài)大模型落地  重塑智能安防新紀元

安防行業(yè)是應用AI和多模態(tài)大模型的先鋒領域。安防從高清化走向智能化階段,即AI安防1.0。這一階段,人臉識別、人體ReID、視頻結(jié)構(gòu)化、車輛/非機動車結(jié)構(gòu)化等技術(shù)是這個時期的重要創(chuàng)新成果。隨著安防技術(shù)產(chǎn)品在各個領域的廣泛應用,長尾算法的需求日益凸顯。傳統(tǒng)深度學習模型是基于監(jiān)督學習方法訓練出來的,在面臨復雜場景時會有很多約束和限制,這導致了過去幾年間盡管AI安防取得了一定進展,但在實際應用落地效果上并未完全達到預期效果。現(xiàn)在,隨著大模型時代的到來,我們進入了AI安防2.0?;赥ransformer架構(gòu)的多模態(tài)大模型,顛覆了傳統(tǒng)安防行業(yè)的碎片化特點,并展現(xiàn)出以下三個主要特征:

一是“會思考”。多模態(tài)大模型不再像過去一樣只是某種算法、某種工具,而是呈現(xiàn)出助手、智能體的特征,讓機器看一遍視頻,它能夠準確識別視頻中的內(nèi)容,將機器看視頻的能力轉(zhuǎn)化為直觀的算法,為行業(yè)帶來革命性的變革。

 

二是“可對話”。人們使用多模態(tài)大模型的過程更像與另外一個人交流。用戶可以通過語義搜索和語音指令調(diào)取視頻,例如僅需簡單地說出“請調(diào)取有積水的點位視頻”,系統(tǒng)便能迅速響應,展現(xiàn)所有相關的視頻片段。這一功能極大地提升了指揮調(diào)度的效率,節(jié)省了寶貴的決策和調(diào)度時間。

 

三是“能進化”。不能根據(jù)用戶和環(huán)境而進化的智能系統(tǒng)是工具,不是真智能。真正的智能系統(tǒng)能夠根據(jù)用戶需求和環(huán)境變化進行自我進化。以依圖天問大模型為例,它支持現(xiàn)場算法訓練,能夠根據(jù)實際應用需求快速迭代和優(yōu)化。一個新的算法需求可以在1分鐘內(nèi)實現(xiàn)0樣本冷啟動,1小時內(nèi)完成在線標注訓練,并在1天內(nèi)快速上線,展現(xiàn)了前所未有的智能化和靈活性。

 

因此,多模態(tài)大模型使視覺和語言的模型歸一,統(tǒng)一了物理世界和認知世界的底層框架,讓多模態(tài)的信息之間可以無差別表示和無縫轉(zhuǎn)換,為大模型的人機交互模式、產(chǎn)品迭代模式、服務運營模式提供了更多的可能性。AI 2.0走向安全生產(chǎn)、走向基于數(shù)據(jù)和算力驅(qū)動的智慧運營,是未來安防行業(yè)發(fā)展的方向。

數(shù)據(jù)、算法、算力的挑戰(zhàn)與解決方案

“數(shù)據(jù)、算法、算力”構(gòu)成了人工智能的三大要素,大模型在安防行業(yè)落地過程中,首先,數(shù)據(jù)是AI的基礎,但目前大量數(shù)據(jù)沉睡在硬盤中未能得到有效利用?,F(xiàn)有的視頻結(jié)構(gòu)化技術(shù)對數(shù)據(jù)的挖掘能力有限,無法滿足精細管理的識別需求。為了解決這個問題,多模態(tài)大模型的引入成為了關鍵。多模態(tài)大模型能夠識別視頻中的內(nèi)容,不管是小貓大狗塑料袋,還是公園天橋菜市場,不管是刀具橫幅行李箱,還是電瓶車帶煤氣罐,都可以精準識別,從而喚醒沉睡的數(shù)據(jù),為安防領域帶來更豐富的信息。

 

其次,算法是AI的大腦,其需求本質(zhì)上來源于業(yè)務需求,而非廠商實驗室的設想。因此,算法的開發(fā)和應用天然就需要與實際業(yè)務環(huán)境緊密結(jié)合。依圖天問大模型提供了算法現(xiàn)場訓練的能力,可以快速響應精細化管理需求,一個新的算法需求可以實現(xiàn)快速上線。這不僅符合數(shù)據(jù)合法保護的要求,同時也滿足了業(yè)務對算法時效性的需求,確保算法能夠快速響應并適應變化。

 

第三,算力成本是決定 AI 大模型應用規(guī)模的關鍵因素。當前高昂的算力成本限制了大模型的廣泛應用。在模型調(diào)優(yōu)上,依圖基于視頻監(jiān)控場景做語義調(diào)優(yōu),同時行業(yè)首款xPU融合架構(gòu)的服務器把低成本的內(nèi)存虛擬化為顯存統(tǒng)一尋址,從而在整體上達到了萬倍性能提升、百倍成本下降。

 

綜上所述,面對大模型落地應用過程中“數(shù)據(jù)、算法、算力”的挑戰(zhàn),多模態(tài)大模型、算法現(xiàn)場訓練以及超融合架構(gòu)的軟硬件優(yōu)化是目前較為有效的解決策略。這些方案有助于推動安防大模型的落地應用,提高人工智能在安防領域的實用性和效率。

 

除了數(shù)據(jù)、算法、算力這三大核心要素外,大模型在場景落地和應用過程中還存在一些挑戰(zhàn)和困境:一是技術(shù)與現(xiàn)有安防系統(tǒng)的兼容性問題,需要確保新技術(shù)能夠無縫集成到現(xiàn)有的基礎設施中;二是用戶接受度問題,特別是對于新興技術(shù)的適應和信任;三是法規(guī)和標準滯后于技術(shù)發(fā)展,可能導致應用上的不確定性和合規(guī)風險。還有跨領域技術(shù)整合的復雜性,這需要多學科知識和技術(shù)的融合;四是商業(yè)化落地難題,尤其是在高度定制化和成本控制方面,需要找到平衡點以實現(xiàn)可持續(xù)的商業(yè)模式。解決這些問題需要行業(yè)內(nèi)外的共同努力,包括政策支持、行業(yè)協(xié)作、技術(shù)研發(fā)和市場教育等。

大模型落地應用正迅速推進

得益于大模型的深度內(nèi)容理解、廣泛的適應性與場景泛化能力,以及更自然的人機交互體驗,智能安防領域的大模型落地應用正迅速推進。作為人工智能領域的資深從業(yè)者,依圖在2023年7月首個發(fā)布“天問”多模態(tài)大模型,這一創(chuàng)新成果目前已在全國幾十個項目中部署實戰(zhàn),它在視頻語義搜索、萬物識別、AI智能體編排以及算法零樣本冷啟動等方面展現(xiàn)出巨大潛力。在具體場景中,公共安全、智慧城市建設、智慧交通、內(nèi)容審核和智慧園區(qū)、智慧應急等方向的應用進展顯著,這些領域?qū)σ曨l分析、行為識別和實時反應的需求不斷增長。以2023年下半年西部某省份發(fā)生的烈性犬傷人事件為例,城運中心的工作人員面臨快速生成烈性犬檢測算法并布控到城市公共區(qū)域的挑戰(zhàn)。如果采用常規(guī)深度學習的算法訓練方法,要求數(shù)據(jù)搜集、標注、訓練,一個新算法的產(chǎn)生至少需要半個月,這嚴重影響了管理的時效性。而基于多模態(tài)大模型的算法訓練方法大大簡化了這一過程。預訓練的大模型基座帶來近70%的準確性,工作人員在預警處置的過程中僅需簡單點擊預警的對錯,不到5天的時間就可以完成超過90%的算法準確率。現(xiàn)場生產(chǎn)新算法的能力展現(xiàn)了驚人的速度和靈活性,有效保障了公共安全。這種以用戶需求為核心,以技術(shù)創(chuàng)新為驅(qū)動的策略,是推動AI 2.0發(fā)展的關鍵動力。隨著技術(shù)的不斷進步,預計未來智能安防的大模型將在更多細分市場和復雜場景中發(fā)揮關鍵作用,特別是在需要高度個性化和動態(tài)適應性的場景中,大模型的應用將更具潛力。

智能安防行業(yè)大模型發(fā)展前景可期

智能安防行業(yè)的大模型正處在突破性發(fā)展的前夜,其發(fā)展趨勢和前景十分廣闊。隨著大模型技術(shù)的進一步發(fā)展,特別是多模態(tài)大模型的應用,促使安防系統(tǒng)正從傳統(tǒng)的視覺監(jiān)控向更深層次的內(nèi)容理解、場景適應性和人機交互發(fā)展。未來的智能安防將更加注重數(shù)據(jù)和算力的結(jié)合,推動傳統(tǒng)安全防范到安全生產(chǎn)管理的轉(zhuǎn)變,以及智慧運營的實現(xiàn)。在這樣的趨勢指引下,依圖在當前新一輪AI浪潮下將聚焦技術(shù)創(chuàng)新和產(chǎn)品落地的深度融合,加強多模態(tài)大模型技術(shù)與領域知識深度結(jié)合的產(chǎn)品與方案,打造更懂行業(yè)、更懂客戶、更懂場景、更易使用的產(chǎn)品,助力“AI+”能更快地在各行業(yè)落地,拓展人工智能新疆界,開啟視頻情境理解的新紀元!

您可以復制這個鏈接分享給其他人:http://www.hengtetube.com/node/929