近日,權(quán)威機(jī)構(gòu)ACM MM’20 Grand Challenge主辦的“大規(guī)模復(fù)雜場(chǎng)景人體視頻解析”挑戰(zhàn)賽如期舉行,包括 Amazon、騰訊、大華科技、依圖科技、中山大學(xué)等上百支參賽隊(duì)伍參與了超過(guò)56000個(gè)復(fù)雜事件下的人體行為(包括排隊(duì)、打架、俯身、同行、跑動(dòng)、滯留等)解析。來(lái)自中國(guó)的依圖科技拿下了“Track-4:行為識(shí)別”的第一名。

據(jù)了解,ACM是全球最大的計(jì)算機(jī)領(lǐng)域?qū)I(yè)性學(xué)術(shù)組織,其評(píng)選的圖靈獎(jiǎng)(A.M.Turing Award)被公認(rèn)為世界計(jì)算機(jī)領(lǐng)域的諾貝爾獎(jiǎng)。而ACM MM是全球多媒體領(lǐng)域的頂級(jí)會(huì)議,屬中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)指定的A類國(guó)際會(huì)議。

如果把人臉識(shí)別比作醫(yī)院的“普外門診”,那么行為識(shí)別尤其是人類的行為識(shí)別,其復(fù)雜度和識(shí)別難度不亞于“心血管內(nèi)科+神經(jīng)內(nèi)科”。場(chǎng)景復(fù)雜多變、動(dòng)作差異化大、需要捕捉連續(xù)動(dòng)作和長(zhǎng)時(shí)間動(dòng)作,這些對(duì)行為識(shí)別和分析都有著巨大的挑戰(zhàn),也就需要算法對(duì)行為本身有更精準(zhǔn)的分析推理能力,甚至還能通過(guò)既定的場(chǎng)景推算未曾見過(guò)的場(chǎng)景。

依圖方面介紹,在比賽中,依圖算法的指標(biāo)達(dá)到了wf-mAP@avg 0.26,將以往學(xué)術(shù)界中的基準(zhǔn)算法提升了近3倍。與舉辦了多次的國(guó)際競(jìng)賽不同,這次競(jìng)賽是首屆,參賽隊(duì)伍在賽前也無(wú)法了解識(shí)別的類別、數(shù)據(jù)集的大小和識(shí)別的具體需求,要在短短一個(gè)多月的時(shí)間內(nèi),設(shè)計(jì)出最優(yōu)的算法。

首先,視頻相較于圖像的行為識(shí)別更加復(fù)雜,且如何建模、視頻幀之間的相關(guān)性仍是學(xué)術(shù)界一直存在的難題。當(dāng)應(yīng)用場(chǎng)景明確后,在已知分析的對(duì)象是人體且明確知道要識(shí)別的類別后,就可以針對(duì)性的進(jìn)行算法優(yōu)化,通過(guò)算法定制化來(lái)提升算法性能,解決以往不能很好解決的問(wèn)題。

與此同時(shí),依圖此次創(chuàng)新性地將算法與場(chǎng)景進(jìn)行了深度結(jié)合。一方面從視頻中自動(dòng)提取到了準(zhǔn)確豐富的場(chǎng)景信息,結(jié)合先進(jìn)的行人檢測(cè)、行人重識(shí)別算法,全面構(gòu)建了人與人、人與場(chǎng)景、人與物之間在視頻中的關(guān)系;另一方面,借助多年來(lái)的算法積淀和對(duì)行業(yè)場(chǎng)景的理解,依圖對(duì)比賽中要求的特定的14類任務(wù)進(jìn)行了深度算法優(yōu)化。

值得關(guān)注的是,不同于其他參賽隊(duì)伍,依圖此次沒有使用復(fù)雜的多模型融合策略,僅用單模型,借助背景提取和分割算法,將行為的解析與場(chǎng)景結(jié)合,大大降低了問(wèn)題難度,這也意味著仍可以進(jìn)一步通過(guò)融合多個(gè)模型提升算法性能。

您可以復(fù)制這個(gè)鏈接分享給其他人:http://www.hengtetube.com/node/868