2021歐洲杯足球比賽最近落后,牽動了無數(shù)粉絲的心。在精彩的比賽視頻背后,人工智能技術(shù)正在重塑體育視頻產(chǎn)業(yè)的內(nèi)容生產(chǎn)方式。
在最近召開的國際計算機視覺和模式識別頂級會議CVPR2021中,視頻理解領(lǐng)域最具影響力的ItternationalallengengonactivityRecognition(ActivityNet)workshop旗下的多場比賽發(fā)表了名單。競賽吸引了百度、阿里、字節(jié)跳動、騰訊、華為等知名企業(yè)和清華、北大、斯坦福、麻省理工學院、中科院等國內(nèi)外高校和機構(gòu)參與。其中,全球首個以足球比賽視頻的全方位理解為目標的SoccerNet-v2足球視頻理解競賽中,百度研究院以絕對優(yōu)勢奪取了全部兩項任務(wù)的冠軍。
百度獲得了所有兩項任務(wù)冠軍本次比賽中使用的SoccerNet-v2數(shù)據(jù)集中在足球理解領(lǐng)域的規(guī)模最大,包括2014年至2017年三個賽季的歐洲足球五大聯(lián)賽和歐洲冠軍聯(lián)賽的視頻,視頻總時間達到764小時,人工標記達到30萬個,成為國際AI團隊之間衡量足球視頻理解能力的重要標準。
本次SoccerNetv2競賽設(shè)置了事件定位(actionspoting)和回放跟蹤(replaygrounding)兩項任務(wù)。其中,事件定位是從足球比賽直播視頻中找到一些關(guān)鍵事件并確定其發(fā)生的時刻。重要事件包括17個類別,包括進球、點球、任意球、紅牌、黃牌、角球等重要事件,以及犯規(guī)、越位、射正、射偏等人類也難以立即識別的事件。同時,有些事件沒有直接拍攝,需要根據(jù)上下文推測,這也是視頻動作識別和事件檢測能力的挑戰(zhàn)。
播放跟蹤是將足球比賽轉(zhuǎn)播視頻中的播放片段與原始事件相匹配。足球比賽錄像中精彩的事件發(fā)生后,多次播放,播放和原始事件之間可能相隔數(shù)百秒,攝影視角也經(jīng)常不同,能否匹配播放和原始事件是長距離視頻理解能力的考察。
百度研究院文字轉(zhuǎn)播視頻VidPress團隊專注于算法研究和應(yīng)用創(chuàng)新,此次獲得兩項任務(wù)冠軍,顯示出優(yōu)秀的技術(shù)實力。系統(tǒng)采用兩個階段的方法,首先特征提取器提取足球視頻特征,然后將提取的特征作為第二階段的具體任務(wù)模塊的輸入,進行事件定位和再生追蹤。
事件定位和再生跟蹤系統(tǒng)流程在特征提取階段,團隊認為在足球錄像中微調(diào)的特征提取器有助于提高事件定位和再生跟蹤兩個下游任務(wù)的表現(xiàn),因此在SoccerNetv2數(shù)據(jù)中微調(diào)了TPN、GTA、VTN、irCSN和I3D-Slow5種特征提取器模型。這五種特征提取器模型都是近年來視頻理解領(lǐng)域在分類任務(wù)上表現(xiàn)出色的模型,標準數(shù)據(jù)集Kinetics-400上的成績也排名第一。
在五大特征提取器模型上,團隊也充分利用數(shù)據(jù),設(shè)計了多種微調(diào)特征提取器模型的策略,開發(fā)了提取特征的新方法。獲得每一個特點提取器在足球視頻中提取的特點后,連接五個特點進行歸一化處理,使優(yōu)化后的特點對足球比賽視頻具有很強的表現(xiàn)力,為后面的下游任務(wù)奠定了堅實的基礎(chǔ)。
在事件定位和再生追蹤階段采用了Transformer結(jié)構(gòu)。Transformer架構(gòu)的特點是更清晰、更標準化、模型容量大、擴展性強,能夠適應(yīng)計算機視覺、自然語言等多種業(yè)務(wù)。Transformer結(jié)構(gòu)在這兩個任務(wù)中體現(xiàn)了對視覺語義特征的精確分時處理能力,優(yōu)于基礎(chǔ)算法中Siamese網(wǎng)絡(luò)的學習能力和培訓速度。在訓練過程中,事件定位采用mix-up數(shù)據(jù)加強,有效利用訓練數(shù)據(jù),降低擬合。在回放跟蹤任務(wù)中,模型結(jié)構(gòu)的更換使訓練時間減少到原來的八分之一。
結(jié)合上述視覺信息語義化特點,以及為新任務(wù)訂制的Transformer結(jié)構(gòu),百度研究院在競賽成績上取得了很大的領(lǐng)先地位。在事件定位任務(wù)中,基線的平均mAP從52.54%上升到74.84%,上升了22.3個百分點,是第二位上升的約2倍的再生追蹤任務(wù)中,平均mAP從基線的40.75%上升到71.90%,上升了31.15個百分點,比第二位上升了63.91%
技術(shù)應(yīng)用于現(xiàn)實應(yīng)用智能視頻生成工具應(yīng)運而生
百度研究院在這場比賽中脫穎而出,基于大規(guī)模視頻數(shù)據(jù)的算法能力技術(shù)積累是必不可少的。
該技術(shù)具有非常高的實用價值,可大規(guī)模應(yīng)用于體育比賽視頻,通過智能識別會場比賽,在不需要人工干預(yù)的條件下,可以正確、實時地切分終點、投籃、犯規(guī)等動作片段。
基于此項能力,團隊開發(fā)出了一系列應(yīng)用工具并成功落地。
首先是行業(yè)領(lǐng)先的自定義足球精彩集錦生成工具。輸入選手后,選擇競技場,可以自動生成該選手的精彩瞬間視頻集錦和慢動作播放。目前,該系統(tǒng)已登陸百度百科400多名足球運動員和球隊頁面。
輸入選手名稱,生成該選手的視頻集錦
其次,貫徹文本語義理解和視頻圖像理解,團隊建立足球文字戰(zhàn)報轉(zhuǎn)換視頻平臺。輸入文字轉(zhuǎn)播內(nèi)容和轉(zhuǎn)播間地址,可以智能地集中生成對應(yīng)的視頻內(nèi)容,提高戰(zhàn)報的生成效率和可讀性。
根據(jù)文字直播內(nèi)容智能生成對應(yīng)的片段視頻
此外,團隊還建立了基于圖像場景識別的智能視頻生產(chǎn)線,該生產(chǎn)線可以快速理解上傳的長視頻,檢測是否有終點,正確定位視頻中的終點瞬間,完成自動剪輯。
上傳比賽錄像,自動識別生成終點片段
基于智能錄像技術(shù)的不斷創(chuàng)新和積累,百度研究院于2020年初孵化智能文字轉(zhuǎn)換錄像工具VidPress,是業(yè)界首次支持通用型、大規(guī)模的全自動錄像生產(chǎn)技術(shù)。VidPress支持單擊導入文字鏈接,自動生產(chǎn)配音、字幕、畫面視頻內(nèi)容,降低素材收集、整理、匹配的時間成本。目前VidPress已作為百度大腦智能創(chuàng)作平臺中的核心能力,為人民日報等多家媒體機構(gòu)的智能視頻生產(chǎn)賦能;為秒懂百科智能生成上千條球員精彩瞬間視頻;為百家號和好看視頻等平臺的終端用戶提供一鍵視頻生成服務(wù)。百度大腦智能創(chuàng)作平臺基于自然語言處理、知識圖譜、視覺、語音的整合技術(shù)能力,為創(chuàng)作者提供多項能力,助力新聞生產(chǎn)的策、采、編、審、發(fā)全流程,全面提升內(nèi)容生產(chǎn)效率。
全視頻時代到來,各行各業(yè)對視頻的應(yīng)用、體驗和效能提出了新的升級需求,智能視頻變化趨勢背后的驅(qū)動力離不開AI的身影。無論是足球比賽視頻,還是其他內(nèi)容豐富、形式多樣的視頻內(nèi)容,未來百度也將持續(xù)在相關(guān)領(lǐng)域的技術(shù)上不斷突破迭代,并持續(xù)賦能應(yīng)用與產(chǎn)品落地,為視頻行業(yè)的發(fā)展與變革注入充足動力。