互聯網傳播的絕大部分內容都是視頻數據。這些視頻都是什么內容?是否包含危害公共安全的內容或者不良信息?能否設計一個系統(tǒng),對實時傳輸中的視頻流與事先收集的樣本庫進行實時比對,把完全一致的和近似的視頻內容挑選出來?實現這個目的的技術即為視頻檢索。視頻檢索是一項基礎技術,是機器視覺的一個分支。很多應用依賴于視頻檢索,如視頻拷貝檢測、視頻內容分類、輿情監(jiān)測和公共安全等。
高性能檢索的難度
視頻傳播和存儲的形式是經過編碼壓縮的數據,即碼流。當前普遍使用的壓縮編解碼標準有H.264和 H.265,具有很好的壓縮效果和較快的解碼速率。視頻碼流只要經過一次解碼再編碼,就會有很大變化,這是因為編碼過程有信號失真。如果對視頻進行剪輯、編輯、渲染、加字幕、改變分辨率等處理,處理后的視頻,即使內容基本相同,其碼流也會有很大區(qū)別。因此無法根據碼流判斷視頻內容。
對視頻的任何改變就會引起再編碼,比如改變分辨率、加字幕、加LOGO等。視頻可以分解為圖像幀。視頻檢索的問題轉化為圖像幀比對。
一個高清視頻(1080P)用H.264編碼后的碼流約為6 Mbps,解碼后的數據量為720 Mbps。一臺高配置的服務器,用解碼軟件可以同時解碼8路1080P視頻。提取圖像幀特征的常用算法是SIFT和SURF。提取的速度一般為2~4路視頻的實時計算。特征檢索的性能與樣本庫的容量有關。傳統(tǒng)的K-D樹進行大規(guī)模高維數據的比對,速度非常慢,可能達不到2路視頻的實時比對。如果要對超過8路高清視頻進行大規(guī)模樣本庫的檢索,視頻解碼、特征提取和特征檢索都有很大挑戰(zhàn)。
恒揚數據研發(fā)的高性能視頻檢索(HVR,High-performance Video Retrieval)系統(tǒng)根據性能不同有兩種規(guī)格(HVR-384和HVR-192)。HVR采用恒揚數據開發(fā)的專用硬件,具有業(yè)界領先水平。本產品集成了專用SOC硬件芯片實現視頻解碼,采用最新卷積神經網絡CNN技術實現了圖像特征計算,運用基于圖論的大規(guī)模高維度數據搜索算法實現了億級圖像毫秒級搜索的功能,是一個軟件和專用硬件結合的高性能解決方案,引領高性能視頻和圖片檢索的最新技術方向。