騰訊多媒體實驗室開源視頻質量評估演算法 DVQA

←手機掃碼閱讀 admin @ 2020-03-11 , reply:0

近日，騰訊多媒體實驗室設計的基於深度學習的全參考視頻質量評估演算法 DVQA 正式開源，該演算法模型的性能目前在公開測試數據集上取得業界領先成績。

視聽時代，音視頻應用越來越廣泛：直播、短視頻、視頻節目、音視頻通話……近期由於新冠疫情帶來的在線協同辦公、在線教育類產品的崛起，更帶來了線上音視頻需求的爆發，用戶對音視頻質量訴求也愈加強烈。

在整個視頻鏈路中，大部分模塊都可以精確度量，如採集、上傳、預處理、轉碼、分發等。然而未知的部分卻恰恰是最關鍵的部分，即用戶的視頻觀看體驗到底怎麼樣。目前行業內的視頻質量評估方法分為兩大類：客觀質量評估與主觀質量評估。前者計算視頻的質量分數，又根據是否使用高清視頻做參考、源視頻是專業視頻還是用戶原創視頻等進一步細分；後者主要依賴人眼觀看並打分，能夠直觀反映觀眾對視頻質量的感受。然而，這些方法仍存在耗時費力、成本較高、主觀觀感存在偏差等難題。

多媒體實驗室提出的視頻質量評估解決方案，首先結合業務需求，使用「在線主觀質量評測平台」，來構建大規模主觀質量資料庫，同時使用所收集的主觀數據來訓練基於深度學習的客觀質量評估演算法，最後把訓練好的質量評估演算法部署到業務線中，閉環監控可能存在的質量問題。從以上三個角度出發，DVQA 能夠在兼顧不同業務、場景的前提下，滿足效率與精度兩大需求。

DVQA 包含多個質量評估演算法模型，本次開源的是針對 PGC 視頻的演算法 C3DVQA。本項目使用 Python 開發，深度學習模塊使用 PyTorch。代碼使用模塊化設計，方便集成較新的深度學習技術，靈活的自定義模型，訓練和測試新的數據集。

在演算法設計上，C3DVQA 所使用的網路結構如下圖所示。其輸入為損傷視頻和殘差視頻。網路包含兩層二維卷積來逐幀提取空域特徵。級聯后使用四層三維卷積層來學習時空聯合特徵。三維卷積輸出描述了視頻的時空掩蓋效應，再使用它來模擬人眼對視頻殘差的感知情況：掩蓋效應弱的地方，殘差更容易被感知；掩蓋效應強的地方，複雜的背景更能掩蓋畫面失真。

網路最後是池化層和全連接層。池化層的輸入為殘差幀經掩蓋效應處理后的結果，它代表了人眼可感知殘差。全連接層學習整體感知質量和目標質量分數區間的非線性回歸關係。

在評測結果上，騰訊多媒體實驗室在 LIVE 和 CSIQ 兩個視頻質量數據集上對所提出演算法的性能進行驗證。並使用標準的 PLCC 和 SROCC 作為質量準則來比較不同演算法的性能。將所提出的 C3DVQA 與常用的全參考質量評估演算法進行對比，包括 PSNR，MOVIE，ST-MAD，VMAF 和 DeepVQA，結果如下表所示。