視覺信號保真度

視覺信號保真度(VIF)是一種評估影像品質的方法,為基於自然場景統計和由人類視覺系統英語Human_visual_system_model提取影像信號的概念的圖像質量評估參數。它由Hamid R SheikhAlan Bovik於2006年在德克薩斯大學奧斯汀分校圖像和視頻工程實驗室(LIVE)開發,結果顯示它與人類對影像質量的判斷非常相近。VIF部署在Netflix VMAF的視頻質量監控系統中,該系統控制Netflix傳輸的所有編碼視頻的影像質量。這占美國所有頻寬消耗的35%,並且在全球視頻流量中也不斷增加。

概述

編輯

三維視覺環境的圖像和視頻都來自於自然場景(natural scene)。自然場景在所有可能的信號空間形成一個微小的子空間,科學家發明了複雜的模型來描述這些統計數據。但是大多數真實世界都會造成這些統計數據的失真,並使圖像或視頻信號不自然。VIF假設測試和參考圖像之間的共享訊息與視覺品質高度相關,並採用自然場景統計(NSS)模型結合失真(通道)模型來量化這種共享訊息。與基於人類視覺系統(HVS)錯誤敏感度和結構測量的先前方法相比,VIF在消息理論中被使用,且不需要任何HVS或其他觀察幾何參數,就能產生完全參考(FR)質量評估(QA)方法;VIF也不需要任何需要優化的常數,就能與現有的QA方法相競爭。

具體來說,參考圖像被建模後通過HVS通道,接著由大腦處理的隨機「自然」源輸出。參考圖像的資訊被量化為HVS頻道的輸入和輸出之間的相互資訊(mutual information),這是大腦可以從HVS輸出中提取的最理想資訊。然後讓相同的參考圖像通過失真通道,並對測量進行量化。將這兩個訊息組合,形成視覺質量與相對圖像信息相關聯的視覺信息保真度。

模型

編輯

來源模型(source model)

編輯

圖像的的小波係數可用高斯尺度混和(Gaussain Scale Mixture, GSM)建模,以下針對特定子帶進行多尺度多方位分解的模型,其他子帶可以進行相似的模型。設給定子帶中的小波係數為  表示整個子帶和每個子帶的空間索引集合,子帶被分割成M塊不重疊的區域,每塊對應到一個M維的向量 

根據GSM模型

 

其中 是一個正數, 是一個平均為0且協方差為 的高斯向量。我們假設這M塊區域彼此獨立,且隨機場  相互獨立。

失真模型(distortion model)

編輯

我們利用小波域中的信號衰減和加性噪聲來對失真過程進行建模。以數學式表示,如果 表示來自失真圖像的特定子帶的隨機場, 是一個確定的常量場且  是一個平均為0且協方差為 的高斯向量,其中 ,那麼

 

此外, 獨立於  

人類視覺系統模型(HVS model)

編輯

基於視覺信號感知中的不確定性,限制了可以從來源和失真圖像中提取的訊息量,HVS對此進行了額外的建模。這種不確定性的來源可以模擬為HVS模型中的視覺噪聲,小波分解特定子帶中的HVS噪聲更進一步被建模為加性高斯白噪聲。假設  是隨機場,  是平均為0且協方差為  的高斯向量。  表示HVS輸出端的視覺信號。在數學上,E=C+N且F=D+N』。其中N和N』是隨機的且獨立於   

定義

編輯

 定義為特定子帶中所有區塊的向量,同理定義 , ,   為給定   中機率最大的數。從參考圖像中獲取的資訊量為

 

而從測試圖像中獲取的資訊量為

 

VIF定義為

 

性能

編輯

評估LIVE圖像質量評估資料庫中,失真圖像的VIF得分,與相應的人類意見得分之間的斯皮爾曼等級排序相關係數(SROCC)為0.96[1]。這顯示該指數與人類對圖像質量的感知非常相近,與最佳的FR IQA[1]算法一致。

參考文獻

編輯
  1. ^ 1.0 1.1 (PDF) http://videoclarity.com/wp-content/uploads/2013/05/Statistic-of-Full-Reference-UT.pdf. (原始內容存檔 (PDF)於2018-06-12).  缺少或|title=為空 (幫助)