運動預測是一種透過運動矢量來描述一張2D圖片是如何轉換成另外一張2D圖片的程序。在視訊處理時,圖片指的就是鄰近的畫格。這些運動矢量可以想成是3D空間(2D+時域)投影到2D的結果。對一張圖片而言,可以給每一個像素建立一個獨特的運動矢量,也可以將鄰近的像素聚集成一個區塊,並只計算每一個區塊的運動矢量運動矢量的數學模型可以是單純的平移也可以含括例如3D空間的的轉動縮放等幾何運動方式來更妥當地模擬真實攝影機的動態。

一張MPEG視訊壓縮所產生的運動矢量,他們的運動方向大致是向內(圖片的軸)以及向右下

相關詞彙

編輯

運動預測和光流法常常被互相混用。它同時也與圖像配准立體匹配有關。事實上上述幾種詞彙都是在找尋兩張圖片或視訊畫格間相對應的點。兩圖片或畫格間相對應的點「通常」是該場景中的同一個點。然而,在作動態預測之前,我們必須定義相似性的比較標準。也就是說,我們需要一個尺度來測量兩個點之間的相似程度。在相關領域的研究中,被定義了各種比較標準,像是SAD、MSE,隨不同應用和優化需要常常會使用不同的比較標準。

演算法

編輯

用來找尋運動矢量的演算法可以被分為基於像素值的「直接」演算法和基於特徵值的「間接」演算法。兩種方法都有其支持者,彼此曾在兩篇論文中試圖得到一個確切的結論。[1][2]

直接演算法

編輯

間接演算法

編輯

間接演算法則是透過一些特徵,如角檢測來對畫格間做匹配,通常會透過一些數學式去對局部或全域的統計特性做估計,如此可以藉由這些數學式來把不符合實際運動模式的匹配濾除掉。

常用的統計數學式例如RANSAC.

一些關於分類方式的額外註記

編輯

每一種上述的方法都可以被說成是需要一些自己定義的匹配標準。差異在於是要先對同一個區域總計地進行比較(如基於特徵的演算法),或者是針對每一個像素進行比較(如基於區塊和濾波器的演算法)。一種新興的比較標準是將一個區域作局部的轉換如拉普拉斯變換再將該區域各pixel作比較 [3]。有一些比較標準則可以將一些看起來相似但實際上並不匹配的點濾除,達到更好的匹配效果。

應用

編輯

視訊壓縮

編輯

可以透過動態預測來做 動態補償,利用視訊在時域上的相似性對下一個時間點的畫格做預測。動態預測動態補償都是視訊壓縮中相當關鍵的技術,普遍地被運用在各視訊壓縮的標準之中,例如MPEG及較近期的HEVC

參考資料

編輯
  1. ^ Philip H.S. Torr and Andrew Zisserman: Feature Based Methods for Structure and Motion Estimation, ICCV Workshop on Vision Algorithms, pages 278-294, 1999
  2. ^ Michal Irani and P. Anandan: About Direct Methods, ICCV Workshop on Vision Algorithms, pages 267-277, 1999.
  3. ^ Rui Xu, David Taubman & Aous Thabit Naman, 'Motion Estimation Based on Mutual Information and Adaptive Multi-scale Thresholding', in Image Processing, IEEE Transactions on , vol.25, no.3, pp.1095-1108, March 2016.