MPEG
動態影像專家小組(英語:Moving Picture Experts Group,簡稱MPEG)[1]為一源自國際標準化組織 (ISO) 與國際電工委員會 (IEC) 等國際組織的工作小組,成立於1988年,有超過300名專家一起制定影音壓縮及傳輸的規格標準。MPEG的官方正式命名為ISO/IEC JTC 1/SC 29/WG 11 – Coding of moving pictures and audio (ISO/IEC Joint Technical Committee 1, Subcommittee 29, Working Group 11)。
MPEG相關標準
編輯該小組開發的第一個標準,為MPEG-1,是以大約1.5 Mbit/s的位元速率對音視像訊號進行編碼。這源於1988年一種日漸明朗的前瞻性視野,即將視像訊號儲存在光碟上,且其質素可以媲美VHS錄影帶。至目前為止,已有以下和視像相關的標準:
- MPEG-1:第一個官方的視像音頻壓縮標準,包含5個部分的標準。前三部分依序是系統,影片和音頻。隨後在Video CD中被採用,其中的音頻壓縮的第三級(MPEG-1 Layer 3)簡稱MP3,成為比較流行的音頻壓縮格式。
- MPEG-2:廣播質素的視像、音頻和傳輸協定。被用於無線數碼電視-ATSC、DVB以及ISDB、數碼衛星電視(例如DirecTV)、數碼有線電視訊號,以及DVD視像光碟技術中。
- MPEG-3:原本目標是為高清晰度電視(HDTV)設計,隨後發現MPEG-2已足夠HDTV應用,故MPEG-3的研發便中止。
- MPEG-4:2003年發佈的視像壓縮標準,主要是擴展MPEG-1、MPEG-2等標準以支援視像/音頻物件(video/audio "objects")的編碼、3D內容、低位元率編碼(low bitrate encoding)和數碼版權管理(Digital Rights Management),其中第10部分由ISO/IEC和ITU-T聯合發佈,稱為H.264/MPEG-4 Part 10。
- MPEG-7:MPEG-7並不是一個視像壓縮標準,它是一個多媒體內容的描述標準。
- MPEG-21:MPEG-21是一個正在制定中的標準,它的目標是為未來多媒體的應用提供一個完整的平台。
MPEG建立的壓縮流程
編輯MPEG如何在不影響畫質的情況下大幅度減少數據呢?實際上,電視和電影畫面中的移動錯覺是通過快速連續顯示一系列仍然的圖片,每張圖片與前一張稍有變化來創造的。我們無法檢測個別的圖片 - 我們的大腦將這些動作「平滑化」。傻瓜型模擬電視畫面傳送每一部分的每一張圖片,但數碼的MPEG影片更聰明。它會檢查兩張圖片並找出在兩者之間有多少部分是相同的。由於圖片從一張到下一張變化不大,因此有很多重複的部分。重複的部分不需要被儲存或傳送,因為它們已經存在於前一張圖片中。這些部分可以被拋棄。數碼影片也包含我們的眼睛看不見的成分,所以這些也可以被拋棄,以下是技術流程。
MPEG(通常指MPEG-1)影像編碼是基於變換的有損編碼。光學訊號線經過採樣形成影片訊號,影片訊號基本的單位叫做幀,一個幀就是一個獨立的圖像,然後,這些幀會被進一步分割成稱為大區塊(macroblocks)的小塊,進行後續的編碼處理。首先,這些大區塊會經過色彩空間轉換與色差資訊的二次取樣,再來,進行離散餘弦變換(DCT)然後量化,經過量化後,DCT塊中的系數會經過Z字掃描,最後進行運行長度編碼(RLE)與熵編碼。
色彩空間轉換與色差資訊的二次取樣
編輯在影片壓縮前,將RGB格式的畫面轉換成YCbCr格式,然後對色差訊號進行二次取樣。這個步驟根據人眼對亮度變化比對色彩變化更敏感的特性,降低了色差通道的取樣率,從而達到更有效的壓縮。
離散餘弦變換 (DCT)
編輯離散餘弦變換是一種將幀中的空間資訊轉換成頻率資訊的過程。DCT可以將影像從空間域轉換到頻率域,並且大部分能量會集中在低頻區域,這使得高頻區域的細節(通常人眼不太能感知)可以被更加有效地壓縮。
在MPEG-1中,使用8*8的DCT(離散餘弦變換)。利用此變換,可以將一個8x8的像素塊轉換為另一個8x8的塊。一般來說,大部分的能量(值)都集中在左上角。經過量化後的變換矩陣,這個矩陣中的大部分數據可能為零,然後使用Z字掃描和運行長度編碼 (RLE)可以實現高壓縮比。
量化
編輯量化是一種降低資料精度的過程,用於進一步壓縮資料。在量化過程中,離散的數字訊號被轉換為有限數量的可能值。
Z字掃描和運行長度編碼 (RLE)
編輯在離散餘弦變換後,我們通常會得到一些零和非零的系數。Z字掃描是一種策略,將2維矩陣轉換為1維序列,然後運行長度編碼 (RLE) 被用來編碼這些連續的零,以達到壓縮的目的。
MPEG壓縮是一種將影片壓縮為更小的大小,但仍保留相對較高的視覺質素的過程。MPEG壓縮使用三種不同的幀類型:I、P、和B幀。
I、P、B 幀
編輯- I 幀(Intra frames):這些幀是自我含有的,即它們不參考任何其他幀,因此可以被視為是靜態的圖像。他們的壓縮方式與JPEG壓縮架構類似。
- P 幀(Predictive frames) 和 B 幀(Bidirectional frames):這兩種幀類型都依賴於其他幀,以達到更高的壓縮率。他們透過動態預測,對參考幀與當前幀進行差分編碼,再透過動態補償技術,以去除時間上的冗餘資訊,最後使用JPEG壓縮架構進行壓縮。
多層化檔頭和MPEG檔案
編輯在MPEG壓縮流程的最後,壓縮過的幀資料會被組織成多個層次,每一層包含不同種類的資訊,如同步碼、時間碼等,並加上一個檔頭,以建立成一個MPEG檔案。這個檔案可以被解碼器正確的解讀,以還原成原始的影片。
這樣的壓縮策略,使得MPEG格式能高效的壓縮影片,並確保在壓縮後仍保有足夠的質素,適合進行網絡傳輸或儲存。
MPEG-1、MPEG-2、MPEG-4實際上採用了的動量估計和動量補償技術。在利用了動量補償的幀(圖像)中,被編碼的是經過動量補償的參考幀與當前圖像的差異。與傳統影像編碼技術不同,MPEG不是對每格影像進行壓縮,而是以一秒時段作為單位,將時段內的每一格影像進行比較,由於一般影片內容的背景變化較小、主體變化較大,MPEG技術就應用這個特點,以一幅影像為主圖,其餘影像格只記錄參考資料及變化數據,從而更有效地記錄動態影像。從MPEG-1到MPEG-4,其核心技術仍然離不開這個原理,之間的差異主要體現在比較的過程和分析的複雜性等。
MPEG只規定位元流的格式與解碼精確度(即規定解碼的方法),而任何人可依照MPEG標準以不同方式實現編碼器(程式)。除了可減少因編碼專利造成的商業利益糾紛外,MPEG標準的主要目的在於確保不同的編碼器所產生的位元流可被其他解碼器正確的解碼,只要此位元流符合標準。
參見
編輯參考文獻
編輯- ^ Reader, Cliff. MPEG Patents. MPEG Video Compression Standard. Boston, MA: Springer US. 1997: 357–362. ISBN 978-1-4899-4589-1.