Luận văn Nén ảnh động dùng wavelet

pdf 124 trang phuongnguyen 6550
Bạn đang xem 20 trang mẫu của tài liệu "Luận văn Nén ảnh động dùng wavelet", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfluan_van_nen_anh_dong_dung_wavelet.pdf

Nội dung text: Luận văn Nén ảnh động dùng wavelet

  1. Bộ giáo dục và đào tạo TR−ờNG ĐạI Học BáCH KHOA Hà Nội Luận văn thạc sĩ khoa học nén ảnh động dùng wavelet Ngành: Điện tử viễn thông Nguyễn Hữu phát Ng−ời h−ớng dẫn khoa học: PGS TS. Hồ Anh Tuý Hà nội 2005 0
  2. Mục lục Trang Lời nói đầu 4 Ch−ơng 1 TổNG QUAN Về NéN ảNH Video THEO CHUẩN MPEG 6 1.1. Khái niệm về Video và ph−ơng pháp nén Video 5 1.1.1. Khái niệm Video 5 1.1.1.1. Không gian mầu (Color Space) 5 1.1.1.2. Các cơ cấu số hoá tín hiệu Video 6 1.1.2. Các ph−ơng pháp nén Video 8 1.1.2.1. Giảm tốc độ dòng bit 9 1.1.2.2. Nén dòng tín hiệu Video số theo không gian 10 1.1.2.3. Nén dòng tín hiệu theo thời gian 11 1.1.2.4. Nén hỗn hợp sử dụng tổ hợp các ph−ơng pháp trên 11 1.1.3. Tham số nén Video. 11 1.2. Giới thiệu chung về chuẩn MPEG 12 1.3. Các khái niệm cơ bản trong nén Video theo chuẩn MPEG 14 1.3.1. Cấu trúc phân cấp Video theo chuẩn MPEG. 14 1.3.2. Phân loại frame Video. 17 1.3.3. Nhóm ảnh (GOP: Group Of Picture) 19 1.4. Ph−ơng pháp nén ảnh Video theo chuẩn MPEG. 21 1.4.1. Mô hình tổng quát bộ mã hoá Video theo chuẩn MPEG 21 1.4.2. Lấy mẫu thông tin về màu 22 1.4.3. L−ợng tử hoá. 23 1.4.4. Nội suy ảnh. 23 1.4.5. Dự đoán bù chuyển động. 24 1.4.5.1. Đánh giá chuyển động (motion estimation) 24 1.4.5.2. Bù chuyển động (Motion Compensation). 24 1.4.6. Biến đổi Cosine rời rạc 26 1.4.7. Mã VLC 27 1.5. Quá trình nén Video theo chuẩn MPEG-1. 27 1.5.1. Tham số đặc tr−ng. 27 1.5.2. Quá trình mã hoá 28 1.5.3.Quá trình giải mã 32 1.6. Quá trình nén Video theo chuẩn MPEG-2. 33 1
  3. 1.6.1. Tham số đặc tr−ng. 36 1.6.2. Mô hình mã hoá Non-scalable theo MPEG-2. 37 1.6.3. Mô hình mã hoá scalable theo MPEG-2. 38 Ch−ơng 2 M∙ hoá SCALABLE VIDEO 42 2.1. Băng lọc 1/2 pixel biến đổi ng−ợc theo thời gian - tính toán bù chuyển động 42 2.1.1. Giới thiệu 44 2.1.2. Thuật toán 46 2.1.2.1 Mô hình Video phổ biến 46 2.1.2.2. Quét luỹ tiến Video với véctơ chuyển động chính xác 1/2 điểm ảnh .49 2.1.2.3. Di chuyển cục bộ mở rộng 51 2.1.3. Ba tham số mã hoá băng con sử dụng IMCTF 54 2.1.4. Kết quả thực nghiệm 55 2.1.5. Tóm tắt và kết luận 59 2.2. Mã hoá scalable video 61 2.2.1. Khái quát 62 2.2.1.1. Mã hoá lai truyền thống 63 2.2.1.1.1.Mã hoá Scalable SNR 63 2.2.1.1.2 Phân giải mã Scalable 66 2.2.1.2. Embedded Coding and Fine Granularity Scalability 66 2.2.1.3. Mã hoá sử dụng băng con 3 chiều và mã hoá Wavelet 69 2.2.2. Hệ thống tổng quan 70 2.2.3. Băng con mã hoá 3 chiều 71 2.2.4. Tỷ lệ dòng bít mã hoá 74 2.2.4.1.Hệ thống dòng bít 74 2.2.4.2. Lựa chọn dòng bít mã hoá và truyền dẫn 78 2.2.5. Kết quả thực nghiệm 81 2.2.5.1. So sánh với mã hoá Nonscalable 81 2.2.5.2. So sánh mã hoá LZC và 3D-SPIHT 83 2.2.5.3. Mã hoá tốc độ đa phân giải 86 2.2.6. Tóm tắt và kết luận 91 Ch−ơng 3 Đối t−ợng-cơ sở m∙ hoá SCALABLE 95 3.1. Đối t−ợng cơ bản - Cơ sở mã hoá 97 3.1.1 Mặt phẳng đối t−ợng Video 97 3.1.2. Công cụ mã hoá cho đối t−ợng Video 98 3.1.2.1. Định dạng mã hoá 98 3.1.2.2. Cấu trúc mã hoá 99 3.2. Đối t−ợng-Cơ sở mã hoá sử dụng EZBC 100 2
  4. 3.2.1. Tổng quan 101 3.2.2. Miền – Cơ sở biến đổi Wavelet rời rạc 102 3.2.3. Đối t−ợng-Cơ sở mã hoá mặt phẳng bít EZBC 103 3.3. Kết quả thực nghiệm 104 3.4. Tóm tắt và kết luận 106 Ch−ơng 4: Ch−ơng trình thử nghiệm và đánh giá kết quả 111 4.1. Xây dựng ch−ơng trình 111 4.1.1. Khái quát chung 111 4.1.2. Cấu trúc ch−ơng trình 111 4.2. Đánh giá kết quả thử nghiệm 112 4.2.1 Dữ liệu thử nghiệm 112 4.2.2. Kết quả thử nghiệm 112 4.2.3. Nhận xét về tỷ số nén,chất l−ợng nén 115 Kết luận 118 1. ứng dụng luận văn 118 2. H−ớng phát triển cho t−ơng lai 119 TàI LIệU THAM KHảO 120 PHụ LụC 122 THUậT NGữ tiếng anh 122 3
  5. Lời nói đầu Trong những năm gần đây do sự phát triển mạnh mẽ của Internet nên vấn đề truyền dữ liệu trên mạng đặc biệt là truyền ảnh và âm thanh đ−ợc quan tâm. Do đó việc nén dữ liệu đặc biệt dữ liệu phim ảnh là cần thiết hơn bao giờ hết. Trong phạm vi luận văn này tôi tập trung vào việc nén dữ liệu video. Đối với nén ảnh động, chuẩn MPEG(Moving Photographic Experts Group) đã đ−ợc xác lập bởi ISO và IEC. Đây là một kỹ thuật nén ảnh động đã mang lại nhiều thành công. Nó có thể đạt tỷ lệ nén khá cao 10:1 mà mắt th−ờng khó phân biệt đ−ợc. Tuy nhiên đây vẫn ch−a phải là tỷ lệ cao tối −u. Sự ra đời của Wavelet đã mở ra một công nghệ mới. Đó là chuẩn MJPEG2000. Sự ra đời của MJPEG2000 mở ra một t−ơng lai mới cho kỹ thuật nén ảnh với những tính năng cao. Kỹ thuật Wavelet cũng đ−ợc nghiên cứu trong nhiều phần mềm nh− Matlap Mục đích của luận văn này nhằm nghiên cứu một số ph−ơng pháp nén ảnh động đang đ−ợc quan tâm. Luận văn này đ−ợc trình bày thành bốn ch−ơng và một phụ lục. Ch−ơng Một là tổng quan về nén ảnh động. Ch−ơng này giới thiệu một số chuẩn nén ảnh động là MPEG1,MPEG2,MPEG4 và MPEG7. Đồng thời cũng trình bày cấu trúc của video. Ch−ơng Hai trình bày ph−ơng pháp nén Scalable video. Ch−ơng này đề cập đến thuật toán LZC và 3D-SPIHT. Ch−ơng Ba đi sâu vào nghiên cứu đối t−ợng mã hoá của video dựa trên biến đổi Wavelet. Ch−ơng Bốn nêu khái quát cách thiết kế và cài đặt ch−ơng trình. Ch−ơng này mang tính chất minh hoạ cho những gì đã đ−ợc trình bày ở các ch−ơng tr−ớc. Phần phụ lục nêu một số ch−ơng trình nguồn thông dụng viết trên Visual C + + 6. 0. Do thời gian có hạn nên tôi chỉ mới nghiên cứu đ−ợc phần nào trong kỹ thuật nén ảnh động do vậy chắc chắn không tránh khỏi thiếu sót. Cuối cùng tôi xin chân thành cảm ơn sự giúp đỡ nhiệt tình và hiệu quả của PGS TS Hồ Anh Tuý đã giúp đỡ tôi hoàn thành luận văn này. Hà nội ngày 20/10/2005 4
  6. Đồ án cao học ĐTVT 2003 Ch−ơng 1 TổNG QUAN Về NéN ảNH Video THEO CHUẩN MPEG 1.1. Khái niệm về Video và ph−ơng pháp nén Video 1.1.1. Khái niệm Video Video là sự biểu diễn điện tử của một chuỗi các ảnh liên tiếp. Những ảnh này là những ảnh tĩnh và đ−ợc gọi là các frame. Chuỗi các frame xuất hiện với tốc độ rất nhanh sẽ cho ta cảm giác chuyển động liên tục (tối thiểu là 25frame/giây). Mặc dù mỗi frame có sự khác nhau, cần thiết phải có tốc độ frame cao để đạt đ−ợc cảm giác chuyển động thực sự. Tốc độ frame và độ phân giải của mỗi frame là các nhân tố quan trọng ảnh h−ởng trực tiếp đến chất l−ợng Video. Trong truyền hình, độ phân giải của truyền hình là 720x576 và tốc độ frame là 25 hoặc 30 Hz. 1.1.1.1. Không gian mầu (Color Space) Dựa theo lý thuyết về ảnh màu, cảm thụ về màu của mắt trên cơ sở 3 màu cơ bản: màu đỏ (Red), màu lục (Green) và màu lam (Blue). Trong hệ màu RGB, các màu có thể đ−ợc mô tả là các điểm bên trong hình lập ph−ơng đơn vị, với gốc toạ độ (0, 0, 0) là màu đen; 3 thành phần R (đỏ), G (lục), B (lam) biểu diễn cho 3 trục. Một hệ thống biểu diễn màu khác đ−ợc sử dụng chính trong lĩnh vực truyền hình nhằm giúp việc số hóa đ−ợc thuận lợi hơn là hệ màu YUV, miêu tả mỗi ảnh trong Video gồm các thành phần độ chói (Y) và sắc màu (UV). Hệ màu này nhằm đạt đ−ợc hiệu suất truyền cao hơn, và giữ nguyên tính t−ơng thích với hệ số truyền hình màu đen trắng. Thành phần chói (luminance) cung cấp giá trị mức xám của ảnh, hai thành phần còn lại mang thông tin về màu sắc (chrominance) để chuyển đổi từ ảnh xám sang ảnh màu. Nguyễn Hữu Phát 5
  7. Đồ án cao học ĐTVT 2003 Chuyển đổi RGB sang YUV đ−ợc thực hiện theo chuẩn CCIR 601 nh− sau: Y = 0.299R + 0.587G + 0.114B U = 0.493 (B - Y) V = 0.877 (R - Y) trong đó: Y là thành phần chói và U, V là hai thành phần màu. Đặc biệt: khi R = G = B thì Y = R = G = B và U = V = 0. Một định dạng màu khác là, t−ơng tự YUV là Y, CB, CR với Y t−ơng tự nh− trên và hai thành phần nh− sau: CB = U/2 + 0.5 CR = V/1.6 + 0.5 Do đó, màu CB, CR luôn nằm trong khoảng [0, 1]. Với −u điểm trên hệ YCBCR đ−ợc áp dụng rộng rãi trong việc số hoá Video. 1.1.1.2. Các cơ cấu số hoá tín hiệu Video Hình 1.1. Cấu trúc lấy mẫu Nguyễn Hữu Phát 6
  8. Đồ án cao học ĐTVT 2003 Trong truyền hình, các frame trong chuỗi Video có độ phân giải là 720 x 576 điểm và có tốc độ frame là 25 hoặc 30Hz. Mỗi ảnh trong chuỗi Video đ−ợc lấy số hoá nh− hình 1.1. Cấu trúc 4: 2: 2 Giả sử một dòng ngang của TV gồm 720 điểm ảnh. Hình 1.2. Cấu trúc lấy mẫu 4: 2: 2 Việc lấy mẫu sẽ tuần tự diễn ra nh− sau: - Điểm đầu lấy mẫu tín hiệu chói (Y) và lấy mẫu 2 màu (CB, CR). - Điểm tiếp theo chỉ lấy mẫu tín hiệu chói (Y) và không lấy mẫu 2 tín hiệu. Khi giải mã, màu suy ra từ điểm ảnh tr−ớc. Tuần tự nh− vậy, cứ 4 lần lấy mẫu Y, có 2 lần lấy mẫu CR, 2 lần lấy mẫu CB. Cấu trúc 4: 1: 1 Hình 1.3. Cấu trúc lấy mẫu 4: 1: 1 Điểm ảnh đầu tiên lấy mẫu đủ Y, CR, CB, 3 điểm kế tiếp chỉ lấy mẫu Y, không lấy mẫu tín hiệu màu. Khi giải mã, mầu của 3 điểm ảnh phải suy ra từ điểm ảnh đầu. Tuần tự nh− vậy, cứ 4 lần lấy mẫu Y, có 1 lần lấy mẫu CR, 1 lần lấy mẫu CB. Cấu trúc lấy mẫu 4: 2: 0 Nguyễn Hữu Phát 7
  9. Đồ án cao học ĐTVT 2003 Lấy mẫu tín hiệu Y tại tất cả các điểm ảnh của dòng, còn tín hiệu màu thì cứ 4 Y, có 2 màu CR và CB cách nhau theo từng hàng. Hình 1.4. Cấu trúc lấy mẫu 4: 2: 0 Cấu trúc lấy mẫu 4: 4: 4 Lấy mẫu tín hiệu Y, CR, CB tại tất cả các điểm ảnh của dòng. Hình 1.5. Cấu trúc lấy mẫu 4: 4: 4 1.1.2. Các ph−ơng pháp nén Video Mục tiêu chính của việc nén tín hiệu Video là biểu diễn một nguồn tín hiệu Video bằng một số bit ít nhất có thể đ−ợc mà vẫn đảm bảo yêu cầu chất l−ợng cảm thụ. Với tín hiệu Video, giới hạn dải thông của tín hiệu t−ơng tự khoảng 6MHz, trong khi tín hiệu Video số hoá theo tiểu chuẩn CCIR 601 với tốc độ bit là 270Mbit/s chiếm dải thông không d−ới 189MHz, tức là lớn hơn 31,5 lần so với dải thông của tín hiệu t−ơng tự. Chính vì vậy, giảm dải thông là vấn đề quan trọng với công nghệ Video số. Về cơ bản giảm dải thông đ−ợc thực hiện bằng 4 cách: - Giảm tốc độ dòng bit (bit Rate Reduction - BRR). Nguyễn Hữu Phát 8
  10. Đồ án cao học ĐTVT 2003 - Nén dòng tín hiệu Video số theo không gian, tức giảm độ d− thừa trong một số frame (spatial redundancy). - Nén dòng tín hiệu theo thời gian, tức giảm độ d− thừa theo thời gian (temporal redundancy). - Nén hỗn hợp sử dụng tổ hợp các ph−ơng pháp trên. 1.1.2.1. Giảm tốc độ dòng bit. Có hai ph−ơng pháp giảm tốc độ dòng bit. Cách thứ nhất dựa trên đặc điểm sinh lý của mắt ng−ời. Mắt ng−ời không nhạy cảm với các tín hiệu màu nên trong ph−ơng pháp này, ng−ời ta giảm bớt độ phân giải các tín hiệu màu. Cách thứ hai dựa trên ý nghĩa của các bit l−ợng tử hoá các điểm ảnh. Với 8 bit l−ợng tử hoá, các bit của byte này đ−ợc chia làm hai nhóm: nhóm có ý nghĩa hơn (MMB-More Meaning Bit) và nhóm ít ý nghĩa hơn (LMB-Less Meaning Bit). Việc ta cắt giảm các bit của nhóm LMB sẽ không ảnh h−ởng nhiều tới chất l−ợng của ảnh. Tuy nhiên, ph−ơng pháp này không đ−ợc chấp nhận trong các giải pháp giảm dải thông hiện tại, nên cũng sẽ không đ−ợc đề cập đến. Phần lớn các định dạng số thành phần hiện nay đều sử dụng tần số lấy mẫu 13.5MHz đối với tín hiệu chói. Theo chuẩn CCIR 601, nếu 2 tín hiệu màu đ−ợc lấy màu đ−ợc lấy mẫu với tần số nh− tín hiệu chói, chúng ta sẽ có định dạng 4: 4: 4.Định dạng này đ−ợc sử dụng trong các thiết bị dựng phim phi tuyến và trong đồ hoạ vi tính liên quan đến phim nhựa. Tốc độ bit của định dạng này cho hệ PAL là: Với l−ợng tử hoá 8 bit: (720 + 720 +720) x 576 x 8 x 25 = 249 Mbit/s Với l−ợng tử hóa 10 bit: (720 + 720 +720) x 576 x 10 x 25 = 311 Mbit/s. Trong đó: 720 x 576 là độ phân giải màn hình (576 là số dòng /frame). 25 là tốc độ chuyển ảnh (25 frames/s). Nguyễn Hữu Phát 9
  11. Đồ án cao học ĐTVT 2003 Hiện nay, các thiết bị sử dụng kỹ thuật số ở thị tr−ờng thiết bị Video chuyên dụng th−ờng sử dụng chuẩn CCIR 601 4: 2: 2. Theo định dạng số hoá này, tín hiệu Video thành phần đ−ợc lấy mẫu với tần số 13.5 MHz đối với tín hiệu chói, và 6,75 MHz đối với hai tín hiệu màu. Tốc độ dòng dữ liệu của định dạng này đ−ợc tính nh− sau: Khi lấy mẫu 8 bit: (720 +360 +360) x 576 x 8 x 25 = 166 Mbit/s. 10 bit: (720 +360 +360) x 576 x 10 x 25 = 207 Mbit/s. Nh− vậy, so với ph−ơng pháp lẫy mẫu không cắt giảm (4: 4: 4), ph−ơng pháp này cho phép cắt giảm đ−ợc 33% tốc độ dòng bit. Với định dạng 4: 1: 1 và 4: 2: 0, tốc độ dòng bit còn đ−ợc cắt giảm nhiều hơn. Với 8 bit lấy mẫu, tốc độ dòng bit tính cho PAL là: (720 +180 +180) x 576 x 8 x 25 = 124.4 Mbit/s. tức là giảm đ−ợc 50% so với nguyên mẫu 4: 4: 4. 1.1.2.2. Nén dòng tín hiệu Video số theo không gian Gần nh− tất cả các ảnh đều chứa một số l−ợng lớn các giá trị dữ liệu thông tin giống nhau. Trong các hệ thống không giảm dữ liệu, các dữ liệu giống nhau này đ−ợc lặp lại để tạo lại các vùng đều nhau trong một ảnh (ví dụ, bầu trời xanh), và do đó có thông tin d− thừa trong dòng dữ liệu. Để giảm độ d− thừa trong một frame, ta sử dụng các ph−ơng pháp nén ảnh. Các ph−ơng pháp nén ảnh có thể chia làm 2 loại: • Nén không tổn hao (lossless compression): là ph−ơng pháp nén mà tín hiệu gốc đối chiếu với tín hiệu đ−ợc nén (mã hoá), sau đó giải nén (giải mã) thì không có sự phân biệt. • Nén có tổn hao (lossy compression): là ph−ơng pháp nén mà tín hiệu gốc có sự khác biệt với tín hiệu đ−ợc khôi phục sau khi nén và giải nén. • Chất l−ợng hình ảnh của các thiết bị dùng ph−ơng pháp nén không tổn hao là rất tốt, có thể so sánh đ−ợc với chất l−ợng ảnh không nén. Tuy nhiên, tỉ số nén của ph−ơng pháp này rất thấp. Chính vì vậy, các −u điểm của việc Nguyễn Hữu Phát 10
  12. Đồ án cao học ĐTVT 2003 nén tín hiệu không đ−ợc phát huy một cách tối đa, giá thành thiết bị vẫn còn rất cao. Để nâng tỉ số nén, phát huy tối đa −u điểm của việc nén tín hiệu, ph−ơng pháp nén có tổn hao đ−ợc sử dụng trong hầu hết các thiết bị hiện nay. Có hai định dạng nén đ−ợc áp dụng rộng rãi trong các thiết bị truyền hình, nén Video là JPEG và MPEG, cùng các phiên bản của nó. 1.1.2.3. Nén dòng tín hiệu theo thời gian. Các frame trong Video có quan hệ mật thiết với nhau, thậm chí các frame hiện tại chỉ thay đổi chút ít so với các frame tr−ớc và sau đó. Để giảm bớt thông tin truyền tải, ng−ời ta chỉ truyền những phần thông tin sai lệch và kết hợp với thông tin cũ. Có nhiều ph−ơng pháp khác nhau để xác định sự thay đổi giữa các frame, đó là các ph−ơng pháp xác định véctơ chuyển động. Ngoài ra còn nhiều ph−ơng pháp khác, những giải thuật này có chất l−ợng cao, nh−ng mức độ tính toán phức tạp và còn đang trong giai đoạn nghiên cứu. 1.1.2.4. Nén hỗn hợp sử dụng tổ hợp các ph−ơng pháp trên Để đạt đ−ợc hiệu quả nén cao mà vẫn đảm bảo chất l−ợng hình ảnh, ng−ời ta sử dụng tổ hợp các ph−ơng pháp trên. Ph−ơng pháp nén Video theo chuẩn MPEG là một ph−ơng pháp nén tổ hợp của các ph−ơng pháp trên. 1.1.3. Tham số nén Video. Tham số nén Video đ−ợc đề cập đến ở đây là định dạng ảnh và tỉ số nén, tỉ số nén cho phép đánh giá hiệu quả của hệ thống nén. Khi so sánh tỉ số nén của các hệ thống nén khác nhau, thì định dạng ảnh của các hệ thống nén trên phải giống nhau. Định dạng bao gồm: • Số dòng/ảnh và số pixel/dòng. Nguyễn Hữu Phát 11
  13. Đồ án cao học ĐTVT 2003 • Số frame/s. Và cấu trúc lấy mẫu bao gồm: 4: 4: 4, 4: 2: 2, 4: 2: 0, 4: 1: 1, độ phân giải của mẫu là 8/10 bit (hoặc 12 bit). Tốc độ bit của ảnh gốc (tr−ớc khi nén) có thể rút ra từ công thức: Tốc độ dữ liệu ảnh gốc Tỉ số nén = Tốc độ dữ liệu ảnh nén Ví dụ: với tốc độ bit dữ liệu ảnh gốc 166 Mbit/s ở trên áp dụng vào máy ghi hình đĩa PDR-100 (Tektronix), và giả sử chất l−ợng nén t−ơng đ−ơng 24Mbit/s, thì tỉ số nén là 166/24 = 6.92. 1.2. Giới thiệu chung về chuẩn MPEG Chuẩn MPEG (Moving Picture Expert Group) đ−ợc xây dựng và phát triển bởi các tổ chức ISO và IEC (International Electrotechnical Commission) với mục đích mã hoá tín hiệu hình ảnh và âm thanh cho DSM (Digital Storage Media), DSS (Digital Satellite System), HDTV (High Definition Television), VideoConferencing, Internet Video, và các ứng dụng Video số. Chuẩn MPEG ngày càng đ−ợc sử dụng rộng rãi trong nhiều ứng dụng l−u trữ, truyền thông đa ph−ơng tiện, và đ−ợc biết đến với các chuẩn MPEG-1, MPEG-2, MPEG-4, MPEG-7. • MPEG-1 (~1992): mã ISO/IEC 11172, là chuẩn đầu tiên của MPEG nhằm mục đích nén Video có kích th−ớc khuôn hình 320x240 cho dòng dữ liệu có tốc độ từ 1 đến 1.5 Mb/s trong các ứng dụng DSM (nh− công nghệ ghi VCD), vô tuyến truyền hình. • MPEG-2 (~1995): mã ISO/IEC 13818, là chuẩn dành cho giải pháp cao hơn dùng trong studio số, DVD, truyền hình số và HDTV. Khác với MPEG-1 tín hiệu Video luôn là quét liên tục (progressive), MPEG-2 áp dụng cho cả quét liên tục và quét xen kẽ (interlace). Tốc độ dòng dữ liệu lên tới 15 Mb/s. Nguyễn Hữu Phát 12
  14. Đồ án cao học ĐTVT 2003 • MPEG-4 (~1998): mã ISO/IEC 14496, là chuẩn chủ yếu dành cho các ứng dụng đa ph−ơng tiện t−ơng tác, phân loại khung cảnh đa ph−ơng tiện thành các đối t−ợng nội dung media, tập trung vào dồn kênh, đồng bộ dữ liệu với các đối t−ợng media để truyền qua mạng. MPEG-4 sử dụng tốc độ bit (Video) rất thấp: 5ữ64 Kb/s. Vai trò nén ít đ−ợc đề cập trong phiên bản này. • MPEG-7 (~2001): MPEG-7 là chuẩn mô tả thông tin của rất nhiều loại ph−ơng tiện. Mô tả này cho khả năng tìm kiếm nhanh và hiệu quả theo yêu cầu ng−ời dùng. Tuy nhiên, chuẩn MPEG-7 đ−ợc mô tả về phần nội dung giống nh− MPEG-4, và đ−ợc gọi chính thức là “Giao thức mô tả nội dung đa ph−ơng tiện” (Multimedia Content Description Interface). MPEG-7 đặc tr−ng cho một tập tiêu chuẩn biểu diễn nhiều loại thông tin multimedia khác nhau. MPEG-7 không phải là chuẩn nén. Sơ đồ giới thiệu các chuẩn nén và các công nghệ nén xem hình 1.6: Hình 1.6. Các chuẩn, các công nghệ nén, truyền thông đa ph−ơng tiện Nguyễn Hữu Phát 13
  15. Đồ án cao học ĐTVT 2003 1.3. Các khái niệm cơ bản trong nén Video theo chuẩn MPEG. 1.3.1. Cấu trúc phân cấp Video theo chuẩn MPEG. Cấu trúc dòng bit Video đ−ợc chia thành phân cấp các lớp (layer) để hỗ trợ quản lý lỗi, truy cập ngẫu nhiên, dựng hình (editting) và đồng bộ với dòng bit audio. • Block: Là các khối kích th−ớc 8x8 điểm ảnh của tín hiệu chói và màu đ−ợc dùng để biến đổi DCT. • Macroblock: Một Macroblock là một nhóm các khối DCT (theo nội dung thông tin) trong ảnh gốc. Header của Marcroblock chứa thông tin về các khối độ chói và độ màu, và thông tin bù chuyển động. Có ba loại Macroblock (phân loại theo ph−ơng pháp mã hoá Macroblock): u Skipped MB: sử dụng dự đoán từ frame giải mã tr−ớc đó với véctơ chuyển động bằng 0. Không có thông tin về Macroblock đ−ợc giải mã cũng nh− đ−ợc truyền đến nơi nhận. u Inter MB: sử dụng dự đoán bù chuyển động từ frame tr−ớc đó. Do đó, cần truyền đi kiểu MB, địa chỉ MB, vectơ chuyển động, các hệ số DCT và kích th−ớc b−ớc l−ợng tử. u Intra MB: không dùng dự đoán từ frame tr−ớc đó. Nên chỉ cần truyền kiểu MB, địa chỉ MB, các hệ số DCT và kích th−ớc b−ớc l−ợng tử đến nơi nhận. • Slice: Slice cung cấp khả năng phòng ngừa sự sai lệch dữ liệu. Khi gặp lỗi trong dòng bit của một ảnh, bộ giải mã có thể khôi phục bằng cách đợi Slice tiếp theo mà không phải huỷ bỏ toàn bộ ảnh. Slice chứa header và một hoặc nhiều Macroblock liên tiếp. Kích th−ớc Slice cực đại có thể là toàn cảnh, kích th−ớc cực tiểu có thể là một Macroblock. Header của Slice chứa thông tin về vị trí của nó trong ảnh và hệ số thang độ của bộ l−ợng tử hoá. Nguyễn Hữu Phát 14
  16. Đồ án cao học ĐTVT 2003 • Picture (frame): Một ảnh t−ơng ứng với một frame của Video. Có ba kiểu ảnh chính là: ảnh I, P và B. Các ảnh này không độc lập nhau, nên thứ tự dòng bit (tức là thứ tự các cảnh đ−ợc truyền, l−u trữ và khôi phục) không theo thứ tự hiển thị, mà là thứ tự cho phép bộ giải mã có thể giải mã dòng bit. Lớp ảnh bao gồm phần header và một hoặc nhiều Slice. Header chỉ thị sự sắp xếp để truyền frame, cho phép bộ giải mã hiển thị frame đúng theo bậc, kiểu ảnh và thông tin mã hoá. • GOP (Group Of Picture): Một nhóm ảnh là một điểm truy nhập ngẫu nhiên (random access point), là đơn vị mã hoá nhỏ nhất mà có thể đ−ợc giải mã độc lập, bao gồm phần header và các ảnh. Header chứa thông tin thời gian và dựng hình (editting). Một nhóm ảnh GOP hình thành từ liên kết một hoặc nhiều frame I, và các frame P, và/hoặc frame B. Cấu trúc GOP đ−ợc biểu diễn thông qua hai tham số: n (số frame trong GOP) và m (khoảng cách dự đoán), thông th−ờng n=15, m = 3. Mỗi GOP bắt đầu bằng một frame I. Thứ tự các ảnh dòng mã là thứ tự mà qua quá trình giải mã đ−a chúng trở lại bình th−ờng. Đặc biệt, ảnh B trong dòng giải mã đ−ợc đ−a ngay ra màn hình; ảnh mã cuối cùng của nhóm ảnh (trong thứ tự trình diễn) là ảnh I hoặc P. • Chuỗi Video (Video sequence): Là lớp cao nhất của phân cấp mã hoá. Chuỗi chứa một header, một hoặc nhiều GOP và một mã kết thúc chuỗi. Thông tin quan trọng nhất chứa trong header là kích th−ớc theo chiều ngang và đứng của mỗi ảnh, tỉ lệ pixel, tốc độ bit của ảnh trong chuỗi, tốc độ ảnh và các kích th−ớc tối thiểu của bộ nhớ cho bộ giải mã, . . . . để khởi gán trạng thái của bộ giải mã. Chuỗi Video và thông tin header tạo thành dòng bit mã hoá, đ−ợc gọi là dòng sơ cấp Video ES (elementary stream). Nguyễn Hữu Phát 15
  17. Đồ án cao học ĐTVT 2003 Hình 1.7. Các lớp video theo chuẩn MPEG Hình 1.8. Cấu trúc dòng dữ liệu MPEG Nguyễn Hữu Phát 16
  18. Đồ án cao học ĐTVT 2003 1.3.2. Phân loại frame Video. Căn cứ vào đặc tính của Video có sự d− thừa không gian và d− thừa thời gian để đ−a ra hai ph−ơng pháp nén giảm độ d− thừa không gian (mã hoá “intraframe”) và nén giảm độ d− thừa thời gian t−ơng ứng (mã hoá “intrerframe”), và do đó chia các frame Video thành 3 loại là: frame I, frame P, frame B. • Frame I (Intra Coded Picture): Frame I là frame đầu tiên trong mỗi nhóm ảnh của chuỗi Video, frame này đ−ợc mã hoá t−ơng tự nh− mã hoá ảnh tĩnh theo chuẩn JPEG. Các frame I đ−ợc mã hoá độc lập, không cần tham chiếu đến các frame khác trong chuỗi Video. Mã hoá các frame I chỉ làm giảm độ d− thừa không gian và cho một tỉ lệ nén vừa phải. Frame I có thể dùng làm điểm truy cập ngẫu nhiên trong chuỗi cho bộ giải mã, và có thể dùng nh− nh− là frame tham chiếu (reference frame) để dự đoán các frame khác. • Frame P (Predictive Code Picture): Qua frame I, bộ mã hoá có thể dự đoán thuận (forward predection) frame tiếp theo. Frame đ−ợc dự đoán gọi là frame P (predicted frame), và frame P cũng có thể đ−ợc dự đoán từ các frame tr−ớc đó. Nh− vậy, mỗi frame P đ−ợc dự đoán từ frame I hoặc P tr−ớc đó. Việc mã hoá ảnh P có sử dụng bù chuyển động. Thông tin −ớc l−ợng chuyển động của các khối nằm trong véctơ chuyển động. véctơ này xác định một Macroblock (MB) nào đó đ−ợc sử dụng từ ảnh gốc. Frame P cho hệ số nén cao hơn, và có thể sử dụng làm một frame so sánh, tham chiếu cho việc bù chuyển động cho các frame P và B khác. Nguyễn Hữu Phát 17
  19. Đồ án cao học ĐTVT 2003 Hình 1.9. Nội suy bù chuyển động • Frame B (Bidirectionally Predicted 0icture): Bộ mã hoá cũng có thể sử dụng đồng thời dự đoán thuận và ng−ợc. Những frame này gọi là frame dự đoán nội suy 2 chiều (Bi-directional Interpolated Prediction), hay frame B. Không nh− frame I (đ−ợc dự đoán độc lập) và frame P (đ−ợc dự đoán dựa vào frame I hoặc P tr−ớc đó), frame B đ−ợc dự đoán 2 chiều dựa vào cặp frame I và P, hoặc P và P, hoặc P và I (với frame I của nhóm ảnh tiếp theo). Việc sử dụng thông tin lấy từ ảnh trong t−ơng lai hoàn toàn có thể thực hiện đ−ợc vì tại thời điểm mã hoá thì bộ mã hoá đã sẵn sàng truy cập tới ảnh phía sau. Frame B cho tỉ lệ nén cao nhất, và không đ−ợc dùng làm frame tham chiếu. Theo ph−ơng pháp nén này, frame I gọi là frame intra (sử dụng kỹ thuật mã hoá intraframe), frame P và B gọi là các frame Inter (sử dụng kỹ thuật mã hoá interframe). Nguyễn Hữu Phát 18
  20. Đồ án cao học ĐTVT 2003 Một thuận lợi khi sử dụng nhiều loại frame là để theo dõi dữ liệu trong quá trình truyền, nếu có frame bị mất (th−ờng là frame P hoặc frame B) thì chất l−ợng Video cũng không bị ảnh h−ởng nhiều. Kích th−ớc các frame đ−ợc minh hoạ trong hình vẽ sau: Hình 1.10. Kích th−ớc các loại frame 1.3.3. Nhóm ảnh (GOP: Group Of Picture). Công nghệ MPEG sử dụng 3 loại ảnh I, P và B, trong đó P, B không phải là một ảnh hoàn chỉnh mà chỉ chứa sự khác biệt giữa ảnh đó và ảnh xuất hiện tr−ớc đó (đối với P), hay sự khác biệt đối với cả ảnh xuất hiện tr−ớc và sau nó (đối với B). Để có một khuôn hình hoàn chỉnh ảnh P và B cần có dữ liệu từ các ảnh lân cận, chính vì vậy đối với MPEG có một khái niêm là GOP (nhóm ảnh). Mỗi nhóm phải bắt đầu bằng một ảnh hoàn chỉnh I và tiếp theo là một loạt các ảnh B, P. Có hai loại nhóm là mở và đóng. Nhóm mở bắt đầu bằng một ảnh I và kết thúc bằng một ảnh I, việc dự đoán ảnh phụ thuộc cả vào thông tin của các GOP khác. Nhóm đóng có cấu trúc khép kín, việc dự đoán ảnh không phụ thuộc vào thông tin của nhóm khác và ảnh cuối cùng của một nhóm bao giờ cũng là một ảnh P. Nguyễn Hữu Phát 19
  21. Đồ án cao học ĐTVT 2003 Chuỗi ảnh MPEG th−ờng có cấu trúc IBBPBBPBBI nh−ng thứ tự truyền dẫn và thứ tự hiển thị ảnh là khác nhau do khi tạo ảnh B cần thông tin từ cả khung quá khứ và t−ơng lai. ảnh t−ơng lai cần phải đ−ợc truyền dẫn tr−ớc, khi hiển thị phải theo đúng thứ tự nguồn. Để thực hiện điều này, lớp ảnh (Picture layer) của dòng dữ liệu MPEG có thông tin về số thứ tự ảnh để trợ giúp hiển thị. Hình d−ới trình bày thứ tự truyền dẫn và thứ tự hiển thị ảnh. Hình 1.11. Thứ tự truyền dẫn và thứ tự hiển thị ảnh Chuẩn MPEG không định nghĩa số l−ợng giới hạn các frame B liên tiếp trong nhóm ảnh, nên số l−ợng frame B liên tiếp phụ thuộc vào từng ứng dụng. Thông th−ờng, số l−ợng này là 2 (I, B, B, P, B, B, P) để đảm bảo hiệu quả nén và chất l−ợng Video. Một cấu trúc nhóm ảnh thông th−ờng đ−ợc mô tả bởi hai tham số: n - số ảnh trong một nhóm và m - số khoảng cách cho ảnh B. Nh− ví dụ trên n=9 và m=3. Nguyễn Hữu Phát 20
  22. Đồ án cao học ĐTVT 2003 1.4. Ph−ơng pháp nén ảnh Video theo chuẩn MPEG. 1.4.1. Mô hình tổng quát bộ mã hoá Video theo chuẩn MPEG. Nén Video số nhằm mục đích loại bỏ d− thừa không gian và d− thừa thời gian trong chuỗi Video mà không ảnh h−ởng đến mức độ cảm thụ của mắt ng−ời. Trong ph−ơng pháp nén Video theo chuẩn MPEG có hai kỹ thuật nén đ−ợc sử dụng là: • Kỹ thuật mã hoá “Intra frame”: Kỹ thuật mã hoá “Intra frame” nhằm giảm độ d− thừa không gian trong một frame. Kỹ thuật này xuất phát từ mối t−ơng quan không gian giữa các điểm ảnh trong một ảnh, từ đó để nén ảnh hiệu quả. Ph−ơng pháp đ−ợc sử dụng để giảm d− thừa không gian là kỹ thuật mã hoá biến đổi Cosine rời rạc (DCT) trên các khối 8x8 điểm ảnh. Kỹ thuật này đã đ−ợc sử dụng trong ph−ơng pháp nén ảnh tĩnh trình bày ở Ch−ơng 2. • Kỹ thuật mã hoá “Inter frame”: nhằm giảm độ d− thừa thời gian giữa các frame ảnh: Kỹ thuật mã hoá “Inter frame” tính giá trị của một điểm ảnh riêng biệt bằng cách dự đoán từ các điểm ảnh trong ảnh lân cận. Kỹ thuật này xuất phát từ mối t−ơng quan thời gian giữa các điểm ảnh trong các ảnh lân cận. Ph−ơng pháp để giảm độ d− thừa thời gian là kỹ thuật mã hoá DPCM dựa trên dự đoán bù chuyển động giữa các frame. • Trong mô hình nén Video theo chuẩn MPEG, để đạt đ−ợc hiệu quả nén cao cần kết hợp cả hai kỹ thuật nén ở trên để giảm d− thừa không gian và thời gian. Mô hình nén Video Hybrid DPCM/DCT là sự kết hợp của hai kỹ thuật trên (xem hình 1.12). Mô hình Hybrid DPCM/DCT gồm có các kỹ thuật: • Lấy mẫu (subsampling) thông tin về màu để thích hợp với độ nhậy cảm của mắt ng−ời. Nguyễn Hữu Phát 21
  23. Đồ án cao học ĐTVT 2003 • L−ợng tử hoá (Quantization-Q) • Nội suy ảnh (picture interpolation). • Dự đoán bù chuyển động bao gồm: đánh giá chuyển động (motion estimation) và bù chuyển động (motion compensation-MC) • Biến đổi Cosine rời rạc (DCT) để khai thác tính d− thừa không gian. • Mã hoá chiều dài thày đổi (VLC-Variable length coding). Hình 1.12. Nguyên lý mã hoá Hybrid DCT/DPCM 1.4.2. Lấy mẫu thông tin về màu. Lấy mẫu với tần số lấy mẫu thấp hơn là để giảm kích th−ớc của Video đầu vào và nh− thế sẽ giảm số l−ợng các điểm tr−ớc khi mã hoá. Lấy mẫu màu nghĩa là lấy mẫu màu ở tần số thấp hơn tần số lấy mẫu theo lý thuyết Nyquist hoặc Shannon. Mắt ng−ời nhạy cảm nhất với độ phân giải thành phần độ chói của ảnh và ít nhạy cảm với thông tin về màu. Lấy mẫu là một ph−ơng pháp giảm dữ Nguyễn Hữu Phát 22
  24. Đồ án cao học ĐTVT 2003 liệu rất có hiệu quả, nh−ng sự tổn thất độ phân giải ảnh và các thành phần chồng phổ sẽ làm giảm chất l−ợng nội dung ảnh gốc. Vì lý do này, nên không dùng lấy mẫu thấp cho tín hiệu chói. Cấu trúc lấy mẫu th−ờng dùng là 4: 2: 2 và 4: 2: 0. MPEG dùng cấu trúc 4: 2: 0. 1.4.3. L−ợng tử hoá. L−ợng tử hoá đ−ợc thực hiện bằng cách chia mỗi hệ số DCT cho các giá trị kích th−ớc b−ớc l−ợng tử t−ơng ứng trong bảng l−ợng tử, sau đó làm tròn về số nguyên gần nhất. ⎡⎤Suv(,) Suvq (,)= ⎢⎥ ⎣⎦Quv(,) trong đó: - [] là làm tròn về số nguyên gần nhất. - Q(u,v): hệ số l−ợng tử hoá xác định bởi bảng l−ợng tử hoá. Q(u,v) có giá trị từ 1 đến 255 xác định b−ớc của kích th−ớc l−ợng tử hoá t−ơng ứng. Giải l−ợng tử hoá đ−ợc thực hiện bởi: Suv'(,)= Suvq (,)*(,) Quv 1.4.4. Nội suy ảnh. Bộ giải mã có thể khôi phục ảnh hiện tại từ ảnh tr−ớc và ảnh sau, thì kỹ thuật khôi phục đó gọi là kỹ thuật nội suy ảnh. Các khối trong ảnh hiện tại có thể đ−ợc dự đoán thuận hoặc ng−ợc và đ−ợc dịch theo các véctơ chuyển động. Bộ giải mã có thể tái tạo các giá trị điểm ảnh theo một khối cho tr−ớc là trung bình của các giá trị của khối tr−ớc và khối sau. Nguyễn Hữu Phát 23
  25. Đồ án cao học ĐTVT 2003 1.4.5. Dự đoán bù chuyển động. 1.4.5.1. Đánh giá chuyển động (motion estimation). Đánh giá chuyển động là quá trình đánh giá xấp xỉ các điểm của frame hiện tại từ frame tham chiếu. Đánh giá chuyển động phải xác định các véctơ chuyển động, và đ−ợc thực hiện tại bộ mã hoá với nhiều sự tính toán phức tạp. Có nhiều chiến l−ợc tìm kiếm để xác định véctơ chuyển động. Với mỗi chiến l−ợc tìm kiếm, bộ mã hoá cố gắng đối sánh các điểm trong một Macroblock với các điểm trong ảnh đ−ợc mã hoá tr−ớc hoặc sau đó (theo thứ tự hiển thị). Khi quá trình tìm kiếm kết thúc, sẽ tạo ra véctơ chuyển động (motion véctơ) thích hợp nhất (xem hình 1.13). Hình 1.13. Xác định vectơ chuyển động mv (motion vector) 1.4.5.2. Bù chuyển động (Motion Compensation). Trong thực tế thì không phải khối t−ơng thích lúc nào cũng giữ nguyên trạng thái cân bằng sau khi dịch chuyển mà trong quá trình dịch chuyển nó bị Nguyễn Hữu Phát 24
  26. Đồ án cao học ĐTVT 2003 quay đi một góc nào đó. Với góc quay nh− vậy sẽ làm cho ảnh sau khi xây dựng lại sẽ bị lệch đi một góc nào đó (lệch hình). Để khắc phục tình trạng đó ng−ời ta đ−a vào khái niệm ảnh lỗi dự đoán. ảnh sai số dự đoán là phần khác nhau nhỏ nhất giữa ảnh hiện tại đ−ợc truyền và ảnh dự đoán tốt nhất có thể đạt đ−ợc. ảnh đó đ−ợc xác định bằng cách lấy ảnh hiện tại trừ đi đi ảnh sau khi dự đoán. Quá trình xây dựng lại ảnh đ−ợc thực hiện bằng cách lấy ảnh dự đoán thông qua véctơ chuyển động cộng với sai số dự đoán. Khi mã hoá thay vì phải mã hoá toàn bộ ảnh ng−ời ta chỉ cần mã hoá véctơ chuyển động và ảnh sai số dự đoán. ảnh sai số dự đoán có kích cỡ nhỏ hơn rất nhiều so với toàn bộ ảnh vì phần ảnh giống nhau sẽ bị triệt tiêu (có giá trị bằng 0) khi xác định ảnh sai số dự đoán, do đó việc mã hoá sẽ đòi hỏi ít byte hơn. Quá trình khôi phục một ảnh bằng cách dùng các phần ảnh từ ảnh tr−ớc cùng với thông tin về chuyển động (véctơ chuyển động) nh− ở trên gọi là bù chuyển động (Motion Compensation). Trong nhóm ảnh trên (hình 1.11), ảnh I1 đ−ợc giải mã mà không cần xét đến véctơ chuyển động, nh−ng ảnh P4 đ−ợc giải mã phải sử dụng véctơ chuyển động từ ảnh I1. Bù chuyển động này gọi là bù chuyển động thuận vì xuôi theo trình tự thời gian. Các ảnh P luôn dùng bù chuyển động thuận từ ảnh I hoặc P đ−ợc truyền tr−ớc đó. Các ảnh B đ−ợc giải mã sử dụng bù chuyển động từ ảnh I hoặc ảnh P tr−ớc hoặc sau đó (theo thứ tự hiển thị). Dự đoán đ−ợc gọi là thuận nếu ảnh tham chiếu (ảnh I hoặc ảnh P) là ảnh tr−ớc ảnh đang xét; và đ−ợc gọi là ng−ợc nếu ảnh tham chiếu là ảnh sau đang xét (theo thứ tự hiển thị). Ví dụ trong hình 1.11 ảnh B2 dùng bù chuyển động thuận từ ảnh I1 và bù chuyển động ng−ợc từ ảnh P4. .Do đó, ảnh B2 dùng bù chuyển động hai chiều và kết quả lấy trung bình, nên đ−ợc gọi là bù chuyển động nội suy. Bù chuyển động đ−ợc thực hiện tại bộ mã hoá và giải mã. Nguyễn Hữu Phát 25
  27. Đồ án cao học ĐTVT 2003 Quá trình khôi phục frame (với loại frame inter) sử dụng bù chuyển động gồm hai b−ớc: + Cộng véctơ chuyển động vào frame tham chiếu. + Cộng sai số dự đoán và kết quả trên. Hình 1.14 minh hoạ quá trình khôi phục frame. Giữa những điểm kế tiếp nhau có liên quan lẫn nhau dẫn đến sự d− thừa. Mã dự đoán đ−ợc dùng để loại bỏ sự d− thừa đó. Dựa trên quá trình tạo các điểm tuần tự và luật dự đoán, mỗi giá trị của điểm có thể đ−ợc dự đoán để thay thế điểm hiện tại. Phần chênh lệch giữa điểm dự đoán và điểm hiện tại đ−ợc mã hoá. Thành công trong mã hoá ít bit hơn so với mã hoá trực tiếp điểm hiện tại. Mã hoá dự đoán đóng vai trò quan trọng trong các chuẩn nén ảnh nh− JPEG và MPEG để có hiệu suất nén và đơn giản hơn. Hình 1.14. Minh hoạ quá trình khôi phục frame 1.4.6. Biến đổi Cosine rời rạc. T−ơng tự nh− biến đổi DCT. Nguyễn Hữu Phát 26
  28. Đồ án cao học ĐTVT 2003 1.4.7. Mã VLC. Mã hoá VLC là ph−ơng pháp mã hoá thống kê, gán các từ mã cho các giá trị đ−ợc mã hoá. Các giá trị có tần số xuất xuất hiện cao đ−ợc gán từ mã ngắn, các từ mã có tần xuất xuất hiện thấp đ−ợc gán từ mã dài hơn sao cho xâu biểu diễn mã ngắn hơn so với dữ liệu gốc. Với cách gán trên, mã hoá đ−ợc gọi là mã hoá có độ dài thay đổi nhằm tối −u việc mã hoá với số l−ợng bit ít nhất. 1.5. Quá trình nén Video theo chuẩn MPEG-1. Kỹ thuật nén Video theo chuẩn MPEG -1 chủ yếu ứng dụng cho việc l−u trữ trên CD-ROM và truyền trên mạng. Đầu vào Video theo chuẩn bao gồm một định dạng ảnh Video liên tục (non-interlaced) 1.5.1. Tham số đặc tr−ng. Tham số đặc tr−ng đề cập đến ở đây là định dạng ảnh đầu vào và cấu trúc lấy mẫu. Định dạng đầu vào là: 720 điểm mỗi dòng, 576 dòng mỗi ảnh và 30 ảnh mỗi giây. Tỉ lệ bit lớn nhất là 1.86 Mbit/s. Cấu trúc lấy mẫu là 4: 2: 0. Nguyễn Hữu Phát 27
  29. Đồ án cao học ĐTVT 2003 1.5.2. Quá trình m∙ hoá. Hình 1.15. Sơ đồ khối bộ mã hoá video theo chuẩn MPEG-1 Quy trình hoạt động của bộ đánh giá xấp xỉ chuyển động và bù chuyển động theo chuẩn MPEG-1 gồm: 1.5.2.1. Bộ đánh giá chuyển động. • Thao tác cho từng khối tại mỗi thời điểm. • Với mỗi khối của frame hiện tại: • Tìm kiếm khối giống nhất trong frame tr−ớc. • Tính toán vectơ chuyển động từ khối giống nhất đó. • Xác định sai lệch giữa khối thuộc frame hiện tại và khối thuộc frame tr−ớc đó. • Mã hóa véctơ chuyển động. • Mã hoá khối sai lệch. • Phép tìm kiếm thực hiện trên một vùng giới hạn, gọi là vùng tìm kiếm. Nguyễn Hữu Phát 28
  30. Đồ án cao học ĐTVT 2003 1.5.2.2. Bộ bù chuyển động. • Bộ mã hoá dùng véctơ chuyển động và frame tham chiếu để tạo ra frame dự đoán bù chuyển động của frame hiện tại. • Mỗi khối của frame hiện tại (tức mỗi Macroblock 16x16 điểm) đ−ợc dự đoán dựa vào thông tin về chuyển động (tức vectơ chuyển động) và frame tham chiếu. • Khối hiện tại trừ đi khối dự đoán để tạo ra khối sai lệch bù chuyển động. • Khối sai lệch này đ−ợc biến đổi DCT, l−ợng tử hoá và mã hoá. • Sau khi mã hoá, khối sai lệch này cùng với véctơ chuyển động đ−ợc truyền đi. 1.5.2.3. Quá trình mã hoá. • Một bản sao khôi phục từ frame đã mã hoá đ−ợc l−u trữ trong vùng đệm frame (frame store), để frame này đ−ợc dùng nh− frame tham chiếu cho đánh giá chuyển động. Thứ tự l−u trữ trong FS của bộ mã hoá phải đồng nhất với thứ tự này trong bộ giải mã. • Bộ đánh giá chuyển động tính toán véctơ chuyển động cho mỗi khối bằng cách đối sánh frame đầu vào hiện tại với frame tham chiếu gần nhất. • Bộ bù chuyển động tạo ra frame dự đoán bù chuyển động (là frame giống frame hiện tại nhất). • Frame hiện tại trừ đi frame bù chuyển động để tạo ra frame sai lệch bù chuyển động. • Các hệ số sau khi l−ợng tử hoá và các véctơ chuyển động đ−ợc mã hoá và truyền đi. Nguyễn Hữu Phát 29
  31. Đồ án cao học ĐTVT 2003 • Đồng thời, các hệ số l−ợng tử hoá đ−ợc l−ợng tử hoá ng−ợc, biến đổi ng−ợc, và cùng với frame dự đoán bù chuyển động để tạo ra frame tham chiếu mới. Cách hoạt động của bộ mã hoá phụ thuộc vào từng loại frame. • Frame I đ−ợc xử lý theo cách thức t−ơng tự nh− ph−ơng pháp nén ảnh tĩnh theo chuẩn JPEG. Frame I đ−ợc l−u trữ trong bộ đệm frame để làm frame tham chiếu dùng cho đánh giá chuyển động và tạo ra các frame P và B. • Frame P không đ−ợc mã hoá trực tiếp nh− frame I, mà mã hoá frame sai lệch giữa frame P hiện tại và frame dự đoán (thuận) của nó. Frame dự đoán đ−ợc tạo ra nhờ sử dụng véctơ chuyển động và frame I, hoặc P đ−ợc tham chiếu gần nhất. • T−ơng tự nh− frame P, frame B không đ−ợc mã hoá trực tiếp mà mã hoá frame sai lệch giữa frame B hiện tại và frame dự đoán (hai chiều) của nó. Frame dự đoán đ−ợc tạo ra nhờ sử dụng véctơ chuyển động hai chiều và cặp frame I và P, hoặc P và P, hoặc P và I đ−ợc tham chiếu gần nhất. Quá trình mã hoá frame I: Nguyễn Hữu Phát 30
  32. Đồ án cao học ĐTVT 2003 Hình 1.16. Quá trình mã hoá frame I Quá trình mã hoá frame sai lệch: Hình 1.17. Quá trình bù chuyển động và mã hoá frame sai lệch Tốc độ bit của tín hiệu Video đ−ợc nén không cố định, phụ thuộc vào nội dung ảnh đang xét. Ng−ợc lại, tại đầu ra bộ mã hoá, dòng bit phải cố định Nguyễn Hữu Phát 31
  33. Đồ án cao học ĐTVT 2003 để xác định tốc độ cho dung l−ợng kênh truyền. Do đó, tr−ớc khi truyền đi, tại đầu ra bộ mã hoá phải có bộ nhớ đệm đủ lớn. Bộ mã hoá phải kiểm tra trạng thái đầy (overflow) của bộ nhớ đệm. Khi số liệu trong bộ nhớ đệm gần bằng dung l−ợng cực đại, thì các hệ số biến đổi DCT đ−ợc l−ợng tử hoá ít chính xác hơn. Trong tr−ờng hợp ng−ợc lại, có nghĩa là bộ đệm chứa số liệu quá ít (underflow), thì độ chính xác của việc l−ợng tử hoá các hệ số sẽ tăng lên. Bộ nhớ đệm đ−ợc thiết kế theo kiểu FIFO (First In First Out) và có kích th−ớc khai báo trong dòng dữ liệu ra để giải mã. 1.5.3.Quá trình giải m∙. Sơ đồ giải mã: Hình 1.18. Sơ đồ khỗi bộ giải mã video MPEG-1 Giải mã là phép biến đổi ng−ợc của mã hoá, nh−ng đơn giản hơn do không cần thực hiện đánh giá chuyển động, và cũng ít lựa chọn hơn. Bộ giải mã thực hiện nh− sau: - Giải mã các véctơ chuyển động và các hệ số. - Các hệ số đ−ợc l−ợng tử hoá ng−ợc và biến đổi ng−ợc để tạo ra frame sai lệch. - Frame đ−ợc khôi phục tr−ớc đó (l−u trữ trong vùng đệm frame) kết hợp với các véctơ chuyển động để tạo ra frame bù chuyển động. Nguyễn Hữu Phát 32
  34. Đồ án cao học ĐTVT 2003 - Khôi phục frame hiện tại bằng cách cộng frame sai lệch với frame bù chuyển động. - Frame hiện tại lại đ−ợc l−u trữ trong vùng đệm frame để xây dựng frame tham chiếu mới. Tr−ớc khi các cảnh đ−ợc trình diễn, chúng cần phải đ−ợc sắp xếp lại theo thứ tự trình diễn tự nhiên của nó. Sau khi sắp xếp, các ảnh đ−ợc trình diễn theo ph−ơng pháp mà mỗi ứng dụng lựa chọn. Hình 1.19. Sắp xếp thứ tự hiển thị Chú ý: Bộ mã hoá và bộ giải mã phải sử dụng thứ tự frame tham chiếu giống nhau trong vùng đệm frame để tránh tr−ờng hợp bị lệch hình (drift), do các frame tham chiếu bị sai trật tự trong bù chuyển động. Hình 1.18 và 1.15 là sơ đồ khối đơn giản (không xét tr−ờng hợp mã hoá và giải mã frame B). Trong tr−ờng hợp đối với frame B, cần có 2 vùng đệm frame và 2 mạch xác định véctơ chuyển động và bù chuyển động. 1.6. Quá trình nén Video theo chuẩn MPEG-2. Kỹ thuật nén Video theo chuẩn MPEG-2 là siêu tập hợp (superset) các kỹ thuật của chuẩn MPEG-1 và nó đ−ợc thiết kế trên cơ sở kế thừa MPEG- 1.Rất nhiều giải thuật mã hoá Video đã đ−ợc tích hợp và một cú pháp đơn nhằm thoả mãn yêu cầu của các ứng dụng. Nguyễn Hữu Phát 33
  35. Đồ án cao học ĐTVT 2003 Điểm đặc tr−ng mới của ph−ơng pháp nén Video theo chuẩn MPEG-2 là mã hoá đ−ợc Video xen kẽ (interlaced Video). Hơn nữa những mở rộng của mã hoá Video scalable đã đ−ợc thực hiện để cung cấp thêm các chức năng nh− là mã hoá nhúng của TV và HDTV số, và sự giảm chất l−ợng ít (graceful degradation) khi xuất hiện các lỗi truyền dẫn. Tuy nhiên trên thực tế không thể thực hiện đ−ợc cú pháp đầy đủ cho hầu hết các ứng dụng. MPEG-2 đ−a ra hai khái niệm “Profiles” và “Level” qui định sự phù hợp giữa thiết bị không hỗ trợ khả năng thực hiện đầy đủ. Các Profile và Level cung cấp một ph−ơng tiện cho việc định nghĩa các tập con cú pháp và nh− vậy bộ giải mã có khả năng giải mã một luồng bit cá biệt. Khái niệm này đ−ợc minh hoạ bằng bảng 1.1 và 1.2. Theo nguyên tắc chung, mỗi Profile định nghĩa một tập mới các giải thuật đ−ợc thêm nh− là một siêu tập hợp vào các giải thuật trong Profile ở d−ới. Một Level xác định dải các tham số đ−ợc cung cấp khi thực hiện nh− kích th−ớc ảnh, tốc độ frame và tốc độ bit. Nòng cốt hạt nhân của MPEG-2 tại MAIN Profile mô tả những nét nổi bật mã hoá Non-scalable của cả nguồn ảnh Video liên tục (progressive) và xen kẽ (interlaced). Ng−ời ta mong đợi rằng hầu hết các thực hiện MPEG-2 sẽ phù hợp với MAIN Profile tại MAIN Level. MAIN Profile cung cấp khả năng mã hoá Non-scalable cho ảnh Video số với các tham số gần giống TV đó là mật độ lấy mẫu cực đại là 720 mẫu với mỗi dòng và 576 dòng cho mỗi frame, tốc độ frame cực đại là 30 frame mỗi giây và tốc độ bit tối đa là 15 Mbit/s. Nguyễn Hữu Phát 34
  36. Đồ án cao học ĐTVT 2003 Profile Thuật toán Hỗ trợ tất cả các tính năng đ−ợc cung cấp bởi Spatial HIGH Scalable Profile cộng với sự cung cấp các hỗ trợ sau: • 3 lớp với các chế độ mã hoá SNR và Spatial scalable. • Biểu diễn YUV với cấu trúc 4: 2: 2 cho cải thiện các yêu cầu chất l−ợng. Hỗ trợ tất cả các tính năng cung cấp bởi SNR Scalable SPATIAL Profile cộng với một thuật toán cho: Scalable • Mã hoá Spatial Profile (cho phép 2 lớp). • Biểu diễn YUV với cấu trúc 4: 0: 0. Hỗ trợ tất cả các tính năng cung cấp bởi MAIN Profile cộng với một thuật toán cho: • Mã hoá SNR Scalable (cho phép 2 lớp). • Biểu diễn YUV với cấu trúc 4: 2: 0. Thuật toán mã hoá Non-scalable hỗ trợ các tính năng cho: • Mã hoá ảnh Video xen kẽ. MAIN • Truy cập ngẫu nhiên. • Các chế độ dự đoán ảnh B. • Biểu diễn YUV với cấu trúc 4: 2: 0. Bao gồm tất cả các tính năng cung cấp bởi MAIN Profile nh−ng: SIMPLE • Không cung cấp các chế độ dự đoán ảnh B. • Biểu diễn YUV với cấu trúc 4: 2: 0. Bảng 1.1. Các thuật toán và các tính năng hỗ trợ với mỗi Profile Nguyễn Hữu Phát 35
  37. Đồ án cao học ĐTVT 2003 Level Các tham số • 1920 mẫu/dòng. • 1152 dòng/frame. HIGH • 60 frames/giây. • 80 Mbit/s/ • 1440 mẫu/dòng • 1152 dòng/frame. HIGH 1440 • 60 frames/giây. • 60 Mbit/s. • 720 mẫu/dòng • 576 dòng/frame. MAIN • 30 frames/giây. • 15 Mbit/s. • 352 mẫu/dòng • 288 dòng/frame. LOW • 30 frames/giây. • 4 Mbit/s. Bảng 1.2. Các giới hạn trên của các tham số tại mỗi Level của một Profile. 1.6.1. Tham số đặc tr−ng. Tham số đặc tr−ng đề cập đến ở đây là định dạng ảnh đầu vào và cấu trúc lấy mẫu. Định dạng đầu vào là: 720 điểm ảnh cho mỗi dòng, 576 dòng Nguyễn Hữu Phát 36
  38. Đồ án cao học ĐTVT 2003 cho mỗi frame và 30 frame (ảnh) mỗi giây cho Main Profile và Main Level. Tỉ lệ bit lớn nhất là 15 Mbit/s. Cấu trúc lấy mẫu là 4: 2: 2. 1.6.2. Mô hình m∙ hoá Non-scalable theo MPEG-2. Đối với MAIN Profile: Nguyên tắc mã hoá ở đây là sự mở rộng trực tiếp của nguyên lý mã hoá trong MPEG-1 để điều chỉnh mã hoá Video xen kẽ, trong khi vẫn duy trì phạm vi đầy đủ của các chức năng cung cấp bởi MPEG- 1. Cũng giống nh− chuẩn MPEG-1, thuật toán mã hoá MPEG-2 dựa trên nguyên lý mã hoá Hybrid DCT/DPCM nh− hình 1.12. Đối với SIMPLE Profile: Nguyên lý mã hoá cũng t−ơng tự nh− MAIN Profile, nh−ng nó không sử dụng các mô hình dự đoán cho frame B ở bộ mã hoá. Nh− vậy, độ phức tạp khi thực hiện và khối l−u trữ các frame tham chiếu cho việc giải mã ảnh B không cần cho bộ giải mã của chuẩn MPEG-2 (chỉ đối vơi SIMPLE Profile). Để thoả mãn cho việc mã hoá cả Video liên tục và xen kẽ, MPEG-2 đ−a vào khái niệm frame picture và field picture t−ơng ứng với hai chế độ dự đoán là frame prediction và field prediction để điều tiết mã hoá ảnh Video liên tục và xen kẽ. Đối với chuỗi xen kẽ (interlaced sequence), một frame gồm hai tr−ờng: một tr−ờng chẵn (even field-bottom field) và một tr−ờng lẻ (odd field- top field). Cả hai tr−ờng này có thể đ−ợc mã hoá độc lập. Khi đó một tr−ờng đ−ợc chia thành các Macroblock và áp dụng mã hoá nh− một frame trong MPEG-1. Hai tr−ờng cũng có thể đ−ợc mã hoá đồng thời, khi đó việc mã hoá trở thành mã hoá truyền thống của chuỗi Video liên tiếp. Nguyễn Hữu Phát 37
  39. Đồ án cao học ĐTVT 2003 Hình 1.20. Khái niệm frame picture, field picture và dự đoán tr−ờng (field prediction). Các nguyên lý dự đoán tr−ờng bù chuyển động (motion compensated field prediction) để dự đoán chuyển động của field picture t−ơng ứng (xem hình 1.20). Trong field prediction, dự đoán đ−ợc tạo ra một cách độc lập cho mỗi tr−ờng dựa trên một hoặc nhiều tr−ờng tham chiếu. Trong đó tr−ờng top đ−ợc dự đoán từ tr−ờng top tr−ớc đó hoặc từ một tr−ờng bottom tr−ớc đó thuộc cùng một ảnh. Trong một field picture tất cả các dự đoán là dự đoán tr−ờng (field prediction). Dự đoán frame có thể sử dụng nh− trong MPEG-1 hoặc có thể sử dụng nh− hai dự đoán field kết hợp. Nh− vậy trong frame picture có thể sử dụng dự đoán frame hoặc field. 1.6.3. Mô hình m∙ hoá scalable theo MPEG-2. Mục đích của mã hoá scalable là cung cấp sự thao tác giữa các dịch vụ khác nhau và hỗ trợ các dịch vụ một cách linh hoạt với các khả năng biểu diễn khác nhau. Các bộ thu nhận hoặc không có khả năng hoặc sẵn sàng xây dựng lại Video với độ phân giải đầy đủ có thể giải mã các tập con của dòng bit đã phân lớp để biểu diễn Video trong độ phân giải không gian hoặc thời gian thấp hơn hoặc với chất l−ợng thấp hơn. Nguyễn Hữu Phát 38
  40. Đồ án cao học ĐTVT 2003 Một ứng dụng quan trọng cho mã hoá scalable gồm có việc liệt kê cơ sở dữ liệu Video và biểu diễn lại đa phân giải của Video trong các môi tr−ờng đa ph−ơng tiện. Chuẩn MPEG-2 chuẩn hoá 3 nguyên lý mã hoá scalable là: SNR scalability, Spatial scalability và temporal scalability. Mỗi nguyên lý có một chức năng riêng nhằm hỗ trợ cho các ứng dụng có yêu cầu riêng biệt. Có thể kết hợp các công cụ scalability khác nhau thành một sơ đồ mã hoá hybrid, có nghĩa là sự t−ơng tác giữa các dịch vụ kể cả độ phân giải không gian và tỉ lệ frame khác nhau có thể đ−ợc hỗ trợ bằng cách kết hợp Spatial scalability và Temporal scalability. Ngoài ra sự t−ơng tác giữa các dịch vụ HDTV và SDTV có thể đ−ợc cung cấp kèm theo khả năng hiệu chỉnh các lỗi kênh truyền bằng cách kết hợp sự mở rộng Spatial scalability với công cụ SNR scalability. Spatial scalability: u Đ−ợc phát triển để hỗ trợ hiển thị các độ phân giải khác nhau tại bộ thu nhận. Nghĩa là ảnh Video có độ phân giải không gian thấp có thể đ−ợc khôi phục từ lớp cơ sở. Tính năng này rất hữu hiệu cho rất nhiều ứng dụng bao gồm mã hoá nhúng cho các hệ thống HDTV/TV, cho phép chuyển các dịch vụ TV số đến các dịch vụ HDTV với độ phân giải không gian cao hơn. u Thuật toán dựa trên ph−ơng pháp tiếp cận hình chóp truyền thống cho mã hoá ảnh liên tục. u Có khả năng hỗ trợ một cách linh hoạt cho một phạm vi rộng độ phân giải nh−ng khi đó độ phức tạp tính toán trong MAIN Profile cũng sẽ tăng. SNR scalability: u Công cụ này đ−ợc phát triển để cung cấp sự suy giảm chất l−ợng uyển chuyển (graceful degradation) của chất l−ợng Video trong môi tr−ờng truyền −u tiên. Nguyễn Hữu Phát 39
  41. Đồ án cao học ĐTVT 2003 u Thuật toán th−ờng sử dụng để có đ−ợc sự suy giảm uyển chuyển (graceful degradation) dựa trên kỹ thuật scalability tuần tự (DCT-domain). u Tại lớp cơ sở, các hệ số DCT đ−ợc l−ợng tử hoá và truyền thô để đạt đ−ợc chất l−ợng vừa phải và giảm tỉ số bit (xem hình 1.21). u Lớp nâng cao mã hoá và truyền sự khác nhau giữa các hệ số DCT không đ−ợc l−ợng tử và hệ số DCT đã đ−ợc l−ợng tử từ lớp cơ sở với kích cỡ b−ớc l−ợng tử tốt (xem hình 1.21). u Tại bộ giải mã, tín hiệu Video chất l−ợng cao nhất đ−ợc xây dựng lại bằng cách giải mã dòng bit ở cả lớp cơ sở và lớp nâng cao (xem hình 1.22). Temporal scalability: u Công cụ đ−ợc phát triển với mục đích t−ơng tự nh− Spatial scalability. Phân vùng dữ liệu: u Công cụ này nhằm trợ giúp huỷ bỏ lỗi có mặt trong khi truyền đạt hoặc lỗi kênh truyền trong ATM, truyền thông hoặc các môi tr−ờng thu âm hấp dẫn. u Thuật toán là t−ơng tự nh− công cụ SNR scalability, dựa trên sự phân chia các hệ số và đ−ợc thực hiện với độ phức tạp thấp so với các sơ đồ scalable mã hoá khác. u Cung cấp sự bảo vệ lỗi, các hệ số DCT mã hoá trong dòng bit đ−ợc chia và truyền một cách đơn giản trong hai lớp với khả năng xảy ra lỗi khác nhau. Nguyễn Hữu Phát 40
  42. Đồ án cao học ĐTVT 2003 Hình 1.21. Bộ mã hoá hai lớp cho mã hoá SNR scalable của video Hình 1.22. Bộ giải mã cho mã hoá SNR scalable của video Nguyễn Hữu Phát 41
  43. Đồ án cao học ĐTVT 2003 Ch−ơng 2 Mã hoá SCALABLE VIDEO 2.1. Băng lọc 1/2 pixel biến đổi ng−ợc theo thời gian - tính toán bù chuyển động Để đạt hiệu quả cao trong nén tín hiệu Video ng−ời ta phải tìm cách loại bỏ d− thừa về mặt thời gian bởi do các khung sát nhau có sự t−ơng quan rất lớn. Trong các hệ thống mã hoá Video (ví dụ MPEG-1, 2 [7, 8] và H.261/263) sự d− thừa về mặt thời gian đ−ợc loại bỏ nhờ kỹ thuật mã hoá lai (hybrid coding technique), bù chuyển động điều xung mã vi phân (DPCM) và biến đổi mã hoá. Trong kỹ thuật này cấu trúc xung tr−ớc đ−ợc sử dụng để dự đoán xung hiện thời sau khi bù chuyển động nh− hình 2.1. Kết quả là khung sai khác thay thế có năng l−ợng thấp hơn tín hiệu nguồn sẽ đ−ợc truyền đi và đ−ợc mã hoá. Theo cách này sự d− thừa của các khung liên tiếp nhau sẽ đ−ợc sử dụng tốt. Tuy vậy vẫn có một số vấn đề xảy ra, đó là: Thứ nhất, khi giảm sự d− thừa thời gian thì tốc độ bit mã hoá cũng giảm. Kết quả là hiệu quả nén giảm khi tốc độ bit thấp. Thứ 2, việc mã hoá dùng DPCM chỉ đ−ợc thực hiện khi có xung tiếp theo. Thứ 3, việc xác định vị trí bit tối −u phức tạp phụ thuộc vào khung đ−ợc l−ợng tử hoá. Biến đổi mã hoá 3 chiều (3-D) là một ph−ơng pháp tiếp cận có hiệu quả trong nén Video. Hình 2.2 cung cấp sơ đồ khối tổng quát của hệ thống mã hoá Video 3 chiều. Trong hình 2.1, ta thấy bộ biến đổi 3 chiều không chứa mạch vòng DPCM trong bộ mã hoá lai. Do đó nó thể tránh đ−ợc những nh−ợc điểm của ph−ơng pháp mã hoá truyền thống. Tuy nhiên việc biến đổi trực tiếp th−ờng gặp khó khăn với bộ nhớ cao và mã hoá có trễ. Nguyễn Hữu Phát 42
  44. Đồ án cao học ĐTVT 2003 Hình 2.1. Sơ đồ bộ mã hoá Hình 2.2. Sơ đồ bộ giải mã Ch−ơng này xin giới thiệu một hệ thống mã hoá Video 3 chiều mới, kết hợp giữa băng lọc MC-3D và thuật toán mã hoá mặt phẳng bit EZBC sẽ đ−ợc trình bày trong ch−ơng tiếp theo. Phần sau chúng ta sẽ nghiên cứu các công việc liên quan đến việc hình thành mã hoá băng con 3-D. Mục 2.1.2 miêu tả toàn bộ l−ợc đồ phân tích tổng hợp băng con. Mục 2.1.3 miêu tả hệ thống băng con 3-D với cấu trúc MC3D-FSSQ. Mục 2.1.4 trình bày những kết quả thực nghiệm. Nguyễn Hữu Phát 43
  45. Đồ án cao học ĐTVT 2003 2.1.1. Giới thiệu Mã hoá wavelet băng con 3-D cho Video đã đ−ợc tăng c−ờng nghiên cứu trong những năm gần đây bởi những −u điểm quan trọng của nó so với ph−ơng pháp biến đổi truyền thống DCT. Karlsson và Vetterli là ng−ời đầu tiên khái quát việc phát triển từ mô hình hai chiều lên ba chiều. Một cặp băng lọc Haar 2 chiều, kết hợp với khung thông th−ờng và sai khác, đ−ợc chọn cho băng lọc thời gian để tránh trễ mã hoá và bộ nhớ lớn. Do sự thực hiện không quá phức tạp l−ợc đồ này vẫn đ−ợc sử dụng rộng rãi trong hệ thống mã hoá băng lọc 3 chiều. Tuy nhiên khi tín hiệu Video đầu vào yêu cầu tốc độ nhanh không thể dùng đ−ợc ph−ơng pháp này. Ba tham số cho mã hoá wavelet/băng con bù chuyển động cục bộ sẽ đ−ợc trình bày ở phần sau. Thay vì thực hiện trực tiếp ảnh đầu vào, thuật toán băng lọc theo thời gian sẽ đ−ợc tiến hành theo đ−ờng chuyển động của ảnh. Nhờ đó sẽ giảm đ−ợc sự d− thừa năng l−ợng của băng lọc thông cao. Trong ph−ơng pháp Kronander dựa trên 3-DDCT và mã hoá băng con 3-D, tín hiệu d− thừa thêm vào đ−ợc mã hoá với pixel chứ không theo vectơ chuyển động. Trong ph−ơng pháp TRI-ZTR cho tốc độ Video thấp, các điểm ảnh đ−ợc sắp xếp theo vết chuyển động cho băng lọc thời gian bù chuyển động. Tuy nhiên, ảnh h−ởng của đa kết nối và không kết nối trong bộ mã hoá bù chuyển động đ−ợc bỏ qua trong phần này. Kết quả hệ thống phân tích và tổng hợp không thể khôi phục hoàn hảo không thích hợp cho ứng dụng mã hoá Video ở tốc độ cao. Hình 2.3 minh hoạ thuật toán mã hoá của bộ lọc bù chuyển động theo thời gian. Tính chính xác của băng lọc sẽ đạt đ−ợc khi bộ bù chuyển động thực hiện với điểm ảnh đầy đủ. Điều đó nói lên rằng bù chuyển động với một nửa điểm ảnh là cần thiết để tăng hiệu quả trong việc làm giảm năng l−ợng của khung sai khác. Do đầu Nguyễn Hữu Phát 44
  46. Đồ án cao học ĐTVT 2003 ra của băng lọc thông cao, Haar chỉ kết dính giữa khung hiện tại và tr−ớc đó, băng lọc thời gian bù chuyển động với một nửa điểm ảnh đ−ợc lựa chọn để làm giảm tần số năng l−ợng băng con. Phép nội suy đ−ợc sử dụng cho điểm ảnh để trong l−ới con cả tr−ờng hợp phân tích và tổng hợp. Trong quá trình nội suy kết quả là khả năng khôi phục của băng lọc là không cao. Để giảm méo cho hệ thống trong quá trình phân tích và tổng hợp, một số trạng thái phân tích bị hạn chế. Ví dụ 2 trạng thái phân tích trong MC3D-FSSQ cho phân giải mã hoá SIF. Chỉ một trạng thái đ−ợc sử dụng trong ứng dụng HDTV. Hình 2.3. L−ợc đồ phân tích bù chuyển động với điểm ảnh chính xác. (a) Một cặp khung liền kề (b) Phân tích tín hiệu Video (A: khung tr−ớc đó. B: khung hiện thời. Lt: Đồ thị thời gian của đầu ra thông thấp. Ht: Đồ thị thời gian của đầu ra thông cao.) Nguyễn Hữu Phát 45
  47. Đồ án cao học ĐTVT 2003 Mặc dù, bộ mã hoá bù chuyển động MC-DPCM đ−ợc lựa chọn cho băng lọc thông thấp theo thời gian trong MC3D-FSSQ, vị trí bit vẫn không thể tối −u hoá đầy đủ cho mã hoá nhóm GOP. Trong hệ thống mới không quan tâm đến việc khôi phục lỗi, chuỗi ảnh đầu vào đ−ợc phân tách thành 4 trạng thái theo thời gian sử dụng cho biến đổi ng−ợc băng lọc 3 chiều. Nhóm ảnh gồm 16 khung hoàn toàn không chứa bất kỳ cấu trúc mã hoá nào. Do đó khi thông tin thô, ng−ời ta có thể tối −u hoá trong việc phân chia bit trong đơn vị dữ liệu của mỗi nhóm ảnh trong tr−ờng hợp méo ảnh. 2.1.2. Thuật toán Mục đích chính của biển đổi ng−ợc băng lọc bù chuyển động (IMCTF) là khai thác l−ới nhị tố phân giải điểm ảnh trong nguồn Video. Đó là chúng ta có thể lấy mẫu với mật độ dày đặc ảnh đầu vào liên tục ngay khi véctơ tr−ờng chuyển động ch−a đáp ứng đ−ợc véc tơ liên quan đến chuyển động trong l−ới lấy mẫu. Nó dựa trên sự quan sát l−ới nhị tố của 2 khung đan xen sát cạnh nhau và ghép 2 khung phân giải về không gian sau khi bù điểm ảnh chính xác trong đặc tính quét Video bởi véctơ bù chuyển động 1/2 điểm ảnh. Phần này bắt đầu với mô hình phổ biến cho 2 định dạng: quét xen kẽ và quét luỹ tiến. Thuật toán sẽ thực hiện quét luỹ tiến với 1/2 điểm ảnh trên véctơ đầu vào. Thuật toán thích nghi cho mã hoá Video thực sẽ đ−ợc trình bày cuối cùng. 2.1.2.1 Mô hình Video phổ biến Mô hình phổ biến trong mặt phẳng Video đ−ợc giới thiệu bởi véctơ chuyển động toàn cục (vx, vy). C−ờng độ tín hiệu Video đ−ợc biểu diễn theo công thức: Sxytccxy(, ,)=−− S0 ( xvtyvt ., .) (2.1) ∆=−Sxcx(.,.,0) vtyvt y (2.2) Và tín hiệu lấy mẫu Video đ−ợc biểu diễn: Nguyễn Hữu Phát 46
  48. Đồ án cao học ĐTVT 2003 S[m, n, k] = Sc (VN) (2.3) ở đây V ma trận lấy mẫu vuông 3x3 và N = [m, n, k]T. Nếu tất cả các khung của tín hiệu Video lấy mẫu đ−ợc sắp xếp theo khung tham chiếu, điểm ảnh trong l−ới con của khung tham chiếu có thể đ−ợc lấp đầy trong khung lấy mẫu từ vị trí l−ới giống nhau của các khung khác sau khi bù chuyển động. Chính vì vậy, khả năng phân giải ảnh cao từ đa khung phụ thuộc vào l−ới lấy mẫu và véctơ chuyển động toàn cục. Hình 2.4. L−ới lấy mẫu cho tín hiệu Video xen kẽ (a) Lấy mẫu của tín hiệu Video theo 2 chiều (y, t) (b) Không gian lấy mẫu của 2 tr−ờng sát cạnh nhau. Ví dụ, xem xét tín hiệu Video đan xen trong mô hình (2.1) với véctơ chuyển động toàn cục v = (0, 0), mô tả trong hình 2.4 theo 2 chiều thời gian và trục thẳng đứng. Do không gian của l−ới lấy mẫu gồm 2 tr−ờng chẵn và lẻ đan Nguyễn Hữu Phát 47
  49. Đồ án cao học ĐTVT 2003 xen nhau nh− hình 2.4 (b), một khung ghép lai với sự phân giải không gian đầy đủ có thể đ−ợc cấu trúc bởi việc kết hợp hài hoà 1 cặp cạnh nhau nh− sau: ⎪⎧A[m,, n] n chan Cmn[], = ⎨ (2.4) ⎩⎪B[]mn,, nle ở đây A và B là giá trị chẵn và lẻ của 1 cặp sát nhau và C ký hiệu là xung kết hợp. Kỹ thuật lấy mẫu đan xen này đ−ợc hình thành trong ứng dụng TV nhằm làm giảm tốc độ lấy mẫu của tín hiệu Video. Tiếp theo chúng ta sẽ xem xét tín hiệu Video việc quét luỹ tiến. Nh− minh hoạ hình 2.5 (a), khi sự hiệu chỉnh về phía sau dọc theo vết chuyển động, mỗi điểm ảnh trong chuỗi ảnh đ−ợc kết nối tới mẫu đang tồn tại trong khung tham khảo. Hình 2.5. Minh hoạ vận tốc tới hạn trong tín hiệu Video theo định dạng quét luỹ tiến. (a) L−ới lấy mẫu của tín hiệu Video với véctơ chuyển động cục bộ v = (0, 1). (b) L−ới lấy mẫu của 2 khung liên tiếp sau khi bù chuyển động. Nguyễn Hữu Phát 48
  50. Đồ án cao học ĐTVT 2003 2.1.2.2. Quét luỹ tiến Video với véctơ chuyển động chính xác 1/2 điểm ảnh Xem xét quá trình quét luỹ tiến tín hiệu Video với 1/2 điểm ảnh vận tốc không đổi, với bốn mẫu tồn tại trong l−ới lattices (mắt cáo) của 2 khung liên tiếp sau khi bù chuyển động của toàn bộ điểm ảnh nh− hình 2.6. Những mẫu này gồm các lớp: • Lớp EO: 2dm chẵn, 2dn lẻ; • Lớp OE: 2dm lẻ, 2dn chẵn; • Lớp OO: 2dm lẻ, 2dn lẻ; • Lớp EE: 2dm chẵn, 2dn chẵn; ở đây (,)ddmn=∆∆( v x .,. tvt y ) là véctơ chuyển động giữa khung tr−ớc đó và khung hiện tại và ∆t là chu kỳ lấy mẫu. So sánh lớp EO trên hình 2.6 (a) với Video đan xen hình 2.4, chúng ta có thể thấy rằng l−ới mắt cáo lấy mẫu trên hình 2.6 (a) giống nh− l−ới lấy mẫu trên hình 2.4 (b) co lại 0.5 theo chiều dọc. Do đó việc lấy mẫu l−ới của 2 khung cạnh nhau đ−ợc trộn lẫn sau khi bù chuyển động. Mở rộng biểu thức (2.4), chúng ta có thể xác định khung C với sự phân giải gấp đôi theo chiều dọc: ⎪⎧Amn[ ,/2,] nchan Cmn[], = ⎨ (2.5) ⎩⎪B[]mdn++mn,/2 d , nle ở đây A và B ký hiệu xung tr−ớc đó và khung hiện tại. Do đó điểm ảnh bị mấy sẽ đ−ợc lấp đầy bởi thời gian 0 - để giữ cho bộ lọc nội suy trong quá trình chuyển động. Để giảm sai số trong quá trình phân giải ảnh, chúng ta có thể mở rộng thuật toán dùng cho quá trình quét từ đan xen đến luỹ tiến. Khung ghép này đ−ợc phân thành 2 kênh phân tích băng lọc con theo chiều dọc (Băng lọc Nguyễn Hữu Phát 49
  51. Đồ án cao học ĐTVT 2003 Daubechies’ 9/7). Đầu ra thông thấp và thông cao của băng lọc có thể xác định bởi: Lmnt [ ,,2.,] =−∑ Cm[ n khk] 0 [ ] k (2.6) Hmntmn[],,2.().=−−−∑ Cmd[] n d khk1 [] k ở đây h0 và h1 là đáp ứng xung thông thấp và thông cao của biến đổi Daubechies’ 9/7. Khung ghép C có thể hình thành thông qua Lt và Ht. Khung A và B có thể biến đổi đảo ng−ợc nhờ biểu thức: A[m, n] = C[m, 2n] (2.7) B[m, n] = C[m - dm, 2 (n - dn)] Hình 2.6. L−ới lấy mẫu của 2 khung liên tiếp sau khi bù chuyển động của cả điểm ảnh. Hình tròn đen là pixel đang đ−ợc xử lý. Pixel xám và mũi tên chỉ rõ h−ớng bộ lọc, (a) lớp EO, (b) lớp OE, (c) lớp OO, (d) lớp EE. Nguyễn Hữu Phát 50
  52. Đồ án cao học ĐTVT 2003 Tín hiệu Video với véctơ chuyển động của lớp OE và OO (hình 2.6 (b) và (c)), cặp l−ới lấy mẫu của 2 khung sát cạnh nhau đ−ợc biến đổi đan xen sau khi bù chuyển động, nh− lớp EO hình 2.6 (a). Khung ghép lai phân giải 2 mức có thể dựng lại thông qua việc trộn lẫn 1 cặp khung sát nhau sau khi bù chuyển động. Biểu thức (2.5) – (2.7) dùng cho việc phân tích và tổng hợp tín hiệu Video theo đ−ờng ngang và chéo. ở l−ới lấy mẫu nh− hình 2.5, khung ghép lai có độ phân giải cao hơn trong miền không gian không thể xây dựng với lớp véctơ chuyển động này. Trong tr−ờng hợp này chúng ta sử dụng Lt và Ht tính toán tỷ lệ bù chuyển động và sai khác của khung A và B: Lt[m, n] = (B[m + dm, n + dn] + A[m, n])/ 2 (2.8) Và Ht[m, n] = (B[m, n] - A[m - dm, n - dn])/ 2 Khung A và B có thể xác 0định nhờ biểu thức: A[m, n] = (Lt[m, n] - Ht[m + dm, n + dn])/ 2 (2.9) Và B[m, n] = (Lt[m - dm, n - dn] + Ht[m, n])/ 2 Chú ý rằng (2.5) và (2.6) là 1 cặp phân tích và tổng hợp Haar. 2.1.2.3. Di chuyển cục bộ mở rộng Mặc dù mô hình véctơ chuyển động không đổi thực sự có hiệu quả trong việc bắt hình ảnh của chuỗi Video ảnh thực, nó cũng có thể chứng minh tính hợp lý trong rất nhiều ứng dụng Video. Trong thuật toán của chúng ta, kích th−ớc bậc của khối thích hợp thay đổi (HVSBM) đ−ợc thiết lập để đánh giá bù chuyển động. Kết quả của tr−ờng chuyển động th−ờng không thay đổi với mọi điểm ảnh từ khối chuyển động giống nhau. Do đó nếu véctơ chuyển động cho khối hiện thời nằm giữa các lớp EO, OE, và OO, thì sau khi bù Nguyễn Hữu Phát 51
  53. Đồ án cao học ĐTVT 2003 chuyển động khối ghép lai có thể dựng lại thông qua việc ghép 1 cặp khối kết nối của khung tr−ớc đó và khung hiện thời. Sau đó với các điểm ảnh kết nối connected pixels, l−ợc đồ phân tích tổng hợp (2.5) – (2.7) có thể hình thành từng khối theo không gian đ−ợc quyết định bởi lớp chuyển động theo mô hình 2.6. Tại khối biên, tín hiệu đ−ợc mở rộng đối xứng ra cả 2 bên băng lọc. Đầu ra của băng lọc thông thấp và thông cao đ−ợc l−u trữ tại vị trí Lt và Ht t−ơng đ−ơng trên l−ới khi có đầu vào là khung tr−ớc đó và khung hiện thời A và B. Trong hình 2.7, chúng ta có thể minh hoạ biểu đồ phân tích theo thời gian của 1 cặp khối chuyển động kết nối. Véctơ chuyển động của lớp EO với kích th−ớc khối bù chuyển động 3x3 đ−ợc sử dụng. Đối với véctơ chuyển động của lớp EE, biểu thức (2.8) và (2.9) đ−ợc sử dụng để phân tích và tổng hợp 1 cặp khối chuyển động. Hệ thống phân tích và tổng hợp mới sẽ làm giảm cho lớp hệ thống cũ. Với các điểm ảnh không kết nối (Hình 2.3), ph−ơng pháp t−ơng tự đ−ợc ứng dụng nh− sau: Với phân tích: Lt[m, n] = 2 A[m, n] (2.10) Hmn,,=−−− Bmn Amdn⎡⎤ ,/2 d tmn[]( []⎣⎦) Với quá trình tổng hợp: A[m, n] = Lt[m, n]/ 2 (2.11) B mn,,2,=−−− L⎡⎤ m d n d H mn []tmn⎣⎦ t[] Với (ddmn, ) là một phần của véctơ chuyển động bên trong. Nguyễn Hữu Phát 52
  54. Đồ án cao học ĐTVT 2003 Hình 2.7. Khối mã hoá Video của IMC3D-FSSQ. Hình 2.8. Ví dụ về l−ợc đồ chuyển động của khối ảnh theo thời gian. Véctơ chuyển động của khối ảnh t−ơng đ−ơng EO với kích th−ớc 3 x 3. (a) Một cặp khối kết nối (b) Khối phân tích ghép (c) Khung kết quả Lt và Ht. Nguyễn Hữu Phát 53
  55. Đồ án cao học ĐTVT 2003 2.1.3. Ba tham số mã hoá băng con sử dụng IMCTF Để đánh giá l−ợc đồ băng lọc theo thời gian cho mã hoá Video, đề xuất hợp lý nhất băng lọc trong hệ thống mã hoá Video 3 chiều IMC3D-FSSQ với khối giống nhau tới bộ mã hoá 3 chiều MC3D-FSSQ. L−ợc đồ khối cho hệ thống mã hoá đ−ợc thể hiện trên hình 2.3. Đầu tiên ng−ời ta phân tích tín hiệu Video về mặt thời gian bởi hệ thống phân tích 2 kênh bù chuyển động. Bốn trạng thái đ−ợc hình thành trên cơ sở tần số băng con thấp để phát ra nhhóm 8 trạng thái trên cơ sở 5 băng phân tích nh− hình 2.4. Ba không gian trạng thái đ−ợc phân tích theo l−ợc đồ thời gian để hoàn thành sự phân tích băng con 3 chiều. Băng lọc đ−ợc sử dụng ở đây là băng lọc phân tích tổng hợp Daubechies’ 9/7. Kích th−ớc khối của hệ thống thay đổi (HVSBM) đ−ợc dùng cho đánh giá bù chuyển động. Các khối này đ−ợc chia làm 1/8 khối để tăng độ mịn trong vectơ chuyển động. Khối chuyển động có kích th−ớc trong phạm vi từ 4x4 tới 64x64. Khối phân chia đó đ−ợc dùng làm đại diện cho phân tích/mã hoá cây 1/4. Tốc độ bit của vectơ chuyển động điều khiển bởi hệ số nhân Lagrange l mv thực hiện trong trạng thái đã đ−ợc chỉnh sửa. Véctơ chuyển động đ−ợc mã hoá bởi DPCM và mã hoá số học; véctơ mã hoá lân cận đ−ợc dùng cho dự đoán. Hệ thống mã hoá đ−ợc phân chia thành các khung liên tiếp trong 1 nhóm ảnh (GOP), giống nh− MPEG. Mỗi nhóm ảnh chứa 16 khung-1 là khung t-LLLL, 1 là khung t-LLLH, 2 là khung t-LLH, bốn là khung t-LH, và tám là khung t-H. Cấu trúc băng con 3-D trong 1 nhóm GOP mô tả trên hình 2.5. Tốc độ điều khiển cho mỗi nhóm GOP với bit dự trữ đ−ợc biểu diễn bởi: Rg = Ngr / F (bits) (2.12) Với Ng: số khung trong 1 nhóm ảnh GOP; r: tổng số tốc độ bit (bits/sec); Nguyễn Hữu Phát 54
  56. Đồ án cao học ĐTVT 2003 F: tốc độ của khung (frames/sec). Băng con/lấy mẫu wavelet/các hệ số đ−ợc l−ợng tử hoá và mã hoá bởi trạng thái l−ợng tử hoá xác định (FSSQ) của bản dịch 3 chiều. Trong thuật toán l−ợng tử hoá thích nghi, mỗi mẫu trong băng con đ−ợc phân loại thành 1 vài lớp kích hoạt dựa trên việc giải mã hệ số của băng cha. Các mẫu riêng lẻ đ−ợc l−ợng tử hoá bởi việc hình thành các ng−ỡng (UTQ) với miền chết trung tâm, và sử dụng mô hình hàm Laplacian. Bit cấp phát nằm trong lớp 3-D đ−ợc tối −u hoá bởi thuật toán BFOS, miêu tả trong bảng 2.1 so sánh giữa chuẩn IMC3D-FSSQ và MC3D-FSSQ. Sự khác nhau cơ bản giữa 2 hệ thống mã hoá đạt đ−ợc trên cơ sở l−ợc đồ lọc băng con. Tuy nhiên nh− đã đề cập trong mục 2.1, khung từ băng thấp nhất đ−ợc mã hoá liên tiếp bởi bộ điều xung mã DPCM trong MC3D-FSSQ. Nói một cách khác, chúng ta có thể hoàn toàn loại trừ d− thừa thời gian DPCM trong hệ thống mới IMC3D-FSSQ với chi phí và bộ nhớ vừa phải. 2.1.4. Kết quả thực nghiệm Hình 2.9. Nhóm 8 trên cơ sở phân tích 5 băng con theo thời gian Nguyễn Hữu Phát 55
  57. Đồ án cao học ĐTVT 2003 Hình 2.10: Cấu trúc băng con 3 chiều trong GOP MC-3D IMC-3DFSSQ FSSQ Băng lọc theo thời gian IMCTF MCTF Cờu trúc lai No Yes Số khung trong một nhóm ảnh 16 16 Số trạng thái phân giải thời gian 4 2 Tốc độ khung tối đa tr−ớc khi phân tích theo 5 3 thời gian Kích th−ớc bộ nhớ đệm 16 frs 4 frs Khả năng tối −u hoá tốc độ bit cho nhóm Yes No ảnh Bảng 2.1. So sánh giữa IMC3D-FSSQ và MC3D-FSSQ Trong mục này, chúng ta sẽ đánh giá việc mã hoá l−ợc đồ phân tích tổng hợp IMCTF. Phần mềm này đ−ợc ứng dụng bởi hệ thống mã hoá băng con mới IMC3D-FSSQ. Kết quả đ−ợc so sánh tới bộ mã hoá băng con MC3D- Nguyễn Hữu Phát 56
  58. Đồ án cao học ĐTVT 2003 FSSQ. Hệ thống mã hoá mới bao gồm các thành phần giống nhau MC3D- FSSQ đ−ợc so sánh hợp lý. Kết quả mã hoá sử dụng chuẩn lai MPEG-2 cũng đ−ợc tham khảo. Kích th−ớc nhóm ảnh cho MPEG-2 đ−ợc chọn là 15 khung IBBPBBPBBPBBI. Phạm vi đánh giá đề xuất cho khoảng cách của khung thời gian là 7 pixels trên 1 khung. Video dùng để thử nghiệm là Mobile Calendar, Flower Garden và Football trong phân giải SIF (quét luỹ tiến, 352 x 240 điểm ảnh, 4: 2: 0, 30 khung/s) đ−ợc dùng để đánh giá. Mỗi Video chứa 96 khung. Giới hạn đ−ợc xác định với bộ lọc MCTF việc phân tích tổng hợp không có khả năng biến đổi ng−ợc, khi bộ lọc bù chuyển động thực hiện với độ chính xác 1/2 điểm ảnh. Trong quá trình thực hiện, giá trị của điểm ảnh tại vị trí l−ới đ−ợc nội suy sử dụng 8 nấc bộ lọc FIR. Bảng 2.2 cung cấp kết quả đánh giá trung bình PSNR cho cấu trúc Video sau khi phân tích sai khác trạng thái sử dụng chính xác 1/2 b−ớc sóng MCTF mà không mã hoá. Bảng 2.2. Méo trung bình PSNR (dB) giới thiệu bởi chính xác 1/2 điểm ảnh MCTF với mức phân tích tổng hợp khác nhau (ch−a mã hoá) Nguyễn Hữu Phát 57
  59. Đồ án cao học ĐTVT 2003 Hình 2.11. Đánh giá khung Y-PSNR cho cấu trúc liên tiếp Mobile Calendar sử dụng bù chính xác 1 nửa điểm ảnh của mức phân tích theo thời gian (ch−a mã hoá) Hai thuật toán lọc băng con đều có thể tránh nhiễu. Băng lọc thời gian Haar không bù chuyển động đ−ợc sử dụng trong ứng dụng mã hoá Video. Bộ lọc bù MCTF có thể biến đổi ng−ợc khi băng lọc bù chuyển động đ−ợc thực hiện với toàn bộ điểm ảnh. Bảng 2.3 cho biết kết quả so sánh hệ số mã hoá 3 chiều của băng lọc 3 chiều sử dụng 2 l−ợc đồ băng lọc phân tích tổng hợp wavelet trong IMCTF. Tốc độ mã hoá đ−ợc tính toán theo tỷ lệ của ph−ơng pháp đại số và hình học của hệ số 3 chiều đơn vị dB. Nguyễn Hữu Phát 58
  60. Đồ án cao học ĐTVT 2003 Video IMCTF TF MCTF-F Mobile Calendar 11.98/0.0 7.69/-4.29 10.74/-1.23 Flower Garden 13.04/0.0 7.64/-5.40 12.16/-0.88 Bảng 2.3. So sánh lý thuyết mã hoá 3 chiều (dB) giữa 3 l−ợc đồ băng lọc có thể biến đổi ng−ợc: lọc bù chuyển động mới (IMCTF), lọc không có bù chuyển động (TF), và lọc bù chuyển động với toàn bộ điểm ảnh (MCTF-F) 2.1.5. Tóm tắt và kết luận Trong ch−ơng này một hệ thống phân tích tổng hợp mới với độ chính xác 1/2 điểm ảnh bù chuyển động đ−ợc phát triển cho ứng dụng mã hoá Video. Kết quả cho thấy hệ thống mã hoá băng con IMC3D-FSSQ chó hiệuquả hơn và có thể chuẩn mã hoá lai MPEG-2. Hình 2.12. So sánh giá trị trung bình Y-PSNR cho IMC3D-FSSQ, MC3DFSSQ, và MPEG-2 Nguyễn Hữu Phát 59
  61. Đồ án cao học ĐTVT 2003 Hình2.13. So sánh Frame-by-frame Y-PSNR cho mã hoá Mobile Calendar at 1.0 Mbps. (Average Y-PSNR: IMC3D-FSSQ, 26.74 dB;MC3D-FSSQ, 26.09 dB; MPEG-2, 23.71 dB.) Bảng 2.4. So sánh giá trị trung bình PSNR cho IMC3D-FSSQ,MC3D-FSSQ, và MPEG-2 (dB). Nguyễn Hữu Phát 60
  62. Đồ án cao học ĐTVT 2003 2.2. Mã hoá scalable video Chúng ta đã biết, nén ảnh là kỹ thuật dựa trên cơ sở mã hoá băng con/wavelet với việc bù chuyển động cục bộ đ−ợc trình bày trong ch−ơng tr−ớc cho ứng dụng mã hoá Video nonscalable. Chúng ta có thể thấy đ−ợc −u điểm của mã hoá băng con 3-D là chứng minh khả năng loại trừ cấu trúc khung đệ qui của bộ mã hoá lai. Vì thế mà những hàm −u việt nh− là phân giải đ−ợc cung cấp dễ dàng. ở đây băng lọc bù chuyển động MC 3-D đ−ợc kết hợp với thuật toán mã hoá mặt phẳng bit 3-D EZBC. Đó là sự mở rộng của thuật toán 2-D EZBC đối với mã hoá scalable Video. Ta sẽ gọi hệ thống mã hoá này là IMC3D-EZBC. −u điểm của bộ mã hoá Video gồm: • Khác với bộ mã hoá DCT thông th−ờng, băng con phân tích đ−ợc thực hiện với toàn bộ ảnh. Kết quả cho thấy việc khôi phục ảnh trong IMC3D-EZBC không có lỗi d− thừa nh− mã hoá DCT. • Khả năng khôi phục lỗi khi thực hiện cấu trúc băng con 3-D rất cao, trong đó lỗi phát ra do IMC3D-EZBC đ−ợc giới hạn bởi chiều dài của bộ lọc tổng hợp. Đây là −u điểm v−ợt trội của bộ mã hoá này. • Tính toán đơn giản: Băng con 3 chiều đ−ợc mã hoá nhanh trong hệ thống sử dụng mã hoá mặt phẳng bit EZBC. So với ph−ơng pháp truyền thống, việc tiết kiệm trong tính toán có thể đạt đ−ợc với bộ mã hoá bù chuyển động IMC3D-EZBC mà không cần khôi phục lại khung tham khảo nh− mã hoá DPCM. Độ phức tạp của hệ thống mã hoá không có tính đối xứng do yêu cầu về chi phí tính toán cho việc đánh giá chuyển động của bộ mã hoá. Điều này hoàn toàn hợp lý với mục đích giải mã luồng bit nhiều lần với nhiều mức khác nhau. • Hiệu quả nén: Với hệ thống băng lọc 3-D có bù chuyển động, sự d− thừa trong Video giảm đ−ợc đáng kể. Sự t−ơng quan đó sẽ đ−ợc khai thác một cách hiệu quả khi mã hoá mặt phẳng bit 3-D EZBC. Kết quả thực nghiệm Nguyễn Hữu Phát 61
  63. Đồ án cao học ĐTVT 2003 chỉ ra tỷ số PSNR của hệ thống mã hoá theo chuẩn MPEG-2 và bộ mã hoá nonscalable 3-D. • Tính mềm dẻo và khả năng chuyên sâu của luồng bit đ−ợc đánh giá đ−ơng đ−ơng với mã hoá ảnh EZBC. Đó là hệ thống mã hoá scalable Video điều chỉnh với hàm có độ rộng thay đổi rất rộng với đặc tính bẩm sinh trong đa phân giải và dự đoán 3-D. Đây là những đặc tính nổi bật đ−ợc cung cấp mà không xảy ra tổn thất th−ờng thấy trong các ứng dụng mã hoá truyền thống. Ch−ơng này đ−ợc tổ chức nh− sau: • Tổng quát về các công việc liên quan đến mã hoá scalable Video. • Tiếp cận đa mạch vòngtrong hệ thống lai thông th−ờng • Một vài thuật toán băng con và tính chất rõ nét (FGS) của kỹ thuật mã hoá. • Thuật toán mã hoá. • Hệ thống mã hoá và các kết quả mã hoá • Kết luận 2.2.1. Khái quát Mã hoá scalable đã đ−ợc đề cập đến trong các thập kỷ tr−ớc. Ng−ời ta đã sớm quan tâm tập trung vào tính t−ơng thích mã hoá và mã hoá cho ứng dụng thấp. Đây là lớp cơ sở của Video, bao gồm các luồng bit con cho ứng dụng đầu cuối cao, giông nh− chuẩn TV (STV) trong tín hiệu HDTV. Mã hoá scalable đã đ−ợc dùng trong truyền Video thô thông qua kênh có lỗi. Để độ tin cậy truyền dẫn càng cao thì chiến l−ợc bảo vệ càng phải cải thiện trong luồng bit cơ sở mà chứa thông tin có ý nghĩa. Một vài hàm scalable đ−ợc dùng trong chuẩn MPEG-2 và phiên bản 2 của H.263. Chúng ta sẽ khái quát lại l−ợc đồ mã hoá scalable thực hiện trong hệ thống mã hoá lai. Ta đã biết intnet hình thành và phát triển rất nhanh từ những thập kỷ tr−ớc. Một đặc tr−ng của Internet là có băng thông thay đổi theo thời gian và Nguyễn Hữu Phát 62
  64. Đồ án cao học ĐTVT 2003 ng−òi sử dụng. Ph−ơng pháp tiếp cận đa lớp thông th−ờng chỉ có thể ứng dụng cho luồng bit rời rạc. Hơn nữa, số lớp và mức của tốc độ bit đ−ợc mã hoá đồng thời trong 1 thời gian. Và nh− vậy, giới hạn băng thông thay đổi cho luồng Video không thể thoả mãn trong tr−ờng hợp này. Để giải quyết vấn đề này, kỹ thuật mã hoá mới SNR đ−ợc đ−a vào sử dụng trong chuẩn MPEG-4, chúng ta sẽ phải xem xét lại l−ợc đồ mã hoá FGS trong khung mã hoá lai truyền thống. Do đặc tính cơ bản của hệ thống mã hoá lai truyền thống, các chức năng thêm vào hầu nh− đềy đạt hiệu quả với lỗi cơ bản trong việc nén. Đây là trở ngại chung trong hệ thống mã hoá lai. 2.2.1.1. Mã hoá lai truyền thống 2.2.1.1.1.Mã hoá Scalable SNR Khung mã hoá truyền thống nói chung không thích hợp trong ứng dụng tốc độ mã hoá mặc dù nó rất gần với mạch vòng DPCM. Hình 2.14 minh hoạ l−ợc đồ khối SNR cho hệ thống mã hoá lai. Khi luồng Video đ−ợc giải mã tại lớp cơ sở, tập trung các tín hiệu đầu vào trái ng−ợc nhau hoặc các sai khác giữa mã hoá và giải mã theo kết quả của các khung tham chiếu sử dụng cho dự đoán, giống nh− kết quả của DPCM với dự đoán mạch vòng hở. Cấu trúc bộ giải mã A set of decoding đ−ợc xác định trong chuẩn MPEG-2 cho mã hoá SNR scalable. Chất l−ợng kém trong MPEG-2 chủ yếu do sai số. Để giảm sai số giữ bộ mã hoá và giải mã, chúng ta có thể dùng nhiều mạch vòng dự đoán phân chia cho các lớp riêng lẻ. Cấu trúc bộ giải mã mới dựa trên ph−ơng pháp này đ−ợc thêm vào cho phiên bản 2 của H.263. Trong l−ợc đồ đa mạch vòng, ảnh của lớp cơ bản đ−ợc tiên đoán dựa trên việc sử dụng ảnh của lớp tr−ớc đó. ảnh của lớp hiện thời trong lớp tăng c−ờng đ−ợc dự đoán bởi ảnh của lớp thấp hơn ngay tại thời điểm đó hoặc kết hợp cả hai nh− hình 2.15. Chúng ta có thể đảm bảo rằng cả bộ mã hoá và giải mã đều có thể sử dụng dữ liệu cho lớp hiện thời. Nhiều lớp tăng c−ờng thêm vào mục đích Nguyễn Hữu Phát 63
  65. Đồ án cao học ĐTVT 2003 cung cấp cho mức và lựa chọn bit. Ng−ợc lại giá của biến đổi/l−ợng tử hoá ng−ợc và đánh giá/bù chuyển động cung cấp với mỗi mã hoá mạch vòng thêm vào không có hiệu quả. Tr−ớc hết do nhiều thông tin tiêu đề và không hiệu quả của hệ số l−ợng tử hoá và mã hoá lại, lỗi trong việc thực hiện nén đ−ợc quan tâm chủ yếu cho cả 2 lớp của hệ thống mã hoá. Vấn đề nay đ−ợc phân tích trong chuẩn MPEG-2 và H.263. Mất mát nên từ 1.0 – 1.5 dB trên 1 lớp. Hình 2.14. L−ợc đồ khối chung của hệ thống mã hoá lai Video SNR sử dụng cho dự đoán mạch vòng. Nguyễn Hữu Phát 64
  66. Đồ án cao học ĐTVT 2003 Lớp giải mã tăng c−ờng (nét đứt) là tuỳ chọn thêm vào tuỳ từng phiên bản. Sai số xuất hiện khi lớp tăng c−ờng bị loại bỏ. Hình 2.15. L−ợc đồ khối chung cho hệ thống mã hoá lai Video SNR sử dụng nhiều mạch vòng dự đoán Nguyễn Hữu Phát 65
  67. Đồ án cao học ĐTVT 2003 Lớp giải mã tăng cừơng (nét đứt)là tuỳ chọn. 2.2.1.1.2 Phân giải mã Scalable Phân giải mã hoá scalable Video điển hình th−ờng dùng biểu đồ hình kim tự tháp: Lớp cơ sở đầu tiên đạt đ−ợc nhờ mã hoá 1/10 nguồn Video. Khôi phục lại lớp Video thấp hơn nhờ nội suy dự đoán dựa trên việc phân giải Video cao hơn tiếp theo. Lớp tăng c−ờng chỉ chứa tín hiệu mã hoá dự đoán lỗi. Ví dụ, chúng ta có thể minh hoạ không gian và thời gian mã hoá trong chuẩn H.263 hình 2.16. L−ợc đồ phân giải này có hiệu quả và độ phức tạp cho mã hoá đa mạch vòng SNR. Trong tr−ờng hợp này, giá trị PSNR là 1.34 dB và trong t−ơng lai có thể loại bớt 0.47–1.38 dB. Hình 2.16. Minh hoạ mã hoá phân giải scalable trong H.263.I, P, và B đại diện cho ảnh I, P và B trong chuẩn H.263.ảnh đứt nét liên quan tới lớp mã hoá tăng c−ờng. 2.2.1.2. Embedded Coding and Fine Granularity Scalability Nhờ những thành công trong việc nén ảnh trong những năm gần đây đã đem lại những đề xuất về thực hiện mã hoá ảnh cho mã hoá DFD trong hệ thống mã hoá thông th−ờng. Ng−ợc lại do những mạch vòng DPCM tr−ớc kia, Nguyễn Hữu Phát 66
  68. Đồ án cao học ĐTVT 2003 luồng bit Video không thể giải mã tại tốc độ bit thấp hơn do tổn hao. Chính vì vậy mặc dù bộ mã hoá vẫn thừa kế một vài đặc tính −u việt nh− đơn giản, điều khiển tốc độ bit chính xác từ việc xây dựng hình ảnh mã hoá khả năng SNR trong việc thực hiện mã hoá vẫn phải loại bỏ. Để thoả mãn yêu cầu phát triển cho Video đa tốc độ với tính chất kết dính cao và không bị ảnh −ởng do sai số, một vài thuật toán sát nhập mã hoá mặt phẳng bit trong khung mã hoá lai truyền thống đã đ−ợc giới thiệu. Trong chuẩn MPEG-4 FGS, khung tham khảo trong mạch vòng DPCM đ−ợc giải mã từ lớp bit cơ sở, t−ơng ứng với biên d−ới của phạm vi mã hoá Video. Phần còn lại sau khi biến đổi DCT đ−ợc mã hoá bởi mặt phẳng bit DCT, nh− Hình 2.17. Do lớp bit cơ sở luôn có khả năng giải mã (giả thiết không có tổn hao), sự sai khác giữa bộ mã hoá và giải mã hầu nh− không xảy ra. Quá trình giải mã có thể dừng tại bất kỳ điểm nà khi luồng bit đ−ợc giải mã thành công. L−ợc đồ mạch vòng đơn cũng đ−ợc chấp nhận bởi 1 vài bộ mã hoá đa lớp SNR để làm giảm độ phức tạp với mạch vòng vi phân đ−ợc thêm vào. Tuy vậy so sánh với l−ợc đồ đa mạch vòng hình 2.15, ph−ơng pháp tiếp cận bên ngoài không phải là việc sử dụng thông tin tối −u nhất cho giải mã, cần thấy một thực tế rằng bộ giải mã luôn sử dụng hình ảnh chất l−ợng kém nhất trong mạch vòng DPCM trong toàn bộ phạm vi mã hoá. Nh− chúng ta đã biết dự đoán lỗi khác nhau gia tăng với sự suy giảm tốc độ bit. Do đó PSNR th−ờng mất 2 dB khi so sánh với với ph−ơng pháp nonscalable t−ơng tự. Kết quả chỉ ra rằng mạch vòng sẽ có thể tồi hơn ch−ơng trình đó tại tốc độ bit cao. Chính vì thế phạm vi bit bị giới hạn. Khung mạch vòng đơn cũng đ−ợc thiết lập bởi Shen và Delp trong việc kết hợp với bộ mã hoá EZW. Nguyễn Hữu Phát 67
  69. Đồ án cao học ĐTVT 2003 Một vài đề xuất nhằm cải thiện hiệu quả nén ảnh trong chế độ FGS của MPEG-4. Tuy nhiên do giới hạn của việc mã hoá lai, việc cải thiện thuật toán còn nhiều giới hạn. Hình 2.17. L−ợc đồ khối chung của hệ thống mã hoá lai Video cho việc cung cấp chức năng FGS Nguyễn Hữu Phát 68
  70. Đồ án cao học ĐTVT 2003 Lớp mã hoá tăng c−ờng (nét đứt) là tuỳ chọn. 2.2.1.3. Mã hoá sử dụng băng con 3 chiều và mã hoá Wavelet Mặc dù không có ý kiến phản hồi của mạch vòng DPCM, cấu trúc mã hoá băng con 3 chiều hoàn toàn phù hợp cho mã hoá SNR scalable. Với việc quan tâm trong ứng dụng đa tốc độ, một vài thuật toánthực hiện mã hoá băng con 3-D đã đ−ợc đề xuất trong các tài liệu gần đây. Không giống nh− bộ mã hoá thông th−ờng, SNR trong hệ thống mã hoá nàyđạt đ−ợc với sự mất mát mã hoá không đáng kể. LZC (Layer Zero Coding) và 3D-SPIHT (Set Partitioning In Hierarchical Tree) là 2 ph−ơng pháp mã hoá điển hình trong mã hoá 3-D. LZC do Tubman và Zakhor thiết lập giá trị đầu tiên trong máy tính dùng cho mã hoá Video đa tốc độ 3 chiều. Với hiệu quả lớn trong việc khai thác sự t−ơng quan giữa giá trị các băng con, LZC đã chỉ rõ 1 trong những −u điểm nổi bật của PSNR cho ảnh nén. ứng dụng trong mã hoá Video, chúng ta sẽ xem xét ảnh h−ởng chuyển động của toàn bộ camera. Chuỗi ảnh đ−ợc tiền làm méo, hoặc sắp thẳng hàng, tr−ớc khi phân tích băng lọc nhằm tránh cho ảnh bị blurring. Ba tham số SPIHT này là sự mở rộng trong mã hoá ảnh SPIHT. Biến đổi băng lọc Daubechies 9/7 phổ biến đ−ợc thực hiện trong mỗi tham số để phát sinh cấu trúc băng con 3-D. Thuật toán này đ−ợc thực hiện nhằm mục đích khai thác 1 nhóm hệ số băng con 3-D/wavelet. Cấu trúc cây trong hệ thống 3 chiều đ−ợc dùng cho việc đánh giá hệ số không quan trọng. Đặc tính đơn giản của SPIHT đ−ợc giữ lại. Luồng bit mã hoá là tốc độ bit mã hoá và đ−ợc thực hiện đầy đủ. Mặc dù có rất nhiều công việc công bố trong miền nén ảnh Video, hầu hết các thuật toán đều dựa trên băng lọc 3-D cổ điển (không có bù chuyển động). Thậm chí cả chuyển động toàn cục. Không nh− các ph−ơng pháp mã hoá lai truyền thống, thông tin về chuyển động cục bộ sẽ đ−ợc sát nhập trong hệ thông mã hoá băng con 3 chiều. Tuy nhiên nh− chúng ta nhấn Nguyễn Hữu Phát 69
  71. Đồ án cao học ĐTVT 2003 mạnh tr−ớc đó, hiệu quả chất l−ợng nén Video dựa vào việc khai thác thông tin về chuyển động. Do đó các thuật toán này không thể cạnh tranh với bộ mã hoá lai truyền thốngtrong nén ảnh cho tốc độ bit đơn (nonscalable) ứng dụng khi chuyển động tốc độ cao tồn tại trong nguồn Video. Điều này đ−ợc chứng minh trong kết quả thực nghiệm sẽ thảo luận sau. Một tr−ờng hợp ngoại lệ đáng chú ý là đề xuất cây Tri-Zerotree đ−a ra bởi Th cho mã hoá tốc độ bit thấp. Tuy nhiên băng lọc đề xuất này không có khả năng biến đổi ng−ợc và không là chuẩn cho ứng dụng mã hoá Video. 2.2.2. Hệ thống tổng quan Hình 2.18. L−ợc đồ khối của hệ thống scalable Video. Mục đích thực hiện của hệ thống mã hoá Video đ−ợc thể hiện trên Hình 2.18. Tín hiệu Video đầu vào đầu tiên đ−ợc biến đổi nhờ 3 tham số bù chuyển động biến đổi ng−ợc giứoi thiệu trong ch−ơng tr−ớc. So sánh với không gian và thời gian băng lọc truyền thống (không có bù chuyển động), biến đổi 3-D có thể loại bỏ d− thừa về không gian trong tín hiệu Video trong trạng thái chuyển động cao. Kết quả là không gian thời gian băng lọc 3- D và cấu trúc nhóm ảnh chỉ ra trên hình 2.9 và 2.5. Bit dự trữ chonhóm ảnh riêng đ−ợc đ−a ra bởi hình (2.12) cho tốc độ mã hoá bit không đổi (CBR). Hệ số của băng lọc 3-D rồi sau đó đ−ợc mã hoá bởi thuật toán mã hoá mặt phẳng bit EZBC (3D-EZBC). T−ơng tự nh− bản sao 2-D, 3D-EZBC mã Nguyễn Hữu Phát 70
  72. Đồ án cao học ĐTVT 2003 hoá các hệ số riêng lẻ thông qua l−ợng tử hoá và mã hoá. Chính vì vậy hệ số đ−ợc biến đổi cho phép giải mã trong phạm vi dự đoán rộng với kích th−ớc n b−ớc của miền chết τ =∆2. với n=nmax. . .0 là chỉ số mặt phẳng bit và ∆ là kích th−ớc b−ớc tiền l−ợng tử hoá. Hệ số biến đổi trong băng con riêngcó thể sắp xếp lại, tỷ lệ, hoặc khai thác l−ợng tử tr−ớc khi mã hoá mặt phẳng bit cho mục đích điều khiển tốc độ Thuật toán mã hoá mặt phẳng bit 3D-EZBC sẽ đ−ợc giới thiệu trong ch−ơng sau. Luồng bit mã hoá dùng cho ứng dụng phụ thuộc trạng thái định dạng nén. Do tất cả các khung trong cùng 1 nhóm ảnh đ−ợc xử lý và mã hoá đồng thời, nên cần bộ đệm khung Ng, ở đây Ng là số khung của nhóm ảnh nhân đ−ợc. Trễ lớn nhất quan hệ giữa 2 khung đầu cuối 2Ng - 1 chu kỳ khung. Trong hệ thống giải mã, hoạt động biến đổi ng−ợc đ−ợc thực hiện ng−ợc lại để mã hoá mà không cần bù chuyển động. Mẫu của băng con giải mã đ−ợc cấu trúc bởi mẫu t−ơng tự - phụ thuộc vào việc thực hiện thuật toán l−ợng tử hoá trong bộ giải mã ảnh EZBC. Điều đáng nói là không giống nh− hệ thống mã hoá lai truyền thống, bù và đánh giá chuyển động trong hình 2.18 đ−ợc hình thành trên cả hai tín hiệu đầu vào gốc. Mạch vòng phản hồi DPCM và các quan hệ khác không đ−ợc giới thiệu trong hệ thống mã hoá Video này. 2.2.3. Băng con mã hoá 3 chiều Thuật toán mã hoá mặt phẳng bit 3D-EZBC đ−ợc mở rộng trực tiếp của thuật toán 2 chiều 2-D EZBC tới các khung riêng lẻ trong hệ thống băng con 3 chiều mô tả trên hình 2.5. Cây 1/4 đầu tiên đ−ợc thiết lập cho băng con riêng lẻ từ khung nhận đ−ợc. Giá trị của nút cây 1/4 Qk (i, j, t) tại vị trí (i, j, t), mức cây 1/4 là l và băng con k đ−ợc xác định nh− sau: Nguyễn Hữu Phát 71
  73. Đồ án cao học ĐTVT 2003 Q0(i,j,t)⎡⎤ ∆ c (i, j,t) kk⎣⎦ ⎧Q⎡⎤ l -1 2i,2j,t ,Q ⎡⎤ l -1 2i,2j+1,t , ⎫ (2.13) ⎪ kk⎣⎦() ⎣⎦ ( )⎪ Ql(i,j,t)⎣⎦⎡⎤ ∆max ⎨ ⎬ k Ql-12i+1,2j,t,Ql-12i+1,2j+1,t⎡⎤ ⎡⎤ ⎩⎭⎪ kk⎣⎦()( ⎣⎦ )⎪ với ck (i, j, t) là giá trị băng con tại vị trí (i, j, t), với băng con thứ k. Với việc xây dựng đệ quy cây 1/4, nút đỉnh của cây có giá trị biên độ lớn nhẩt trong tất cả các mẫutừ băng con giống nhau trong khung nhận đ−ợc. Nút đỉnh của cây bao gồm LIN tại quá trình bắt đầu của mặt phẳng bit. Dữ liệu trên mặt phẳng đ−ợc mã hoá từ mẫu có nghĩa lớn nhất MSB đến mẫu ít có nghĩa nhât LSB nhờ kiểm tra các nút từ LIN và tinh chỉnh hệ số từ LSP. Chúng ta có thể thực hiện giống nh− trong mã hoá 2-D EZBC cho việcmã hoá entropy của mặt phẳng lấy mẫu. Thủ tục hoàn chỉnh có thể tóm tắt nh− sau: Định nghĩa • m (i, j, t): bit có nghĩa nhất (MSB) của nút (i, j, t). • Dk: độ sâu của cây 1/4 cho băng lọc k. • Dmax: max{k}{Dk}. • K: tổng số băng con. • n: chỉ số của mặt phẳng bit thông qua hiện thời, t−ơng ứng với ng−ỡng l−ợng tử hoá 2n. • Sn (i, j, t): nút kiểm tra có nghĩa (i, j, t) đối diện với ng−ỡng 2n, ⎧1nm(i,nếu < j,t) Si,j,tn ()∆ ⎨ ⎩0 còn lại Nút (hay điểm ảnh) (i, j, t) là có ý nghĩa nếu Sn (i, j, t) = 1, và không có ý nghĩa trong tr−ờng hợp còn lại. • LINk[l]: danh sách các nút không có nghĩa từ mức l của băng con k. • LSPk: danh sách các điểm ảnh có nghĩa từ băng con k. • CodeLIN (k, l): hàm xử lý nút khô trong LINk[l]. Nguyễn Hữu Phát 72
  74. Đồ án cao học ĐTVT 2003 • CodeLSP (k): hàm định nghĩa lại các hệ số. • CodeDescendants (k, l, i, j, t): hàm cho mã hoá có nghĩa của tất cả các nút Qk[l] (i, j, t), dùng cho kiểm tra mức ng−õng hiện thời. Các b−ớc mã hoá 1. Khởi tạo ⎪⎧{(0,0,t) ∀∈ tsubbank k} ,l = D LIN l ∆ k k () ⎨ ⎩⎪Φ còn lại LSPk = φ nn=∆⎡ log ()()max c i, j,t ⎤ max ⎣⎢ 2 { k }⎦⎥ 2. for l = 0: Dmax for k = 0: K - 1 - CodeLIN (k, l) 3. for k = 0: K - 1 - CodeLSP (k) Nếu (n > 0), giảm n quay lại b−ớc 2. Mã giả: CodeLIN (k, l) { for mỗi nút (i, j, t) trong LINk[l] - Mã hoá Sn (i, j, t) - Nếu (Sn (i, j, t) = 0) * Duy trì phần còn lại (i, j, t) trong LINk[l] - ng−ợc lại * Nếu (l = 0), mã hoá bit dấu của ck (i, j, t) và thêm nút (i, j, t) tới LSPk * ng−ợc lại CodeDescendants (k, l, i, j, t) } Nguyễn Hữu Phát 73
  75. Đồ án cao học ĐTVT 2003 CodeDescendants (k, l, i, j, t) { for mỗi nút (x, y, t) trong { (2i, 2j, t), (2i, 2j+1, t), (2i+1, 2j, t), (2i+1, 2j+1, t)} của mức l-1 trong cây 1/4, băng k - Mã hoá Sn (x, y, t) - Nếu (Sn (x, y, t) = 0), thêm nút (x, y, t) vào LINk[l - 1] ng−ợc lại -Nếu (l = 1), mã hoá bit dấu của ck (x, y, t) và thêm nút (x, y, t) vào LSPk ng−ợc lại CodeDescendants (k, l - 1, x, y, t) } CodeLSP (k) { for mỗi điểm ảnh (i, j, t) trong LSPk - mã hoá bit n của |ck (i, j, t)| } 2.2.4. Tỷ lệ dòng bít mã hoá Tiếp theo chúng ta sẽ xem xét cách nén luồng bit mã hoá từ bộ mã hoá để có thể đạt hiệu quả chu các ứng dụng mã hoá Video thay đổi. 2.2.4.1.Hệ thống dòng bít Giống nh− cơ cấu của mặt phẳng mã hoá băng con 3 chiều/wavelet của tín hiệu Video với tốc độ chuyển động của khung. Trong tr−ờng hợp này băng Nguyễn Hữu Phát 74
  76. Đồ án cao học ĐTVT 2003 con lọc 3 chiềuchỉ ra trên hình 2.10, thời gian phân tích Rt = 4 với không gian phân tích Rs = 2, kết quả là tín hiệu Video đ−ợc phân thành 5 băng l−ới mắt cáo theo thời gian và 3 băng l−ới theo không gian minh hoạ trên hình 2.19. Băng con mã hoá đ−ợc tiền l−ợng tử hoá với b−ớc l−ợng tử τ đ−ợc giải mã với n phạm vi l−ợng tử hoá hiệu quả τ=2 . ∆ ,n = nmax , ,0 , bởi mặt phẳng giải mã bit n. Hình 2.19. Tần số phân giải băng con biến đổi tín hiệu Video 3-D trong hệ thống mã hoá Vieo Nhóm ảnh riêng phục vụ cho đơn vị mã hoá cơ bản cho việc hình thành điều khiển của luồng bit tỷ lệ. Thứ bậc của lớp bit mã hoá trong nhóm ảnh đ−ợc mô tả trên hình 2.20. Trên cùng của hệ thống mã hoá, chỉ ra trên Hình 2.20 (a), mỗi nhóm ảnh mã hoá gồm 1 đơn vị luồng bit độc lập {PMV, PY, PU, PV}, ở đây PMV ký hiệu luồng bit cho tr−ờng chuyển động, và PY, PU, PV là hệ số băng con đáp ứng với thành phần màu Y, U, V của tín hiệu nguồn Video. Luồng bit chuyển động PMV gồm luồng bit nhỏ hơn {PMV rt |rt =1, . . ., Rt} liên quan tới vectơ mã hoá bù chuyển động cho băng lọc bù chuyển động trong biểu đồ tỷ lệ thời gian rt, minh hoạ trên Hình 2.20 (b). Hệ số luồng bit Nguyễn Hữu Phát 75
  77. Đồ án cao học ĐTVT 2003 V P đ−ợc tạo ra từ sự lựa chọn băng con { 0, . . ., Rs } liên quan tới hệ số mã hoá băng con từ không gian tỷ lệ (rt, rs) và thành phần màu v ∈ {Y, U, V }, minh hoạ trên Hình 2.19 và 2.20 (c). Trong tất cả các luồng bit con P v đ−ợc mã rrts, hoá từ MSB đến LSB và mỗi mặt phẳng bit n thông qua sẽ đ−ợc phân chia thành các mặt phẳng bit con l. Lớp hệ thống cho hệ số luồng bit băng con P v đ−ợc cung cấp trên Hình 2.20 (d), ở đây K là số băng con tỷ lệ (rt, rs) rrts, rrts, và Dmax và nmax định nghĩa trong mục 2.2.3. Dmax = 9; nmax = 12 (với ∆ = Nguyễn Hữu Phát 76
  78. Đồ án cao học ĐTVT 2003 1) là tham số điển hình cho phân giải SIF (mục 2.5). Hình 2.20. Lớp hệ thống file luồng bit phát sinh trong hệ thống mã hoá Video scalable EZBC. (a) Đỉnh hệ thống. (b) Lựa chọn luồng bit con chuyển động (c) Lựa chọn hệ số luồng bit con cho thành phần màu v. (d) Lớp hệ thống cho luồng bit con quan hệ đến không gian tỷ lệ (rt, rs). Nguyễn Hữu Phát 77
  79. Đồ án cao học ĐTVT 2003 2.2.4.2. Lựa chọn dòng bít mã hoá và truyền dẫn Giống nh− thuật toán mã hoá mặt phẳng bit 2 chiều 2-D EZBC, chú ý đặc biệt nhận đ−ợc cho mô hình hệ số băng con 3 chiều trong hệ thống mã hoá Video vì thế luồng bit phân giải thấp hơn có thể giải mã mà không cần phân giải băng con ở mức cao hơn. Luồng bit băng con trên Hình 2.20 đ−ợc mã hoá theo từ mã sô học độc lập và đ−ợc đ−a vào địa chỉ hoá trong 1 file. Kết quả là chúng ta có thể chọn bất kỳ thành phần v màu nào của tín hiệu Video mã hoá khôi phục lại trong sự phân giải không gian khác nhau, tốc độ khung và mức chất l−ợng, (R’t, R’s, Qn’), nhờ sự lựa chọn đơn vị mã hoá PPMV,0 v, n ≤≤ rR ',0',' ≤≤ rRnnn ≤≤ . { rrrtttts,max ss } Với nhóm 8 tần số phân chia trong cả không gian và thời gian, việc phân giải tín hiệu Video giải mã (tốc độ khung và kích th−ớc ảnh) cho phép chia tỷ lệ bởi luỹ thừa 2 trong khuôn dạng các tham số. Cung cấp với luồng bit mã hoá nhờ khả năng dự đoán hội tụ tốt, tốc độ mã hoá đ−ợc thực hiện liên tục. Ba thành phần màu có thể nén lại lại hoặc bị loại bỏ khi kho dự trữ bit rất thấp. Với khả năng mềm dẻo của luồng bit, hệ thống mã hoá của chúng ta là lý t−ởng cho môi tr−ờng ứng dụng hỗn hợp, nơi mà mạng bao gồm các băng thông khác nhau và hệ thống đầu cuối với độ phức tạp khác nhau. Với ứng dụng server-client nh− mã hoá Video trên Internet, luồng bit đơn trong hệ thống có thể co dãn theo sự thay đổi băng thông khác nhau của kênh và giới hạn của thiết bị đầu cuối. Truyền hình quảng bá và hội nghị đa điểm có −u điểm khi sử dụng hệ thống này. Thay vì gửi rất nhiều luồng bit từ cùng 1 nguồn Video với bộ gải mã chuyên dụng (gọi là simulcast), chúng ta chỉ cần truyền luồng bit mã hoá đơn thông qua toàn mạng (gọi là multicast). Mất mát do d− thừa giữa các luồng bit có thể giảm thiểu. Trong tr−ờng hợp này, luồng bit mã hoá nén có Nguyễn Hữu Phát 78
  80. Đồ án cao học ĐTVT 2003 khả năng thích nghi với việc tiếp cận đa lớp nh− hình 2.21, ở đây bộ nhận có 3 mức độ phức tạp khác nhau. Thông tin sai khác giữa lớp cơ sở (ký hiệu là BL trong hình 2.21) và nguồn Video ban đầu đ−ợc chứa trong lớp tăng c−ờng (ký hiệu là EL0 và EL1 trong hình 2.8) và luồng bit mã hoá lớp thấp hơn đ−ợc chia sẻ cao với ng−ời sử dụng đầu cuối. Trong chiến l−ợc phát thanh truyền thống, truyền thông trên mạng đ−ợc giảm bớt cho hết nối A trên hình 2.16. Hình 2.21. Minh hoạ việc tiếp cận đa truyền thanh đa lớp trong Video Một ví dụ khác, luồng bit mã hoá Video có thể ứng dụng cho quảng bá Video sử dụng bộ nhận - điều khiển đa lớp (RLM) nghiên cứu bởi McCanne minh hoạ trên hình 2.17. Trong l−ợc đồ này, lớp bit mã hoá tăng c−ờng cho phân giải đ−ợc truyền thông qua kênh phân chia. Ng−ời sử dụng cuối cùng có thể lựa chon gia nhập hoặc rời bỏ nhóm. Trong ví dụ minh hoạ hình 2.22, 5 luồng bit phát thanh quảng bá từ nguồn Video đ−ợc cung cấp cho giải mã trong 2 không gian phân giải, hai tốc độ khung, và 2 mức l−ợng tử. Nh− đã chứng minh, luồng bit mã hoá đơn trong Nguyễn Hữu Phát 79
  81. Đồ án cao học ĐTVT 2003 tr−ờng hợp này có thể phục vụ cho 4 ng−ời sử dụng đầu cuối với định dạng nén khác nhau sử dụng nguồn Video. Hình 2.22. Minh hoạ scalable Video cho đa truyền thanh Trái với việc hình thành băng con/hình kim tự tháp – cơ sở của thuật toán đa phân giải trong tài liệu này, hệ thống trong t−ơng lai cung cấp chất l−ợng/tốc độ mong muốn cho ứng dụng mạng. Bên cạnh đó chất l−ợng giải mã cho phân giải không gian thời gian không yêu cầu bắt buộc về thời gian mã hoá ngay khi yêu cầu chất l−ợng Video d−ới mức cao nhất cung cấp bởi luòng bit l−u trữ. Nguyễn Hữu Phát 80
  82. Đồ án cao học ĐTVT 2003 2.2.5. Kết quả thực nghiệm Thuật toán nén Video đ−ợc thực hiện trên các phần mềm. Video dùng để thử nghiệm là Mobile Calendar, Flower Garden, Football và bảng Tennis trong phân giải SIF. 2.2.5.1. So sánh với mã hoá Nonscalable Chúng ta sẽ so sánh thuật toán IMC3D-EZBC với chuẩn mã hoá nonscalable MPEG-2. Tham số miêu tả trong ch−ơng tr−ớc đ−ợc chọn cho kết quả mã hoá MPEG-2. Bảng 2.13 cung cấp hiệu suất PSNR trung bình cho mã hoá thành phần màu liên tiếp Mobile Calendar, Flower Garden và Football tại tốc độ bit mã hoá 0.73, 1.2, và 2.4 Mbps. Chúng ta có thể chỉ ra chuẩn MPEG-2 bởi 0.8–4.0 dB trong việc cung cấp các đặc tính đa tốc độ. Giống nh− kết quả quan sát trên hình 2.22 cho thành phần xám của Video mã hoá Mobile Calendar. Bảng 2.5. So sánh hiệu suất trung bình PSNR của MPEG-2, IMC3D-FSSQ, và IMC3D-EZBC (in dB) Hình 2.22. Hiển thị thành phần chói của ảnh khôi phục Nguyễn Hữu Phát 81
  83. Đồ án cao học ĐTVT 2003 thông qua bộ mã hoá IMC3D-EZBC và MPEG-2 tại tốc độ bit 0.73, 1.2, 2.4 và 4.8 Mbps. Chúng ta cũng chỉ ra thành phần chói của ảnh gốc trên hình 2.22. Hình 2.22 minh hoạ phạm vi bit có thể kết hợp bởi bộ mã hoá IMC3D-EZBC. Hình 2.22. So sánh Y-PSNR t−ơng ứng với phạm vi bit, Mobile Calendar. Nguyễn Hữu Phát 82
  84. Đồ án cao học ĐTVT 2003 2.2.5.2. So sánh mã hoá LZC và 3D-SPIHT Hình 2.23. So sánh thành phần chói của ảnh từ khung 001 của bộ giải mã liên tiếp Mobile Calendar tại tốc độ bit 0.73, 1.2, 2.4, và 4.8 Mbps (từ trên xuống d−ới) với MPEG-2 (bên trái) và IMC3D-EZBC (bên phải). Nguyễn Hữu Phát 83
  85. Đồ án cao học ĐTVT 2003 Hình 2.24. Thành phần chói của ảnh giống nhau trên hình 2.23 từ khung 001 của ảnh gốc Mobile Calendar. Bảng 2.6: So sánh PSNR cho 3 bộ mã hoá LZC, 3DSPIHT, và IMC3D-EZBC tại tốc độ bit khác nhau tại mức xám của chuỗi ảnh kiểm tra Nguyễn Hữu Phát 84
  86. Đồ án cao học ĐTVT 2003 Hình 2.25: So sánh PSNR cho mức xám của Flower Garden IMC3D-EZBC cũng đ−ợc so sánh với 2 tốc độ của bộ mã hoá Video 3D-SPIHT và LZC. Với LZC, chúng ta thiết lập câu trúc file sử dụng 9 băng lọc của Adelson cho băng lọc không gian, khung cho mỗi khối truyền dẫn F = 32. Bảng 2.6 tóm tắt giá trị trung bình PSNR cho mức xám mã hoá của Video kiểm tra Mobile Calendar, Flower garden, và bảng Tennis at bitrates 0.6, 1.2, and 2.4Mbps. Không bù chuyển động, 3D-SPIHT chỉ ra hình thức kém trên Mobile Calendar và Flower Garden, cả 2 clips với sự chuyển động lớn. Giá trị trung bình PSNR cho mức xám mã hoá của Flower Garden trong phạm vi tốc độ rộng rãi đ−ợc miêu tả trên hình 2.133. Kết quả mã hoá chỉ ra trong Bảng 2.6 và hình 2.25 cho bộ mã hoá. Chất l−ợng thị giác cho cấu trúc khung đ−ợc đánh giá trong hình 2.26.ảnh khôi phục cho thuật toán 3D-SPIHT xuất hiện chập chờnkhi dùng băng lọc thời gian. ảnh h−ởng này suy giảm trong LZC với bù chuyển động toàn cục. Hình 2.27 cung cấp khung Y-PSNR kết quả của bộ mã hoá (IMC3D- Nguyễn Hữu Phát 85
  87. Đồ án cao học ĐTVT 2003 EZBC) cho ảnh liên tiếp Mobile Calendar tại tốc độ bit khác nhau với các phiên bản không bbù chuyển động (3D-EZBC). Hình 2.26. So sánh ảnh cấu trúc bởi 3 bộ mã hoá 3D-EZBC, LZC và SPIHT, khung 001 của mức xám Flower Garden tại 1.2 Mbps. Giá trị trung bình PSNRs cho toàn bộ chuỗi ảnhghi trong Bảng 2.6. Trên cùng bên tráit: ảnh gốc. Trên cùng bên phải: 3D-SPIHT (23.28dB). D−ới cùng bên trái: LZC (25.11 dB). D−ới cùng bên phải: IMC3D-EZBC (24.32 dB). 2.2.5.3. Mã hoá tốc độ đa phân giải Mục này giới thiệu kết quả đa phân giải đa tốc độ mã hoá sử dụng thuật toán trong mục 2.2.4. Với chuỗi ảnh kiểm tra (trong phân giải SIF), hệ thống có thể hỗ trợ giải mã khung tại tốc độ 30, 15, 7.5, 3.75 hoặc 1.875 fps, và không gian phân giải 352 x 240 hoặc 176 x 120 pixels. Nguyễn Hữu Phát 86
  88. Đồ án cao học ĐTVT 2003 Trên hình 2.28, chúng ta chỉ ra khung đầu tiên từ Video khôi phục Mobile Calendar tại tốc độ bit mã hoá trung bình 0.505 bit/pixel (bpp) cho tất cả các mức phân giải hỗ trợ theo không gian và thời gian. Giá trị trung bình PSNR đ−ợc lập trên bảng 2.7. Hình 2.27. So sánh từng khung Y-PSNR của EZBC với (IMC3D-EZBC) và không bù chuyển động (3D-EZBC) cho mã hoá Mobile Calendar tại tốc độ bit 2.4, 1.2, 0.6, 0.3 Mbps. Trong bảng 2.8, chúng ta hiển thị lớp byte của nhóm ảnh đầu tiên cho thành phần chói của luồng bit mã hoá trong bảng 2.7. ứng dụng phổ biến miêu tả trên hình 2.8 với mức phân giải “t-LL”, “t-L” và “Full”, luồng bit mã hoá ở đây có thể giảm tắc nghẽn trên đ−ờng truyền thông qua tốc độ 960.0 Kbps (640.0 Kbps + 320.0 Kbps) cho kết nối A. Nguyễn Hữu Phát 87
  89. Đồ án cao học ĐTVT 2003 Bảng 2.7. Giá trị trung bình PSNR (dB) cho mã hoá đa phân giải của Mobile Calendar với mức độ phân giải không gian thời gian và tốc độ mã hoá 0.505 bpp. Bảng 2.8. Bố trí byte của nhóm ảnh đầu tiên cho thành phần chói của luồng bit tỷ lệ trong bảng2.7. Tần số phân chia đáp ứnghiển thị trên hình 2.27. Nguyễn Hữu Phát 88
  90. Đồ án cao học ĐTVT 2003 Hình 2.28, 2.29, và 2.30 chỉ ra khung đầu tiên từ bộ giải mã Flower Garden liên tiếp tại tốc độ bit 800, 200, và 50 Kbps. Hình 2.28. Khung đầu tiên của chuỗi ảnh khôi phục Mobile Calendar tại mức phân giải theo không gian và thời gian thay đổi và giải mã tại tốc độ bit 0.505 bpp. Nguyễn Hữu Phát 89
  91. Đồ án cao học ĐTVT 2003 Hình 2.29. Thực hiện phân chia tần số theo bảng 2.8. Bảng 2.9. So sánh PSNR (dB) của IMC3D-EZBC có và không có phân giải tỷ lệ, Football. Nguyễn Hữu Phát 90
  92. Đồ án cao học ĐTVT 2003 Hình 2.30. Khung đầu tiên từ chuỗi ảnh khôi phục Flower Garden với mức độ phân giải khác nhau, tại tốc độ 800 Kbps. Cặp chỉ số d−ới đây Y-PSNR cho khung đầu tiên và giá trị trung bình Y-PSNR cho toàn bộ chuỗi ảnh. (a) Đỉnh bên trái: Phân giải toàn bộ, (27.88 dB, 26.25 dB). (b) Đỉnh bên phải: t-L, (24.67 dB, 27.76 dB). (c) D−ới cùng bên trái: t-LL, (32.57 dB, 30.83 dB). (d) D−ới cùng bên phải: t-LLL, (34.23 dB, 37.30dB). 2.2.6. Tóm tắt và kết luận Ch−ơng này giới thiệu hệ thống mã hoá Video băng con 3 chiều/wavelet IMC3D-EZBC. Đầu tiên chúng ta khái quát lại các ph−ơng pháp mã hoá hiên thời nh− chuẩn MPEG-2 và H.263+, với việc kế thừa nổi bật của FGS trong MPEG-4. Chúng ta cũng đề cập đến những hạn chế của ph−ơng pháp DPCM. Để tránh đệ quy trong cấu trúc mã hoá, chúng ta đề xuất ph−ơng pháp mã hoá Nguyễn Hữu Phát 91
  93. Đồ án cao học ĐTVT 2003 mới dựa trên cơ sở băng lọc 3-D. Hiệu quả của thuật toán nén ảnh EZBC đ−ợc mở rộng với 3 tham số cho kết quả mã hoá theo thời gian không gian. Một vài đặc tính của EZBC nh− hiệu quả nén, đơn giản và tỷ lệ SNR vẫn đ−ợc duy trì. Chúng ta cũng đề cập đến việc so sánh chuỗi Video thực hiện LZC và 3D-SPIHT. Kết quả hình thành khi chuyển động với tốc độ cao trong Video. Hình 2.31. Khung đầu tiên từ chuỗi ảnh khôi phục Flower Garden với mức phân giải khác nhau với tốc độ 200 Kbps. Bố trí ảnh đ−ợc mô tả trong hình trên cùng. Cặp Y-PSNR cho khung đầu tiên và giá trị trung bình Y-PSNR cho toàn bộ chuỗi ảnh. Nguyễn Hữu Phát 92
  94. Đồ án cao học ĐTVT 2003 • Phân giải đầy đủ: (22.70 dB, 21.14 dB). • Phân giải t-LL: (24.58 dB, 23.16 dB). • Phân giải t-LLLL: (30.84 dB, 24.87 dB). • Phân giải s-LL: (27.74 dB, 24.77 dB). • Phân giải t-L-s-LL: (24.02 dB, 25.69 dB). • Phân giải t-LL-s-LL: (31.04 dB, 27.22 dB). • Phân giải t-LLs- LL: (35.04 dB, 30.83 dB). Hình 2.32. Khung đầu tiên từ chuỗi mã hoá FlowerGarden với mức độ phân giải khác nhau, tốc độ 50 Kbps. Cặp Y-PSNR cho khung đầu tiên và giá trị trung bình Y-PSNR cho toàn chuỗi ảnh. (a) Đỉnh trên cùng bên trái: t-LL, (13.03 dB, 17.56 dB). (b) Đỉnh trên cùng bên phải: t-LLLL, (22.79 dB, 21.93 dB). (c) Đỉnh d−ới cùng bên trái: t-LL-s-LL, (20.48 dB, 20.05 dB). (d) Đỉnh trên cùng, phía giữa: t-LLL-s-LL, (24.21 dB, 22.95 dB). (e) Đỉnh trên cùng bên phải: t-LLLL-s-LL, (23.09 dB, 22.131 dB). Nguyễn Hữu Phát 93