Bài giảng Truyền thông đa phương tiện

doc 161 trang phuongnguyen 3830
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Truyền thông đa phương tiện", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • docbai_giang_truyen_thong_da_phuong_tien.doc

Nội dung text: Bài giảng Truyền thông đa phương tiện

  1. BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC KINH TẾ - KỸ THUẬT CÔNG NGHIỆP KHOA CÔNG NGHỆ THÔNG TIN BÀI GIẢNG TRUYỀN THÔNG ĐA PHƯƠNG TIỆN Đối tượng: HSSV trình độ Đại học, Cao đẳng, TCCN Ngành đào tạo: Công nghệ thông tin Lưu hành nội bộ
  2. MỤC LỤC LỜI GIỚI THIỆU 1 Chương 1. NHẬP MÔN MULTIMEDIA 1.1. Tổng quan 1.2. Mô hình truyền thông con người 1.2.1. Hệ thống vật lý 1.2.2. Sự mã hóa đơn giản 1.2.3. Sự cảm nhận 1.2.4. Bộ nhớ 1.2.5. Hệ thống nhận thức 1.2.6. Hệ thống nhớ 1.3. Ước lượng và hội tụ 1.3.1. Sự hội tụ của viễn thông và tin học 1.3.2. Các kiến trúc cho các ứng dụng mạng 1.3.3. Mạng máy tính 1.3.4. Tích hợp 1.3.5. Tính toán có thể vận chuyển được 1.3.6. Các trình ẩn thông minh 1.3.7. Sự hội tụ Chương 2. KHÁI NIỆM CHUNG VỀ ÂM THANH AUDIO VÀ VIDEO 2.1. Kỹ thuật Audio 2.1.1. Khái niệm 2.1.2. Ứng dụng 2.1.3. Kỹ thuật Audio số 2.1.4. Giới thiệu về âm thanh và hệ thống xử lý âm thanh 2.1.5. Một số khái niệm toán học trong xử lý âm thanh 2.1.6. Các mô hình dùng trong xử lý âm thanh 2.2. Kỹ thuật Video 2.2.1. Tổng quan về xử lý ảnh và video số 2.2.2. Khái niệm cơ bản về xử lý ảnh 2.2.3. Các phần tử cơ bản của hệ thống xử lý ảnh số 2.2.4. Lý thuyết toán ứng dụng trong xử lý ảnh và video số 2
  3. Chương 3. NGUYÊN LÝ, KỸ THUẬT VÀ CÁC CHUẨN NÉN DỮ LIỆU MULTIMEDIA: ÂM THANH, HÌNH ẢNH, VIDEO KỸ THUẬT SỐ 3.1. Công nghệ đường truyền tốc độ cao 3.2. Mạng đa phương tiện, các công nghệ và kiến trúc. 3.3. Các giao thức truyền thông đa phương tiện thời gian thực 3.4. Nguyên lý nén dữ liệu 3.5. Lượng tử hóa ảnh (Image Quantization) 3.6. Các phương pháp mã hóa (Shannon – fano và Huffman) 3.7. Kỹ thuật nén ảnh, video 3.7.1. Kỹ thuật nén ảnh JPEG 3.7.2. Chuẩn nén MPEG, chuẩn H.26X Chương 4. BẢO ĐẢM CHẤT LƯỢNG DỊCH VỤ (QoS) TRUYỀN THÔNG ĐA PHƯƠNG TIỆN 4.1. Các loại dịch vụ cơ bản và yêu cầu chung của chúng về chát lượng dịch vụ. 4.1.1. Dịch vụ thoại/telex/Fax/nhắn tin 4.1.2. Dịch vụ truyền thông đa phương tiện 4.2. Nhu cầu và xu hướng phát triển của các loại dịch vụ truyền thông đa phương tiện 4.2.1. Dịch vụ VoIP 4.2.2. Dịch vụ Video thời gian thực 4.2.3. Dịch vụ VPN 4.2.4. Tích hợp dịch vụ viễn thông trên mạng truyền hình cáp (CATV) 4.2.5. Dịch vụ trực tuyến (Online services) 4.2.6. Thông tin cá nhân toàn cầu - Dịch vụ cho tương lai Chương 5. MỘT SỐ ỨNG DỤNG MULTIMEDIA 5.1. Mạng thông tin toàn cầu 5.2. Hệ thống hội thảo truyền hình (Videoconference Systems) 5.3. Hệ thống truyền hình theo yêu cầu (Video-on-demand System) TÀI LIỆU THAM KHẢO DANH MỤC TỪ KHÓA 3
  4. Chương 1 : NHẬP MÔN MULTIMEDIA 1.1. Tổng quan Sản phẩm của công nghệ Multimedia đã và đang xâm nhập ngày càng sâu, rộng vào mọi lĩnh vực của đời sống xã hội. Có thể nói các sản phẩm của công nghệ có mặt ở khắp mọi nơi, từ công sở đến gia đình. Nó xuất hiện trong nhiều lĩnh vực từ giáo dục, y tế, đến vui chơi giải trí, nghiên cứu khoa học v v Sức mạnh của các sản phẩm do công nghệ Multimedia mang lại là sự đa dạng phong phú của các dạng thông tin. Người ta có thể thu nhận, sử lý thông tin thông qua thị giác, thính giác nhờ âm thanh, hình ảnh, văn bản mà công nghệ Multimedia mang lại. Điều này làm cho hiệu quả thu nhận, sử lý thông tin cao hơn so với thông tin chỉ ở dạng văn bản. Ý tưởng đặt nền móng cho lĩnh vực công nghệ này đã có từ năm 1945. Ông Vanner Brush ,giám đốc cơ quan nghiên cứu phát triển khoa học của chính phủ Mỹ lúc bấy giờ (Director ofthe office Scientific Research and Development in the US Gouverment) đã đưa ra câu hỏi là, liệu có thể chế tạo được loại thiết bị cho phép lưu trữ các dạng thông tin để thay cho sách, nói một cách khác chẳng nhẽ mọi thông tin chỉ có thể lưu trữ ở dạng sách ? Nhận thức được ý nghĩa quan trọng của loại thiết bị có tính chất trên, hàng loạt các nhà khoa học, công nghệ đã tập trung nghiên cứu. Nó là cở sở hay nền tảng của công nghệ Multimedia ngày nay. Năm 1960 Ted Nelson và Andrries Van Dam đã công bố công trình nói về kỹ thuật truy nhập dữ liệu dưới cái tên gọi Hypertext và Hypermedia. Kỹ thuật này cho đến nay vẫn được giữ nguyên tên và được sử dụng rộng rãi trong dịch vụ Web trên Internet. Năm 1968 Engleband đã đưa ra được hệ thống sử dụng Hypertext trên máy tính với cái tên NLS. Bộ quốc phòng Mỹ thành lập tổ chức DARPA (US deference advanced Research Prọject Agency) để nghiên cứu về công nghệ Multimedia. Năm 1978 phòng thí nghiệm khổng lồ MIT Media Laboratory chuyên nghiên cứu về công nghệ Multimedia được thành lập. Chỉ sau một thời gian ngắn hoạt động, nhận thức được tầm quan trọng và ý nghĩa xã hội của công nghệ Multimedia, người ta đã đầu tư gần 40 triệu USD cho phòng thí nghiệm này. Một loạt các công ty, các hãng lớn đã cho ra đời các phòng thí nghiệm về Multimedia như AT & T, BELL, Olivity Những nỗ lực không ngừng của các nhà khoa học,công nghệ đã cho phep người ta gặt hái được nhiều kết quả có tính chất nền móng cho lĩnh vực Multimedia . Những kết quả này đa nhanh chóng được triển khai ứng dụng trong các lĩnh vực truyền hình, viễn thông v.v 4
  5. 1.2. Một vài khái niệm và định nghĩa 1.2.1. Dữ liệu Multimedia Thông thường chúng ta thường ghi nhận thông tin ở dạng văn bản , các văn bản này được mã hoá và lưu giữ trên máy tính, khi đó chúng ta có dữ liệu dạng văn bản. Một câu hỏi đặt ra nếu thông tin chúng ta thu nhận được ở một dạng khác như âm thanh (voice) , hình ảnh (Image) thì dữ liệu của nó ở dạng nào? Chính điều này dẫn đến một khái niệm mới ta gọi đó là dữ liệu Multimedia. Dữ liệu Multimedia là dữ liệu ở các dạng thông tin khác nhau. Ví dụ dữ liệu Multimedia là các dữ liệu ở các dạng thông tin như - Âm thanh (Sound) - Hình ảnh (image) -Văn bản (text). - Kết hợp của cả ba dạng trên. Khi nghiên cứu các dữ liệu ở các dạng thông tin trên, người ta nhận ra rằng cần phải phân chia dữ liệu Multimedia nhỏ hơn nữa. Bởi vì dữ liệu ở các dạng âm thanh, hình ảnh trong quá trình "vận động" theo thời gian có những tính chất rất khác so với dạng tĩnh. Điều này đòi hỏi kỹ thuật, công nghệ xử lý rất khác nhau.Vì vậy trong lĩnh vực công nghệ Multimedia người ta chia dữ liệu multimedia ở các dạng: 1. Văn bản (Text) 2. Âm thanh (sound) 3. Audio (âm thanh động, có làn điệu) 4. Image/ Picture (Hình ảnh) 5. Motion picture (ảnh động) 6. Video (ảnh động kết hợp âm thanh động) 7. Animation (hình ảnh sử dụng theo nguyên tắc chiếu phim) 8. AVI (Audio-Video Interleaved AVI) 9. Kết hợp giữa các dạng trên. 1.2.2. Công nghệ Multimedia Một cách đơn giản công nghệ Multimedia là công nghệ xử lý dữ liệu multimedia Chúng ta cần lưu ý rằng khái niệm xử lý dữ liệu trong công nghệ thông tin bao hàm các công việc sau: mã hóa, lưu trữ, vận chuyển, biến đổi, thể hiện dữ liệu. Với ý nghĩa đó công nghệ Multimedia là công nghệ mã hóa, lưu trữ, vận chuyển, biến đổi, thể hiện dữ liệu multimedia. 5
  6. 1.2.3. Đồng bộ (synchronic) Đồng bộ là khái niệm rất quan trọng trong công nghệ multimedia, vì chúng ta biết rằng dữ liệu multimedia là dữ liệu của thông tin ở các dạng khác nhau, mỗi dạng cần phải có thiết bị và công nghệ xử lý khác nhau, khi kết hợp chúng lại vấn đề đồng bộ luôn được đặt ra. Chẳng hạn người ta không thể chấp nhận nghe tiếng súng nổ trước khi thấy súng bắn. Khái niệm đồng bộ hay đồng bộ hóa (Sychronization) có ý nghĩa quan trọng trong công nghệ multimedia. Vậy thế nào là đồng bộ? hay đồng bộ hóa đó là quá trình sự sắp xếp các "sự kiện" theo trật tự thời gian sao cho các sự kiện ở cùng trật tự thời gian phải xảy ra cùng một thời điểm. Các đối tượng được xem xét trong lĩnh vực Multimedia có thể là các thiết bị vật lý, cơ học và cũng có thể là các đối tượng trìu tượng được xem xét trong lĩnh vực lập trình theo hướng đối tượng. Các "sự kiện" được xem xét trong lĩnh vực Multimedia có thể là âm thanh, ánh sáng, mầu sắc và thậm chí có thể là các vận động cơ học của các thiết bị. 1.3. Mô hình truyền thông con người Để dẫn nhập mô hình truyền thông của con người, chúng ta hãy xem xét các thành phần hiển nhiên rõ ràng của truyền thông con người. Trong bất kỳ hội thoại/giao tiếp nào giữa mọi người, hai kênh yếu tố khác trong hệ thống truyền thông là bộ nhớ hay văn hóa biểu thị chia sẻ của nó. Mỗi một chúng ta đều có bộ nhớ. Nó cung cấp môi trường suy nghĩ và văn hóa chia sẻ môi trường. Các giao thức liên quan Giải mã các khái Các khái niệm mã hóa đến nhận thức niệm Các xúc cảm mã hóa Các giao thức Giải mã các xúc cảm xúc cảm Mã hóa theo các từ Các giao thức Giải mã theo các từ lời nói Sự nhớ Sự nhớ 6 Nhận thức Nhận thức 5 Ký ức Ký ức 4 Cảm xúc Cảm xúc 3 Các ký hiệu Các ký hiệu 2 Thế giới vật lý 1 Các kênh truyền thông con người 1998 IEEE 6
  7. Một số ví dụ ứng dụng Multimedia - Hệ thống xây dựng và soạn thảo video số. - Tạp chí điện tử - Trò chơi - Thương mại điện tử - Truyền hình tương tác iTV - Truyền hình hội nghị - Truyền hình theo yêu cầu - Thực tại ảo. Các dạng môi trường và tín hiệu Dạng môi trường 7
  8. Audio synthesised synthesis digital audio III – CÁC LĨNH VỰC NGHIÊN CỨU ỨNG DỤNG Chúng ta đã biết một cách tổng thể, công nghệ multimedia là công nghệ xử lý dữ liệu multimedia, tuy nhiên chúng ta không biết trong công nghệ giải quyết những vấn đề gì? nó phân chia thành bao nhiêu lĩnh vực nghiên cứu . Trong phần này chúng ta xem xét một cách tổng thể cấu trúc bên trong của lĩnh vực công nghệ này. Sự đa dạng, phong phú và sinh động của các ứng dụng công nghệ Multimedia khiến cho các học giả quan tâm đến Multimedia, đến nay người ta vẫn còn tranh cãi về cách phân chia các lĩnh vực nghiên cứu, ứng dụng của Multimedia. Dựa vào đặc thù của công nghệ và đối tượng nghiên cứu, người ta đã tạm thống nhất cách phân chia công nghệ Multimedia thành hai lĩnh vực chính sau: - Trong các hệ thống thông tin Miltimedia (Multimedia information) lại bao gồm các lĩnh vực: Mô hình hệ thống thông Tin Multimedia (model information multimedia) Trong lĩnh vực này người ta giải quyết các vấn đề sau: - Các cấu trúc logic của các tài liệu Multimedia (logical Structure of media document) - Các phương thức để edit, Browse các tài liệu Multimedia - Các quá trình tạo ra thông tin Multimedia - Các dạng (Form) các công cụ (Tool) phục vụ cho xử lý dữ liệu Multimedia. Mô hình dữ liệu multimedia phân tán (Multimedia distributed processing Model) Trong lĩnh vực này người ta quan tâm đến các mục tiêu sau: 8
  9. - Các ngôn ngữ lập trình thao tác trên dữ liệu là các tài liệu Multimedia. - Kết hợp các chức năng cần thiết với các khái niệm lập trình các khái niệm cho phép lập trình truy nhập vào các dữ liệu lưu trữ trên các thiết bị ngoại vi multimedia (Media device control) - Các dạng dữ liệu Multimedia và các dịch vụ cần trao đổi dữ liệu Multimedia (Interchange) - Quản trị các dịch vụ viễn thông ở mức cao. - Các mô hình dữ liệu hypermedia, các máy chủ (server) đáp ứng dịch vụ hypermedia (hypermedia engine) - Các hệ điều hành mạng đáp ứng dịch vụ multimedia theo thời gian thực -Trong lĩnh vực các hệ thống viễn thông Multimedia (Multimedia Communication Systems) Mô hình các dịch vụ multimedia trên mạng (Multiservice Network multimedia Model) Lĩnh vực này quan tâm nghiên cứu các vấn đề sau: - Mạng đa dịch vụ (Multiservice) trên các hệ thống dữ liệu Multimedia phân tán - Các giao thức (protocol) đáp ứng việc giao lưu giữa các mạng khác nhau có quản lý dữ liệu Multimedia - Trao đổi dữ liệu Multimedia trên internet Mô hình hệ thống Multimedia hội nghị (Multimedia conferencing Model): Mô hình này giải quyết các vấn đề kết nối máy tính với các hệ thống viễn thông, tạo nên một hệ thống mạng không thiết kế trước, có khả năng đáp ứng các cuộc hội thảo, hội nghị theo thời gian thực. Chú ý: - Ngoài các mô hình đã nêu còn có mô hình pha trộn kết hợp của các lĩnh vực trên để tạo nên các mô hình đáp ứng các yêu cầu đa dạng của thực tế. - Trong lĩnh vực Multimedia còn tồn tại các bài phức tạp còn phải nghiên cứu trong tương lại như nhận dạng tiếng nói, nhận dạng ảnh v.v 9
  10. BÀI TẬP CHƯƠNG 1 1. Trình bày khái niệm Multimedia? Các khía cạnh liên quan đến multimedia? Cho ví dụ? 2. Ảnh Bitmap là gì? Nêu đặc điểm của nó? 3. Trình bày các đặc trưng multimedia trên web? 4. Phân loại các phương pháp nén ảnh 5. Nêu các thành phần dữ liệu của multimedia? 6. Ảnh vector là gì? Nêu đặc điểm cảu chúng? 7. Trình bày quá trình phát triển một sản phẩm multimedia? 8. Vẽ sơ đồ khối của một hệ thống nén tiêu biểu, giải thích các thành phần cơ bản trên sơ đồ? 9. Nêu ứng dụng của multimedia (Mua bán giao dịch qua mạng). Hãy nêu ứng dụng của đa phương tiện trong công tác giáo dục, y tế, sản xuất? 10. Lịch sử phát triển của multimedia. (1975-1980-1987-1995) 11. Vẽ biểu đồ so sánh các khuôn dạng dữ liệu multimedia 12. Xác định những nét chính của sản phẩm multimedia. 13. Trình bày những yêu cầu về thử nghiệm sản phẩm? 14. Kịch bản là gì? Có các loại kịch bản nào? So sánh các loại kịch bản và cho ví dụ minh họa về kịch bản chi tiết cho sản phẩm đa phương tiện? 15. Lí do cần đề cập thuật ngữ đa phương tiện? 16. Bố cục có vai trò quan trọng thế nào trong thiết kế sản phẩm đa phương tiện? 17. Hãy bố cục bàn làm việc, có máy tính, màn hình, văn phòng phẩm và tài liệu? 18. Thế nào là quá trình sản xuất đa phương tiện? Khâu nào là đặc biệt quan trọng? 19. Hãy cho biết một số khái niệm đơn giản về bản quyền và vi phạm bản quyền? 20. Vai trò của nội dung đa phương tiện? 21. Hãy cho biết một số mốc phát triển chính của nghiên cứu, ứng dụng về đa phương tiện? 22. Hãy liệt kê một số kết quả nghiên cứu, ứng dụng về đa phương tiện mà các cơ sở trong nước đạt được, trong thời gian 5 năm gần đây? 23. Hãy lấy ví dụ về tính chất đa phương tiện trong giao diện người dùng trong môi trường Windows, với loại giao diện cửa sổ? 24. Hãy lấy ví dụ về tính chất đa phương tiện trong giao diện người dùng trong môi trường Windows, với loại giao diện thực đơn? 25. Thiết kế sản phẩm đa phương tiện có nguyên tắc không? Khi thiết kế giao diện khuôn dạng, người ta tuân theo những nguyên tắc nào? 26. Vai trò của con người trong tương tác với hệ thống sử dụng đa phương tiện? 27. Một số thiết bị dùng trong đa phương tiện, hay trong đa hình thái, như găng điện tử, thiết bị thực ảo có giá trị gì trong tương tác đa phương tiện? 28. Các loại dữ liệu đa phương tiện có cách thu nhập khác nhau ra sao? 29. Chuẩn bị thiết bị gì đề thu nhập dữ liệu đa phương tiện? 30. Vai trò lãnh đạo đề án đa phương tiện trong việc a. Xây dựng đề án? b. Quản lý tài chính? 10
  11. 31. Vai trò của người dùng trong việc xây dựng các điều khoản thực hiện của đề án đa phương tiện? 32. Vai trò của bản quyền đối với a. Người dùng đa phương tiện? b. Người sản xuất đa phương tiện? 33. Việc tổ chức nhóm công tác trong đề án đa phương tiện theo nguyên tắc gì? 34. Một số vai trò trong đề án đa phương tiện? 35. Việc thay đổi nhân sự, đặc biệt các vai chủ chốt sẽ ảnh hưởng đến quá trình thực hiện đề án đa phương tiện ở khía cạnh nào? 36. Tích hợp dữ liệu đa phương tiện theo một số phần mềm khuyến cáo đáp ứng được các nguyên tắc tích hợp nào? Lấy ví dụ? 37. Dữ liệu âm thanh thu thập khác âm thanh trong video ở đâu? 38. Dữ liệu video được mô tả dưới dạng nén, theo chuẩn thể hiện, và có dữ liệu meta ra sao? 39. Phân biệt tiếp thị sản phẩm đa phương tiện với sản phẩm tin học thông thường? 40. Bố cục hình ảnh, văn bản trên giao diện người – máy có một số loại chính nào? 41. Người ta tạo hình đối tượng 3D theo mô hình nào? 42. Một số yêu cầu đặt ra đối với phòng thu âm, để đảm bảo chất lượng âm thành trong sản phẩm đa phương tiện? 43. Thử nghiệm và đánh giá sản phẩm đa phương tiện có những lưu ý gì? 44. Khi làm tư liệu về đề án đa phương tiện, cần mô tả các khía cạnh nào? 11
  12. Chương 2: KHÁI NIỆM CHUNG VỀ ÂM THANH AUDIO VÀ VIDEO 2.1 Kỹ thuật Audio 2.1.1 Khái niệm Âm thanh (audio): là dao động các sóng âm gây ra áp lực làm dịch chuyển các hạt vật chất trong môi trường đàn hồi làm tai người cảm nhận được các dao động này. Tai người có thể nghe được các dao động trong khoảng tần số 20Hz đến 20kHz. Âm thanh tự nhiên: Là sự kết hợp giữa các sóng âm mang tần số khác nhau. Dải động của tai: Giới hạn bởi ngưỡng nghe thấy (0dB) đến ngưỡng đau (120dB) của người. Ngưỡng nghe tối thiểu: Mức thấp nhất của biên độ mà tai người có thể cảm nhận được âm thanh tùy thuộc vào từng người, mức áp lực và tần số của âm thanh. Hiệu ứng che khuất âm thanh: Hiện tượng âm thanh mà tại đó ngưỡng nghe của một âm tăng lên trong khi có mặt của một âm khác (khó nghe hơn). Được sử dụng trong kỹ thuật nén. Hướng âm thanh: Tai và não có thể giúp ta xác định hướng âm thanh, điều này có thể ứng dụng để tạo các hiệu ứng âm thanh như stereo, surround. Vang và trễ: Vang là hiện tượng kéo dài âm thanh sau khi nguồn âm đã tắt. Trễ là thời gian d âm thanh phản xạ đến đích so với âm thanh trực tiếp. Nếu d>50ms thì trễ đó gọi là tiếng vọng. Biên độ của âm thanh cứ sau một lần phản xạ thì bị suy giảm. 2.1.2 Ứng dụng Âm thanh đóng vai trò quan trọng trong các ứng dụng truyền thông đa phương tiện. Các hiệu ứng đặc biệt của âm thanh như âm nhạc và tiếng nói có thể được đưa vào các ứng dụng, đặc biệt là các ứng dụng trong hệ thống đào tạo và bán hàng tự động hoặc hệ thống điểm thông tin. Một lời chú thích bằng tiếng nói có thể được dùng để diễn tả những gì đang diễn ra trên màn hình hoặc để làm nổi bật và nhấn mạnh những khái niệm then chốt. Âm thanh có thể được sử dụng kết hợp với hình ảnh tĩnh hoặc động để giải thích cho người sử dụng một ý tưởng hay một quy trình hiệu quả hơn theo cách giải thích chỉ đơn giản bằng văn bản hay đồ họa, âm nhạc có thể được sử dụng để thu hút sự chú ý của khách hàng hoặc để tạo ra một phong cách riêng biệt. Trong một số lĩnh vực chuyên dụng tự âm thanh có thể hình thành nên sự lôi cuốn của một ứng dụng truyền thông đa phương tiện, chẳng hạn như các hệ thống chỉ đường cho người khiếm thị, Một dự án mới đây đã giúp cho việc chuyển nhật báo 12
  13. đến một thiết bị máy tính đặt tại nhà người đọc. Người sử dụng cũng có thể chọn nghe hệ thống xử lý tiếng nói đọc lớn các bài báo đã được chọn lọc. Công nghệ xử lý âm thanh ngày càng được cải tiến, mối quan tâm của người dùng đến các hệ thống xử lý và nhận dạng tiếng nói trong các ứng dụng kinh doanh, an ninh, ngày càng tăng lên. 2.1.3 Kỹ thuật Audio số Để máy tính làm việc được với âm thanh, chúng phải được chuyển thành tín hiệu số (digital) từ tín hiệu tương tự (analog). Quá trình này gọi là "lấy mẫu" (sampling), mỗi một phần của một thời gian lấy mẫu, tín hiệu tương tự được ghi nhận lại thành những bit. Có 2 yếu tố ảnh hưởng đến chất lượng âm thanh: 1. Tần số lấy mẫu: Tần số lấy mẫu là số lần mẫu được lấy trong một đơn vị thời gian. Tần số chung nhất là: 11.025 kHz, 22.05 kHz, và 44.1 kHz. Nếu tần số lấy mẫu cao hơn thì chất lương sẽ tốt hơn. 2. Số bit mã hoá (kích thước lấy mẫu): Quyết định tổng lượng thông tin có thể biểu diễn (mã hoá). Minh họa: Tín hiệu analog và digital. Kích thước lấy mẫu thông thường là 8 bit và 16 bit. Kích thước lấy mẫu 8-bit cho 256 giá trị dùng để thể hiện âm thanh, nếu 16-bit thì cho 65. 536 giá trị. Nếu kích thước lấy mẫu cao hơn thì chất lượng sẽ tốt hơn. Kích thước file của 10 giây ứng với giá trị tần số và số bit: Tần số Số Bit Kích thước File 44.1 kHz 16 1.76 MB 44.1 kHz 8 882 KB 22.05 kHz 16 882 KB 22.05 kHz 8 440 KB 13
  14. 11.025 kHz 8 220 KB Sóng âm và cảm giác âm Chuyển đổi Analog-Digital Xử lý, Lưu trữ, Truyền dẫn (Digital) Nguồn tín hiệu Chuyển đổi Xuất âm hiển thị (Analog) Analog-Digital 2.1.4 Giới thiệu về âm thanh và hệ thống xử lý âm thanh Analog 2.1.4.1. Âm thanh(Sound) Âm thanh về mặt cảm giác đó là sự cảm nhận của con người thông qua thính giác và bộ não. Âm thanh về mặt khoa học đó là sự vận động vật lý trong môi trường trung gian của các nguyên tử theo dạng sóng, các sóng này có tần số thay đổi theo thời gian. Người ta có thể mô tả chuyển động của sóng âm thanh bằng một đại lượng liên tục theo thời gian, nói cách khác có thể mô tả âm thanh bằng đại lượng analog theo cách sau: Sóng âm thanh lan truyền trong không khí tác động lên vật chắn có nối với nguồn điện, sóng âm thanh tạo nên áp suất thay đổi lên vật chắn làm cho điện thế V của nguồn điện thay đổi liên tục - điện thế chính là biểu diễn sự thay đổi liên tục của sóng âm thanh, người ta nói rằng đại lượng biểu diễn sự thay đổi của sóng âm thanh theo thời gian là đại lượng analog (tương tự). - Chu kỳ và tần số Như chúng ta đã biết, đối với sóng âm có một số thuộc tính quan trọng sau: Chu kỳ (period), tần số (frequence), tốc độ (speed), biên độ (amplitude), - Chu kỳ là khoảng thời gian xuất hiện liên tiếp của đỉnh sóng tại một điểm; kí hiệu T 14
  15. - Tần số là là số chu kỳ diễn ra trong một đơn vị thời gian tính theo giây. Đơn vị của tần số tính bằng Hertz (Hz). Kí hiệu là f. Giữa chu kỳ và tần số có mối liên hệ sau: T=1/f - Tai người nhậy cảm với một dải rộng các tần số , bình thường từ 22Hz đến 22000 Hz điều này phụ thuộc vào sức khỏe người nghe. Dải tần từ 22Hz đến 22000 Hz gọi là dải nghe được. Tiếng nói con người thường nằm trong giải tần 500Hz đến 22000 Hz. - Tốc độ âm thanh phụ thuộc vào môi trường nó lan truyền ví dụ nhiệt độ không khí, ở nhiệt độ 20c sóng âm thanh lan truyền với tốc độ 343,8 met/s. - độ rộng tần số (Banwithd ) : sự khác nhau giữa tần số cực đại và cực tiểu - Biên độ (amplitude): là giá trị lớn nhất của hàm trong mọi chu kỳ; Biên độ của sóng âm thanh là tính chất quan trọng, nhờ nó người ta cảm nhận được độ to nhỏ (loudness) của âm thanh. - Độ ồn của âm thanh: Độ ồn của âm thanh con người có thể cảm nhận được bằng tai Đơn vị đo tiếng ồn là decibel (db). Nó được xác định bởi Ở đây - P1,P2 là năng lượng được đo bằng watt, jul, gram.cm/s hay đại lượng vật lý nào đó mà đơn vị đo của nó là năng lượng trên thời gian (power per time) - Level – là mức độ ồn 2.1.4.2. Đặc tính của âm thanh tương tự Mục đích của lời nói là dùng để truyền đạt thông tin. Có rất nhiều cách mô tả đặc điểm của việc truyền đạt thông tin. Dựa vào lý thuyết thông tin, lời nói có thể được đại diện bởi thuật ngữ là nội dung thông điệp, hoặc là thông tin. Một cách khác để biểu thị lời nói là tín hiệu mang nội dung thông điệp, như là dạng sóng âm thanh. Hình: Dạng sóng của tín hiệu ghi nhận được từ âm thanh của người 15
  16. Kỹ thuật đầu tiên dùng trong việc ghi âm sử dụng các thông số về cơ, điện cũng như trường có thể làm nên nhiều cách thức ghi âm ứng với các loại áp suất không khí khác nhau. Điện áp đến từ một microphone là tín hiệu tương tự của áp suất không khí (hoặc đôi khi là vận tốc). Dù được phân tích bằng cách thức nào, thì các phương pháp khi so sánh với nhau phải dùng một tỉ lệ thời gian. Trong khi các thiết bị tương tự hiện đại trông có vẻ xử lý âm thanh tốt hơn những thiết bị cổ điển, các tiêu chuẩn xử lý thì hầu như không có gì thay đổi, mặc dù công nghệ có vẻ xử lý tốt hơn. Trong hệ thống xử lý âm thanh tương tự, thông tin được truyền đạt bằng thông số liên tục biến thiên vô hạn. Hệ thống xử lý âm thanh số lý tưởng có những tính năng tương tự như hệ thống xử lý âm thanh tương tự lý tưởng: cả hai hoạt động một cách “trong suốt” và tạo lại dạng sóng ban đầu không lỗi. Tuy nhiên, trong thế giới thực, các điều kiện lý tưởng rất hiếm tồn tại, cho nên hai loại hệ thống xử lý âm thanh hoạt động sẽ khác nhau trong thực tế. Tín hiệu số sẽ truyền trong khoảng cách ngắn hơn tín hiệu tương tự và với chi phí thấp hơn. Thông tin dùng để truyền đạt của âm thoại về bản chất có tính rời rạc, và nó có thể được biểu diễn bởi một chuỗi ghép gồm nhiều phần tử từ một tập hữu hạn các ký hiệu (symbol). Các ký hiệu từ mỗi âm thanh có thể được phân loại thành các âm vị (phoneme). Mỗi ngôn ngữ có các tập âm vị khác nhau, được đặc trưng bởi các con số có giá trị từ 30 đến 50. Ví dụ như tiếng Anh được biểu diễn bởi một tập khoảng 42 âm vị. Tín hiệu thoại được truyền với tốc độ như thế nào? Đối với tín hiệu âm thoại nguyên thủy chưa qua hiệu chỉnh thì tốc độ truyền ước lượng có thể tính được bằng cách lưu ý giới hạn vật lý của việc nói lưu loát của người nói tạo ra âm thanh thoại là khoảng 10 âm vị trong một giây. Mỗi một âm vị được biểu diễn bởi một số nhị phân, như vậy một mã gồm 6 bit có thể biểu diễn được tất cả các âm vị của tiếng Anh. Với tốc độ truyền trung bình 10 âm vị/giây, và không quan tâm đến vấn đề luyến âm giữa các âm vị kề nhau, ta có thể ước lượng được tốc độ truyền trung bình của âm thoại khoảng 60bit/giây. Trong hệ thống truyền âm thoại, tín hiệu thoại được truyền lưu trữ và xử lý theo nhiều cách thức khác nhau. Tuy nhiên đối với mọi loại hệ thống xử lý âm thanh thì có hai điều cần quan tâm chung là: 1. Việc duy trì nội dung của thông điệp trong tín hiệu thoại 2. Việc biểu diễn tín hiệu thoại phải đạt được mục tiêu tiện lợi cho việc truyền tin hoặc lưu trữ, hoặc ở dạng linh động cho việc hiệu chỉnh tín hiệu thoại sao cho không làm giảm nghiêm trọng nội dung của thông điệp thoại. 16
  17. Việc biểu diễn tín hiệu thoại phải đảm bảo việc các nội dung thông tin có thể được dễ dàng trích ra bởi người nghe, hoặc bởi các thiết bị phân tích một cách tự động. 2.1.4.3. Khái niệm tín hiệu Là đại lượng vật lý biến thiên theo thời gian, theo không gian, theo một hoặc nhiều biến độc lập khác, ví dụ như: Âm thanh, tiếng nói: dao động sóng theo thời gian (t) Hình ảnh: cường độ sáng theo không gian (x, y, z) Địa chấn: chấn động địa lý theo thời gian Biểu diễn toán học của tín hiệu: hàm theo biến độc lập Ví dụ: u(t) = 2t2 − 5 f (x, y) = x2 − 2xy − 6y2 Chú ý: Thông thường các tín hiệu tự nhiên không biểu diễn được bởi một hàm sơ cấp, cho nên trong tính toán, người ta thường dùng hàm xấp xỉ cho các tín hiệu tự nhiên. Hệ thống: là thiết bị vật lý, thiết bị sinh học, hoặc chương trình thực hiện các phép toán trên tín hiệu nhằm biến đổi tín hiệu, rút trích thông tin, Việc thực hiện phép toán còn được gọi là xử lý tín hiệu. 2.1.4.4. Phân loại tín hiệu: Tín hiệu đa kênh: gồm nhiều tín hiệu thành phần ,cùng chung mô tả một đối tượng nào đó (thường được biểu diễn dưới dạng vector, ví dụ như tín hiệu điện tim (ECG-ElectroCardioGram) , tín hiệu điện não (EEG – ElectroEncephaloGram), tín hiệu ảnh màu RGB. Tín hiệu đa chiều: biến thiên theo nhiều hơn một biến độc lập, ví dụ như tín hiệu hình ảnh, tín hiệu tivi trắng đen. Tín hiệu liên tục theo thời gian: là tín hiệu được định nghĩa tại mọi điểm trong đoạn thời gian [a,b], ký hiệu x(t) . 17
  18. Hình 1.2 Tín hiệu liên tục theo thời gian Tín hiệu rời rạc thời gian: là tín hiệu chỉ được định nghĩa tại những thời điểm rời rạc khác nhau, ký hiệu x(n) . Hình 1.3 Tín hiệu rời rạc theo thời gian Tín hiệu liên tục giá trị: là tín hiệu có thể nhận trị bất kỳ trong đoạn [ , ] min max Y Y , ví dụ tín hiệu tương tự (analog). Hình 1.4 Tín hiệu liên tục giá trị Tín hiệu rời rạc giá trị: tín hiệu chỉ nhận trị trong một tập trị rời rạc định trước (tín hiệu số). 18
  19. Hình 1.5 Tín hiệu rời rạc giá trị Tín hiệu analog: là tín hiệu liên tục về thời gian, liên tục về giá trị. Hình 1.6 Tín hiệu analog Tín hiệu số: là tín hiệu rời rạc về thời gian, rời rạc về giá trị. Hình 1.7 Tín hiệu số Tín hiệu ngẫu nhiên: giá trị của tín hiệu trong tương lai không thể biết trước được. Các tín hiệu trong tự nhiên thường thuộc nhóm này Tín hiệu tất định: giá trị tín hiệu ở quá khứ, hiện tại và tương lại đều được xác định rõ, thông thường có công thức xác định rõ ràng. 2.1.4.5 Phân loại hệ thống xử lý: Gồm hai loại hệ thống là hệ thống tương tự và hệ thống số. Trong đó hệ thống xử lý số: là hệ thống có thể lập trình được, dễ mô phỏng, cấu hình, sản xuất hàng loạt với độ chính xác cao, giá thành hạ, tín hiệu số dễ lưu trữ, vận chuyển và sao lưu, nhược điểm là khó thực hiện với các tín hiệu có tần số cao. 2.1.5 Một số khái niệm toán học trong xử lý âm thanh 2.1.5.1 Phép biến đổi z Phép biến đổi z của một chuỗi được định nghĩa bởi cặp biểu thức 19
  20. Biến đổi z của x(n) được định nghĩa bởi biểu thức (1.6a). X (z) còn được gọi là dãy công suất vô hạn theo biến z−1 với các giá trị của x(n) chính là các hệ số của dãy công suất. Miền hội tụ ROC là { z X (z) < ∞ }, là những giá trị của z sao cho chuỗi hội tụ, hay nói cách khác Thông thường, miền hội tụ của z có dạng: -n Ví dụ: x(n) = (n-n0). Theo công thức (1.3a), ta có X(z)=z 0 Ví dụ: Cho x(n) = u(n) − u(n − N) . Theo công thức (1.3a), ta có Ví dụ: Cho x(n) = an. u(n). Suy ra , Bảng 2.1 Chuỗi tín hiệu và biến đổi z tương ứng Chuỗi tín hiệu Biến đổi z 1. Tuyến tính ax1 (n) + bx2 (n) aX 1 ( z) + bX 2 ( z) 2. Dịch x(n + n0 ) z n0 X ( z) 3. Hàm mũ a n x(n) X (a −1 z) 4. Hàm tuyến tính nx(n) 5. Đảo thời gian x(-n) X ( z −1 ) 6. Tương quan x(n)*h(n) X(z)H(z) 7. Nhân chuỗi x(n)w(n) 2.1.5.2 Phép biến đổi Fourier Biến đổi Fourier của tín hiệu rời rạc thời gian được cho bởi biểu thức 20
  21. Biến đổi Fourier là trường hợp đặc biệt của phép biến đổi z bằng cách thay thế z = eiw . Như mô tả trong Hình 1.4, trong mặt phẳng z, tần số w là góc quay. Điều kiện đủ để tồn tại biến đổi Fourier là = 1, như vậy Hình 1.15 Vòng tròn đơn vị thuộc mặt phẳng z Một đặc tính quan trọng của biến đổi Fourier của một chuỗi là X (e iw ) là hàm điều hòa w, với chu kỳ là 2π . Bằng cách thay z = e iw ở bảng 2.1, có có được bảng biến đổi Fourier tương ứng. 2.1.5.3 Mô hình toán của sóng âm thanh Như trên đã đề cập, đại lượng mô tả sự biến đổi của sóng âm thanh theo thời gian là đại lượng liên tục, về nguyên tắc ta có thể coi nó là hàm phụ thuộc thời gian g(t) liên tục theo t . Vì g(t) là hàm mô tả sự biến đổi của sóng, nên nó có chu kỳ T và tần số f , nghĩa là: - Tồn tại T : g(t+T)=g(t) với mọi t - Tồn tại tần số f , G(f) là kết quả của phép biến đổi furie ngược của hàm g(t), hàm G(f) là hàm phụ thuộc tần số; - Giữa chu kỳ T và tần số f có quan hệ sau : T=1/f Ví dụ 1 : g(t)= sin(2ft)+1/3sin(2(3f)t) Hàm g(t) là hàm tổng của hai hàm mô tả sóng hình sin , hàm thứ nhất có biên độ 1 tần số f, hàm thứ hai có biên độ 1/3 tần số 3f. Miền tần số của hàm g gồm 2 điểm (f,1) và (3f,1/3) xen hình Hình dưới. 21
  22. Ví dụ trên chỉ ra rằng hàm gốc g(t) tạo ra bởi hai tần số f, 3f tương ứng với biên độ 1 và 1/3 hình H5 2.1.6 Các mô hình dùng trong xử lý âm thanh 2.1.6.1 Mô hình quang phổ 2.1.6.1.1 Mô hình sin Tín hiệu âm thanh có thể được triển khai từ tập hợp các mô hình sin nếu như có có dạng Với = , và là thành phần biên độ và tần số tương ứng của thành phần sin thứ i. Trong thực tế, tín hiệu được xem xét là tín hiệu rời rạc thời gian thực, như vậy ta có thể viết lại Với = Về cơ bản, nếu như I có giá trị vô cùng lớn, thì bất cứ tín hiệu âm thanh nào cũng có thể được triển khai từ mô hình sin, phép tính gần đúng được áp dụng tính toán trong mô hình này. Thực tế, tính hiệu nhiễu cũng được triển khai thành vô số các tín hiệu sin, và ta tách việc xử lý riêng tín hiệu này thành phần xử lý Stochastic (Λ) được ký hiệu là e(n) . A + e(n)r 22
  23. Thành phần Λ có thể được tính bằng phép biến đổi Short-Time Fourier sử dụng lưu đồ ở hình 1. Phương pháp này được ứng dụng trong các phần mềm sms, viết tắt của tổng hợp mô hình phổ - spectral modeling synthesis. Hình: Phân tích các thành phần hình sin của phần stochastic Phát hiện đỉnh và ghép (Peak detection and continuation): để thực hiện việc phân tích các thành phần hình sin từ tín hiệu thặng dư, ta phải tìm được và ghi chú lại các đỉnh tần số nổi trội, tức là các thành phần hình sin nắm vai trò chính trong công thức phân tích được. Một chiến thuật được sử dụng để thực hiện điều này là vẽ “bảng chỉ dẫn” trong các khung STFT. Để thực hiện việc phân chia phần nào là tín hiệu, phần nào là nhiễu, các tần số và pha phải được xác định một cách chính xác. Ngoài ra, để quá trình tổng hợp lại hai tín hiệu đó được đơn giản, biên độ của các thành phần nên được nội suy giữa các khung tín hiệu, và phép nội suy tuyến tính thường được sử dụng. Các tần số cũng như pha của tín hiệu cũng có thể được nội suy, tuy nhiên cần phải lưu ý là phép nội suy tần số có ảnh hưởng chặt chẽ đến phép nội suy pha. Tổng hợp lại các thành phần sin: Trong giai đoạn tổng hợp lại, các thành phần sin có thể được tạo bởi bất kỳ phương pháp nào như máy tạo dao động số, máy tạo dao động bảng sóng hoặc tổng hợp lấy mẫu bảng sóng, hoặc kỹ thuật dựa trên cơ sở FFT. Kỹ thuật FFT được sử dụng nhiều do tính tiện lợi khi tín hiệu có nhiều thành phần hình sin. Trích tín hiệu thặng dư (Extraction of the residual): Việc trích phổ của tín hiệu nhiễu thặng dư có thể được thực hiện ở miền tần (được mô tả trong hình 1) hoặc trực tiếp từ miền thời gian. 23
  24. Sự hiệu chỉnh phổ thặng dư (Residual spectral fitting): thành phần stochastic được mô hình hóa là tín hiệu nhiễu băng rộng, được lọc bởi khối đặc trưng tuyến tính. Phổ cường độ của tín hiệu thặng dư có thể được xấp xỉ bằng giá trị trung bình của hàm piecewise-linear. Việc tổng hợp trong miền thời gian có thể được thực hiện bằng phép đảo FFT, sau khi đã ấn định được một tập cường độ mong muốn và một tập pha ngẫu nhiên. Hiệu chỉnh âm thanh: mô hình sin là một mô hình hữu dụng vì nó cho phép áp dụng việc truyền các âm thanh nhạc lấy từ việc ghi băng thực tế. Hình 1.22 mô tả một các bước thực hịên cho việc hiệu chỉnh tín hiệu âm nhạc Hình: Cơ cấu tổ chức cho việc biểu diễn việc truyền tín hiệu âm nhạc 2.1.6.1.2 Tín hiệu sin + nhiễu + nốt đệm Trong mô hình sin + nhiễu, điều cơ bản là các tín hiệu âm thanh là tổng hợp của nhiều tín hiệu sin tần số thấp và các loại nhiễu băng rộng hầu như ở dạng tĩnh. Khi đó, một thành phần của âm thanh không được xem xét đến, đó là nốt đệm. Việc hiệu chỉnh âm thanh có thể được thực hiện dễ dàng bằng cách tách riêng thành phần nốt đệm để xét riêng. Thực tế, hầu hết các dụng cụ âm nhạc mở rộng trường độ của một nốt nhạc không làm ảnh hưởng đến chất lượng xử lý. Với lý do này, một mô hình mới là sin + nhiễu + nốt đệm được phát họa dùng trong việc phân tích âm thanh. Ý tưởng chính của việc trích âm đệm trong thực tế từ việc quan sát rằng, các tín hiệu hình sin trong miền thời gian được ánh xạ qua miền tần thành các đỉnh có vị trí xác định, trong khi đó các xung ngắn đối ngẫu trong miền thời gian khi được ánh xạ qua miền tần lại có dạng hình sin. Như vậy, mô hình sin có thể được ứng dụng trong miền tần số biểu diễn các tín hiệu hình sin. Sơ đồ của việc phân tích SNT được mô tả trong Hình dưới: 24
  25. Hình: Phân tích tín hiệu âm thanh theo mô hình sin + nhiễu + nốt đệm Khối DCT trong Hình 1.23 mô tả hoạt động của phép rời rạc cosin. Phép biến đổi, được định nghĩa như sau: Phép biến đổi DCT thực hiện việc một xung được biến đổi thành dạng cosin và ngược lại. 2.1.6.1.3 Mô hình LPC Mã hóa dự đoán tuyến tính có thể được sử dụng để mô hình phổ tĩnh. Tổng hợp LPC được mô tả trong lưu đồ trong Hình 1.24. Về bản chất, mô hình chính là giải thuật trừ tổng hợp thực hiện một tính hiệu có phổ “đặc” được lọc bởi một bộ lọc cực. Tín hiệu kích thích có thể sử dụng chính tín hiệu thặng dư e có được qua quá trình phân tích, hoặc có thể dử dụng các thông tin của tín hiệu thoại/phi thoại. Hình: Tổng hợp LPC 1.2.2.2 Mô hình miền thời gian Việc mô tả âm thanh trong miền tần rất có hiệu quả, tuy nhiên trong một vài ứng dụng, để tiện việc nghiên cứu việc tổng hợp âm thanh, việc phân tích trong miền thời gian lại có ưu thế hơn. 1.2.2.2.1 Máy tạo dao động số Ta nhận thấy một âm thanh phức tạp đuợc tổng hợp từ nhiều thành phần hình sin bằng phép tổng hợp FTT-1. Nếu như các thành phần hình sin không quá nhiều, việc 25
  26. tổng hợp từng thành phần được thực hiện bằng cách lấy giá trị trung bình của máy tạo dao động số. Với = xR(n) + jxI(n) ở dạng số phức, mỗi bước nhảy thời gian được định nghĩa như sau: xR(n+1) = xI(n+1) = jω 0 Thông số biên độ và pha ban đầu có thể tính dựa theo pha ban đầu e 0 và thực hiện việc lệch pha vào số mũ. Tín hiệu xR(n +1) có thể được tính theo công thức sau xR(n+1) = 2 Đáp ứng xung của bộ lọc như sau Giá trị cực của bộ lọc biểu thức 10 nằm trên chu vi đường tròn đơn vị. x Gọi xR1, R2 là hai biến trạng thái của hai mẫu trứoc đó của tín hiệu ngõ ra x R, đầu φ có thể được tính theo hệ phương trình sau pha ban 0 x R1 = sin(φ0 – ω0) x R2 = sin(φ0− 2ω0) Máy tạo dao động số đặc biệt hữu ích trong việc biểu diễn tổng hợp tín hiệu đối với các bộ vi xử lý đa mục đích, khi các phép toán trên dấu chấm động được triển khai. Tuy nhiên, phương pháp này dùng cho việc tạo tín hiệu sin có hai bất lợi: Việc cập nhật thông số yêu cầu tính toán trên hàm cosin. Đây là một điều khó đối với điều chế tốc độ âm thanh, do phải thực hiện phép tính cosin ứng với từng mẫu trong miền thời gian Thay đổi tần số của máy dao động số sẽ làm thay đổi biên độ tín hiệu sin. Khi đó bộ phận logic điều khiển biên độ cần được sử dụng để điều chỉnh hạn chế này. 1.2.2.2.2 Máy tạo dao động bảng sóng Trong phương pháp kinh điển và linh động nhất về tổng hợp các dạng sóng có chu kỳ (bao gồm tín hiệu dạng sin) là việc đọc lặp đi lặp lại một bảng chứa nội dung của một dạng sóng đã được lưu trữ trước. Nếu dạng sóng được tổng hợp ở dạng sin, đối xứng thì việc lưu trữ cho phép chỉ cần lưu trữ ¼ chu kỳ, và việc tính toán số học sẽ được nội suy cho cả chu kỳ. Đặt buf [ ] là bộ đệm có nội dung chứa là chu kỳ của dạng sóng, hoặc bảng dạng sóng. Máy tạo dao động dạng sóng hoạt động lặp lại theo chu kỳ quét bảng dạng sóng là bội số của gia số I và đọc nội dung của bảng dạng sóng tại vị trí đó. 26
  27. Gọi B là chiều dài của bộ đệm, trị của gia số I là: Sự thay đổi tần số lấy mẫu Bài toán thiết kế máy tạo dao động bảng sóng có thể chuyển thành bài toán thay đổi tần số lấy mẫu, ví dụ như biến đổi tín hiệu được lấy mẫu tại tần số lấy mẫu Fs,1 thành tín hiệu được lấy mẫu tại tần số Fs,2 . Nếu với L và M là các số nguyên tối giản, việc thực hiện thay đổi tần số lấy mẫu có thể được như hiện bằng các bước: 1. Tăng tần số lấy mẫu bằng hệ số L 2. Sử dụng bộ lọc thông thấp 3. Giảm tần số lấy mẫu bằng hệ số M Hình: Sơ đồ khối phân rã của quá trình thay đổi tần số lấy mẫu Hình: Ví dụ về thay đổi tần số lấy mẫu với 1.2.2.2.3 Tổng hợp lấy mẫu bảng sóng 27
  28. Tổng hợp lấy mẫu bảng sóng là phần mở rộng của máy dao động bảng sóng đối với • Dạng sóng phân tích không phải dạng sin • Bảng dạng sóng được lưu trữ với nhiều chu kỳ Các tín hiệu điều khiển rất quan trọng trong việc nhận được âm thanh tự nhiên 1.2.2.2.4 Tổng hợp hạt (với Giovanni De Poli) Các bảng sóng ngắn có thể được đọc với nhiều tốc độ khác nhau, và kết quả là âm điệu có thể chồng chéo vào nhau trong miền thời gian. Trong phương pháp miền thời gian, việc tổng hợp âm thanh này được gọi là tổng hợp hạt. Tổng hợp hạt bắt đầu từ ý tưởng việc phân tích âm thanh trong miền thời gian được thay thế bằng biểu diễn chúng thành một chuỗi các thành phần ngắn được gọi là “hạt”. Các thông số g (⋅) , vị trí trong của kỹ thuật này là các dạng sóng của hạt thứ k miền thời gian lk và biên độ ak sg (n) = Khi số lượng “hạt” lớn, thì việc tính toán sẽ trở nên phức tạp. Tính chất của các hạt và các vị trí trong miền thời gian quyết định âm sắc của âm thanh. Việc lựa chọn các thông số tùy thuộc vào các tiêu chuẩn đưa ra bởi các mô hình thể hiện. Việc lựa chọn các mô hình biểu diễn liên quan đến các quá trình hoạt động mà các quá trình này có thể ảnh hưởng đến âm thanh nào đó theo nhiều cách khác nhau. Loại cơ bản và quan trọng nhất của tổng hợp hạt (tổng hợp hạt bất đồng bộ) là phân phối các hạt không theo quy luật trong miền tần số -thời gian. Dạng sóng hạt có dạng Với ω (i) là cửa số có chiều dài là d mẫu, dùng để điều khiển nhịp thời gian và d băng tần phổ fk 1.2.2.3 Các mô hình phi tuyến 1.2.2.3.1 Điều pha và điều tần Kỹ thuật tổng hợp phi tuyến thông dụng nhất là điều tần (FM). Trong liên lạc thông tin, FM được dùng trong các thập kỹ gần đây, nhưng ứng dụng của nó trong giải thuật tổng hợp âm thanh trong miền thời gian rời rạc được biết đến với cái tên John Chowning. Về bản chất, Chowning đã thực hiện các nghiên cứu trên các phạm vi khác nhau của việc tạo tiếng rung bằng các bộ tạo dao động đơn giản, và thu được kết quả là các tần số rung nhanh sẽ tạo ra các thay đổi đầy kịch tính. Như vậy, điều chế tần số của một máy tạo dao động cũng đủ tạo ra tín hiệu âm thanh có phổ phức tạp. Mô hình FM của Chowning như sau: 28
  29. m x(n) = A sin(ωcn + I sin(ωmn)) = A sin(ωcn + φ (n)) Với ω c là tần số sóng mang và ω m là tần số điều chế, I là chỉ số điều chế. Phương trình thực tế cũng là phương trình điều pha. Tần số tức thời của phương trình ω(n)= ωc - I ωmcos(ωmn) Hoặc: f(n)=fc – Ifm cos(2πfmn) Hình 1.27 mô tả việc triển khai pd của giải thuật FM đơn giản. Tần số điều chế được dùng để điều khiển trực tiếp bộ tạo dao động, trong khi tần số sóng mang dùng để điều khiển bộ tạo pha đơn vị, tạo pha theo chu kỳ. Với tần số sóng mang, tần số điều chế và chỉ số điều chế cho trước, ta có thể dễ dàng dự đoán các thành phần ở phổ tần số của âm thanh kết quả. Hình: Phần triển khai phân phối pd của điều pha. Việc phân tích dựa trên đặc tính lượng giác x(n) = A sin(ωcn + I sin(ωmn) Với J k (I ) là bậc thứ k của hàm Bessel. Các hàm Bessel được vẽ trên hình 9 ứng với nhiều giá trị k trên trục số lượng side-frequencies và giá trị I trên trục chỉ số điều chế. 29
  30. Hình 1.28 Các giá trị của hàm Bessel. Băng thông có giá trị xấp xỉ bằng 0.27 BW = 2(I+0.24 )m 2Im m 1.2.2.3.2 Méo phi tuyến Khái niệm tổng hợp âm thanh bằng méo phi tuyến – Nonlinear distortion (NLD) rất đơn giản: ngõ ra của mạch tạo dao động được dùng như là thông số của một hàm phi tuyến. Trong miền thời gian rời rạc số, hàm phi tuyến được lưu trữ trong một bảng, và ngõ ra của bộ dao động được dùng như là chỉ số để truy nhập vào bảng. Điều thú vị của NLD là lý thuyết này cho phép thiết kế một bảng méo cho bởi các đặc điểm kỹ thuật của một phổ mong muốn. Nếu bộ tạo dao động có dạng tín hiệu sin, ta có thể tính toán NLD như sau x(n) = A cos(ω0 n) y(n) = F (x(n)) Với hàm số phi tuyến, dùng đa thức Chebyshev. Đa thức Chebyshev cấp độ n được định nghĩa đệ quy như sau: T0 ( x) = 1 T1 ( x) = x Tn ( x) = 2xTn−1( x) − Tn−2( x) , và có tính chất: Tn (cosθ ) = cos nθ 30
  31. Như vậy, với tính chất (31), nếu hàm méo phi tuyến là đa thức Chebyshev cấp độ m , giá trị ngõ ra y có được bằng cách sử dụng bộ dao động: sinx(n) =cos 0n, như vậy y(n)=cos(m0n) là hàm bậc m của x. Phổ của y(n) với: là: Ngoài các mô hình trên, các mô hình vật lý cũng được áp dụng trong việc tổng hợp, xử lý âm thanh như mạch dao động vật lý, mạch dao động đôi và mạch phân phối cộng hưởng một chiều 1.2.3 Mô hình thời gian rời rạc Trong hầu hết các trường hợp liên quan đến xử lý thông tin, việc biểu diễn tín hiệu sao cho đảm bảo tính tiện lợi trong phân tích mà vẫn không làm mất đi tính chất của tín hiệu là điều mà các nhà khoa học quan tâm. Sóng âm thanh xuất phát từ lời nói của người có tính chất tự nhiên và ngẫu nhiên nhất. Phân tích toán học thuận tiện nhất là xem sóng âm thanh là một hàm số theo biến thời gian t . Ta ký hiệu xa (t ) là dạng sóng tương tự theo thời gian t . Hình: Biểu diễn tín hiệu âm thoại Trong giáo trình này, ta dùng ký hiệu x(n) mô tả cho chuỗi số. Trong trường hợp lấy mẫu tín hiệu âm thoại, một chuỗi có thể được xem như là một dãy các mẫu của tín hiệu tương tự được lấy mẫu một cách đều đặn với thời gian lấy mẫu là T, khi đó tín hiệu sau khi lấy mẫu được ký hiệu bởi x a (nT ) . Hình 1.1 mô tả một ví dụ của việc tín hiệu âm thoại được biểu diễn ở cả hai dạng là tín hiệu tương tự và dạng chuỗi các mẫu được lấy mẫu ở tần số là 8kHz. 31
  32. Xung đơn vị được định nghĩa như sau: δ (n) = 1 n = 0 = 0 ngược lại Chuỗi bước đơn vị được ký hiệu u(n) = 1 n ≥ 0 =0 n<0 Hàm mũ x(n) = a n Nếu a ở dạng số phức, a = re jw0 , thì 32
  33. Hình 1.30 (a) Lấy mẫu đơn vị, (b) đơn vị bước, (c) hàm mũ thực và (d) hàm sin suy giảm Hình 1.31 Sơ đồ khối (a) hệ thống đơn ngõ vào/đơn ngõ ra; (b) hệ thống đơn ngõ vào/đa ngõ ra Khi hệ thống gồm nhiều ngõ ra, tín hiệu chuỗi ngõ ra sẽ được biểu diễn bằng một vector được mô tả như ở Hình 1.31. Hệ thống tuyến tính dịch bất biến là hệ thống đặc biệt hữu dụng cho việc xử lý tín hiệu âm thoại. Hệ thống được đặc trưng bởi đáp ứng xung, công thức h(n), khi đó tín hiệu ngõ ra được tính bởi công thức với * là phép chập hai tín hiệu 2.2 Kỹ thuật Video 2.2.1 Tổng quan về xử lý ảnh và video số Xử lý ảnh số là lĩnh vực khoa học tương đối mới mẻ và được quan tâm nhiều hiện nay. Hai ứng dụng cơ bản của xử lý ảnh là nâng cao chất lượng hình ảnh và xử lý ảnh cũng như video số với mục đích lưu trữ hoặc truyền qua các hệ thống truyền dẫn hình ảnh. Trong phần này, chúng ta sẽ đề cập tới nhưng vấn đề sau: 1- Giới thiệu khái niệm cơ bản về ảnh số và xử lý video số, xác định ranh giới của lĩnh vực xử lý ảnh. 2- Giới thiệu các ứng dụng quan trọng của xử lý ảnh trong một số lĩnh vực khoa học 3- Xác định các giai đoạn cơ bản trong quá trình xử lý ảnh; 4- Giới thiệu các thành phần của hệ thống xử lý ảnh tổng quát. 2.2.1.1. Khái niệm cơ bản về xử lý ảnh Hình ảnh tĩnh có thể được biểu diễn bởi hàm hai chiều f(x,y), trong đó, x và y là tọa độ không gian phẳng (2 chiều). Khi xét ảnh "đen-trắng", giá trị hàm f tại một điểm được xác định bởi tọa độ (x,y) được gọi là độ chói (mức xám) của ảnh tại điểm này. Nếu x,y,và f là một số hiện hữu các giá trị rời rạc, chúng ta có ảnh số. Xử lý ảnh số là quá trình biến đổi ảnh số trên máy tính (PC). Như vậy, ảnh số được tạo ra 33
  34. bởi một số hữu hạn các điểm ảnh, mỗi điểm ảnh nằm tại một vị trí nhất định và có 1 giá trị nhất định. Một điểm ảnh trong một ảnh còn được gọi là một pixel. Hệ thống thị giác là cơ quan cảm nhận hình ảnh quang học tương đối hoàn hảo, cho phép con người cảm nhận được hình ảnh quang học trong thiên nhiên. Ứng dụng quan trọng nhất của xử lý ảnh là biến đổi tính chất của ảnh số nhằm tạo ra cảm nhận về sự gia tăng chất lượng hình ảnh quang học trong hệ thống thị giác. Tuy nhiên, mắt người chỉ cảm nhận được sóng điện từ có bước sóng hạn chế trong vùng nhìn thấy được, do đó ảnh theo quan niệm thông thường gắn liền với hình ảnh quang học mà mắt người có thể cảm nhận. Trong khi đó "ảnh" đưa vào xử lý có thể được tạo ra bởi các nguồn bức xạ có phổ rộng hơn, từ sóng vô tuyến tới tia gamma, ví dụ: ảnh do sóng siêu âm hoặc tia X tạo ra. Nhiều hệ thống xử lý ảnh có thể tương tác với những "ảnh" nêu trên, vì vậy trên thực tế, lĩnh vực xử lý ảnh có phạm vi tướng đối rộng, và liên quan tới nhiều lĩnh vực khoa học khác. Có thể tạm phân biệt các hệ thống xử lý ảnh theo mức độ phức tạp của thuật toán xử lý như sau: 1- Xử lý ảnh mức thấp: đó là các quá trình biến đổi đơn giản như thực hiện các bộ lọc nhằm khử nhiễu trong ảnh, tăng cường độ tương phản hay độ nét của ảnh. Trong trường hợp này, tín hiệu đưa vào hệ thống xử lý và tín hiệu ở đầu ra là ảnh quang học. 2- Xử lý ảnh mức trung: quá trình xử lý phức tạp hơn, thường được sử dụng để phân lớp, phân đọan ảnh, xác định và dự đóan biên ảnh, nén anh để lưu trữ hoặc truyền phát. Đặc điểm của các hệ thống xử lý ảnh mức trung là tín hiệu đầu vào là hình ảnh, còn tín hiệu đầu ra là các thành phần được tách ra từ hình ảnh gốc, hoặc luồng dữ liệu nhận được sau khi nén ảnh. 3- Xử lý ảnh mức cao: là quá trình phân tích và nhận dạng hình ảnh. Đây cũng là quá trình xử lý được thực hiện trong hệ thống thì giác của con người. 2.2.1.2 Lĩnh vực ứng dụng kỹ thuật xử lý ảnh Như đã nói ở trên, các kỹ thuật xử lý ảnh trước đây chủ yếu được sử dụng để nâng cao chất lượng hình ảnh, chính xác hơn là tạo cảm giác về sự gia tăng chất lượng ảnh quang học trong mắt người quan sát. Thời gian gần đây, phạm vi ứng dụng xử lý ảnh mở rộng không ngừng, có thể nói hiện không có lĩnh vực khoa học nào không sử dụng các thành tựu của công nghệ xử lý ảnh số. Trong y học các thuật tóan xử lý ảnh cho phép biến đổi hình ảnh được tạo ra từ nguồn bức xạ X -ray hay nguồn bức xạ siêu âm thành hình ảnh quang học trên bề mặt film x-quang hoặc trực tiếp trên bề mặt màn hình hiển thị. Hình ảnh các cơ quan chức năng của con người sau đó có thể được xử lý tiếp để nâng cao độ tương phản, lọc, tách các thành phần cần thiết (chụp cắt lớp) hoặc tạo ra hình ảnh trong không gian ba chiều (siêu âm 3 chiều). 34
  35. Trong lĩnh vực địa chất, hình ảnh nhận được từ vệ tinh có thể được phân tích để xác định cấu trúc bề mặt trái đất. Kỹ thuật làm nổi đường biên (image enhancement) và khôi phục hình ảnh (image restoration) cho phép nâng cao chất lượng ảnh vệ tinh và tạo ra các bản đồ địa hình 3-D với độ chính xác cao. Hình 2.1.1 Ảnh nhận được từ vệ tinh dùng trong khí tượng học Trong ngành khí tượng học, ảnh nhận được từ hệ thống vệ tinh theo dõi thời tiết cũng được xử lý, nâng cao chất lượng và ghép hình để tạo ra ảnh bề mặt trái đất trên một vùng rộng lớn, qua đó có thể thực hiện việc dự báo thời tiết một cách chính xác hơn. Dựa trên các kết quả phân tích ảnh vệ tinh tại các khu vục đông dân cư còn có thể dự đóan quá trình tăng trưởng dân số, tốc độ ô nhiễm môi trường cũng như các yếu tố ảnh hưởng tới môi trường sinh thái. Ảnh chụp từ vệ tinh có thể thu được thông qua các thiết bị ghi hình cảm nhận được tia sáng quang học (λ = 450 − 520 nm) (hình 2a), hoặc tia hồng ngoại (λ = 760 − 900 nm) (hình2b). Trên hình 2a và 2b lần lượt là ảnh bề mặt trái đất nhận được từ 2 ống ghi hình nói trên, dễ dàng nhận thấy sự khác biệt rõ ràng giữa hai ảnh. Đặc biệt trên ảnh 2b, hình con sông được tách biệt rất rõ ràng so với vùng ảnh hai bên bờ. Thiết bị thu hình nhạy cảm với vật thể bức xạ các tia trong miền hồng ngoại sẽ cho ra những bức ảnh trong đó vật thể có nhiệt độ thấp sẽ được phân biệt rõ ràng so với vật thể có nhiệt độ cao hơn. Như vậy việc lựa chọn các thiết bị ghi hình khác nhau sẽ tạo ra ảnh có đặc tính khác nhau, tùy thuộc vào mục đích sử dụng trong các lĩnh vực khoa học cụ thể . 35
  36. 2.2.1a 2.2.1b Hình 2.1.2 - Ảnh bề mặt trái đất thu được từ hai camera khác nhau Xử lý ảnh còn được sử dụng nhiều trong các hệ thống quản lý chất lượng và số lượng hàng hóa trong các dây truyền tự động, ví dụ như hệ thống phân tích ảnh để phát hiện bọt khí bên vật thể đúc bằng nhựa, phát hiện các linh kiện không đạt tiêu chuẩn (bị biến dạng) trong quá trình sản xuất hoặc hệ thống đếm sản phẩm thông qua hình ảnh nhận được từ camera quan sát. Xử lý ảnh còn được sử dụng rộng rãi trong lĩnh vực hình sự và các hệ thống bảo mật hoặc kiểm soát truy cập: quá trình xử lý ảnh với mục đích nhận dạng vân tay hay khuôn mặt cho phép phát hiện nhanh các đối tương nghi vấn cũng như nâng cao hiệu quả hệ thống bảo mật cá nhân cũng như kiểm soát ra vào. Ngoài ra, có thể kể đến các ứng dụng quan trọng khác của kỹ thuật xử lý ảnh tĩnh cũng như ảnh động trong đời sống như tự động nhận dạng, nhận dạng mục tiêu quân sự, máy nhìn công nghiệp trong các hệ thống điều khiển tự động, nén ảnh tĩnh, ảnh động để lưu và truyền trong mạng viễn thông v.v. 2.2.1.3. Các giai đoạn chính trong xử lý ảnh 1- Thu nhận hình ảnh: đây là giai đoạn đầu tiên và quan trọng nhất trong tòan bộ quá trình xử lý ảnh. Ảnh nhận được tại đây chính là ảnh gốc để đưa vào xử lý tại các giai đoạn sau, trường hợp ảnh gốc có chất lượng kém hiệu quả của các bước xử lý tiếp theo sẽ bị giảm. Thiết bị thu nhận có thể là các ông ghi hình chân không (vidicon, plumbicon v.v.) hoặc thiết bị cảm biến quang điện bán dẫn CCD (Charge-Coupled Device). 2- Tiền xử lý ảnh: giai đoạn xử lý tương đối đơn giản nhằm nâng cao chất lượng ảnh để trợ giúp cho các quá trình xử lý nâng cao tiếp theo, ví dụ: tăng độ tương phản, làm nổi đường biên, khử nhiễu v.v. 3- Phân đoạn: là quá trình tách hình ảnh thành các phần hoặc vật thể riêng biệt. Đây là một trong nhưng vấn đề khó giải quyết nhất trong lĩnh vực xử lý ảnh. Nếu thực hiện tách quá chi tiết thì bài toán nhận dạng các thành phần được tách ra trở nên phức 36
  37. tạp, còn ngược lại nếu quá trình phân đoạn được thực hiện quá thô hoặc phân đọan sai thì kết quả nhận được cuối cùng sẽ không chính xác. 4- Biểu diễn và mô tả: là quá trình xử lý tiếp sau khâu phân đoạn hình ảnh. Các vật thể sau khi phân đọan có thể được mô tả dưới dạng chuỗi các điểm ảnh tạo nên ranh giới một vùng, hoặc tập hợp tất cả các điểm ảnh nằm trong vùng đó. Phương pháp mô tả thông qua ranh giới vùng thường được sử dụng khi cần tập trung sự chú ý vào hình dạng bên ngòai của chi tiết ảnh như độ cong, các góc cạnh v.v. Biểu diễn vùng thường được sử dụng khi chúng ta quan tâm tới đặc tính bên trong của vùng ảnh như đường vân (texture) hay hình dạng skeletal. 5- Nén ảnh - bao gồm các biện pháp giảm thiểu dung lượng bộ nhớ cần thiết để lưu trữ hình ảnh, hay giảm băng thông kênh truyền, cần thiết để truyền tín hiệu hình ảnh số. 6- Nhận dạng: là quá trình phân loại vật thể dựa trên cơ sở các chi tiết mô tả vật thể đó (ví dụ các phương tiện giao thông có trong ảnh). Các quá trình xử lý liệt kê ở trên đều được thực hiện dưới sự giám sát và điều khiển dựa trên cơ sở các kiến thức về lĩnh vực xử lý ảnh. Các kiến thức cơ bản có thể đơn giản như vị trí vùng ảnh nơi có những thông tin cần quan tâm, như vậy có thể thu nhỏ vùng tìm kiếm. Trường hợp phức tạp hơn, cơ sở kiến thức có thể chứa danh sách tất cả những hư hỏng có thể gặp trong quá trình kiểm sóat chất lượng thành phẩm hoặc các ảnh vệ tinh có độ chi tiết cao trong các hệ thống theo dõi sự thay đổi môi trường trong một vùng. Ngoài việc điều khiển họat động của từng modul xử lý ảnh (hình 2.1.3), cơ sở kiến thức còn sử dụng để thực hiện việc điều khiển tương tác giữa các modules. Trong hình 2.1.3, quá trình điều khiển nói trên được biểu diễn bằng mũi tên hai chiều. 37
  38. Hình 2.1.3 Các giai đoạn xử lý ảnh số 2.2.1.4. Các phần tử cơ bản của hệ thống xử lý ảnh số Cấu trúc một hệ thống xử lý ảnh đa dụng dùng để thực hiện các giai đoạn xử lý ảnh đề cập ở trên được mô tả trên hình 2.1.4. Hình 2.1.4 Các thành phần chính của hệ thống xử lý ảnh Thiết bị thu nhận hình ảnh: là thiết bị biến đổi quang-điện, cho phép biến đổi hình ảnh quang học thành tín hiệu điện dưới dạng analog hay trực tiếp dưới dạng số. Có nhiều dạng cảm biến cho phép làm việc với ánh sáng nhìn thấy hoặc hồng ngoại. Hai loại thiết bị biến đổi quang – điện chủ yếu thường được sử dụng là đèn ghi hình điện tử và chip CCD (Charge Couple Device – linh kiện ghép điện tích). Ống vidicon là đại diện tiêu biểu cho họ đèn ghi hình điện tử được sử dụng tương đối rộng rãi trong camera màu cũng như đen trắng. Ống Vidicon có kích thước nhỏ gọn (đường kính 18-25 mm, chiều dài 10-12 cm), nhẹ, cấu tạo đơn giản, dễ sử dụng. Đèn hình này sử dụng nguyên lý hiệu ứng quang điện trong và nguyên lý tích lũy điện tích. Chip CCD là linh kiện bán dẫn có khả năng biến đổi năng lượng quang phổ thành tín hiệu điện. Thành phần chính của chip CCD là các tụ điện MOS (Metal-Oxide- Semiconductor). Tụ điện MOS được hình thành bởi ba lớp: một má tụ bằng kim loại, chất điện 38
  39. môi nằm giữa là lớp SiO2 và một má tụ bằng lớp bán dẫn loại p hoặc n (hình 2.1.5). Hình 2.1.5 Cấu trúc tụ điện MOS Một chuỗi tụ điện MOS phân bố đều trên bề mặt chip CCD được biểu diễn trên hình 2.1.6a, mỗi tụ điện với bề mặt cảm quang là má bán dẫn sẽ tạo ra một điểm trên hình ảnh thu được.Theo phương pháp dịch chuyển điện tích, các chip CCD có thể chia ra làm hai loại: CCD dạng chuỗi (một chiều) và dạng ma trận (hai chiều). Trên Hình 2.1.6a là cấu trúc chip CCD dạng chuỗi, quá trình ghi (tích điện) và đọc được thực hiện tại hai khu vực khác nhau, gọi là miền tích điện và miền nhớ. Hai khu vực trên được ngăn cách bởi cổng chuyển dịch. Sau khi kết thúc quá trình tích điện tại các phần tử cảm quang, điện tích sẽ được truyền song song qua cổng chuyển dịch vào thanh dịch ngang (không nhạy cảm với ánh sáng) tức miền nhớ. Sau khi cổng chuyển dịch đóng lại, quá trình ghi và đọc tại hai miền nói trên sẽ được tiến hành song song. Chip CCD sử dụng trong máy quay video thường có cấu trúc ma trận (hình 2.16b). Các phần tử cảm quang trong CCD tập hợp thành ma trận hai chiều, quá trình “đọc” tín hiệu được thực hiện theo chiều ngang và chiều dọc. Có nhiều cách tổ chức quá trình ghi và đọc tín hiệu trong CCD, nhưng phổ biến nhất là phương pháp dịch chuyển từng ảnh. Khi sử dụng phương pháp này, trong chip CCD được thiết kế một miền nhớ, không tiếp xúc với ánh sáng và có diện tích bằng miền tích lũy – là ma trận các phần tử cảm quang. Điện tích thu được tại miền tích lũy được chuyển về miền nhớ. Sau đó, quá trình ghi ảnh tại miền tích lũy và đọc ảnh từ miền nhớ vào thanh dịch ngang sẽ được tiến hành song song.Từng dòng ảnh được dịch chuyển xuống thanh dịch ngang, sau đó các gói điện tích ứng với các điểm trong dòng ảnh sẽ được đẩy ra lần lượt khỏi thanh dịch. Sau khi toàn bộ ảnh trong miền nhớ được đọc ra hết, một ảnh mới từ miền tích lũy sẽ lại được chuyển về đây.Với những tính năng vượt trội trước ống ghi hình điện tử cổ điển, linh kiện biến đổi - quang điện CCD được sử dụng rất rộng 39
  40. rãi trong công nghệ truyền hình và ảnh số. Hầu hết các camera quay video dân dụng và bán chuyên nghiệp (semi-professional) được thiết kế trên cơ sở chip CCD. Bộ nhớ trong và ngoài trong các hệ thống xử lý ảnh số thường có dung lượng rất lớn dùng để lưu trữ ảnh tĩnh và động dưới dạng số. Ví dụ, để lưu một ảnh số đen trắng kích thước 1024x1024 điểm, mỗi điểm được mã hóa bằng 8 bits cần bộ nhớ ~1MB. Để lưu một ảnh màu không nén, dung lượng bộ nhớ phải tăng lên gấp 3. Bộ nhớ số trong hệ thống xử lý ảnh có thể chia làm 3 loại: 1- bộ nhớ đệm trong máy tính để lưu ảnh trong quá trình xử lý. Bộ nhớ này phải có khả năng ghi/đọc rất nhanh (ví dụ 25 hình/s); 2- bộ nhớ ngoài có tốc độ truy cập tương đối nhanh, dùng để lưu thông tin thường dùng. Các bộ nhớ ngoài có thể là ổ cứng, thẻ nhớ flash v.v 3- Bộ nhớ dùng để lưu trữ dữ liệu. Loại bộ nhớ này thường có dung lượng lớn, tốc độ truy cập không cao. Thông dụng nhất là đĩa quang ghi 1 lần (ROM) hoặc nhiều lần (ROM) như đĩa DVD có dung lượng 4.7GB (một mặt). Ngoài ra trong hệ thống xử lý ảnh còn sử dụng các thiết bị cho phép lưu ảnh trên vật liệu khác như giấy in, giấy in nhiệt, giấy trong, đó có thể là máy in phun, in laser, in trên giấy ảnh đặc biệt bằng công nghệ nung nóng v.v. Bộ xử lý ảnh chuyên dụng: Xử dụng chip xử lý ảnh chuyên dụng, có khả năng thực hiện nhanh các lệnh chuyên dùng trong xử lý ảnh. Cho phép thực hiện các quá trình xử lý ảnh như lọc, làm nổi đường bao, nén và giải nén video số v.v Trong bộ xử lý ảnh thường tích hợp bộ nhớ đệm có tốc độ cao. Màn hình hiển thị: Hệ thống biến đổi điện - quang hay đèn hình (đen trắng cũng như màu) có nhiệm vụ biến đổi tín hiệu điện có chứa thông tin của ảnh (tín hiệu video) thành hình ảnh trên màn hình. Có hai dạng display được sử dụng rộng rãi là đèn hình CRT (Cathode-Ray Tube) và màn hình tinh thể lỏng LCD (Liquid Crystal Display). Đèn hình CRT thường có khả năng hiển thị màu sắc tốt hơn màn hình LCD nên được dùng phổ biến trong các hệ thống xử lý ảnh chuyên nghiệp. Máy tính: có thể là máy tính để bàn cũng như siêu máy tính có chức năng điều khiển tất cả các bộ phận chức năng trong hệ thống xử lý ảnh số. 2.2.1.5 Biểu diễn ảnh số Trong phần này, chúng ta sẽ đề cập tới một số những kiến thức cơ bản và ký hiệu được sử dụng trong lĩnh vực xử lý ảnh. Đó là các vấn đề về ánh sáng, màu sắc, khả năng tiếp thu hình ảnh quanh học của hệ thống thị giác. Tiếp theo là quá trình biến đổi ảnh analog thành tín hiệu ảnh số, cách biểu diễn hình ảnh số, ảnh hưởng của quá trình lấy mẫu và lượng tử hóa tới chất lượng ảnh số. Ngoài ra, trong phần này sẽ xét tới quan hệ tương quan giữa các điểm ảnh, những kiến thức cơ bản này sẽ được sử dụng rộng rãi trong các phần sau của bài giảng này. 40
  41. 2.1.5.1 Ánh sáng, màu sắc và hình ảnh Phổ của các sóng điện từ trong thiên nhiên trải dài từ tia gamma (10-12 m) đến sóng radio (10-4-104 m). Mắt người chỉ cảm nhận được những sóng điện từ có bước sóng từ 380nm (tia màu tím) đến 780 nm (tia màu đỏ) (hình 2.1.7). Hình 2.1.7 Các màu quang phổ trong ánh sáng mặt trời Các bức xạ điện từ đặc biệt nói trên được gọi là ánh sáng. Trong lĩnh vực xử lý ảnh, người ta chỉ quan tâm đến phần năng lượng bức xạ mà mắt người cảm nhận được. Các đại lượng trắc quang được sử dụng để đánh giá tính chất của nguồn sáng: quang thông, độ sáng, độ rọi và độ chói. Để đánh giá được tác động của ánh sáng lên mắt người, chúng ta phải lưu ý đến hai yếu tố quan trọng: 1 – Mắt có độ nhậy cảm không đồng đều đối với các tia bức xạ có bước sóng khác nhau. Trên đồ thị độ nhạy của mắt người (Hình 2.1.8) ta thấy vùng lục – vàng (λ ~ 555 nm) là nơi nhậy cảm nhất của mắt. 2 – Mật độ phân bố công suất của các nguồn sáng trong thiên nhiên không đồng đều trên trục tần số (hình 2.1.9). Hình 2.1.8 Đáp ứng phổ (độ nhạy) của mắt người 41
  42. Hình 2.1.9 Đồ thị phân bố công suất của các nguồn bức xạ: 1- Bầu trời phía bắc 2- Đèn điện 3- Mặt trời 4- Nguồn sáng đẳng năng E Trường hợp tổng quát, một nguồn bức xạ có thể đặc trưng bởi hàm mật độ phân bố công suất trên trục tần số ρ (λ ): dP(λ ) ρ (λ ) = (Watt/μm) dλ λ - bước sóng (μm); P(λ )– công suất nguồn bức xạ có bước sóng λ (Watt); Công suất toàn phần của nguồn ánh sáng có phổ liên tục (ánh sáng mặt trời, áng sáng đèn đốt nóng v.v.) sẽ bằng: Để đặc trưng cho phần năng lượng bức xạ có ích (cảm nhận được bằng mắt) ta đưa ra khái niệm quang thông F (lumen1) V (λ ) - hàm độ nhạy phổ tương đối của mắt người (không có đơn vị). Trên đồ thị V (λ ) (hình 2.1.8) ta thấy mắt người cảm nhận tốt nhất tia bức xạ có bước sóng 555 nm, do đó V (555nm) = 1. K là hệ số tỷ lệ giữa quang thông và công suất bức xạ. Một số ví dụ về đơn vị quang thông: 1- Bóng đèn sợi tóc có thường có hệ số phát sáng là 8 – 15 lumen/watt, khi công suất bóng là P=100 watt, quang thông của đèn sẽ bằng F 800 ÷1500 lumen . 2- Để có hình ảnh đủ độ chói trên màn hình 6x8m, quang thông của đèn chiếu phải đạt là 8000 lumen. Nói chung, quang thông của một nguồn sáng có thể phân bố không đồng đều trong mọi phương hướng. Do đó ta định nghĩa đại lượng độ sáng I đặc trưng cho khả năng phát sáng của nguồn sáng theo một hướng nào đó (hình 2.1.10): 42
  43. (candela) - góc khối; (sr-steradian) ` dF – quang thông truyền qua góc khối Hình 2.1.10 Minh họa độ sáng của nguồn điểm Góc khối lớn nhất là , do đó độ sáng trung bình của nguồn điểm sẽ bằng toàn bộ quang thông chia cho góc 4π: Thí dụ: Bóng đèn sợi tóc công suất P=100 watt, F 800 ÷1500 lumen , sẽ cho độ sáng trung bình là: candela Quang thông và độ sáng là hai đại lượng đặc trưng cho nguồn sáng. Độ rọi E là đại lượng đặc trưng cho bề mặt được chiếu sáng. Độ rọi là mật độ phân bố quang thông trên bề mặt được chiếu sáng: (lux) (2.1.5) 1 lux là độ rọi lên một bề mặt khi 1 m2 bề mặt đó nhận được quang thông bằng 1lumen. Xét bề mặt được chiếu sáng dS bởi nguồn điểm A (Hình 2.1.10). Diện tích bề mặt hình cầu giới hạn trong góc khối dΩ là dS0., α là góc giữa pháp tuyến của dS và pháp tuyến dS0. 43
  44. Như vậy độ rọi của bề mặt được chiếu sáng bởi nguồn điểm tỷ lệ nghịch với bình phương khoảng cách giữa nguồn sáng và bề mặt đó. Bảng dưới đây cho ta độ rọi trong một số trường hợp: Vật được rọi sáng Độ rọi (lx) Màn hình chiếu bóng (kino) 40-200 Trường quay (studio) 2000 Trang sách lúc đọc 30 Vật thể trong bóng râm (ban ngày) 1000 Vật thể ngoài nắng 100000 Độ chói L là đại lượng đặc trưng cho bề mặt phát sáng (trong khi độ rọi đặc trưng cho bề mặt được chiếu sáng). Độ chói là mật độ độ sáng trên bề mặt phát sáng. Độ chói đặc trưng cho mức độ sáng của nguồn sáng. Cho bề mặt phát sáng S0. Theo hướng trực giao với S0, độ chói sẽ bằng: (candel / m2 ) Đơn vị độ chói còn gọi là Nít ( Nít là độ chói của nguồn sáng có diện tích 1 m2 và cường độ sáng là 1 candela theo hướng vuông góc với bề mặt nguồn sáng) Dưới đây là độ chói của một số nguồn sáng: Bảng 2.1.2 Vật phát sáng Độ chói (cd/m2) Màn hình chiếu phim 10-30 Bóng hình TV 40-80 Sợi tóc đèn chiếu sáng 5 106- 107 Mặt trời 1.5 109 2.2.4 Lý thuyết toán ứng dụng trong xử lý ảnh và video số Tín hiệu hình ảnh tĩnh sau khi được số hóa có thể được lưu trữ dưới dạng ma trận 2 chiều các bít. Các dòng và cột của ma trận sẽ tương ứng với dòng và cột các phần tử ảnh (pixel). Đối với ảnh động video), kết quả quá trình số hóa sẽ là ma trận 3 chiều cho thấy phân bố các điểm ảnh trong không gian theo hàng và cột cũng như quá trình biến đổi hình ảnh trong miền thời gian. 44
  45. Quá trình biến đổi tín hiệu trong hệ thống xử lý ảnh số có thể được mô tả bằng các thuật toán trong miền không gian và thời gian hoặc các thuật toán trong không gian tín hiệu khác dựa trên phép biến đổi ánh xạ không gian, ví dụ biến đổi Fourier, biến đổi Karhumen Loeve v.v. Trong phần này chúng ta sẽ làm quen với công cụ toán học thường dùng để mô tả quá trình xử lý ảnh trong không gian và các phép biến đổi không gian một và hai chiều (được sử dụng rộng rãi trong các hệ thống lọc và nén ảnh). Song song với việc trình bày lý thuyết toán, trong phần này sẽ đưa ra các ví dụ minh họa một số phép biến đổi hình ảnh cụ thể. Nhiều ví dụ sẽ được thực hiện dựa trên phần mềm Matlab. Đây là một công cụ tính toán được xây dựng trên cơ sở các phép xử lý ma trận rất thích hợp cho việc mô tả các giải thuật xử lý ảnh số. Trong tài liệu này, tác giả sử dụng Matlab 7.04 SP2. Dấu “>>” là ký hiệu khởi đầu 1 hàm trong môi trường Matlab. 2.1.7.1 Các toán tử không gian a) Hệ thống tuyến tính Hệ thống xử lý tín hiệu số nói chung và xử lý ảnh nói riêng đều có thể được mô tả thông qua phương trình sau: y (m,n) = T [x (m,n)] (2.1.19) x (m,n) - ảnh số đưa vào hệ thống (là tín hiệu 2 chiều); y (m,n) - ảnh số tại đầu ra hệ thống; T – toán tử đặc trưng của hệ thống. Trong giáo trình này, chúng ta sẽ quan tâm chủ yếu đến các hệ thống tuyến tính. Hệ thống biểu diễn bởi (2.1) được gọi là tuyến tính khi và chỉ khi: T(ax1 (m,n) + bx2(m,n)] = aT[x1 (m,n)] + bT[x2(m,n)]= = ay1 (m,n) + by2(m,n) (2.1.20) a và b là các hằng số bất kỳ. Các toán tử thực hiện với ảnh 2 chiều thường có tính chất tuyến tính, ví dụ các phép dịch chuyển trong không gian, phép chập, các phép biến đổi cũng như nhiều quá trình lọc tuyến tính mà chúng ta sẽ xét ở các chương sau. b) Xung đơn vị trong không gian 2 chiều Xung đơn vị được sử dụng rộng rãi để mô tả các tác động trực tiếp lên điểm ảnh trong không gian. 1 Khi m=n 0 Khi m n là điểm ảnh có mức chói tối đa tại vị trí (A,B) trong không gian. 45
  46. Đáp ứng xung của hệ thống là tín hiệu nhận được khi xung đơn vị được đưa vào hệ thống: h[m,n] = T [δ (m,n)] c) Mô tả quá trình biến đổi tín hiệu trong không gian 2 chiều Cho ảnh số gốc là ma trận các điểm ảnh có kích thước NxN. Trong trường hợp tổng quát, đáp ứng của hệ thống tuyến tính đối với tín hiệu vào có thể tìm được thông qua đáp ứng xung như sau: Khi hệ thống xử lý số là tuyến tính và bất biến, ta có thể tìm được ảnh ra thông qua ảnh gốc nói trên và đáp ứng xung của hệ thống sử dụng tích chập: hay y (m,n) = x (m,n)  h(m,n) (2.1.24b) 2.1.7.2 Các phép tính với vector và ma trận Đối với tín hiệu hình ảnh, các thuật toán nói trên thường được thực hiện trên ma trận các điểm ảnh hai chiều, do đó phần này sẽ giới thiệu sơ lược về ma trận và các phép toán thực hiện trên ma trận. a) Vector Vector cột (ma trận cột) f , kích thước Nx1 là tập hợp các phần tử f (n) với n=1, 2, , N sắp xếp theo cột dọc: Vector dòng (ma trận dòng) h, kích thước 1xN là tập hợp các phần tử f (n) với n=1, 2, ,N sắp xếp theo dòng ngang: h = [h(1),h(2) h( j) h(N)] (2.1.26) b) Ma trận Ma trận F, kích thước MxN là tập hợp các phần tử F(m,n) với m=1,2, ,M, n=1,2, ,N được sắp xếp thành M hàng và N cột như sau: (2.1.27) Lưu ý rằng, trong Matlab, địa chỉ của mỗi điểm ảnh được xác định theo vị trí hàng và cột trong ma trận của điểm ảnh đó, ví dụ F(2,1) là điểm ảnh nằm ở hàng thứ 2, cột thứ 1 trong ma trận F. Các biểu diễn này khác với phương pháp biểu diễn ảnh số được xét ở phần . 46
  47. Ma trận NxN được gọi là ma trận vuông cấp N. Trong ma trận vuông, tập hợp các phần tử F(1,1), F(2,2), , F(N,N) được gọi là đường chéo chính, đường chéo còn lại gọi là đường chéo phụ. Ma trận vuông có các phần tử ngoài đường chéo chính bằng 0 gọi là ma trận chéo. Ma trận chéo với các phần tử trên đường chéo bằng 1 gọi là ma trận đơn vị, ký hiệu là In. c) Cộng ma trận Tổng ma trận C=A+B chỉ xác được định khi A và B có cùng kích thước MxN. C cũng có kích thước MxN, các phần tử của C là: C(m,n) = A(m,n)+B(m,n). d) Nhân ma trận Tích hai ma trận C=AB chỉ xác định khi số lượng cột của A bằng số dòng của B. Khi nhân ma trận A có kích thước MxP với B-PxN ta nhận được C có kích thước MxN: ∑ A ( m,p )B ( p,n ) (2.1.28) C(m,n) = p=1 Tích của hai ma trận không có tính giao hoán. Ví dụ 1. Sử dụng Matlab để tạo ma trận và nhân ma trận 47
  48. e) Ma trận nghịch đảo Ma trận nghịch đảo của ma trận vuông A là ma trận A−1 nếu: AA−1 = I và A−1A=I. Nếu tồn tại ma trận nghịch đảo của ma trận A cấp n thì A được gọi là khả nghịch. Ma trận đơn vị I có nghịch đảo là chính nó. f) Ma trận chuyển vị Ma trận chuyển vị của A thu được bằng cách đổi chỗ hàng thành cột và cột thành hàng và giữ nguyên thứ tự các phần tử trên hàng. Ma trận chuyển vị của A ký hiệu là AT . Nếu A = AT, ma trận A được gọi là ma trận đối xứng. Ma trận nhận được khi cộng A + AT và nhân AAT là ma trận đối xứng. g) Tích vô hướng (scalar product) hai vector f và g kích thước Nx1: k = gTf = f Tg Ví dụ: x = [1 2 3] x h) Tích ma trận của hai vector f kích thước Mx1 và g kích thước Nx1 là ma trận: A=gf T , 48
  49. A(m, n) = g ( m ) f ( n ) (2.1.30) Ví dụ: x = x [1 3 4] = i. Tích chập hai ma trận Như chúng ta đã biết, đối với các hệ thống xử lý tín hiệu rời rạc tuyến tính và bất biến quan hệ giữa đáp ứng (dãy ra) và kích thích (dãy vào) của hệ thống được mô tả theo (2.1.23): N −1 N −1 y ( m, n ) = ∑∑ x (l , k ) h ( m − l; n − k ) l =0 k =0 2.1.31) Đối với hệ thống xử lý ảnh, tín hiệu vào và đáp ứng xung thường được biểu diễn dưới dạng ma trận hai chiều, do đó để mô tả tác động của hệ thống lên tín hiệu ta cần tìm tích chập hai ma trận. Tích chập hai ma trận kích thước M 1 x N1 và M2 x N2 sẽ là ma trận có kích thước: ( M1 + M 2 − 1) × ( N1 + N 2 − 1) Ví dụ: Hình 2.1.23 Tích chập hai ma trận Khi tìm giá trị tích chập cho các điểm nằm tại biên của ảnh ví dụ điểm y(1,1) (Hình 2.1.23), các điểm ảnh không tồn tại trong x(m,n) phải được gán các giá trị nhất định. Có nhiều quy tắc chèn giá trị mức xám như: mặc định bằng 0, lặp lại các 49
  50. giá trị mức xám trên đường biên của ảnh v.v. Ta sẽ xét các trường hợp này khi nói về các phương pháp lọc ảnh 2.1.23), các điểm ảnh không tồn tại trong x(m,n) phải được gán các giá trị nhất định. Có nhiều quy tắc chèn giá trị mức xám như: mặc định bằng 0, lặp lại các giá trị mức xám trên đường biên của ảnh v.v. Ta sẽ xét các trường hợp này khi nói về các phương pháp lọc ảnh k. Biến đổi ma trận thành một vector (stacking operator) Trong một số trường hợp, việc phân tích hình ảnh 2 chiều sẽ đơn giản hơn khi ma trận Fcác điểm ảnh 2 chiều ( N1 × N 2 ) được biến đổi thành vector cột có kích thước ( N1 N 2 ,1), để làm được như vậy, chúng ta sắp xếp lần lượt các cột (hay hàng) của F thành 1 vector dài. Thao tác trên có thể được mô tả thông qua vector v n (N2 x 1) và ma trận Nn (N1x N2 x N1) Ma trận F sẽ được biến đổi thành vector f như sau: (2.1.34) Biến đổi nghịch từ f thành F là: ∑ n Sử dụng công thức (2.1.34) và (2.1.35) có thể dễ dàng xác định quan hệ giữa hai phương pháp biểu diễn hình ảnh 2 chiều thông qua ma trận và vector. Phương pháp biểu diễn dưới dạng vector giúp thu gọn đáng kể các công thức mô tả quá trình xử lý ảnh và cho phép chúng ta áp dụng những phương pháp xử lý tín hiệu 1 chiều trong xử lý ảnh. 50
  51. Ví dụ: Biến đổi ma trận F (3x3) thành vector f = = Tương tự ta có: ; 2.3.2.1 Biến đổi cosin rời rạc DCT Công đoạn đầu tiên của hầu hết các quá trình nén là xác định thông tin dư thừa trong miền không gian của một mành hoặc một ảnh của tín hiệu video. Nén không gian được thực hiện bởi phép biến đổi cosin rời rạc DCT (Discrete Cosine Transform). DCT biến đổi dữ liệu dưới dạng biên độ thành dữ liệu dưới dạng tần số. Mục đích của quá trình biến đổi là thay đổi dữ liệu biểu diễn thông tin: dữ liệu của ảnh con tập trung vào một phần nhỏ các hệ số hàm truyền. Việc mã hóa và truyền chỉ thực hiện đối với các hệ số năng lượng này, và có thể cho kết quả tốt khi tạo lại tín 51
  52. hiệu video có chất lượng cao. DCT đã trở thành tiêu chuẩn quốc tế cho các hệ thống mã chuyển vị bởi nó có đặc tính gói năng lượng tốt, cho kết quả là số thực và có các thuật toán nhanh để thể hiện chúng. Các phép tính DCT được thực hiện trong phạm vi các khối 8×8 mẫu tín hiệu chói Y và các khối tương ứng của tín hiệu hiệu màu. Việc chia hình ảnh thành các block đã được thực hiện ở khối tiền xử lý. Hiệu quả của việc chia này rất dễ thấy. Nếu ta tính toán DCT trên toàn bộ frame thì ta xem như toàn bộ frame có độ dư thừa như nhau. Đối với một hình ảnh thông thường, một vài vùng có một số lượng lớn các chi tiết và các vùng khác có ít chi tiết . Nhờ đặc tính thay đổi của các ảnh khác nhau và các phần khác nhau của cùng một ảnh, ta có thể cải thiện một cách đáng kể việc mã hóa nếu biết tận dụng nó. a) DCT một chiều DCT một chiều biến đổi biên độ tín hiệu tại các điểm rời rạc theo thời gian hoặc không gian thành chuỗi các hệ số rời rạc, mỗi hệ số biểu diễn biên độ của một thành phần tần số nhất định có trong tín hiệu gốc. Hệ số đầu tiên biểu diễn mức DC trung bình của tín hiệu. Từ trái sang phải, các hệ số thể hiện các thành phần tần số không gian cao hơn của tín hiệu và được gọi là các hệ số AC. Thông thường, nhiều hệ số AC có giá trị sẽ gần hoặc bằng 0. Quá trình biến đổi DCT thuận (FDCT) được định nghĩa như sau: Hàm biến đổi DCT ngược (một chiều): Trong đó: X(k) là chuỗi kết quả. x(m) là giá trị của mẫu m. k-chỉ số của hệ số khai triển. m-chỉ số của mẫu. N- số mẫu có trong tín hiệu b) DCT hai chiều 52
  53. Để tách tương quan nội dung ảnh cao hơn, mã hóa DCT hai chiều (2-D) được dùng cho các khối 8×8 giá trị các điểm chói. Quá trình biến đổi DCT tiến FDCT (forward DCT) được định nghĩa như sau: Trong đó: f(j,k)- các mẫu gốc trong khối 8×8 pixel. F(u,v)-các hệ số của khối DCT 8×8. 1/ nếu u, v = 0 C(u), C(v) = 1 nếu u, v 0 Phương trình trên là một liên kết của hai phương trình DCT một chiều, một cho tần số ngang và một cho tần số đứng. Giá trị trung bình của block 8x8 chính là hệ số thứ nhất (khi u,v= 0) Phương trình này cộng tất cả các giá trị pixel trong khối 8×8 và chia kết quả cho 8. Kếtquả phép tính bằng 8 lần giá trị pixel trung bình trong khối. Do đó hệ số thứ nhất được gọi là hệ số DC. Các hệ số khác, dưới giá trị thành phần một chiều, biểu diễn các tần số cao hơn theo chiều dọc. Các hệ số ở về phía bên phải của thành phần một chiều biểu thị các tần số cao hơn theo chiều ngang. Hệ số trên cùng ở cận phải (0,7) sẽ đặc trưng cho tín hiệu có tần số caonhất theo phương nằm ngang của ma trận 8×8, và hệ số hàng cuối bên trái (7,0) sẽ đặc trưng cho tín hiệu có tần số cao nhất theo phương thẳng đứng. Còn các hệ số khác ứng với những phối hợp khác nhau của các tần số theo chiều dọc và chiều ngang. Phép biến đổi DCT hai chiều là biến đổi đối xứng và biến đổi nghịch có thể tạo lại các giá trị mẫu f(j,k) trên cơ sở các hệ số F(u,v) theo công thức sau: Như vậy, biến đổi DCT giống như biến đổi Fourier và các hệ số F(u,v) cũng giống nhau về ý nghĩa. Nó biểu diễn phổ tần tín hiệu được biễu diễn bằng các mẫu f(j,k). Bản thân phép biến đổi DCT không nén được số liệu, từ 64 mẫu ta nhận được 64 hệ số. Tuy nhiên, phép biến đổi DCT thay đổi phân bố giá trị các hệ số so với phân bố các giá trị mẫu. 53
  54. Do bản chất của tín hiệu video, phép biến đổi DCT cho ta giá trị DC tức F(0,0) thường lớn nhất và các hệ số trực tiếp kề nó ứng với tần số thấp có giá trị nhỏ hơn, các hệ số còn lại ứng với tần số cao có giá trị rất nhỏ. Hình vẽ 2.3.4 là một ví dụ minh họa quá trình DCT hai chiều của một khối 8×8 điểm ảnh (chói) được trích ra từ một ảnh thực. Nếu dùng quá trình DCT cho các tín hiệu số thành phần Y, CR,CB thì các tín hiệu CB,CR có biên độ cực đại ±128 ( giá trị nhị phân trong hệ thống lấy mẫu 8 bit), còn tín hiệu Y có một khoảng cực đại từ 0 đến 255 giá trị nhị phân. Để đơn giản việc thiết kế bộ mã hóa DCT, tín hiệu Y được dịch mức xuống dưới bằng cách trừ 128 từ từng giá trị pixel trong khối để có khoảng cực đại của tín hiệu giống như đối với các tín hiệu C R và CB. Ở phần giải mã DCT, giá trị này (128) được cộng vào các giá trị pixel chói. Giá trị hệ số DC của khối DCT có một khoảng từ –1024 đến 1016. Hình 2.3.4 Mã hóa khổi 8x8 bằng DCT 2 chiều 54
  55. Đối với hệ số AC ( với u,v=1,2, ,7), C(u) và C(v)=1 và các giá trị cực đại của nó nằm trong khoảng ±1020 theo phương trình FDCT. Khối 8×8 các giá trị của hệ số DCT đưa ra 1 giá trị DC lớn (ví dụ =591), biểu diễn độ sáng trung bình của khối 8×8 và các giá trị rất nhỏ của các thành phần tần số cao theo chiều ngang và chiều đứng. Nguyên tắc chung là nếu có sự thay đổi nhiều giá trị pixel-đến-pixel theo 1 chiều của khối pixel (ngang, đứng, chéo) sẽ tạo ra các giá trị hệ số cao theo các chiều tương ứng của khối hệ số DCT. Khi nén ảnh theo JPEG, ma trận các hệ số khai triển sau DCT phải được nhân với bảng trọng số Q(u,v) để loại bỏ một phần các hệ số có biên độ nhỏ (thường là các tàhnh phần cao tần). Trên Hình 2.3.5 mô tả quá trình biến đổi DCT từ ảnh gốc (a) và ma trận hệ số DCT trước (b) và sau (d) khi nhân với Q(u,v) (c). Hình 2.3.5 Khai triển DCT và bảng trọng số Q(u,v). Ví dụ được trình bày trong hình vẽ 2.3.6, quá trình biến đổi DCT một khối pixel có các giá trị pixels đen ( giá trị=0) và trắng (giá trị=255) xen kẽ. Sau khi giảm với – 128 thu được các giá trị pixels trong dải động +127 và –128. Đây là khối ảnh có sự biến đổi lớn nhất về giá trị biên độ các điểm ảnh và các hệ số DCT kết quả xác định 55
  56. nhận xét này. Mặc dù có nhiều hệ số tần số bằng 0, giá trị của các hệ số có tần số cao đóng vai trò quan trọng trong việc tái tạo lại hình ảnh khi biến đổi DCT ngược. Hình 2.3.6 Khai triển DCT cho khối ảnh có đọ chói dạng bàn cờ. Tóm lại, DCT làm giảm độ tương quan không gian của thông tin trong block. Điều đó cho phép biễu diễn thích hợp ở miền DCT do các hệ số DCT có xu hướng có phần dư thừa ít hơn. Điều này có nghĩa là DCT gói một phần lớn năng lượng tín hiệu vào các thành phần biến đổi có tần số tương đối thấp để lưu trữ hoặc truyền dẫn, tạo 0 và các giá trị rất thấp đối với thành phần tần số cao. Nhờ đặc tính của hệ thống nhìn của mắt người, các hệ số DCT có thể được mã hóa phù hợp, chỉ các hệ số DCT quan trọng nhất mới được mã hóa và truyền đi. DCT thuận kết hợp với DCT nghịch sẽ không cho tổn thất nếu độ dài từ mã của hệ số là 13 đến 14 bits cho tín hiệu video đầu vào được số hóa bằng các mẫu dài 8 bit. Nếu hệ số được lượng tử hóa bằng 11 bit (hoặc ngắn hơn), thì nén bằng DCT sẽ có tổn hao. 56
  57. BÀI TẬP CHƯƠNG 2 1.Nguyên lý cơ bản của nén cơ sở DTC (Discrete Cosine Transformation )? 2. Tóm tắt quá trình nén JPEG, khả năng chính của JPGE 2000 là gì? 3. Sự khác biệt chính giữa MPEG 4, với MPEG 1, 2, 3. Tại sao phù hợp vớiviệc truy tìm chỉ mục video là gì? 4. Tại sao đưa ra MPEG 7, mục đích của MPEG 7 là gì? 57
  58. Chương 3 : NGUYÊN LÝ, KỸ THUẬT VÀ CÁC CHUẨN NÉN DỮ LIỆU MULTIMEDIA: ÂM THANH, AUDIO, HÌNH ẢNH, VIDEO KỸ THUẬT SỐ 3.1.Công nghệ đường truyền tốc độ cao 3.2 Mạng đa phương tiện, các công nghệ và kiến trúc. 3.3.Các giao thức truyền thông đa phương tiện thời gian thực 3.4. Nguyên lý nén dữ liệu 3.5. Lượng tử hóa ảnh (Image Quantization) Lượng tử hóa ảnh là lượng tử hóa các hệ số F(u,v) sao cho làm giảm được số lượng bit cần thiết. Các hệ số tương ứng với tần số thấp có các giá trị lớn hơn, và như vậy nó chứa phần năng lượng chính của tín hiệu, do đó phải lượng tử hóa với độ chính xác cao. Riêng hệ số một chiều đòi hỏi độ chính xác cao nhất, bởi lẽ nó biểu thị giá trị độ chói trung bình của từng khối phần tử ảnh. Bất kỳ một sai sót nào trong quá trình lượng tử hệ số một chiều đều có khả năng nhận biết dễ dàng bởi nó làm thay đổi mức độ chói trung bình của khối. Ngược lại, với các hệ số tương ứng với tần số cao và có các giá trị nhỏ, thì có thể biểu diễn lại bằng tập giá trị nhỏ hơn hẳn các giá trị cho phép. Chức năng cơ bản của bộ lượng tử hóa là chia các hệ số F(u,v) cho các hệ số ở vị trí tương ứng trong bảng lượng tử Q(u,v) để biểu diễn số lần nhỏ hơn các giá trị cho phép của hệ số DCT. Các hệ số có tần số thấp được chia cho các giá trị nhỏ, các hệ số ứng với tần số cao được chia cho các giá trị lớn hơn. Sau đó, các hệ số được làm tròn (bỏ đi các phần thập phân). Kết quả ta nhận được bảng Fq(u,v) mới, trong đó phần lớn các hệ số có tần số cao sẽ bằng 0. Hệ số lượng tử hóa thuận được xác định theo biểu thức: Các giá trị Fq(u,v) sẽ được mã hóa trong các công đoạn tiếp theo. Cần phải xác định là trong quá trình lượng tử hóa có trọng số có xảy ra mất thông tin, gây tổn hao. Đây là bước tổn hao duy nhất trong thuật toán nén. Mức độ tổn hao phụ thuộc vào giá trị các hệ số trên bảng lượng tử. Sau khi nhân các hệ số lượng tử hóa Fq(u,v) với Q(u,v) và biến đổi ngược DCT sẽ không nhận được block sơ cấp các mẫu f(j,k). Tuy nhiên, trong trường hợp ảnh tự nhiên và lựa chọn các giá trị Q(u,v) thích hợp, sự khác nhau sẽ nhỏ đến mức mà mắt người không phân biệt được giữa ảnh gốc và ảnh biểu diễn. 58
  59. Các thành phần DC và tần số thấp là các thông số nhạy cảm nhất của khối pixel gốc. Hệ số DC sẽ được lượng tử với độ chính xác 12 bit nhằm tránh các nhiễu xuất hiện giữa các khối điểm ảnh. Ngược lại, các hệ số tần số cao có thể lượng tử hóa thô với độ chính xác 2 bit-do khả năng cảm nhận của mắt người giảm ở tần số cao. Theo đó, hệ số chia trong bảng lượng tử hóa là nhỏ đối với các hệ số có tần số thấp và tăng từ từ đối với các hệ số có tần số cao hơn. Trong hình vẽ dưới đây, giá trị khối xác định cho phép các giá trị tín hiệu chói và tín hiệu màu được lượng tử khác nhau. Nhiễu lượng tử đối với tín hiệu màu khó nhìn thấy hơn đối với tín hiệu chói, cho nên có thể thực hiện lượng tử hóa thô tín hiệu màu. Như vậy, khối DCT đóng vai trò quan trọng trong quá trình lượng tử hóa khi thiết kế hệ thống nén video vì nó ảnh hưởng trực tiếp đến việc cho lại chất lượng ảnh khôi phục tốt hay xấu. Hình 2.3.7 Các bảng lượng tử cho tín hiệu chói và màu theo chuẩn JPEG Việc biến đổi sao cho chất lượng hình ảnh do mắt người cảm nhận tốt, phụ thuộc vào các thành phần tần số và sự biến đổi chi tiết ảnh từng vùng trong miền không gian. Các ảnh càng chi tiết thì hệ số thành phần tần số cao càng lớn. 3.6 Các phương pháp mã hóa (Shannon – fano và Huffman) Entropi là khái niện trong lý thuyết thông tin do Shannon đưa ra vào năm 1948. Có thể coi entropi là đại lượng đo thông tin hay còn gọi là độ bất định. Nó được tính như một hàm phân bố xác suất. Giả sử ta có một biến ngẫu nhiên X nhận các giá trị trên một tập hữu hạn theo một phan bố xác suất p(X). Thông tin thu nhận được bởi một sự kiện xảy ra tuân theo một phân bố p(X) là gì?. Tương tự, nếu sự kiện còn chưa xảy ra thì cái gì là độ đo bất định và kết quả?. Đại lượng này được gọi là Entropy của X và được kí hiệu là H(X). 59
  60. Nhận xét Nhận thấy rằng, log 2 pi không xác định nếu p i = 0. Bởi vậy đôi khi entropi đượ định nghĩa là tổng tương ứng trên tất cả các xác suất khác 0. Vì nên trên thực tế cũng không có trở ngại gì nếu cho p i = 0 với giá trị i nào đó. Tuy nhiên ta sẽ tuân theo giả định là khi tính ẻtropi của một phân bố xác suất pi, tổng trên sẽ được lấy trên các chỉ số i sao cho pi 0. Ta cũng thấy việc lựa chọn cơ số của logarit là tùy ý; cơ số này không nhất thiết phải là 2. Một cơ số khác chỉ làm thay đổi giá trị của entropi đi một hằng số. Chú ý rằng, nếu p i = 1/n với 1 i n thì H(X) = log 2n. Cũng dễ dàng thấy rằng H(X)≥0 và H(X) = 0 khi và chỉ khi pi =1 với một giá trị nào đó và Pj =0 với mọi j i. Xét Entropi của các thành phần khác nhau của một hệ mật. ta có thể coi khóa là một biến ngẫu nhiên K nhận các giá trị tuân theo phân bố xác suất pk và bởi vậy có thể tính được H(K). Tượng tự ta có thể tính các entropi H(P) và H(C) theo các phân bố các suất tương ứng của bản mã và bản rõ. Ví dụ: Giả sử ta có một biến ngẫu nhiên X có 3 giá trị có thể là x 1, x2, x3 với các xác suất tương ứng bằng ½, ¼ và ¼. Cách mã hóa hiệu qur nhất của 3 biến là mã hóa x1 là 0, mã của x2 là 10 và mã của x3 là 11. Ta có: H(P) = -1/4log21/4 – 3/4log23/4 = -1/4(-2) – ¾(log23-2) = 2 – 3/4log23 0.81 Bằng các tính toán tương tự, ta có H(K) = 1.5 và H(C) = 1.85 Mã Huffman và Entropy Trong phần này ta sẽ thảo luận về quan hệ giữa entropy và mã hóa Huffman Ta coi X là biến ngẫu nhiên nhạn các giá trị trên một tập hữu hạn và p(X) là phân bố xác suất tương ứng. Một phép mã hóa X là một ánh xạ bất kỳ: f: X {0,1}* 60
  61. Trong đó {0,1} kí hiệu tập tất cả các xâu hữu hạn các số 0 và 1. Với một danh sách hữu hạn (hoặc một xâu) các biến cố x 1, x2, , xn, ta có thể mở rộng phép mã hóa f nhờ sử dụng định nghĩa sau: f(x1, x2, , xn) = f(x1) f(xn) Khi đó có thể coi f là ánh xạ: f: X* {0,1}* Ta giả sử xâu x 1 x2 xn được tạo ra từ một nguồn bất kì sao cho mỗi x i xảy ra đều tusn theo phân bố xác suất trên X. Điều đó có nghĩa là xác xuất của một xâu bất kì x1 x2 xn (không nhất thiết phân biệt) được tính bằng p(x1) x x p(xn). Ta dùng ánh xạ f để mã hóa các xâu, nhưng các xâu phải được giải mã một cách duy nhất nên f nhất thiết phải là đơn ánh. Ví dụ. Giả sử X= {a, b, c, d}, xét 3 phép mã hóa sau: f(a) = 1 f(b) = 10 f(c) = 100 f(d) = 1000 g(a) = 0 g(b) = 10 g(c) = 110 g(d) = 111 h(a) =0 h(b) =01 h(c) =10 h(d) =11 Có thể thấy rằng, f và b là các phép mã hóa đơn ánh, còn h không phải là một đơn ánh. Một phép mã hóa bất kỳ dùng f có thể được giải mã bằng cách bắt đầu ở điểm cuối và giải mã ngược trở lại: Mỗi lần gặp số ta sẽ biết vị trí kết thúc của phần tử hiệ thời. Phép mã dùng g có thể được giải mã bằng cách bắt đầu ở điểm đầu và xử lý liên tiếp. Tại thời điểm bất kì mà ở đó có một dãy con là các kí tự mã của a, b, c hoaawcj d thì có thể giải mã và có thể cắt ra khỏi dãy con. Ví dụ với xâu 10101110, ta có thể giải mã 10 là b, 10 tiếp theo là b, 111 là d và cuối cùng 0 là a. Bởi vậy xâu đã giải mã là bbda. Để thấy rằng h không phải là một đơn ánh, chỉ cần xét ví dụ sau: h(ac) = h(bc) = 010 Ta nhận thấy phép mã g tốt hơn f. sở dĩ như vậy vì nếu dùng g thì việc giải mã có thể được làm liên tiếp từ đầu đến cuối và bởi vậy không cần phải có bộ nhớ. Tính chất cho phép giải mã liên tiếp đơn giản của g được gọi là tính chất tiền tố độc lập (một phép mã hóa g được gọi là có tiền tố độc lập nếu không tồn tại 2 phần tử x, y X và một xâu z {0,1} sao cho g(x) = g(y) z). Ta sẽ đo tính hiệu quả của phép mã hóa f như đã làm ở trên: đó là độ dài trung bình trọng số (được kí hiệu là l(f)) của phép mã háo một phần tử của X. Bởi vậy ta có định nghĩa sau: 61
  62. Trong đó là kí hiệu dộ dài xâu y. Nhiệm vụ bây giờ là phải tìm một phép mã hóa đơn ánh sao cho tối thiểu hóa được l(f). Thuật toán Huffman nổi tiếng thực hiện được mục đích này. Hơn nữa, phép mã háo f tạo bởi thuật toán Huffman là một phép mã hóa có tiền tố độc lập và H(X) l(f) H(X) +1 Như vậy, gí trị Entropy cho ta đánh giá khá chính xác về độ dài trung bình của một phép mã hóa đơn ánh tối ưu. Ta sẽ mô tả ngắn gọn hình thức hóa về thuật toán Huffman. Thuật toán Huffman bất dàu với phan bố xác suất trên tập X và mã mỗi phần tử ban đầu là trống. Trong mỗi bước lặp, hai phần tử có xác suất thấp nhất sẽ được kết hợp thành một phần tử có xác suất bằng tổng của hai xác suất này. Trong 2 phần tử, phần tử có xác suất nhỏ hơn sẽ được gán giá trị “0”, phần tử có giá trị lớn hơn sẽ được gán giá trị “1”. Khi chỉ còn lại một phần tử thì mã của x X sẽ được cấu trúc bằng dãy các phần tử ngược từ cuối cùng tới phần tử ban đầu x. Ta sẽ minh họa thuật toán này qua ví dụ sau: Ví dụ: Giả sử X = Ơa, b, c, d, e} có phân bố xác suất: p(a) = 0.05; p(b) =0.10; p(c) =0.12; p(d) = 0.13 và p(e) = 0.60. Thuật toán Huffman được thực hiện như trong bảng sau: Điều này dẫn đến phép mã hóa sau: x f(x) a 000 b 001 c 010 d 011 62 e 1
  63. Bởi vậy độ dài trung bình của phép mã hóa là: l(f) = 0.05 x3 + 0.10 x 3 + 0.12 x3 + 0.13 x3 +0.60 x 1 = 1.8 So sánh giá trị này với entropy: h(X) = 0.2161 + 0.3322 + 0.3671 + 0.3842 + 0.4422 = 1.7402 3.7 Kỹ thuật nén ảnh, video Tín hiệu video sau khi được số hoá 8 bit có tốc độ 216 Mb/s. Để có thể truyền trong một kênh truyền hình thông thường, tín hiệu video số cần phải được nén trong khi vẫn phải đảm bảo chất lượng hình ảnh. Nén video trong những năm 1950 được thực hiện bằng công nghệ tương tự với tỷ số nén thấp. Ngày nay công nghệ nén đã đạt được những thành tựu cao hơn bằng việc chuyển đổi tín hiệu video từ tương tự sang số. Công nghệ nén số (Digital Compressed) đòi hỏi năng lực tính toán nhanh. Song ngày nay với sự phát triển của công nghệ thông tin, điều này không còn trở ngại. Như chúng ta biết tín hiệu video có dải phổ từ 0 – 6 MHz, tuy nhiên trong nhiều trường hợp năng lượng phổ chủ yếu tập trung ở miền tần số thấp và chỉ có rất ít thông tin chứa đựng ở miền tần số cao. Đối với tín hiệu video số, số lượng bit được sử dụng để truyền tải thông tin đối với mỗi miền tần số khác nhau, có nghĩa là: miền tần số thấp, nơi chứa đựng nhiều thông tin, được sử dụng số lượng bít lớn hơn và miền tần số cao, nơi chứa đựng ít thông tin, được sử dụng số lượng bít ít hơn. Tổng số bít cần thiết để truyền tải thông tin về hình ảnh sẽ giảm một cách đáng kể và dòng dữ liệu được “nén ” mà chất lượng hình ảnh vẫn đảm bảo. Thực chất của kỹ thuật “nén video số” là loại bỏ đi các thông tin dư thừa. Các thông tin dư thừa trong nén video số thường là: + Độ dư thừa không gian giữa các pixel; + Độ dư thừa thời gian do các ảnh liên tiếp nhau; + Độ dư thừa do các thành phần màu biểu diễn từng pixel có độ tương quan cao; + Độ dư thừa thống kê do các kí hiệu xuất hiện trong dòng bít với xác suất xuất hiện không đều nhau; + Độ dư thừa tâm lý thị giác (các thông tin nằm ngoài khả năng cảm nhận của mắt).vv Như vậy, mục đích của nén tín hiệu video là : - Giảm tốc độ dòng bít của tín hiệu gốc xuống một giá trị nhất định đủ để có thể tái tạo ảnh khi giải nén; - Giảm dung lượng dữ liệu trong lưu trữ cũng như giảm băng thông cần thiết; 63
  64. - Tiết kiệm chi phí trong lưu trữ và truyền dẫn dữ liệu trong khi vẫn duy trì chất lượng ảnh ở mức chấp nhận đựơc. Với nguyên nhân và mục đích của việc nén tín hiệu được trình bày như ở trên, ngày nay có nhiều các chuẩn nén đã ra đời như: JPEG, M-JPEG, MPEG, DV Trong đó chuẩn nén MPEG được sử dụng nhiều trong nén video trong truyền hình với thành công của chuẩn nén video MPEG-2 trong truyền hình số và chuẩn nén MPEG-4 trong truyền hình trên mạng Internet. Hình 2.3.1: Sơ đồ khối hệ thống nén ảnh tiêu biểu 3.8. Các phương pháp nén ảnh trong hệ thống video thời gian thực Việc lựa chọn kỹ thuật nén phụ thuộc vào chất lượng ảnh và giới hạn thời gian trễ. Các tiêu chuẩn về các hệ thống nén ảnh dựa trên tuỳ chọn này để đưa ra các chuẩn phù hợp. Trong hệ thống truyền ảnh động (video), người ta thường sử dụng phương pháp nén theo tiêu chuẩn MPEG (như MPEG-1, MPEG-2, MPEG-4). Trong đó, điểm ảnh là thành phần cơ bản nhất và được nhóm thành từng khối 8 × 8 điểm ảnh (block), một nhóm 4 × 4 block này hình thành một khối 16 × 16 điểm ảnh gọi là Macroblock(MB). Một slice là một dãy các MB liên tiếp giữa hai ký hiệu đánh dấu tái đồng bộ (sync.marker). Các thành phần cấu trúc cao hơn của chuỗi video là khung ảnh (frame), đây chính là các ảnh thực sự của chuỗi video. Có 3 khung ảnh tiêu biểu: khung I, khung P, và khung B. cuối cùng là nhóm các khung (GOP) bắt đầu với khung I và kết thúc với khung P hoặc B. 3.9 Các tiêu chuẩn nén ảnh Các tiêu chuẩn quan trọng bao gồm: - JPEG: dùng cho nén ảnh tĩnh, phát triển bởi sự kết hợp giữa ITU-TS và ISO. - MPEG-1, MPEG-2, MPEG-4, MPEG-7: do Ủy ban ISO IEC/JTC1/SC29- /WG11 phát triển cho mã hoá kết hợp giữa video và audio. - H.261: do Nhóm nghiên cứu XI phát triển và được biết rộng rãi như tiêu chuẩn mã hoá video cho các dịch vụ nghe nhìn tốc độ n × 64Kbps. - ITU-TS H.263 cho các ứng dụng điện thoại thấy hình dưới tốc độ dưới 64Kbps. 64
  65. Mặc dù các tiêu chuẩn được giới thiệu ở trên phù hợp cho từng loại ứng dụng riêng biệt. Tuy nhiên, chúng cũng có chung các nguyên tắc cơ bản. Sự khác biệt giữa các chuẩn phụ thuộc chủ yếu vào yêu cầu đặc biệt của từng ứng dụng. Trong đó, tiêu chuẩn MPEG-4 được xem như một chuẩn tổng quát hoá của chuẩn H.263, vì vậy, việc khảo sát dựa trên chuẩn này sẽ có tính chất áp dụng chung cho cả hai chuẩn. 3.7.1 Kỹ thuật nén ảnh JPEG JPEG ( Joint Photographic Expert Group ) là tên của một tổ chức nghiên cứu về các chuẩn nén ảnh (trước đây là ISO) được thành lập vào năm 1982. Năm 1986, JPEG chính thức được thiết lập nhờ sự kết hợp giữa nhóm ISO/IEC và ITV. Tiêu chuẩn này có thể được ứng dụng trong nhiều lĩnh vực : lưu trữ ảnh, Fax màu, truyền ảnh báo chí, ảnh cho y học, camera số v.v Tiêu chuẩn JPEG được định ra cho nén ảnh tĩnh đơn sắc và màu. Tuy nhiên cũng được sử dụng cho nhiều ứng dụng với ảnh động bởi vì nó cho chất lượng ảnh khôi phục khá tốt và ít tính toán hơn so với nén MPEG. Nén JPEG có thể thực hiện bởi bốn mode mã hóa đó là: a) Mã tuần tự (sequential DCT-based) : ảnh được mã hóa theo kiểu quét từ trái qua phải, từ trên xuống dưới dựa trên khối DCT. b) Mã hóa lũy tiến (progressive DCT-based) : ảnh được mã hóa bằng kiểu quét phức hợp theo chế độ phân giải không gian cho các ứng dụng trên kiểu băng hẹp và do đó thời gian truyền dẫn có dài. c) Mã hóa không tổn thất (lossless) : ảnh được đảm bảo khôi phục chính xác cho mỗi giá trị mẫu của nguồn. Thông tin không cần thiết sẽ mới cắt bỏ cho nên hiệu quả nén thấp hơn so với phương pháp có tổn thất. d) Mã hóa phân cấp (hierarchical) : ảnh được mã hóa ở chế độ phân giải không gian phức hợp, để cho những ảnh có độ phân giải thấp có thể được truy xuất và hiển thị mà không cần giải nén như những ảnh có độ phân giải trong không gian cao hơn. 65
  66. Hình 2.3.3 Sơ đồ mã hóa và giải mã theo JPEG JPEG - viết tắt của nhóm từ Joint Photographic Experts Group. Nó được CCITT(International Telegraph and Telephone Consultative Committee) công nhận và đã được công nhận là chuẩn ISO năm 1991. Nó có các đặc điểm sau: 1. Tỷ lệ nén cao 2. sử dụng nhiều tham số để hiệu chỉnh các tỉ lệ nén, chất lượng nén 3. Rất tốt cho các loại ảnh đen trắng và các ảnh có tone thay đổi liên tục 4. Không quá phức tạp cho cả phần mềm và phần cứng. Quá trình nén JPEG có thể tóm tắt gồm các bước sau : 1- Chuyển đổi không gian màu - Chuyển ảnh từ không gian màu RGB sang không gian màu (brightness, Hue, Saturation). Lý do mắt người nhận ra những thay đổi nhỏ của thành phần luminance nhưng không nhậy cảm với sự thanh đổi của thành phần chrominance, người ta dựa vào điều này để bỏ bớt dữ liệu của thành phần chrominance . Việc chuyển đổi không gian màu trong Jpeg và Mpeg được thực hiện theo công thức sau : 66
  67. sử dụng ba tham số Y, Cb, Cr ; Y ứng với brightness (Độ sáng, độ chói) Cb,Cr là hai thành phần ứng với Hue (sắc màu) và Saturation(độ đậm nhạt). với y thuộc khoảng [16, 235], khi đó việc chuyển không gian màu được thực hiện theo công thức sau: Y = (77/256)R + (150/256)G + (29/256)B, Cb = −(44/256)R − (87/256)G + (131/256)B + 128, Cr = (131/256)R − (110/256)G − (21/256)B + 128; Phép chuyển ngược từ YCbCr theo công thức : R=Y+1.371(Cr − 128) ; G=Y − 0.698(Cr − 128) − 0.336(Cb − 128) ; B=Y+1.732(Cb − 128). 2- Giảm độ phân giải Sau khi chuyển đổi không gian màu , người ta giảm độ phân giải của ảnh gốc, để làm giảm dữ liệu của thành phần Hue và Saturation. Việc làm này có thể theo các tỉ lệ khác nhau. ví dụ độ phân giải có thể thay đổi theo tỉ lệ 2:1 giữa hàng và cột 3. – Chia ảnh thành các khối 8 x8 Ảnh màu được chia thành các khối 8 x8 , coi khối này là một đơn vị dữ liệu. các đơn vị dữ liệu được nén riêng biệt. Trong trường hợp kích thước ảnh không là bội của 8, ta thêm hàng vào hàng cuối ảnh, thêm cột vào cột cuối bên phải. 4- Thực hiện biến đổi cosin trên sơ đồ zizag Sử dụng phép biến đổi cosin để biến đổi trên khối 8 x8 ( đơn vị dữ liệu ). Phép biến đổi dược thực hiện trên mảng 8 x 8 hay trên đơn vị dữ liệu ảnh theo công thức sau : Khi giải nén sử dụng phép biến đổi cosin ngược theo công thức 67
  68. Để mã hóa entropy các hệ số được lượng tử hóa Fq(u,v), trước hết, cần biến đổi mảng hai chiều của các hệ số Fq(u,v) thành chuỗi số một chiều bằng cách quét zig- zag. Việc xử lý 64 hệ số của khối 8x8 pixel bằng cách quét zig-zag làm tăng tối đa chuỗi các giá trị 0 và do vậy làm tăng hiệu quả nén khi dùng RLC. 5.- Lượng hóa : Sau khi biến đổi cosin trên các đơn vị dữ liệu ta nhận được dãy có 64 thành phần , các thành phần này gọi là các hệ số lượng tử hay hệ số QC ( quantization coefficient -QC) .Các hệ số QC được làm tròn về dạng số nguyên. Sau đó người sử dụng nhiều kĩ thuật khác nhau để giảm kích thước dữ liệu của các thành phần này. Chẳng hạn kỹ thuật lưu giữ sự sai khác tương đối của các hệ số QC hoặc sử dụng các bảng lượng hóa màu đã được khuyến cáo bởi nhóm Jpeg. 6- Sử dụng kỹ thuật nén Sử dụng kỹ thuật nén RLE hoặc mã Hufman, mã số học để mã các hệ số QC. Mã số học được coi là kỹ thuật mã tối ưu. 2.3.2.11 Phương pháp nén ảnh động M – JPEG M – JPEG là sự mở rộng của JPEG. Vì nén M – JPEG chỉ thực hiện trong mỗi ảnh, điều đó dẫn đến hiệu quả (tỉ số nén) thấp hơn so với các phương pháp nén ảnh động MPEG sẽ được xét sau đây. Nén ảnh động theo phương pháp M – JPEG có dặc điểm như sau: • Tín hiệu 48 Mbit/s ( hệ số nén 3,5 ) cho kết quả ảnh rất tốt. • Tín hiệu 36 Mbit/s ( hệ số nén 4,7 ) cho kết quả ảnh có nhiễu với mức độ chất lượng nhất định. • Tín hiệu 24 Mbit/s cho kết quả ảnh có nhiễu nhìn thấy, chất lượng ảnh khôi phục không đủ dùng cho mục đích chuyên dùng. 68
  69. Trong trường hợp nén với tỉ số cao sẽ xuất hiện các ô vuông ( Artifacts ) trên ảnh khôi phục, đó là các đặc trưng của các hệ số DC. Nếu mã hóa nhiều lần thì hiệu ứng trên sẽ tăng lên. Với những đặc điểm trên, chuẩn M – JPEG có ưu điểm khi sử dụng trong công nghệ sản xuất chương trình truyền hình. Vì các ảnh được mã hóa độc lập với nhau nên việc thực hiện dựng chính xác tới từng ảnh là hoàn toàn có thể thực hiện được. Đây chính là điểm mạnh của M – JPEG sử dụng trong các thiết bị sản xuất chương trình tiện dụng cho studio và dựng hậu kỳ, làm kỹ xảo với giá thành hệ thống phù hợp, không gây tổn hao trong quá trình dựng. Tuy nhiên, đối với các thiết bị sử dụng định dạng nén M – JPEG có các nhược điểm : • Mặc dù sử dụng cùng một phương pháp nén M – JPEG trong các thiết bị của mình, các sản phẩm của các nhà máy khác nhau cũng không hoàn toàn giống nhau về mặt biểu diễn cũng như phương pháp xử lý đối với tín hiệu video được nén. Chính vì vậy các thiết bị này rất khó có thể trao đổi trực tiếp số liệu cho nhau. • Các thiết bị sử dụng phương pháp nén theo định dạng M – JPEG không thể sử dụng cho truyền dẫn, phát sóng vì tốc độ dòng bit sau khi được nén còn cao. 3.7.2 Chuẩn nén MPEG, chuẩn H.26X 3.7.2 .1 Giới thiệu chung về MPEG - MPEG (Moving Picture Expert Group) là nhóm chuyên gia về hình ảnh, được thành lập từ tháng 2 năm 1988 với nhiệm vụ xây dựng tiêu chuẩn cho tín hiệu Audio và Video số. Ngày nay, MPEG đã trở thành một kỹ thuật nén Audio và Video phổ biến nhất vì nó không chỉ là một tiêu chuẩn riêng biệt mà tuỳ thuộc vào yêu cầu cụ thể của từng thiết bị sẽ có một tiêu chuẩn thích hợp nhưng vẫn trên cùng một nguyên lý thống nhất. - Tiêu chuẩn đầu tiên được nhóm MPEG đưa ra là MPEG-1, mục tiêu của MPEG-1 là mã hoá tín hiệu Audio-Video với tốc độ khoảng 1.5Mb/s và lưu trữ trong đĩa CD với chất lượng tương đương VHS. - Tiêu chuẩn thứ 2 : MPEG-2 được ra đời vào năm 1990, không như MPEG-1 chỉ nhằm lưu trữ hình ảnh động vào đĩa với dung lượng bit thấp. MPEG-2 với “công cụ ” mã hoá khác nhau đã được phát triển. Các công cụ đó gọi là “Profiles” được tiêu chuẩn hoá và có thể sử dụng để phục vụ nhiều mục đích khác nhau. - Tiêu chuẩn tiếp theo mà MPEG đưa ra là MPEG-4, được đưa ra vào tháng 10 năm 1998, đã tạo ra một phương thức thiết lập và tương tác mới với truyền thông nghe nhìn trên mạng Internet, tạo ra một phương thức sản xuất, cung cấp và tiêu thụ mới các nội dung video trên cơ sơ nội dung và hướng đối tượng (content/object- based). 69