Thực hiện thuật toán nén thoại và thực nghiệm trên TMS320C6713
Bạn đang xem tài liệu "Thực hiện thuật toán nén thoại và thực nghiệm trên TMS320C6713", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
thuc_hien_thuat_toan_nen_thoai_va_thuc_nghiem_tren_tms320c67.pdf
Nội dung text: Thực hiện thuật toán nén thoại và thực nghiệm trên TMS320C6713
- THỰC HIỆN THUẬT TOÁN NÉN THOẠI VÀ THỰC NGHIỆM TRÊN TMS320C6713 Phạm Huỳnh Quang Thành1 và Hoàng Đình Chiến 2,* 1 Học viên cao học trường Đại học SPKT Hồ Chí Minh 2 Bộ môn viễn thông, Khoa Điện – Điện tử, trường Đại học Bách Khoa Hồ Chí Minh *Thông tin liên lạc của tác giả (email): thanhphq87@gmail.com và hdchien@hcmut.edu.vn Tóm tắt bằng Tiếng Việt Những ứng dụng mới liên quan đến mã hóa tiếng nói đã gia tăng trong quá khứ. Lĩnh vực mã hóa tiếng nói đóng vai trò quan trọng trong hệ thống thông tin di động. Chính vì vậy, các nhà nghiên cứu và những cải thiện các phương pháp mã hóa tiếng nói là động lực thúc đẩy thị trường. Trong bài báo này, chúng ta phát triển một bộ mã thời gian thực đối với LPC-10e. Thuật toán này sẽ được thực hiện trên kit DSP (Digiatal Signal Processor) TMS320C6713 của hãng Texas theo tiêu chuẩn LPC-10e FS1015. Khai thác thuật toán PESQ (Perceptual Evaluation of Speech Quality) dùng để đo lường chất lượng tiếng nói. Từ khóa: Thuật toán, mã hóa tiếng nói, LPC-10e,và đánh giá chất lượng. Tóm tắt bằng Tiếng Anh New applications involving speech coding have increased considerably. The field of speech coding has played an important role in mobile communication systems. Hence, research and improvement of speech coding methods are to promote the needs of the market. In this paper, we develop a real-time speech coder of the LPC-10e algorithm. The speech coder is implemented on Texas Instruments TMS320C6713 Digital Signal Processor (DSP) according to LPC-10e Federal Standard 1015. Finally, Perceptual Evaluation of Speech Quality (PESQ) algorithm is used for measuring the voice quality. Key words: : Algorithm, LPC-10e, and quality evaluation. xem xét. Chẳng hạn: độ phức tạp, độ trễ, và 1. GIỚI THIỆU CHUNG hiệu suất. Mã hóa tiếng nói là một dạng của nén suy hao. PESQ là một tiêu chuẩn mới của ITU để đánh Nó là nền tảng cho hoạt động của mạng điện thoại công cộng (PSTN), hệ thống điện thoại giá chất lượng tiếng nói trong mạng truyền truyền hình, thông tin di động, và truyền tiếng thông. Đây vẫn là vấn đề phức tạp trong khi nói trên giao thức Internet (VOIP). Mục đích băng thông và tốc độ xử lý bị giới hạn. Trong của mã hóa tiếng nói giảm tốc độ bit đến mức thông tin di động, băng thông rất hạn chế. Đối thấp nhất nhưng vẫn duy trì được độ trễ và với phương pháp truyền thống để xác định chất lượng cho ứng dụng cụ thể nào đó. Chính chất lượng tiếng nói là tiến hành các thử vì vậy, chúng ta tiết kiệm được băng thông và nghiệm chủ quan đối với con người. Các mang lại hiệu quả kinh tế cao. Luôn luôn đánh hướng dẫn được đưa ra trong khuyến nghị đổi giữa giảm tỉ lệ bit và đảm bảo chất lượng P.800/P.830. Kết quả của những thử nghiệm và dễ hiểu. Tuy nhiên, tùy thuộc vào ứng dụng này được xét thông qua MOS nhưng như vậy cụ thể, và nhiều hạn chế khác cũng phải được tốn kém và không thực tế. 1
- Chúng ta có MOS được thể hiện trong bảng 1 Bảng 1. Thang MOS Phần cứng như trên hình 1 được dùng cho bài Grade(MOS) Subjective Quality báo này là DSP TMS320C6713 được thể hiện opinion trên hình 1. Chip của DSK là TMS320C6713. 5 Excellent Imperceptible Transparent Nó là 32 Bit Floating Point với tốc độ xung 4 Good Perceptible, but Toll nhịp 167 – 225 MHz. Khi nó được cấu hình not annoying với tốc độ xung nhịp cao nhất, thì DSP có thể 3 Fair Slightly Communication thực hiện 1800 MIPS(Million Instructions per annoying Second). Với cấu hình như vậy, DSP chứng 2 Poor Annoying Synthetic minh là sức mạnh xử lý cực kỳ mạnh cho thuật toán âm thanh và tiếng nói. 1 Bad Very annoying Bad Trong vài thập kỷ vừa qua, có nhiều phương pháp mã hóa tiếng nói được đưa ra. Phương 2. MÔ HÌNH LPC pháp mã hóa được chia làm hai loại: mã hóa 2.1 Mô hình vật lý dạng sóng và mã hóa nguồn. Mã hóa dạng Hệ thống phát âm của con người bao gồm phổi, sóng hoạt động ở tốc độ bit cao và có chất khí quản, thanh quản, khoang miệng và lượng tốt. Nó có khả năng tốt trong môi trường khoang mũi như thể hiện trong hình 2. Thanh nhiễu, lỗi kênh truyền và hiệu suất cao trong quản có nếp gấp được gọi là dây thanh (ống môi trường multi-voice. Trong khi đó, phương âm thanh) khoảng 17 cm đối với nam giới. pháp mã hóa nguồn hoạt động ở tốc độ bit thấp Khoang miệng đóng vai trò một hộp cộng băng cách ước lượng, số hóa, và mô phỏng lại hưởng, nó có thể được kiểm soát bởi các bộ bộ máy phát âm tại nơi nhận. Sau đó, nơi nhận phận phát âm (môi, lưỡi, hàm và vòm miệng). này sẽ tái tạo lại tiếng nói thông qua bộ tạo Khoang miệng có một ống dài khoảng 12 cm nhiễu trắng và bộ tạo xung để tống hợp lại đối với nam giới và cuối cùng của mũi và vòm tiếng nói. Dựa vào điều này, Bộ quốc phòng miệng. Vòm miệng mềm kiểm soát không khí Mỹ (DOD) đưa ra tiêu chuẩn FS-1015 gọi là qua đường mũi hoặc miệng. LPC-10e, với tốc độ bit 2400bits/s. Tiêu chuẩn FS-1015 dựa trên mã hóa dự báo tuyến tính (LPC) được trình bày như sau: Hình 2. Mô hình tạo tiếng nói Hình 1 Sơ đồ khối của C6713 DSK Khi chúng ta nói: - Không khí được đẩy từ phổi thông qua vùng thanh âm và ra khỏi miệng tạo thành tiếng nói. 2
- - Đối với âm hữu thanh, dây thanh âm rung Xét một frame tín hiệu tiếng nói: động (mở và đóng). Tốc độ mà các dây thanh S n s 0 , s 1 , , s 179 âm rung động xác định độ cao của giọng nói. Tín hiệu s(n) có quan hệ với u(n) được cho bởi Phụ nữ và trẻ em có xu hướng có cường độ phương trình: cao (dao động nhanh) trong khi người trưởng 10 s n a s n i u n thành có xu hướng thấp (dao động chậm). i i 1 - Đối với âm thanh vô thanh, dây thanh âm Tham số a1, a 2 , , a 10 được chọn để tối không rung nhưng vẫn liên tục được mở ra. thiểu hóa năng lượng của u(n) - Hình dạng của vùng thanh âm xác định các 179 2 âm thanh mà nói. f u n - Khi chúng ta nói, vùng thanh âm thay đổi n 0 Chúng ta lấy đạo hàm của f theo a và cho nó đường hình dạng tạo ra âm thanh khác nhau. i bằng zero: - Hình dạng của vùng thanh âm thay đổi tương df da 0 đối chậm (khoảng 10msec đến 100msec). 1 df da2 0 - Lượng không khí từ phổi của bạn xác định độ ồn của tiếng nói. df da 0 2.2 Mô hình toán: 10 Chúng ta có 10 phương trình tuyến tính với 10 Sơ đồ LPC cổ điển gồm có bộ xung theo chu tham số chưa biết: kỳ và bộ tạo nhiễu trắng Gaussian được kết nối RRRR(0) (1) (9) a1 (1) với bộ lọc tổng hợp được thể hiện trong hình RRRR(1) (0) (8) a (2) 2 3. RRRR(2) (1) (7) a3 (3) RRRR(9) (8) (0) a10 (10) Chúng ta tìm U,UV, G bằng phương pháp tự tương quan. 4. MÔ PHỎNG TRÊN MATLAB Hình 3. Sơ đồ tổng hợp LPC Quan hệ giữa mô hình vật lý và mô hình toán: Vùng thanh âm ↔ H(z) Không khí ↔ u(n) Hữu thanh ↔ V(Voiced) Chu kỳ ↔ T(Pitch) Vô thanh ↔ UV(Unvoiced) Hình 4. Mô phỏng trên Matlab Lượng không khí ↔ G(Gain) Kết quả mô phỏng trên Matlab cho chúng ta 3. PHÂN TÍCH LPC thấy được tín hiệu tiếng nói tổng hợp được bị suy hao rất nhiều so với các phương pháp khác. 3
- Đây chính là sự trả giá giữa tốc độ bit thấp và Bảng 3. Tính toán tốc độ bit của LPC chất lượng tín hiệu. Chúng ta thực hiện đánh Tham số Tính toán giá dựa trên thuật toán PESQ ta được kết quả Sample rate 8000 samples/second nhỏ hơn 2 như trên bảng 1. Đối với tiếng nói Samples per segment 180 samples/segment của nam (trưởng thành) và nữ (trưởng thành) Segment rate =Sample Rate/ tự nhiên hơn khi chúng ta thực hiện trên Samples per Segment DSP320C6713. Sample =Rate/ Samples per Segment =(8000 5. THỰC HIỆN TRÊN DSP samples/second)/(180 Phần này không phải là để mô tả đầy đủ samples/second) LPC-10e, nhưng để mô tả các thuật toán thực Bit rate =Segment size * tế đã được thực hiện trên DSP. Dưới đây là Segment Rate một bản tóm tắt của một số các tính năng = (54 bits/segment) * (44.44 chính của LPC-10e. segments/second) - Tốc độ lấy mẫu 8000Hz =2400 bits/second - 10 hệ số LPC - Tốc độ dữ bit 2400bits/s - Frame có chiều dài 22,5ms tương đương với 5.1 Mã hóa 180 mẫu tại tốc độ lấy mẫu 8000Hz Sơ đồ khối của bộ mã hóa được thể hiện trên - 54 bit trên mỗi segment hình 5. Tổng số bit cần thiết cho từng segment là 54 bit. Tổng số này được giải thích trong bảng 2. 1. Ngõ vào tín hiệu được đưa qua cửa sổ Chúng ta có tốc độ lấy mẫu 8000Hz và được hamming với overlap là 50% chia thành 180mẫu/segment. Điều này có 2. Tín hiệu được đưa qua bộ lọc Pre-emphasis nghĩa xấp xỉ 44,4segment và tốc độ bit là 2400 3. Tính toán dữ liệu cửa sổ bằng phương pháp bits/s như trong bảng 3. tự tương quan. Bảng 2. Phân phối bit cho frame 4. Hệ số LPC được tìm bằng thuật toán Tham số Bits Levinson-Durbin Recursion. Hữu thanh/vô thanh 1 bit 5. Segment tiếng nói được lọc bởi hệ số LPC để có residue. a1 và a2 6 bits 6. Xác định tín hiệu tiếng nói là hữu thanh hoặc a và a 10 bits 3 4 vô thanh. Quá trình này được thực hiện bởi hai a5, a6, a7, a8 10 bits tham số. a9 3 bits 7. Tự tương quan của residue được dùng để xác định chu kỳ. a10 2 bits G 5 bits 8. T, G, V/UV và hệ số LPC được kết hợp lại tạo thành segment tiếng nói. Như vậy, segment Đồng bộ 1 bit tiếng nói hoàn toàn được mã hóa. Chu kỳ 6 bits Tổng cộng 54 bits 4
- Hình 6. Sơ đồ khối giải mã Hình 5. Sơ đồ khối mã hóa 6. ĐÁNH GIÁ CHẤT LƯỢNG 5.2 Giải mã Sau khi thực hiện trên TMS320C6713, chúng Tiếng nói đã được mã hóa hoàn toàn như trên ta đánh giá thông qua thuật toán PESQ. Kết hình 6, các thuật toán cần thiết có thể được thực quả như trên bảng 3 hiện để tái tạo lại tiếng nói. Kết quả cuối cùng Bảng 3. Kết quả sẽ là tiếng nói được tổng hợp có thể được MOS Nam(người lớn) Nữ(người lớn) truyền với ít băng thông nhất có thể nếu cần 2.0915 2.2643 thiết. Hy vọng rằng tiếng nói được tổng hợp tái Chúng ta có MOS = 2 phù hợp với giá trị được tạo là một xấp xỉ hiểu đối với tín hiệu tiếng nói thể hiện trong bảng 1. Tiếng nói đối với một ban đầu. Các bước sau đây giải thuật toán giải nam người lớn nghe có vẻ hơi bị méo và mã. không tự nhiên, trong khi tiếng nói đối với phụ nữ trưởng thành có vẻ nặng nề méo mó và 1. Tạo mô hình kích thích - Các hệ số LPC đặc nhân tạo. Thực tế, tiếng nói nữ có tần số cao trưng cho khung sẽ hoạt động như một bộ lọc hơn nên nghe không rõ. Đây có thể là bằng đường. Mà đó là đầu vào cho các bộ lọc là kích chứng chứng mình sự mất mát ảnh hưởng đến thích. chất lượng tiếng nói kết hợp với phân tích 2. Đối với âm hữu thanh, sự kích thích sẽ là một LPC. tín hiệu định kỳ của tất cả các điểm zero với 7. KẾT LUẬN xung từng giai đoạn sân. Đây là một mô hình Như chúng ta đã biết, bộ mã dùng cho mạng đơn giản của sự kích thích. Đối với âm vô thanh, GSM có tốc độ bit là 13kbps. Trong khi đó, bộ kích thích sẽ chỉ đơn giản là nhiễu trắng. mã mà chúng ta thực hiện trong bài báo này có 3. Bộ lọc ngược sẽ kích thích thông qua hệ số tốc độ bit 2.4kbps. Chính vì tốc độ bit thấp LPC. như vậy, chúng ta tiết kiệm được băng thông, 4. Ngõ ra sẽ được đưa qua bộ lọc de-emphasis. và mang lại hiệu quả kinh tế cao. Các thuật toán nén tiếng nói một cách đơn giản 5. Ngõ ra của bộ lọc de-emphasis là phù hợp với và hiệu quả để nén tiếng nói. Tốc độ bit thấp năng lượng G của segment. hơn so với bất kỳ bộ mã khác mà tồn tại ngày nay, nhưng điều này là trả giá chi phí đáng kể chất lượng tiếng nói. Cuối cùng, bài báo này đã chứng minh rằng bộ mã có tốc độ bit rất thấp có thể được thực hiện bằng cách sử dụng các thuật toán tương đối đơn giản. 5
- 8. LỜI CẢM ƠN Tác giả gửi lời cám ơn đến PGS.Ts Hoàng Đình Chiến và Ts Phan Văn Ca đã giúp đỡ trong quá trình viết bài báo này. 9. TÀI LIỆU THAM KHẢO [1] J. Gibson, “Speech coding methods, standards, and applications,” Circuits and Systems Magazine, IEEE, vol. 5, no. 4, pp. 30–49, 2005. [2] A. M. Kondoz, Digital Speech:Coding for Low Bit Rate Communication Systems, 2nd ed. Wiley, 2004. [3] R. Chassaing, Digital Signal Processing and Applications with the C6713 and C6416 DSK, 2nd ed. pub-SV, 2004. [4] J. W. Lajos L. Hanzo, Clare Somerville, Voice and Audio Compression for Wireless Communications, 2nd ed. Wiley IEEE Press, 2007. [5] J. Bradbury, “Linear predictive coding,” published, 2000. [6] Document about DSP TMS320C6713. [7] html [8] S.J.Orfanidis, Introduction to signal processing, 1st ed. Pearson Education, 2010. [9] P. N. Nuggehally S. Jayant, Digital Coding of Waveforms: Principles and Applications to Speech and Video, 1st ed. Prentice-Hall, 1984. [10] L. R. Randy Goldberg, A Practical Handbook of Speech Coders, 2nd ed. CRC Press, 2000. 6
- BÀI BÁO KHOA HỌC THỰC HIỆN CÔNG BỐ THEO QUY CHẾ ĐÀO TẠO THẠC SỸ Bài báo khoa học của học viên có xác nhận và đề xuất cho đăng của Giảng viên hướng dẫn Bản tiếng Việt ©, TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HỒ CHÍ MINH và TÁC GIẢ Bản quyền tác phẩm đã được bảo hộ bởi Luật xuất bản và Luật Sở hữu trí tuệ Việt Nam. Nghiêm cấm mọi hình thức xuất bản, sao chụp, phát tán nội dung khi chưa có sự đồng ý của tác giả và Trường Đại học Sư phạm Kỹ thuật TP. Hồ Chí Minh. ĐỂ CÓ BÀI BÁO KHOA HỌC TỐT, CẦN CHUNG TAY BẢO VỆ TÁC QUYỀN! Thực hiện theo MTCL & KHTHMTCL Năm học 2016-2017 của Thư viện Trường Đại học Sư phạm Kỹ thuật Tp. Hồ Chí Minh.