Đồ án Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt (Phần 1)

pdf 22 trang phuongnguyen 120
Bạn đang xem 20 trang mẫu của tài liệu "Đồ án Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt (Phần 1)", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfdo_an_nhan_dang_tieng_noi_the_hien_trang_thai_khuon_mat_phan.pdf

Nội dung text: Đồ án Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt (Phần 1)

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM KHOA ĐIỆN - ĐIỆN TỬ ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ KỸ THUẬT ĐIỆN - ĐIỆN TỬ NHẬN DẠNG TIẾNG NÓI THỂ HIỆN TRẠNG THÁI KHUÔN MẶT GVHD: PGS.TS. TRẦN THU HÀ SVTH: TRƯƠNG MINH THIỆN MSSV: 10101127 S K L 0 0 4 1 7 7 Tp. Hồ Chí Minh, tháng 1/2016
  2. BỘ GIÁO DỤC VÀ ĐẠO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM KHOA ĐIỆN ĐIỆN TỬ BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP ĐỒ ÁN TỐT NGHIỆP NGÀNH: ĐIỆN – ĐIỆN TỬ Đềtài: NHẬN DẠNG TIẾNG NÓI THỂ HIỆN TRẠNG THÁI KHUÔN MẶT GVHD: PGS.TS. TRẦN THU HÀ SVTH: TRƯƠNG MINH THIỆN MSSV : 10101127 Thành phố Hồ Chí Minh – 01/2016
  3. Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt GVHD: PGS.TS. TRẦN THU HÀ LỜI CẢM ƠN Tôi xin chân thành cảm ơn gia đình của tôi, đặc biệc là cha mẹ tôi đã tạo mọi điều kiện cho tôi ăn học cho đến ngày hôm nay. Chính họ là nguồn động viên lớn nhất ủng hộ tôi, giúp đỡ tôi trong suốt quá trình học tập cũng nhƣ việc thực hiện luận văn này. Tôi xin chân thành cám ơn cô hƣớng dẫn PGS. TS. TRẦN THU HÀ trƣờng Đại học Kỹ Thuật Tp Hồ Chí Minh đã tận tình chỉ dạy, hƣớng dẫn, đóng góp nhiều ý kiến quý báu trong suốt quá trình thực hiện luận văn. Tôi cũng xin chân thành cám ơn thầy cô trong khoa Điện - Điện Tử nói riêng và thầy cô trƣờng Đại Học Sƣ Phạm Kỹ Thuật Tp Hồ Chí Minh đã tạo ra cho tôi một môi trƣờng học tập thật tuyệt vời và đã tạo mọi điều kiện cho tôi hoàn thành luận văn này. Xin cám ơn tất cả các bạn học viên và các anh chịđã đóng góp những ý kiến và giúp đỡ tôi hoàn thành luận văn này. Ngƣời thực hiện luận văn TRƢƠNG MINH THIỆN i SVTH: TRƢƠNG MINH THIỆN
  4. Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt GVHD: PGS.TS. TRẦN THU HÀ TÓM TẮT Ngay khi phát minh ra máy tính, con ngƣời đã mơ ƣớc máy tính có thể nói chuyện với mình. Yêu cầu đơn giản nhất là máy có thể xác định đƣợc từ ngữ mà chúng ta nói với máy. Đó là mục tiêu của ngành nhận dạng tiếng nói. Đối với con ngƣời, việc nghe, nhất là nghe tiếng mẹ đẻ là một vấn đề khá đơn giản. Còn đối với máy tính, xác định một chuỗi tín hiệu âm thanh là sự phát âm của một từ nào hoàn toàn không đơn giản, khó khăn cũng nhƣ việc học nghe ngoại ngữ của chúng ta. Lĩnh vực nhận dạng tiếng nói đã đƣợc nghiên cứu hơn 4 thập kỉ và hiện nay mới chỉ có một số thành công. Có thể kể đến hệ thống nhận dạng tiếng Anh (ví dụ: phần mềm Via Voice của IBM, hệ thống nhận dạng tiếng nói tích hợp của OfficeXP ). Các hệ thống này hoạt động khá tốt (cho độ chính xác khoảng 90 - 95%) nhƣng còn xa mới đạt đến mức mơ ƣớc của chúng ta: có một hệ thống có thể nghe chính xác và hiểu hoàn toàn những điều ta nói. Riêng với tiếng Việt, lĩnh vực nhận dạng tiếng nói còn khá mới mẻ.Chƣa hề thấy xuất hiện một phần mềm nhận dạng tiếng Việt hoàn chỉnh trên thị trƣờng. Số công trình nghiên cứu về nhận dạng tiếng nói tiếng Việt đƣợc công bố rất hiếm hoi, và kết quả còn hạn chế về bộ từ vựng, độ chính xác . Tiếng Việt có nhiều đặc tính khác với các ngôn ngữ đãđƣợc nghiên cứu nhận dạng nhiều nhƣ tiếng Anh, tiếng Pháp. Do đó việc nghiên cứu nhận dạng tiếng Việt là rất cần thiết. Bên cạnh đó, việc triển khai hệ thống nhận dạng tiếng nói trên phần cứng ở Việt Nam cũng còn nhiều hạn chế, và khả năng nhận dạng còn phụ thuộc vào ngƣời nói. Nhận dạng tiếng Việt và ứng dụng để làm lệnh điều khiển vẫn còn là một lĩnh vực khá mới mẻ Vì những lí do trên, tôi chọn đề tài “Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt”, nhằm nghiên cứu các phƣơng pháp nhận dạng tiếng nói đối với tiếng Việt và thử nghiệm xây dựng một hệ thống nhận dạng cỡ nhỏ.Việc nhận dạng đƣợc thực thi trên máy tính , với bộ từ vựng gồm 5 từ đơn (vui, buồn, mệt, giận, hiền) với kết quả nhận dạng có độ chính xác khoảng hơn 90% trong điều kiện bình thƣờng. Từ khóa:Hiden Markov Model, Neural Netwoks, Hydrid ANN/HMM, MFCC methods, FFT algorithm, K-mean algorithm, Board Arduino Mega 2560. ii SVTH: TRƢƠNG MINH THIỆN
  5. Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt GVHD: PGS.TS. TRẦN THU HÀ ABSTRACT The purpose with this final master degree project was to develop a speech recognitiontool, to make the technology accessible. The development includes anextensive study of Hidden Markov Model, which is currently the state of the artin the field of speech recognition. A speech recognizer is a complex machine developedwith the purpose to understand human speech. In real life this speechrecognition technology might be used to get a gain in traffic security or facilitatefor people with functional disability. The technology can also be applied to manyother areas. However in a real environment there exist disturbances that mightinfluence the performance of the speech recognizer. The report includes an performanceevaluation in different noise situations, in a robot environment. The resultshows that the recognition rate varies from 92%, in a noise free environment, to 90% in a more noisy environment. iii SVTH: TRƢƠNG MINH THIỆN
  6. Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt GVHD: PGS.TS. TRẦN THU HÀ MỤC LỤC LỜI CẢM ƠN i TÓM TẮT ii MỤC LỤC iv DANH SÁCH CÁC HÌNH vi DANH SÁCH CÁC BẢNG vii DANH SÁCH CÁC CHỮ VIẾT TẮT viii Chƣơng 1. TỔNG QUAN 1 1.1.Tổng quan về nhận dạng tiếng nói, tình hình nghiên cứu trong và ngoài nƣớc 1 1.1.1.Nhận dạng tiếng nói 1 1.1.2.Tổng quan tình hình nghiên cứu 2 1.2.Mục tiêu và đối tƣợng nghiên cứu của đề tài 5 1.2.1.Mục tiêu 5 1.2.2.Đối tƣợng nghiên cứu 5 1.3.Nhiệm vụ và giới hạn của đề tài 6 1.3.1.Nhiệm vụ 6 1.3.2.Giới hạn 6 1.4.Phƣơng pháp nghiên cứu 6 1.5.Nội dung luận văn 7 1.6.Ý nghĩa thực tiễn của đề tài 8 Chƣơng 2. ĐẶC TRƢNG TIẾNG NÓI TIẾNG VIỆT 9 2.1.TỔNG QUAN VỀ TIẾNG NÓI 9 2.2.Các đặc trƣng cơ bản của Tiếng Việt 9 2.2.1.Âm tiết 9 2.2.2.Âm vị 11 2.2.3.Nguyên âm và phụ âm 11 2.2.4.Thanh điệu 12 Chƣơng 3. MÔ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT 13 3.1. Phân loại các hệ thống nhận dạng tiếng nói 13 3.1.1. Nhận dạng từ liên tục và nhận dạng từ cách biệt 13 3.1.2. Nhận dạng phụ thuộc ngƣời nói và độc lập ngƣời nói 13 3.2. Các yếu tố ảnh hƣởng đến kết quả nhận dạng tiếng nói : 15 3.3. Cấu trúc hệ nhận dạng tiếng nói: 16 3.4. Giải thuật hệ thống nhận dạng tiếng nói tiếng Việt dùng Markov ẩn: 17 3.5. Voice Acivation Detection (VAD): 18 iv SVTH: TRƢƠNG MINH THIỆN
  7. Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt GVHD: PGS.TS. TRẦN THU HÀ 3.6.Phƣơng pháp phân tích hệ số MFCC 19 3.6.1. Tiền xử lý 19 3.6.2. Tạo khung và cửa sổ hóa tín hiệu 23 3.6.3. Trích đặc trƣng 25 3.6.4. Hậu xử lý 31 3.7. Lƣợng tử vector: 32 3.7.1. Tổng quan về lƣợng tử vector (VQ): 32 3.7.2. Cấu trúc và tập huấn luyện VQ: 33 3.7.3. Đo độ méo: 34 3.7.4. Phân nhóm các vector huấn luyện: 34 Chƣơng 4: MÔ HÌNH MARKOV ẨN HMM 36 4.1. Quá trình Markov: 36 4.2. Mô hình Markov ẩn: 38 4.3. Giải pháp toán học cho ba bài toán cơ bản của mô hình Markov ẩn: 41 4.3.1. Bài toán 1: 41 4.3.2. Bài toán 2: 44 4.3.3. Bài toán 3: 45 4.4. Các loại mô hình Markov ẩn: 49 Chƣơng 5: THIẾT KẾ HỆ THỐNG NHẬN DẠNG VÀ PHẦN MỀM GIAO DIỆN NHẬN DẠNG 49 5.1.Thiết kế hệ thống nhận dạng tiếng nói trên máy tính 49 5.1.1.Trích đặc trƣng 50 5.1.2.Lƣợng tử hóa vector 54 5.1.3.Huấn luyện HMM 58 5.1.4.Nhận dạng bằng mô hình HMM 59 5.2.Thiết kế phần mềm giao diện nhận dạng 61 5.3. Kết quả thử nghiệm trên phần mềm nhận dạng 62 Chƣơng 6. KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 68 6.1. Kết luận 68 6.2. Nhận xét 69 6.3. Hạn chế của đề tài: 69 6.4. Hƣớng phát triển của đề tài 69 TÀI LIỆU THAM KHẢO 70 v SVTH: TRƢƠNG MINH THIỆN
  8. Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt GVHD: PGS.TS. TRẦN THU HÀ DANH SÁCH CÁC HÌNH Hình 3. 1. Ngƣời nói khác nhau sẽ phát âm khác nhau 14 Hình 3. 2. Mô hình nhận dạng tiếng nói bán độc lập ngƣời nói 15 Hình 3. 3. Cấu trúc tổng quát của một hệ thống nhận dạng tiếng nói 16 Hình 3. 4. Lƣu đồ giải thuật hệ thống nhận dạng tiếng Việt dùng Markov ẩn 17 Hình 3. 5. Đoạn mẫu âm thanh trƣớc khi VAD 18 Hình 3. 6. Đoạn mẫu âm thanh sau khi VAD 18 Hình 3. 7. Sơ đồ giải thuật phƣơng pháp phân tích thông tin tiếng nói 19 Hình 3. 8. Tiền xử lý tín hiệu 19 Hình 3. 9. Phân tích khoảng lặng của tiếng nói 21 Hình 3. 10. Tách tiếng nói khỏi khoảng im lặng theo VAD 22 Hình 3. 11. Từ tiếng nói có khoảng im lặng tách thành tiếng nói không có khoảng lặng 23 Hình 3. 12. Frame blocking và Windowing 23 Hình 3. 13. Chia khung chuỗi tín hiệu 24 Hình 3. 14. Cửa sổ Hamming với các hệ số α khác nhau 24 Hình 3. 15. Tín hiệu tiếng nói sau khi đƣợc cửa sổ hóa so với ban đầu 25 Hình 3. 16. Các bƣớc thực hiện MFCC 25 Hình 3. 17. Phổ Fourier của tín hiệu gốc và tín hiệu đã cửa sổ hóa 26 Hình 3. 18. Băng lọc tam giác melscale trên miền tần số 27 Hình 3. 19. Tính các hệ số delta 29 Hình 3. 20. Quá trình rút trích đặc trƣng 30 Hình 3. 21. Các bƣớc hậu xử lý tín hiệu 31 Hình 3. 22. Sơ đồ khối cấu trúc của VQ huấn luyện và phân lớp 33 Hình 3. 23. Lƣu đồ giải thuật VQ 35 Hình 4. 1. Xích Markov 5 trạng thái S1,S2, S5 và các xác suất chuyển trạng thái 36 Hình 4. 2. Ví dụ một mô hình Markov ẩn sáu trạng thái 39 Hình 4. 3. Mô tả các dãy phép toán đƣợc thực hiện để tính αt(i) 43 Hình 4. 4. Mô tả các dãy phép toán đƣợc thực hiện để tính biến βt(i) 44 Hình 5. 1. Sơ đồ khối mô hình huấn luyện và nhận dạng từ đơn. 50 Hình 5. 2. Lƣu đồ giải thuật thực hiện tách tiếng nói khỏi khoảng lặng. 51 Hình 5. 3. Lƣu đồ giải thuật thực hiện phân tích hệ số đặc trƣng. 52 Hình 5. 4.Minh họa lƣợng tử hóa vector 58 Hình 5. 5. Lƣu đồ giải thuật huấn luyện HMM. 59 Hình 5. 6. Lƣu đồ giải thuật nhận dạng từ đơn sử dụng HMM 60 Hình 5. 7. Giao diện nhận dạng tiếng nói. 61 Hình 5. 8.Minh họa phân tích dữ liệu tiếng nói thành các hệ số đặc trƣng để sử dụng cho huấn luyện hệ thống và nhận dạng. 63 Hình 5. 9. Kết quả nhận dạng từ “vui” 65 Hình 5. 10. Kết quả nhận dạng từ “Buon” 65 Hình 5. 11. Kết quả nhận dạng từ “Gian” 66 Hình 5. 12. Kết quả nhận dạng từ “Hien” 66 Hình 5. 13. Kết quả nhận dạng từ “Met” 67 vi SVTH: TRƢƠNG MINH THIỆN
  9. Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt GVHD: PGS.TS. TRẦN THU HÀ DANH SÁCH CÁC BẢNG Bảng 2. 1:Cấu trúc tổng quát của một âm tiết tiếng Việt 11 Bảng 5. 1. Kết quả thử nghiệm cho nhóm hệ thống học mẫu 63 Bảng 5. 2. Kết quả thử nghiệm cho nhóm mạo danh 64 vii SVTH: TRƢƠNG MINH THIỆN
  10. Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt GVHD: PGS.TS. TRẦN THU HÀ DANH SÁCH CÁC CHỮ VIẾT TẮT Thuật ngữ Từ viết tắt Ý nghĩa Artifactial Neural Network ANN Mạng nơron nhân tạo Fast Fourier Transform FFT Biến đổi Fourier nhanh Dicrette Cosine Transform DCT Biến đổi cosin rời rạc. Hidden Markov Model HMM Mô hình Markov ẩn Linear predictive code LPC Hế số dự đoán tuyến tính Mel-scale Frequency MFCC Hệ số cepstral độ đo mel Cepstral Coefficient Multi Layer Perceptron MLP Mạng perceptron truyền thẳng nhiều lớp Speech Recognition SR,ASR Nhận dạng tiếng nói Bias Ngƣỡng kích hoạt Pattern Recognition Nhận dạng mẫu Likelihood Mức độ giống Similarity Mức độ tƣơng tự Feature Đặc trƣng Spectral, spectrum Phổ tín hiệu Graphical User Interface GUI Giao diện ngƣời sử dụng viii SVTH: TRƢƠNG MINH THIỆN
  11. Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt GVHD: PGS.TS. TRẦN THU HÀ Chƣơng 1: TỔNG QUAN 1.1. Tổng quan về nhận dạng tiếng nói, tình hình nghiên cứu trong và ngoài nƣớc 1.1.1. Nhận dạng tiếng nói Nhận dạng tiếng nói bao gồm cả nhận dạng âm tiết rời rạc, liên tục, nhận dạng ngƣời nói, ngôn ngữ nói và cao cấp hơn có thể nhận dạng đƣợc trạng thái tâm lý của ngƣời nói. Có rất nhiều ứng dụng của nhận dạng tiếng nói trong đời sống xã hội nhƣ xác nhận thông tin (liên quan đến security), dịch tự động, các hệ thống phone banking, voice mail, Tuy nhiên cái mà mọi ngƣời cố gắng nghiên cứu là làm sao máy tính có thể giao tiếp với con ngƣời thông qua tiếng nói. Nhận dạng tiếng nói là một lĩnh vực của xử lý ngôn ngữ tự nhiên (Natural Language Processing), tức là về cơ bản nhận dạng tiếng nói phụ thuộc vào ngôn ngữ nói. Do vậy ngôn ngữ nhận dạng tiếng Việt rất khác so với tiếng Anh và các thứ tiếngkhác. Một ví dụ đơn giản để có thể hình dung, nếu sử dụng các engine nhận dạng tiếng Anh có sẵn (bao gồm cả software nhƣ speech engine trong Microsoft Office hay hardware nhƣ một số vi mạch xử lý tiếng nói đang bán trên thị trƣờng) thì hiệu quả đối với tiếng Việt là khá thấp. Một số không thể phân biệt đƣợc nhƣ chuẩn, chuẫn, chuân, (vì tiếng Việt có thanh điệu - tonal language, còn tiếng Anh thì không), vì vậy nhận dạng tiếng Việt chỉ có thể do ngƣời Việt làm. Nhận dạng và tổng hợp tiếng nói không thể dựa trên các mức xử lý thấp (signal processing) mà còn phải kết hợp xử lý thông tin ở các mức cao và cao nhất là tri thức. Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã đƣợc học trƣớc đó và lƣu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị. Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã đƣợc học và lƣu trữ trong bộ nhớ. Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt 1 SVTH: TRƢƠNG MINH THIỆN
  12. Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt GVHD: PGS.TS. TRẦN THU HÀ lớn giữa tiếng nói của những ngƣời nói khác nhau, tốc độ nói, ngữ cảnh và môi trƣờng âm học khác nhau. Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng. Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói. Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản: Tín hiệu tiếng nói đƣợc biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói. Nội dung của tiếng nói đƣợc biểu diễn dƣới dạng chữ viết, là một dãy các ký hiệu ngữ âm. Do đó ý nghĩa của một phát âm đƣợc bảo toàn khi chúng ta phiên âm phát âm thành dãy các ký hiệu ngữ âm. Nhận dạng tiếng nói là một quá trình nhận thức. Thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói, nhất là khi thông tin về âm học là không rõ ràng.[1] 1.1.2. Tổng quan tình hình nghiên cứu Tiếng nói là phƣơng tiện giao tiếp cơ bản nhất của loài ngƣời, nó hình thành và phát triển song song với quá trình tiến hóa của loài ngƣời. Đối với con ngƣời, sử dụng lời nói là một cách diễn đạt đơn giản và hiệu quả nhất. Ƣu điểm của việc giao tiếp bằng tiếng nói trƣớc tiên là ở tốc độ giao tiếp, tiếng nói từ ngƣời nói đƣợc ngƣời nghe hiểu ngay lập tức sau khi đƣợc phát ra. Ngày nay, nhờ sự phát triển của khoa học kỹ thuật, máy móc dần dần thay thế các lao động tay chân. Tuy nhiên để điều khiển máy móc, con ngƣời phải làm khá nhiều thao tác tốn nhiều thời gian và cần phải đƣợc đào tạo. Điều này gây trở ngại không ít đối với việc sử dụng các máy móc, thành tựu khoa học kỹ thuật. Trong khi đó, nếu điều khiển máy móc thiết bị bằng tiếng nói sẽ dễ dàng hơn. Nhu cầu điều khiển máy móc thiết bị bằng tiếng nói càng bức thiết hơn đối với các thiết bị cầm tay, nhƣ: điện thoại di động, máy Palm/Pocket PC, Để máy tính có thể nghe đƣợc tiếng nói, âm thanh con ngƣời đã xây dựng lĩnh vực nhận dạng tiếng nói. Hơn nửa thế kỷ trôi qua con ngƣời đã thu đƣợc những thành tựu đáng kể, và có 2 SVTH: TRƢƠNG MINH THIỆN
  13. Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt GVHD: PGS.TS. TRẦN THU HÀ những ứng dụng hữu ích thiết thực vào trong cuộc sống. Nhƣng dù sao khả năng nghe hiểu của máy tính vẫn còn nhiều hạn chế và khoảng cách khác xa so với thực tế. Mặt khác, nhận dạng tiếng nói chỉ đang đƣợc phát triển trên các thứ tiếng khác, còn đối với nƣớc ta nhận dạng tiếng nói vẫn còn là một lĩnh vực khá mới mẻ. 1.1.2.1. Ngoài nƣớc Hiện nay, trên thế giới có rất nhiều hệ thống nhận dạng tiếng nói đã và đang đƣợc ứng dụng rất hiệu quả nhƣ:Via Voice của IBM, Spoken Toolkit của CSLU (Central of Spoken Laguage Understanding) trong tiếng Anh, mô hình Fujisaki đƣợc trong hệ thống của tiếng Nhật, mô hình MFGI (Mixdorff – Fujisaki model of German Intonation) trong tiếng Đức, Sự phát triển vƣợt bậc của công nghệ vi xử lý và công nghệ xử lý tiếng nói trong những năm gần đây đã mở ra rất nhiều những ứng dụng khác nhau mà đáng kể nhất là các hệ thống giao tiếp, hỏi đáp thông tin qua mạng điện thoại. Có thể kể tên một số ứng dụng nhƣ: Quay số bằng giọng nói. Truy cập thông tin bằng giọng nói qua đƣờng điện thoại. Hệ thống hỗ trợ y tế qua điện thoại. Ứng dụng truy vấn thông tin trong ngân hàng. Ứng dụng chuẩn đoán, điều trị bệnh từ xa. Theo thống kê và dự báo về thị trƣờng công nghệ thông tin và truyển thông năm 2009, chi tiêu cho nghiên cứu, phần cứng, phần mềm liên quan đến công nghệ xử lý tiếng nói trong năm 2008 trên toàn thế giới đã vƣợt con số 5 tỷ đô-la Mỹ. Công nghệ xử lý tiếng nói đã thay đổi cách con ngƣời tƣơng tác với hệ thống, không còn bó buộc trong cách thức tƣơng tác truyền thống (nhƣ bấm phím trên điện thoại) mà chuyển sang tƣơng tác trực tiếp bằng giọng nói. Trong môi trƣờng kinh tế cạnh tranh, các ứng dụng dần dần đã chuyển sang tích hợp tính năng tƣơng tác âm thanh. Việc ứng dụng và khách hàng có thể tƣơng tác với nhau thông qua âm thanh không có nghĩa là loại bỏ giao diện đồ họa truyền thống mà nó cung cấp thêm một cách truy cập thông tin và dịch vụ tiện lợi, tự nhiên hơn. 3 SVTH: TRƢƠNG MINH THIỆN
  14. Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt GVHD: PGS.TS. TRẦN THU HÀ Một số ứng dụng thƣơng mại đòi hỏi sự giao tiếp giữa khách hàng và hệ thống với số lƣợng lớn, có tích hợp tính năng tƣơng tác âm thanh. Từ đó, các hệ thống giao tiếp, hỏi đáp thông tin tự động ra đời. Thông thƣờng, các hệ thống này hƣớng dẫn khách hàng thứ tự các bƣớc phải làm bằng cách phát ra các chỉ dẫn, lời nhắc thông qua các tập tin âm thanh ghi âm trƣớc hoặc qua bộ tổng hợp tiếng nói nếu nội dung không cố định. Khách hàng dùng lời nói cung cấp thông tin cho hệ thống, hệ thống xử lý thông tin, truy xuất cơ sở dữ liệu rồi gửi phản hồi thông tin dƣới dạng âm thanh tới khách hàng. 1.1.2.2. Trong nƣớc Trong nhiều năm qua, một số các hãng công nghệ lớn trên thế giới đã đầu tƣ nghiên cứu về lĩnh vực này song kết quả thu đƣợc còn khá khiêm tốn, chỉ có một số ít công ty có chíp nhận dạng tiếng nói tiếng Anh nhƣ Công ty Sony, Motorola nhƣng vẫn bị giới hạn về số từ vựng và ứng dụng. Ở Việt Nam, vấn đề nghiên cứu thiết kế cấu trúc vi mạch nhận dạng tiếng Việt vẫn còn bỏ ngỏ, mặc dù đây là hai hƣớng công nghệ cao đƣợc ƣu tiên phát triển. Phạm vi ứng dụng hệ thống nhận dạng tiếng nói tiếng Việt trong nƣớc đã đƣợc sử dụng ở các công ty, tập đoàn viễn thông lớn nhƣ: Mobifone, Vinaphone, Viettel nhƣng còn rất ít và có nhiều hạn chế, tuy nhiên cũng đã có một số mô hình nhận dạng tiếng nói đã đƣợc xây dựng nhƣ: Tổng hợp và nhận dạng tiếng Việt của GS.TSKH Bạch Hƣng Khang[9]:Nghiên cứu cơ sở lý thuyết của các hệ thống nhận dạng tiếng nói và đặc trƣng tiếng Việt. KỹThuật nhận dạng tiếng nói và ứng dụng trong điều khiển của TS. Nguyễn Văn Giáp và KS. Trần Hồng Việt[10]: Đề tài này thử nghiệm hệ thống nhận dạng tiếng nói tiếng Việt trên máy tính bằng phƣơng pháp MFCC và nhận dạng bằng mô hình Markov ẩn HMM, ứng dụng trong điều khiển khiển xe với bộ từ vựng gồm 4 từ: “trái, phải, tiến, lùi” với kết quả chính xác đạt đƣợc trên 90%. Nhận dạng tiếng Việt dùng mạng neuron kết hợp trích đặc trƣng dùng LPC và AMDF của TS. Hoàng Đình Chiến[11]:đề tài xây dựng mô hình nhận dạng tiếng nói tiếng Việt với bộ từ vựng “lên, xuống, trái, phải, tới, lùi, xoay, dừng”, cho kết quả chính xác nhận dạng trung bình là 99,4%. 4 SVTH: TRƢƠNG MINH THIỆN
  15. Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt GVHD: PGS.TS. TRẦN THU HÀ Đề tài “Thiết kế chíp nhận dạng tiếng nói Việt Nam trên nền công nghệ FPGA” của nhóm nghiên cứu trƣờng đại học Bách khoa thành phố Hồ Chí Minh do TS. Hoàng Trang vào năm 2012 làm trƣởng nhóm đã góp phần “cứng hóa” thành công các giải thuật phức tạp trong nhận dạng tiếng Việt. Trên phần cứng, có ba vấn đề rất quan trọng cần quan tâm, bao gồm: độ chính xác nhận dạng, tài nguyên phần cứng và tốc độ tính toán. Ba yếu tố này thƣờng đƣợc cân nhắc chọn lựa kỹ bởi khó có thể đạt đƣợc tối ƣu trên cùng lúc cả ba yếu tố trên. Vấn đề nhận dạng tiếng nói tiếng Việt đã có nhiều công trình nghiên cứu nhƣng chƣa đƣợc triển khai thực hiện tốt trên phần cứng là do ba yếu tố trên. Bên cạnh đó, nhận dạng tiếng nói tiếng Việt trên nền công nghệ FPGA có ƣu điểm là tính toán nhanh nhƣng nền công nghệ này chƣa đƣợc ứng dụng nhiều trên các thiết bị di động ngày nay nhƣ: điện thoại di động, máy tính bảng, robot dịch vụ, Smart TV Nhiệm vụ chính của luận văn là xây dựng mô hình nhận dạng tiếng nói tiếng Việt sử dụng thuật toán trích chọn đặc trƣng MFCC, lƣợng tử vector VQ và mô hình Markov ẩn HMM, nhận dạng tiếng nói thông qua thiết kế phần mềm giao diện trên máy tính và điều khiển mô hình hệ thống thông qua Board Arduino Mega 2560. 1.2. Mục tiêu và đối tƣợng nghiên cứu của đề tài 1.2.1. Mục tiêu Đề tài có những mục tiêu chính nhƣ sau : Nghiên cứu hệ thống nhận dạng tiếng nói bằng tiếng Việt . Nghiên cứu thuật toán trích đặc trƣng MFCC ứng dụng vào trích đặc trƣng tiếng nói tiếng Việt. Nghiên cứu phƣơng pháp lƣợng tử vector để ứng dụng vào mô hình nhận dạng tiếng nói tiếng Việt. Nghiên cứu mô hình Markov ẩn HMM ứng dụng vào huấn luyện và nhận dạng tiếng nói tiếng Việt. Thiết kế giao diện phần mềm nhận dạng . 1.2.2. Đối tƣợng nghiên cứu Lý thuyết nhận dạng tiếng nói. Thuật toán MFCC và ứng dụng. Phƣơng pháp lƣợng tử vector VQ và ứng dụng. 5 SVTH: TRƢƠNG MINH THIỆN
  16. Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt GVHD: PGS.TS. TRẦN THU HÀ Mô hình Markov ẩn HMM và ứng dụng. 1.3. Nhiệm vụ và giới hạn của đề tài 1.3.1. Nhiệm vụ Nghiên cứu đặc trƣng tiếng Việt. Nghiên cứu công nghệ phân loại tiếng nói – tiếng Việt. Nghiên cứu các phƣơng pháp xử lý, lọc tín hiệu liên tục, rời rạc; các phƣơng pháp rút trích đặt trƣng (MFCC), phân loại, nhận dạng tín hiệu tiếng nói (Hidden Marko Models ). Chọn lựa hàm mô hình Markov ẩn để thiết kế giao diện nhận dạng các tập lệnh của đối tƣợng điều khiển . Tìm hiểu các phần mềm lập trình Keil C for ARM, Matlab Viết code mô phỏng trên máy tính. Thiết kếgiao diện nhận dạng tiếng nói . 1.3.2. Giới hạn Do đặc trƣng tiếng Việt có nhiều âm tiết và thanh nhấn nên việc nhận dạng sẽ khó hơn so với các ngôn ngữ khác. Ngoài ra, còn có sự khác biệt về giọng nói giữa các vùng, sự khác biệt về giọng nói trong các ngữ cảnh khác nhau cũng gây khó khăn cho nhận dạng. Thêm vào đó, một câu dài cũng gây khó khăn trong việc nhận dạng, do đó đề tài chỉ thực hiện ở việc nhận dạng từ đơn. Vì thời gian có hạn nhƣ đã nêu trên nên phần thiết kế và thi công thiết bị ngoại vi để điều khiển chƣa thực hiện đƣợc. Trong điều kiện bình thƣờng, kết quả nhận dạng chƣa đạt đƣợc 100% 1.4. Phƣơng pháp nghiên cứu Ngƣời thực hiện đề tài đã sử dụng các phƣơng pháp sau đây: Phƣơng pháp nghiên cứu tài liệu: các tài liệu liên quan đến nhận dạng tiếng nói, phƣơng pháp trích đặc trƣng MFCC, lƣợng tử vector VQ, mô hình Markov ẩn HMM, đặc điểm tiếng Việt. Các tài liệu liên quan về lập trình C/C++ và Matlab . 6 SVTH: TRƢƠNG MINH THIỆN
  17. Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt GVHD: PGS.TS. TRẦN THU HÀ Phƣơng pháp phân tích: phân tích đặc điểm tiếng Việt, phƣơng pháp trích chọn đặc trƣng MFCC, phƣơng pháp lƣợng tử vector VQ, mô hình Markov ẩn HMM trong nhận dạng tiếng Việt. Phƣơng pháp chuyên gia: tham khảo ý kiến của chuyên gia về trích chọn đặc trƣng MFCC, lƣợng tử vector VQ, mô hình Markov ẩn HMM trong nhận dạng tiếng nói tiếng Việt, và khả năng ứng dụng vào thực tế. Phƣơng pháp thực nghiệm: thực nghiệm việc nhận dạng tiếng nói tiếng Việt trên máy tính và tạo giao diện nhận dạng giọng nói . 1.5. Nội dung đồ án Nội dung đề tài gồm các phần sau: Chƣơng 1: Tổng quan Tổng quan chung về lĩnh vực nghiên cứu. Mục tiêu và đối tƣợng nghiên cứu. Nhiệm vụ và giới hạn của đề tài. Phƣơng pháp nghiên cứu. Chƣơng 2: Đặc trƣng tiếng nói tiếng Việt Phân tích tổng quan về tiếng nói. Các đặc trƣng cơ bản của tiếng Việt. Chƣơng 3:Mô hình nhận dạng tiếng nói tiếng Việt Phân loại các hệ thống nhận dạng tiếng nói. Các yếu tố ảnh hƣởng đến kết quả nhận dạng tiếng nói. Cấu trúc của hệ nhận dạng tiếng nói. Giải thuật hệ thống nhận dạng tiếng nói tiếng Việt. Phân tích phƣơng pháp trích đặc trƣng MFCC. Phân tích phƣơng pháp lƣợng tử vector VQ. Chƣơng 4:Mô hình Markov ẩn HMM Cơ sở lý thuyết về mô hình Markov ẩn HMM. Ứng dụng mô hình Marko ẩn HMM vào nhận dạng tiếng nói tiếng Việt. Chƣơng 5: Thiết kế hệ thống nhận dạng và phần mềm giao diện nhận dạng Xây dựng thuật toán tiền xử lý tiếng nói tiếng Việt . Xây dựng thuật toán trích chọn đặc trƣng tiếng nói tiếng việt MFCC. 7 SVTH: TRƢƠNG MINH THIỆN
  18. Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt GVHD: PGS.TS. TRẦN THU HÀ Xây dựng thuật toán lƣợng tử vector VQ Xây dựng thuật toán mô hình Markov ẩn . Xây dựng thuật toán huấn luyện và nhận dạng tiếng nói tiếng Việt . Phần mềm giao diện nhận dạng. Chƣơng 6:Kết luận Những mục tiêu đạt đƣợc. Hạn chế của đề tài Hƣớng phát triển đề tài. 1.6 . Ý nghĩa thực tiễn của đề tài Đề tài thuộc nhóm nghiên cứu lý thuyết và ứng dụng triển khai. Sản phẩm đề tài có tính mở, có thể áp dụng cho nhiều nhóm đối tƣợng khác nhau trong công nghiệp cũng nhƣ dân dụng. Đề tài nghiên cứu có thể đƣợc sử dụng làm tài liệu nghiên cứu và giảng dạy cho sinh viên đại học trong đào tạo các chuyên ngành Điện – Điện tử, Điện tử viễn thông, Ứng dụng mô hình nhận dạng tiếng nói tiếng Việt trong các hệ thống nhận dạng, điều khiển thiết bị, robot, bằng tiếng nói tiếng Việt. 8 SVTH: TRƢƠNG MINH THIỆN
  19. Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt GVHD: PGS.TS. TRẦN THU HÀ Chƣơng 2: ĐẶC TRƢNG TIẾNG NÓI TIẾNG VIỆT Tín hiệu tiếng nói đƣợc xem là tín hiệu ngẫu nhiên vì chúng ta không thể xác định chính xác biên độ và tần số của tín hiệu tiếng nói đƣợc nói. Tuy nhiên, mỗi từ của tiếng nói lại chứa những thành phần đặc trƣng riêng đặc trƣng cho từ đó, vì vậy việc tách đặc trƣng tiếng nói là quá trình quan trọng trong hệ thống nhận dạng tiếng nói. Các hệ thống nhận dạng sẽ phân biệt các từ khác nhau trong tiếng nói dựa trên đặc trƣng riêng của mỗi từ. Quá trình trích đặc trƣng tiếng nói là quá trình cô đọng tín hiệu tiếng nói của mỗi từ thành các thông số đặc tính đặc trƣng cho từ đó, nhằm giảm nhẹ công việc nhận dạng và tăng độ chính xác cho hệ thống nhận dạng. 2.1. TỔNG QUAN VỀ TIẾNG NÓI: Tiếng nói là một loại sóng âm. Khi chúng ta nói, tiếng nói đƣợc truyền đi mang theo thông tin dƣới dạng các dao động truyền đến tai ngƣời nghe. Mức độ truyền tin của tiếng nói đƣợc xem là nhanh nhất trong các khả năng tự nhiên của con ngƣời. Tín hiệu tiếng nói chứa các thông tin có tần số tập trung trong khoảng từ 4kHz trở xuống. Đây cũng chính là khoảng tần số chứa năng lƣợng chủ yếu của tín hiệu tiếng nói. Trong khoảng thời gian dài, tín hiệu tiếng nói là tín hiệu không dừng, nhƣng trong khoảng thời gian đủ ngắn tín hiệu tiếng nói đƣợc xem nhƣ tín hiệu dừng. Đối với quá trình nhận dạng tiếng nói, thì ngoài việc nhận ra các đặc trƣng của tiếng nói thì quá trình học thích nghi với các thay đổi của đặc trƣng tiếng nói cũng rất quan trọng. 2.2. Các đặc trƣng cơ bản của Tiếng Việt: 2.2.1. Âm tiết: Tiếng việt có những đặc trƣng khác biệt so với các ngôn ngữ khác trong cách phát âm cũng nhƣ ghép các âm thành từ có nghĩa. Đơn vị nhỏ nhất của tiếng Việt là âm tiết (tiếng), âm tiết có những đặc điểm nhƣ sau: 9 SVTH: TRƢƠNG MINH THIỆN
  20. Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt GVHD: PGS.TS. TRẦN THU HÀ Tính độc lập: tức là mỗi âm tiết là một thành phần nhỏ, chúng rõ ràng và tách biệt với nhau, mỗi từ đại diện cho một âm tiết duy nhất. Không có hiện tƣợng nối âm: trong tiếng Việt, dù ngƣời nói, nói nhanh hay nói chậm thì mỗi từ phát ra đều riêng lẻ, không có sự nối âm hay nuốt âm nhƣ trong tiếng Anh. Điều này làm cho ranh giới giữa các âm tiết rõ ràng với nhau, không có sự chồng lấp giữa các từ. Tiếng việt có hai loại từ là từ đơn và từ ghép. Từ đơn là từ đƣợc tạo từ một âm tiết, từ ghép là từ đƣợc tạo từ nhiều từ đơn. Trong đa số các trƣờng hợp mỗi từ đơn đều mang ý nghĩa đầy đủ, việc ghép các từ đơn có nghĩa thành một từ ghép có nghĩa khác làm cho vấn đề nhận dạng từ ghép trở nên khó khăn hơn. Khi phát âm một âm tiết, các cơ thịt của bộ máy phát âm đều trải qua ba giai đoạn: tăng cƣờng độ căng, đỉnh điểm căng thẳng và giảm độ căng. Dựa vào cách kết thúc, các âm tiết tiếng Việt đƣợc chia thành hai loại lớn là âm tiết mở và âm tiết khép. Trong mỗi loại lại có hai loại nhỏ hơn, nhƣ vậy có bốn loại âm tiết trong tiếng Việt nhƣ sau: Âm tiết nửa khép: là những âm tiết đƣợc kết thúc bằng một phụ âm vang nhƣ: m, ng, nh, Âm tiết khép: là những âm tiết đƣợc kết thúc bằng một phụ âm không vang nhƣ: p, t, k, Âm tiết nửa mở: là những âm tiết kết thúc bằng một bán nguyên âm nhƣ: tay, cay, cau, Âm tiết mở: là những âm tiết đƣợc kết thúc bằng cách giữ nguyên âm sắc của nguyên âm ở đỉnh âm tiết nhƣ: ta, ma, to, Âm tiết tiếng Việt có một cấu trúc chặt chẽ, nó không chỉ là một đơn vị ngôn ngữ đơn thuần mà còn là một đơn vị từ vựng và ngữ pháp chủ yếu. Mô hình cấu trúc tổng quát của một âm tiết tiếng Việt đƣợc thể hiện trong bảng 2.1. 10 SVTH: TRƢƠNG MINH THIỆN
  21. Nhận dạng tiếng nói thể hiện trạng thái khuôn mặt GVHD: PGS.TS. TRẦN THU HÀ Bảng 2. 1:Cấu trúc tổng quát của một âm tiết tiếng Việt Thanh điệu Vần Âm đầu Âm đệm Âm chính Âm cuối 2.2.2 Âm vị: Một tiếng nói gồm một chuỗi các âm cơ bản gọi là âm vị. Xét về mặc ngữ âm, âm vị là đơn vị nhỏ nhất của tiếng nói, là một đơn vị trừu tƣợng mà chúng ta không thể quan sát trực tiếp trong tín hiệu tiếng nói. Mỗi âm vị có hai chức năng: Cấu tạo nên vỏ âm thanh của các đơn vị có nghĩa. Phân biệt vỏ âm thanh của các đơn vị có nghĩa. Ví dụ về từ “tôi” có ba âm vị là “t”, “ô” và “i”. 2.2.3. Nguyên âm và phụ âm: Nguyên âm: Nguyên âm là một âm thanh trong ngôn ngữ nói, đƣợc phát âm với thanh quản mở, do đó không có sự tích lũy áp suất không khí trên bất cứ điểm nào của thanh môn, của bộ phận cấu âm, vì vậy nguyên âm không có điểm cấu âm. Ngoài các nguyên âm đơn, trong tiếng Việt còn có các nguyên âm đôi, hay còn gọi là nhị âm. Trong tiếng việt có 16 âm vị là nguyên âm, trong đó có 13 nguyên âm đơn và 3 nguyên âm đôi. Phụ âm: Phụ âm đƣợc tạo ra do luồng hơi bị chặn ở một điểm nào đó trong bộ phận cấu âm khi phát âm, vì vậy phụ âm có tiêu điểm cấu âm. Khi phát phụ âm thì độ căng thƣờng tập trung ở tiêu điểm cấu âm. Phụ âm đƣợc chia làm các loại cơ bản sau: Phụ âm bật hơi: âm đƣợc phát ra từ sự phá vỡ các cản trở và cọ xát giữa hai mép dây thanh. Ví dụ phụ âm bật hơi nhƣ: “th”, “t”, “tr”, Phụ âm mũi: âm đƣợc phát ra từ luồng không khí đƣợc tạo ra và thoát ra ngoài nhẹ nhàng qua khoang mũi. Khi qua khoang mũi, âm này chịu cộng hƣởng của khoang mũi. Phụ âm này còn đƣợc gọi là âm vang. Ví dụ về phụ âm mũi nhƣ: “m”, “n”, “nh”, 11 SVTH: TRƢƠNG MINH THIỆN
  22. S K L 0 0 2 1 5 4