Luận văn Tổng hợp tiếng nói trên thiết bị giám sát hành trình (Phần 1)

pdf 22 trang phuongnguyen 120
Bạn đang xem 20 trang mẫu của tài liệu "Luận văn Tổng hợp tiếng nói trên thiết bị giám sát hành trình (Phần 1)", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfluan_van_tong_hop_tieng_noi_tren_thiet_bi_giam_sat_hanh_trin.pdf

Nội dung text: Luận văn Tổng hợp tiếng nói trên thiết bị giám sát hành trình (Phần 1)

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ PHẠM MINH DƯƠNG TỔNG HỢP TIẾNG NÓI TRÊN THIẾT BỊ GIÁM SÁT HÀNH TRÌNH NGÀNH: KỸ THUẬT ĐIỆN TỬ - 60520203 S K C0 0 4 7 5 5 Tp. Hồ Chí Minh, tháng 10/2015
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH  LUẬN VĂN THẠC SĨ PHẠM MINH DƢƠNG TỔNG HỢP TIẾNG NÓI TRÊN THIẾT BỊ GIÁM SÁT HÀNH TRÌNH NGÀNH: KỸ THUẬT ĐIỆN TỬ - 60520203 Hƣớng dẫn khoa học: PGS.TS TRẦN THU HÀ TP. Hồ Chí Minh, tháng 10 năm 2015
  3. LÝ LỊCH KHOA HỌC I. LÝ LỊCH SƠ LƢỢC Họ và tên: Phạm Minh Dƣơng Giới tính: Nam Ngày, tháng, năm sinh: 26/02/1983 Nơi sinh: Tây Ninh Quê quán: Hòa Thành, Tây Ninh Dân tộc: Kinh Địa chỉ liên lạc: 261/12/13 Đình Phong Phú, Tổ 6, Khu phố 3, Phƣờng Tăng Nhơn Phú B, Quận 9, Tp.HCM. Điện thoại cơ quan: Di động: 0913 531 247 Email: duong.phamminh@icdrec.edu.vn Fax: II. QUÁ TRÌNH ĐÀO TẠO Hệ đào tạo: Chính quy Thời gian đào tạo: Từ 2003 đến 2008 Nơi học: Trƣờng Đại học Bách Khoa Tp.HCM Ngành học: Điện tử - Viễn thông Tên đồ án tốt nghiệp: Nghiên cứu và thiết kế một số ngoại vi giao tiếp kit ARM Evaluator – 7T Ngày bảo vệ đồ án tốt nghiệp: 01/2008 Ngƣời hƣớng dẫn: TS. Nguyễn Nhƣ Anh III. QUÁ TRÌNH CÔNG TÁC CHUYÊN MÔN KỂ TỪ KHI TỐT NGHIỆP ĐẠI HỌC Thời gian Nơi công tác Công việc đảm nhiệm 2008 đến nay Trung tâm Nghiên cứu và Đào tạo Nhân viên thiết kế phần Thiết kế Vi mạch cứng và lập trình ứng dụng 2012 đến nay Công ty Cổ Phần Công Nghệ Thiết kế phần cứng và lập Định Vị Sài Gòn Track trình thiết bị giám sát hành (Hỗ trợ kỷ thuật) trình i
  4. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của tôi. Các số liệu, kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác Tp. Hồ Chí Minh, ngày 18 tháng 10 năm 2015 (Ký tên và ghi rõ họ tên) Phạm Minh Dƣơng ii
  5. LỜI CẢM TẠ Xin chân thành gửi lời cảm ơn đến PGS.TS Trần Thu Hà và Ban lãnh đạo Trung tâm Nghiên cứu và Đào tạo Thiết kế Vi mạch (ICDREC) đã tận tình hƣớng dẫn và tạo điều kiện cho em hoàn thành tốt luận văn này. Xin chân thành gửi lời cảm ơn đến toàn thể quý thầy cô Trƣờng Đại học Sƣ phạm Kỷ thuật TP. Hồ Chí Minh đã giảng dạy, hƣớng dẫn, truyền đạt kiến thức, kinh nghiệm quý báu và tạo mọi điều kiện học tập tốt cho em. Xin cảm ơn đến những đồng nghiệp, bạn bè tôi đã cùng chia sẽ, học hỏi kinh nghiệm trong suốt thời gian qua. Cảm ơn ba mẹ, anh chị em, vợ và bạn bè đã động viên tôi trong suốt thời gian học. Xin kính chúc sức khỏe và chân thành cảm ơn. HỌC VIÊN Phạm Minh Dƣơng LỜI CẢM TẠ iii
  6. TÓM TẮT LUẬN VĂN Trong đề tài này, ta đã thiết kế và thi công thiết bị giám sát hành trình (TBGSHT) có tổng hợp tiếng nói bằng phƣơng pháp ghép nối để giúp cho ngƣời sử dụng có thể giám sát, quản lý phƣơng tiện của mình một cách trực quan. Đồng thời, ngƣời sử dụng có thể truyền thông tin xuống lái xe để phát thông báo hoặc rao trạm xe buýt tùy vào ứng dụng cụ thể. Tổng hợp tiếng nói bằng phƣơng pháp ghép nối lựa chọn đơn vị các từ, cụm từ hoặc câu làm cho tiếng nói sau khi tổng hợp đạt đƣợc chất lƣợng về mức độ tự nhiên và mức độ dễ nghe. Văn bản đầu vào là dạng chữ hoa, chữ thƣờng, số, từ viết tắt, tên địa danh tiếng nƣớc ngoài, do đó văn bản này phải đƣợc chuẩn hóa thành dạng chuẩn chữ hoa rồi mới tiến hành tổng hợp ghép nối. Văn bản đƣợc truyền xuống TBGSHT bằng tin nhắn SMS hoặc bằng máy chủ qua giao thức TCP/IP. Sau khi nhận văn bản đầu vào, TBGSHT chuẩn hóa văn bản và thực hiện việc ghép nối các đơn vị âm thanh bằng ngữ cảnh thích hợp, sau đó phát tiếng nói ở đầu ra của hệ thống. Ngoài ra, TBGSHT này cũng có đầy đủ các tính năng theo quy chuẩn QCVN 31:2014/BGTVT của Bộ Giao thông vận tải. iv
  7. ABSTRACT In this thesis, I have designed and test-fabricated the tracking surveillance device with speech synthesis by pairing method that the users can monitor and manage their vehicles intuitively. As the same time, users can transmit the information to the driver or speak with the bus station depending on the specific application. The speech by the unit selection synthetic method with words, phrases or sentences made speech after synthesis achieved at high quantity of natural level and listening easy level. The input text is uppercase, lowercase, number, acronym, or the name of the foreign language places, therefore, this text must be standardized into uppercase and then processing the pairing synthesis. The text is transmitted to the tracking surveillance device by Short Message Service (SMS) or Server via TCP/IP protocol. After receiving the input text, the tracking surveillance device standardizes it and performs the pairing audio unit appropriate context, and then, the corresponding voice is generated at the output of the system. Besides, the tracking surveillance device also has fully compliant features of QCVN 31:2014/BGTVT of the Ministry of Transport. v
  8. Mục lục NỘI DUNG LÝ LỊCH KHOA HỌC i LỜI CAM ĐOAN ii LỜI CẢM TẠ iii TÓM TẮT LUẬN VĂN iv ABSTRACT v NỘI DUNG vi DANH SÁCH HÌNH ix DANH SÁCH BẢNG x DANH SÁCH TỪ VIẾT TẮT xi Chƣơng 1. GIỚI THIỆU ĐỀ TÀI 1 1.1. Tổng quan về hƣớng nghiên cứu 1 1.2. Tình hình nghiên cứu trong nƣớc và ngoài nƣớc 2 1.3. Tính cấp thiết của đề tài 3 1.4. Mục tiêu nghiên cứu 4 1.5. Nhiệm vụ nghiên cứu 4 1.6. Phƣơng pháp nghiên cứu 6 Chƣơng 2. CƠ SỞ LÝ THUYẾT 7 2.1. Sơ đồ khối tổng quát của hệ thống thiết bị giám sát hành trình 7 2.2. Kiến trúc tổng quát khối tổng hợp tiếng nói 9 2.3. Bộ tổ chức dữ liệu 10 2.3.1. Xây dựng dữ liệu âm thanh 10 2.3.2. Phân đoạn tập câu thu âm 11 2.4. Bộ tổng hợp 11 2.4.1. Chuẩn hóa văn bản 11 2.4.1.1. Từ viết tắt 12 2.4.1.2. Số 12 2.4.1.3. Từ nước ngoài 12 2.4.1.4. Từ viết sai chính tả 12 2.4.1.5. Các ký hiệu đặc biệt 13 2.4.2. Tổng hợp ghép nối – Lựa chọn đơn vị (Unit Selection) 13 2.4.2.1. Khái niệm 13 vi
  9. Mục lục 2.4.2.2. Mô hình Unit Selection 14 a. Giải thuật SHA-1 15 b. Thuật toán tìm kiếm trong Unit Selection 19 2.4.2.3. Định nghĩa Unit 21 2.5. Bộ từ viết tắt 21 2.6. Bộ phiên âm tiếng nƣớc ngoài 23 2.6.1. Đặt vấn đề 23 2.6.2. Phƣơng pháp thủ công 23 2.6.3. Phƣơng pháp chuỗi kết nối mô hình Joint Sequence 23 Chƣơng 3. THIẾT KẾ PHẦN CỨNG VÀ CHƢƠNG TRÌNH TỔNG HỢP TIẾNG NÓI 26 3.1. Thiết kế phần cứng 26 3.1.1. Khối MPU 26 3.1.2. Khối SDRAM, NAND Flash 27 3.1.3. Khối GSM 27 3.1.4. Khối GPS 28 3.1.5. Khối LED trạng thái và Buzzer 29 3.1.6. Khối SD Card 29 3.1.7. Khối Accessory Port 30 3.1.8. Khối RS232 Interface 30 3.1.9. Khối RS485 Interface 30 3.1.10. Khối Audio 31 3.1.11. Khối Power Supply 32 3.2. Sơ đồ nguyên lý của TBGSHT 32 3.2.1. Sơ đồ nguyên lý mạch MCU 33 3.2.2. Sơ đồ nguyên lý mạch INTERFACE 35 3.2.3. Mặt trƣớc và sau của board mạch thiết kế 41 3.3. Chƣơng trình tổng hợp tiếng nói trên TBGSHT 42 3.3.1. Chƣơng trình tổng hợp tiếng nói 42 3.3.1.1. Lưu đồ giải thuật tổng hợp tiếng nói 42 3.3.1.2. Lưu đồ giải thuật chuẩn hóa văn bản 43 3.3.1.3. Lưu đồ giải thuật tổng hợp ghép nối câu 45 3.3.2. Chƣơng trình của TBGSHT xe ô tô 46 Chƣơng 4. ĐẶC TẢ KỸ THUẬT CỦA THIẾT BỊ GIÁM SÁT HÀNH TRÌNH 47 vii
  10. Mục lục 4.1. Tính năng của TBGSHT theo QCVN 31:2014/BGTVT 47 4.2. Đặc tính kỷ thuật và tín hiệu kết nối của TBGSHT 48 4.3. Hƣớng dẫn cài đặt và quá trình khởi động của thiết bị 49 4.4. Cấu hình TBGSHT bằng tin nhắn SMS hoặc bằng Terminal 50 4.4.1. Mã lệnh cấu hình cho TBGSHT 50 4.4.2. Một số ví dụ thay đổi cấu hình TBGSHT 55 4.5. Giao thức truyền/nhận dữ liệu giữa TBGSHT và server 57 4.5.1. Cấu trúc Dữ liệu hành trình 58 4.5.2. Cấu trúc dữ liệu gởi đầu ngày 61 4.6. Kết nối phần mềm phân tích dữ liệu 63 4.6.1. Mã dữ liệu của từng loại dữ liệu: 63 4.6.2. Nội dung của từng loại dữ liệu 63 4.6.2.1. Thông tin cơ bản của thiết bị: (Loại dữ liệu 1) 63 4.6.2.2. Thông tin thời gian làm việc của lái xe: (Loại dữ liệu 2) 65 4.6.2.3. Thông tin về số lần và thời gian dừng, đỗ xe: (Loại dữ liệu 3) 65 4.6.2.4. Thông tin về hành trình xe chạy: (Loại dữ liệu 4) 66 4.6.2.5. Thông tin về tốc độ từng giây của xe: (Loại dữ liệu 5) 66 4.7. Truyền nhận văn bản tổng hợp tiếng nói 67 4.7.1. Truyền bằng TCP/IP 67 4.7.2. Truyền bằng tin nhắn SMS 69 Chƣơng 5. KẾT LUẬN 70 5.1. Đánh giá kết quả 70 5.2. Hƣớng phát triển của đề tài 73 TÀI LIỆU THAM KHẢO 76 PHỤ LỤC 77 Phụ lục 1. Các tính năng của thiết bị giám sát hành trình 77 Phụ lục 2. Tóm tắt cơ sở dữ liệu của hệ thống tổng hợp tiếng nói 78 Phụ lục 3. Bảng mã UTF-8 của các ký tự tiếng Việt 79 Phụ lục 4. Bảng mã Unicode 2 byte cố định 81 viii
  11. Mục lục DANH SÁCH HÌNH Hình 1.1: Sơ đồ hoạt động tổng quan của TBGHST. 2 Hình 2.1: Sơ đồ khối của TBGSHT có tích hợp TTS. 7 Hình 2.2: Kiến trúc tổng quát của hệ thống tổng hợp tiếng nói. 9 Hình 2.3: Xử lý SHA-1 của một khối đơn 512-bit. 17 Hình 2.4: Hàm nén giải thuật SHA-1. 18 Hình 2.5: Cơ chế lựa chọn đơn vị. 21 Hình 3.1: Sơ đồ khối chức năng module M95. 28 Hình 3.2: Sơ đồ khối chức năng module L70. 29 Hình 3.3: Sơ đồ khối giao tiếp với SD card. 30 Hình 3.4: Sơ đồ chuyển đổi của giao diện RS485. 31 Hình 3.5: Sơ đồ chân của SP3485EN transceiver. 31 Hình 3.6: Sơ đồ giải mã âm thanh của VS1003. 32 Hình 3.7: Sơ đồ điều chỉnh nguồn cấp cho board mạch. 32 Hình 3.8: Mặt trước board mạch TBGSHT. 41 Hình 3.9: Mặt sau board mạch TBGSHT. 41 Hình 3.10: Lưu đồ giải thuật tổng hợp tiếng nói. 43 Hình 3.11: Lưu đồ giải thuật chuẩn hóa văn bản. 44 Hình 3.12: Lưu đồ giải thuật tổng hợp ghép nối câu. 45 Hình 3.13: Lưu đồ giải thuật của TBGSHT xe ô tô. 46 Hình 5.1: Bản đồ số giám sát TBGSHT. 72 Hình 5.2: Văn bản tổng hợp được truyền bằng SMS hoặc TCP/IP. 72 ix
  12. Mục lục DANH SÁCH BẢNG Bảng 2.1: Bộ dữ liệu thu âm. 11 Bảng 2.2: Ví dụ kết quả phân đoạn theo cụm từ. 11 Bảng 2.3: Kết quả tìm kiếm các cụm từ để ghép nối các tệp tin âm thanh. 21 Bảng 2.4: Mô tả tên tập tin và số từ viết tắt. 22 Bảng 2.5: Mô tả tên tệp tin và số từ của tiếng nước ngoài. 24 Bảng 3.1: Các trạng thái tín hiệu từ xe. 30 Bảng 4.1: Đặc tính kỹ thuật. 48 Bảng 4.2: Các tín hiệu kết nối với TBGSHT. 48 Bảng 4.3: Mã lệnh cấu hình cho TBGSHT qua cấu trúc tin nhắn. 50 Bảng 4.4: Mô tả ý nghĩa từng trường trong thông điệp gởi định kỳ. 58 Bảng 4.5: Mô tả trạng thái các bit trong Mã_trạng_thái_1. 60 Bảng 4.6: Mô tả trạng thái các bit trong Mã_trạng_thái_2. 61 Bảng 4.7: Mô tả ý nghĩa từng trường trong bản tin đầu ngày. 61 Bảng 4.8: Mã loại dữ liệu. 63 Bảng 4.9: Loại dữ liệu thông tin cơ bản của thiết bị. 63 Bảng 5.1: Mô tả cơ sở dữ liệu tổng hợp tiếng nói. 71 Bảng 5.2: Đánh giá một số ví dụ về mức độ tổng hợp tiếng nói. 72 x
  13. Mục lục DANH SÁCH TỪ VIẾT TẮT BGTVT: Bộ Giao thông vận tải FTP: File Transfer Protocol GMT: Greenwich Mean Time GPRS: General Packet Radio Service GPS: Global Positioning System GSM: Global System for Mobile HTTP: The Hypertext Transfer Protocol MPU: Microprocessor Unit RFID: Radio Frequency Identification SDRAM: Synchronous Dynamic Random Access Memory SHA-1: Secure Hashing Algorithm 1 SMS: Short Message Service TBGSHT: Thiết bị giám sát hành trình TCP/IP: Transmission Control Protocol/Internet Protocol TTS: Text to Speech UTF-8: 8-bit Unicode Transformation Format xi
  14. Chương 1: Giới thiệu đề tài Chƣơng 1 GIỚI THIỆU ĐỀ TÀI 1.1. Tổng quan về hƣớng nghiên cứu Hiện nay thiết bị giám sát hành trình (TBGSHT) ở nƣớc ta đang phát triển rất nhanh, nhất là từ khi Nghị định 08 của Bộ Giao thông vận tải số: 08/2011/TT- BGTVT ban hành. Ngoài các tính năng mà Nghị định đƣa ra, TBGSHT còn có thêm một số tính năng mở rộng để đáp ứng nhu cầu sử dụng của khách hàng, đặc biệt là các tính năng này có thể đƣợc tích hợp cùng với TBGSHT nhằm tăng tính tiện ích và giảm chi phí cho ngƣời sử dụng. Chẳng hạn các tính năng đó là: Máy tính cƣớc taxi, Thông báo thông tin từ trung tâm điều hành, Rao trạm xe buýt, Thanh toán tiền tự động bằng RFID, v.v. Đề tài này sẽ hƣớng tới phần đọc thông báo, đọc địa chỉ khách hàng khi đăng ký đi taxi, hoặc rao trạm xe buýt. Các thông tin này đƣợc truyền từ trung tâm điều hành dƣới dạng văn bản để TBGSHT thực hiện việc “Tổng hợp tiếng nói trên thiết bị giám sát hành trình” và phát ra thông báo mà các thiết bị trên thị trƣờng hiện nay chỉ dừng lại ở mức thu âm và phát theo các tuyến đƣờng cố định hoặc chƣa thể làm đƣợc. Để có thể đáp ứng đƣợc các tính năng theo Nghị định và yêu cầu đề tài đặt ra, thì TBGSHT phải đƣợc thiết kế hợp lý cả về phần cứng và phần mềm. Hình 1.1 mô tả sơ đồ hoạt động tổng quan của TBGSHT có tích hợp thuật toán tổng hợp tiếng nói (TTS). Trong hình 1.1, TBGSHT có hai chức năng chính cần xử lý: chức năng thứ nhất là TBGSHT phải thực hiện đầy đủ các tính năng theo Nghị định của Bộ Giao thông vận tải quy định, chức năng thứ hai là tổng hợp tiếng nói. Trong chức năng thứ nhất, TBGSHT thực hiện việc thu thập dữ liệu từ vệ tinh nhƣ: thời gian, vận tốc di chuyển, tọa độ, v.v. và thu thập các tín hiệu từ xe nhƣ: tín 1
  15. Chương 1: Giới thiệu đề tài hiệu cửa, động cơ, máy điều hòa, v.v. sau đó TBGSHT xử lý các thông tin này để truyền đến trung tâm giám sát qua GPRS. Trong chức năng thứ hai, TBGSHT nhận văn bản từ SMS hoặc từ máy chủ qua giao thức TCP/IP để tổng hợp tiếng nói. Văn bản cần tổng hợp đƣợc lƣu vào bộ nhớ của thiết bị, sau đó văn bản sẽ đƣợc chuẩn hóa và đƣa vào cơ sở dữ liệu để so sánh, tổng hợp và phát ra âm thanh. Vệ tinh Vệ tinh Tín hiệu Tín hiệu GPS GPS TBGSHT GPRS S P M /I S P C T ữ liệu uất d Máy chủ ruy x et T ntern (Server) qua i Hình 1.1: Sơ đồ hoạt động tổng quan của TBGHST. 1.2. Tình hình nghiên cứu trong nƣớc và ngoài nƣớc Đối với các nƣớc phát triển phƣơng Tây thì TBGSHT xe ô tô đã xuất hiện từ rất sớm, nó đƣợc tích hợp vào xe có các chức năng nhƣ: giám sát lƣu lƣợng xe đi trên đƣờng, hƣớng dẫn chỉ đƣờng (Navigator), và thông báo ùn tắt xe trên đƣờng. 2
  16. Chương 1: Giới thiệu đề tài Với nƣớc ta, TBGSHT bắt đầu xuất hiện từ cuối năm 2009 do hai công ty điện tử sản xuất tại Việt Nam nhƣ Công ty điện tử Bình Anh (tại Hà Nội) và Công ty TNHH TM điện tử Vinh Hiển (tại TP.HCM). Trong thời gian này đồng thời cũng xuất hiện một số sản phẩm TBGSHT từ Trung Quốc, Đài Loan, Mỷ, v.v. Từ khi Nghị định ban hành của Bộ Giao thông vận tải (số 08/2011/TT- BGTVT) cho đến nay thì quá trình phát triển của TBGSHT nƣớc ta rất nhanh. Đến thời điểm này thì có hơn 50 đơn vị cung cấp TBGSHT đã hợp quy thiết bị. Ngoài các tính năng đáp ứng theo Nghị định ban hành, các TBGSHT hiện nay hỗ trợ thêm một số tính năng mở rộng để phục vụ theo yêu cầu của khách hàng. Trên thị trƣờng hiện nay thì việc rao trạm cho xe buýt đã đƣợc đƣa vào sử dụng, nhƣng không sử dụng thuật toán tổng hợp tiếng nói mà chỉ thu âm theo các trạm và đoạn đƣờng cố định. Do đó, việc sử dụng sẽ bị hạn chế và không linh hoạt. Với phƣơng pháp tổng hợp tiếng nói Formant của tác giả Phan Thanh Tài [5] sử dụng mô hình Klatt là mô hình nối tiếp và mô hình song song để tổng hợp các nguyên âm và phụ âm, đề tài này còn hạn chế về mức độ tự nhiên và mức độ dễ nghe. Đối với phƣơng pháp Tổng hợp tiếng nói bằng phƣơng pháp ghép nối của tác giả Võ Văn Nguyên [7] sử dụng giải thuật TD_PSOLA bằng cách ghép nối các diphone còn một số hạn chế nhƣ sau: chỉ tổng hợp các câu đơn giản, chƣa có tổng hợp các tên riêng, địa danh tiếng nƣớc ngoài thƣờng gặp, tổng hợp các diphone có dấu cho hiệu quả chƣa cao. Cả hai đề tài trên đều chỉ dừng lại ở mức mô phỏng trên Matlab mà chƣa đƣợc ứng dụng vào thiết bị sản phẩm thực tế. 1.3. Tính cấp thiết của đề tài Với tình hình ùn tắt giao thông nhƣ hiện nay thì vấn đề giải quyết cho lƣu lƣợng xe lƣu thông một cách hợp lý đang là một nổi lo lắng của nƣớc ta. Do đó, các xe vận tải phải đƣợc lắp đặt TBGSHT và đồng thời phải đƣợc quản lý bởi cơ quan 3
  17. Chương 1: Giới thiệu đề tài chức năng để có thể kiểm soát lƣu lƣợng xe trên đƣờng và đƣa ra hƣớng giải quyết kịp thời. Ngoài các tính năng của Nghị định đƣa ra, TBGSHT còn phải đƣợc bổ sung tính năng rao trạm xe buýt, hƣớng dẫn lái xe lƣu thông bằng âm thanh khi xảy ra kẹt xe, đồng thời có thể giới thiệu các địa danh cho khách du lịch, v.v. Trƣớc tình hình này, thì việc thiết kế và thi công thiết bị giám sát hành trình có tích hợp giải thuật tổng hợp tiếng nói bằng phƣơng pháp ghép nối với tên đề tài “Tổng hợp tiếng nói trên thiết bị giám sát hành trình” là rất cần thiết trong thời điểm hiện nay. Về việc tích hợp thêm thuật toán tổng hợp tiếng nói vào TBGSHT sẽ giúp cho TBGSHT linh hoạt hơn trong việc sử dụng nhƣ: đọc thông báo từ trung tâm điều hành, rao trạm xe buýt, đọc tin nhắn, v.v. 1.4. Mục tiêu nghiên cứu Nghiên cứu hệ thống tổng hợp tiếng nói tiếng Việt bằng phƣơng pháp ghép nối dựa trên các đơn vị ngữ âm cơ sở [2, 6, 8]. Mô phỏng hệ thống tổng hợp tiếng nói trên máy tính có hệ điều hành Linux, so sánh hệ thống với các hệ thống tổng hợp tiếng nói bằng các phƣơng pháp khác [4]. Ứng dụng hệ thống tổng hợp tiếng nói tiếng Việt vào thiết bị giám sát hành trình xe ô tô để đọc văn bản thông báo đƣợc gửi từ trung tâm điều khiển, hoặc rao trạm xe buýt. 1.5. Nhiệm vụ nghiên cứu Trong chuyên đề 1: “Thiết kế và thi công thiết bị giám sát hành trình xe ô tô có tích hợp thuật toán tổng hợp tiếng nói (Text To Speech) bằng phƣơng pháp ghép nối” ở phần trƣớc của đề tài, ta đã thực hiện việc khảo sát và tìm hiểu thuật toán tổng hợp tiếng nói bằng phƣơng pháp ghép nối với các nhiệm vụ nhƣ sau: 4
  18. Chương 1: Giới thiệu đề tài - Thực hiện chuẩn hóa văn bản đầu vào, phân cụm, và ghép nối các đơn vị ngữ âm thành tiếng nói tổng hợp. - Tổ chức dữ liệu thực hiện quản lý và phân đoạn kho ngữ liệu âm thanh thành các đơn vị cơ sở (âm tiết, từ, cụm từ v.v). - Tìm hiểu thuật toán chuyển đổi một từ nƣớc ngoài bất kỳ sang cách đọc tiếng Việt gần đúng nhất có thể. Trong chuyên đề 2: “Tổng hợp tiếng nói trên thiết bị giám sát hành trình” ở phần trƣớc của đề tài, ta đã thực hiện các nhiệm vụ sau: - Bổ sung, điều chỉnh cơ sở dữ liệu phù với thiết bị giám sát hành trình xe ô tô. - Chuẩn hóa văn bản đầu vào với các từ viết tắt, số, từ nƣớc ngoài và các ký hiệu đặc biệt. - Cải cách phƣơng pháp lựa chọn ghép nối sao cho tốc độ xử lý tổng hợp tiếng nói trên thiết bị giám sát hành trình đƣợc nâng cao. - Mô phỏng thuật toán tổng hợp tiếng nói bằng phƣơng pháp ghép nối trên máy tính có hệ điều hành Linux. - So sánh với các hệ thống tổng hợp tiếng nói trƣớc đây. - Vẽ sơ đồ mạch cho TBGSHT có tích hợp bộ TTS. - Mô phỏng tổng hợp tiếng nói trên thiết bị giám sát hành trình. Trong phần luận văn, ta sẽ thực hiện các nhiệm vụ nhƣ sau: - Viết chƣơng trình cho TBGSHT đáp ứng đầy đủ các tính năng theo Nghị định của Bộ Giao thông vận tải. - Tích hợp hệ thống tổng hợp tiếng nói tiếng Việt vào TBGSHT để đọc thông báo đƣợc gửi từ trung tâm điều khiển, hoặc rao trạm xe buýt. - Kiểm tra, hoàn thiện thiết bị. - So sánh kết quả tổng hợp tiếng nói tiếng Việt trên thiết bị với trên máy tính. 5
  19. Chương 1: Giới thiệu đề tài 1.6. Phƣơng pháp nghiên cứu Qua tình hình nghiên cứu về tổng hợp tiếng nói trong và ngoài nƣớc, có thể thấy TBGSHT nƣớc ta hiện nay đang phát triển mạnh (nƣớc ta có trên 50 đơn vị cung cấp TBGSHT), nhất là một TBGSHT có tích hợp thuật toán tổng hợp tiếng nói, vì nó có phạm vi ứng dụng rất lớn trong xã hội. Các nghiên cứu trên thế giới về TTS vẫn đang hƣớng đến việc giải quyết hai yêu cầu cơ bản về chất lƣợng của tiếng nói đƣợc tổng hợp, đó là mức độ tự nhiên và mức độ dễ nghe [3, 6]. Cần khẳng định ngay là chất lƣợng của các hệ thống TTS cho tiếng Việt hiện nay vẫn còn hạn chế, xét theo hai tiêu chí trên. Các nguyên nhân chính dẫn đến các hạn chế này bao gồm: Đối với các hệ thống TTS dựa trên phƣơng pháp kết nối, các đơn vị tiếng nói cơ sở đƣợc thu âm một cách rời rạc trong khi ngôn điệu của lời nói cần đƣợc đặt trong phạm vi của cả cụm từ hoặc câu hoặc thậm chí là cả đoạn văn bản. Với các hệ thống TTS dựa trên formant, do bản chất của phƣơng pháp này là tạo ra tiếng nói tổng hợp từ các tham số nên rất khó có thể thỏa mãn tiêu chí “tự nhiên”. Phƣơng pháp này chỉ thích hợp cho các ứng dụng chạy trên môi trƣờng có tài nguyên hạn chế về bộ nhớ cũng nhƣ dung lƣợng lƣu trữ. Ngoài ra, một điểm hạn chế nữa của các hệ thống TTS cho tiếng Việt là khả năng xử lý các từ nƣớc ngoài. Số lƣợng từ nƣớc ngoài có thể đọc đƣợc rất ít hoặc hoàn toàn không. Do vậy việc đầu tƣ nghiên cứu cơ bản cho bài toán TTS tiếng Việt là thực sự cần thiết để có thể từng bƣớc vƣợt qua những hạn chế này. Trong khuôn khổ đề tài, ta chọn phƣơng pháp “Tổng hợp tiếng nói tiếng Việt bằng phương pháp ghép nối dựa trên các đơn vị ngữ âm cơ sở”. Trong đó các đơn vị ngữ âm cơ sở là câu, cụm từ hoặc từ để giúp cho việc tổng hợp tiếng nói có chất lƣợng tốt hơn. Đây là lý do ta chọn đề tài “Tổng hợp tiếng nói trên thiết bị giám sát hành trình”. 6
  20. Chương 2: Cơ sở lý thuyết Chƣơng 2 CƠ SỞ LÝ THUYẾT 2.1. Sơ đồ khối tổng quát của hệ thống thiết bị giám sát hành trình Hình 2.1 mô tả toàn bộ sơ đồ khối của TBGSHT có tích hợp thuật toán tổng hợp tiếng nói bằng phƣơng pháp ghép nối. Earphone SIM Holder Microphone GSM Accessory Port GPS IC Temperature LED Status Sensor MPU RS232 Interface Buzzer SDRAM, RS485 Interface NANDFLASH TTS database SD Card Audio DDCC iinn SSuuppppllyy Power Regulator protection Power Supply Hình 2.1: Sơ đồ khối của TBGSHT có tích hợp TTS. 7
  21. Chương 2: Cơ sở lý thuyết Mô tả sơ lƣợc các khối chức năng trong TBGSHT: - Khối MPU: Vi xử lý AT91SAM9260, tốc độ 180 MHz. - Khối SDRAM, NAND FLASH: 64 MB SDRAM và 256 MB NAND Flash. - Khối Power Supply: hỗ trợ nguồn cấp DC từ 8V – 36V, cung cấp nguồn cho các khối chức năng hoạt động. - Khối GSM: giao tiếp với MPU để truyền nhận dữ liệu lên trung tâm điều khiển qua giao thức TCP/IP, giao thức HTTP hoặc giao thức FTP. - Khối GPS: phân tích các thành phần dữ liệu đƣợc nhận từ module GPS, ta có đƣợc các thông số nhƣ: kinh độ, vĩ độ, vận tốc di chuyển, hƣớng di chuyển, thời gian thực, v.v. - Khối LED trạng thái và Buzzer: hiển thị và thông báo các trạng thái của TBGSHT. - Khối SD Card: lƣu trữ cơ sở dữ liệu âm thanh và các thông tin hoạt động của TBGSHT. - Khối Accessory Port: khối này dùng để giao tiếp với các tín hiệu của xe nhƣ: khóa xe, cửa xe, máy điều hòa, vận tốc cơ của xe, nhiên liệu, nút nhấn SOS. - Khối IC Temperature Sensor: dùng IC số để cảm biến nhiệt độ xe, hoặc các ứng dụng có nhiệt độ từ 0 đến 100 độ C. - Khối RS232 Interface: giao tiếp với phần mềm phân tích dữ liệu TBGSHT của Tổng cục Đƣờng bộ Việt Nam theo QCVN 31:2014/BGTVT của Bộ Giao thông vận tải. - Khối RS485 Interface: dùng để mở rộng giao tiếp với các ngoại vi khác nhƣ Camera, RFID, và một số ngoại vi theo yêu cầu của khách hàng. - Khối TTS database: lƣu trữ thƣ viện âm thanh để ứng dụng đọc văn bản. - Khối Audio: giải mã và phát âm thanh cho ứng dụng TTS. 8
  22. S K L 0 0 2 1 5 4