Tổng hợp tiếng nói trên thiết bị giám sát hành trình
Bạn đang xem tài liệu "Tổng hợp tiếng nói trên thiết bị giám sát hành trình", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
tong_hop_tieng_noi_tren_thiet_bi_giam_sat_hanh_trinh.pdf
Nội dung text: Tổng hợp tiếng nói trên thiết bị giám sát hành trình
- TỔNG HỢP TIẾNG NÓI TRÊN THIẾT BỊ GIÁM SÁT HÀNH TRÌNH SPEECH SYNTHESIS ON THE TRACKING SURVEILLANCE DEVICE Trần Thu Hà1, Phạm Minh Dƣơng2 1 Trường Đại học Sư phạm Kỹ thuật TP.HCM 2 Trung tâm Nghiên cứu và Đào tạo Thiết kế Vi mạch (ICDREC) TÓM TẮT Bài báo này trình bày sự thiết kế và thi công thiết bị giám sát hành trình có tích hợp giải thuật tổng hợp tiếng nói bằng phương pháp ghép nối để giúp cho người sử dụng có thể giám sát, quản lý phương tiện của mình một cách trực quan. Đồng thời, người sử dụng có thể truyền thông tin xuống lái xe để phát thông báo. Tổng hợp tiếng nói bằng phương pháp ghép nối-lựa chọn đơn vị các từ, cụm từ hoặc câu làm cho tiếng nói sau khi tổng hợp đạt được chất lượng về mức độ tự nhiên và mức độ dễ nghe, văn bản đầu vào cần được chuẩn hóa thành dạng chữ hoa trước khi tiến hành tổng hợp ghép nối các đơn vị âm thanh bằng các ngữ cảnh thích hợp. Ngoài ra, thiết bị giám sát hành trình này cũng có đầy đủ các tính năng theo quy chuẩn QCVN 31:2014/BGTVT của Bộ Giao thông vận tải. Từ khóa: thiết bị giám sát hành trình, giải thuật tổng hợp tiếng nói, lựa chọn đơn vị, Bộ Giao thông vận tải. ABSTRACT This paper presents the design and fabrication the tracking surveillance device with speech synthesis algorithm by pairing method that the users can monitor and manage their vehicles intuitively. As the same time, users can transmit the information to the driver to broadcast notifications. The speech by the unit selection-pairing synthetic method with words, phrases or sentences made speech after synthesis achieved at high quantity of natural level and listening easy level, the input text must be standardized into uppercase before processing the pairing synthesis with audio units by appropriate context. Besides, the tracking surveillance device also has fully compliant features of QCVN 31:2014/BGTVT of the Ministry of Transport. Keywords: the tracking surveillance device, speech synthesis algorithm, unit selection, the Ministry of Transport. 1. GIỚI THIỆU Đề tài sẽ thực hiện tổng hợp tiếng nói tiếng Việt [2, 4, 8] và lập trình nhúng vào Hiện nay thiết bị giám sát hành trình TBGSHT để phát thông báo bằng cách (TBGSHT) ở nước ta đang phát triển rất truyền thông tin văn bản từ máy chủ xuống nhanh, nhất là từ khi Nghị định 08 của Bộ TBGSHT qua giao thức TCP/IP hoặc bằng Giao thông vận tải số: 08/2011/TT-BGTVT tin nhắn SMS, đề tài này có thể ứng dụng ban hành. Ngoài các tính năng mà Nghị định thay thế cho bộ đàm trong taxi, rao trạm xe đưa ra, TBGSHT còn có thêm một số tính buýt, v.v. tùy vào ứng dụng cụ thể mà phát năng mở rộng để đáp ứng nhu cầu sử dụng triển thêm. của khách hàng. Đặc biệt là các tính năng này 2. MÔ TẢ THIẾT BỊ có thể được tích hợp cùng với TBGSHT Hình 1 mô tả toàn bộ sơ đồ khối của nhằm tăng tính tiện ích và giảm chi phí cho TBGSHT có tích hợp thuật toán tổng hợp người sử dụng. Chẳng hạn các tính đó là: tiếng nói bằng phương pháp ghép nối – lựa Máy tính cước taxi, Thông báo thông tin từ chọn đơn vị. trung tâm điều hành, Rao trạm xe buýt, Thanh toán tiền tự động bằng RFID, v.v.
- . Khối IC Temperature Sensor: dùng IC số để cảm biến nhiệt độ xe, hoặc các ứng dụng có nhiệt độ từ 0 đến 100 độ C. . Khối RS232 Interface: giao tiếp với phần mềm phân tích dữ liệu TBGSHT của Tổng cục Đường bộ Việt Nam theo QCVN 31:2014/BGTVT của Bộ Giao thông vận tải. . Khối RS485 Interface: dùng để mở rộng giao tiếp với các ngoại vi khác như Camera, RFID, và một số ngoại vi theo yêu cầu của khách hàng. . Khối TTS database: lưu trữ thư viện âm thanh để ứng dụng đọc văn bản. . Khối Audio: giải mã và phát âm thanh cho ứng dụng TTS. 3. PHƢƠNG PHÁP TỔNG HỢP TIẾNG Hình 1. Sơ đồ khối của TBGSHT có tích hợp NÓI TTS Kiến trúc tổng quát của hệ thống tổng Chức năng mỗi khối được mô tả như sau: hợp tiếng nói tiếng Việt bằng phương pháp ghép nối – lựa chọn đơn vị được mô tả như . Khối MPU: Vi xử lý AT91SAM9260, tốc hình 2, gồm 4 thành phần chính, mỗi thành độ 180 MHz. phần đóng vai trò xử lý riêng: . Khối SDRAM, NAND FLASH: 64 MB SDRAM và 256 MB NAND Flash. . Khối Power Supply: hỗ trợ nguồn cấp DC từ 8V – 36V, cung cấp nguồn cho các khối chức năng hoạt động. . Khối GSM: giao tiếp với MPU để truyền nhận dữ liệu lên trung tâm điều khiển qua giao thức TCP/IP, giao thức HTTP hoặc giao thức FTP. . Khối GPS: phân tích các thành phần dữ liệu được nhận từ module GPS, ta có được các thông số như: kinh độ, vĩ độ, vận tốc di Hình 2. Kiến trúc tổng quát của hệ thống chuyển, hướng di chuyển, thời gian thực, v.v. tổng hợp tiếng nói . Khối LED trạng thái và Buzzer: hiển thị và thông báo các trạng thái của TBGSHT. Bộ tổ chức dữ liệu: thực hiện quản lý dữ . Khối SD Card: lưu trữ cơ sở dữ liệu âm liệu âm thanh, và phân đoạn chúng thành các thanh và các thông tin hoạt động của đơn vị cơ sở. TBGSHT. Bộ tổng hợp: thực hiện chuyển văn bản . Khối Accessory Port: khối này dùng để sang tiếng nói thông qua hai bước chính là giao tiếp với các tín hiệu của xe như: khóa xe, chuẩn hóa văn bản và tổng hợp ghép nối. cửa xe, máy điều hòa, vận tốc cơ của xe, nhiên Trong bước chuẩn hóa văn bản, các dạng chữ liệu, nút nhấn SOS, v.v.
- thường, chữ hoa, số, từ viết tắt, tên địa danh thức TCP/IP để tổng hợp tiếng nói. Văn bản tiếng nước ngoài, các ký hiệu đặc biệt v.v. sẽ cần tổng hợp được lưu vào bộ nhớ của thiết được chuyển thành dạng chuẩn chữ hoa mà bị, sau đó văn bản sẽ được chuẩn hóa và đưa vào cơ sở dữ liệu để so sánh, tổng hợp và phần tổng hợp ghép nối có thể sử dụng để tạo phát ra âm thanh. âm thanh tương ứng. Bộ từ viết tắt: chuyển đổi các từ viết tắt thông dụng thành dạng chữ hoàn chỉnh của tiếng Việt. Bộ phiên âm từ nước ngoài: chuyển từ nước ngoài sang cách đọc tiếng Việt chính xác nhất có thể. Tổng hộp tiếng nói bằng phương pháp ghép nối – lựa chọn đơn vị được mô tả như hình 3, sau khi văn bản đầu vào được chuẩn hóa, ta tiến hành tách văn bản thành các đơn vị (Unit) như: câu, cụm từ hoặc từ, rồi mã hóa các đơn vị này thành từng mã SHA-1 [1] tương ứng, thực hiện so sánh ngữ cảnh trái Hình 4. Sơ đồ hoạt động tổng quan của và phải của từng mã SHA-1 và chọn mã TBGHST SHA-1 thích hợp nhất trong cơ sở dữ liệu, Các thông tin của TBGSHT được gửi lên ghép nối các đoạn âm thanh của từng đơn vị máy chủ và được xử lý hiển thị trên bản đồ số giúp cho người quản lý có thể quan sát lại với nhau, sau đó phát âm thanh được tổng phương tiện trực quan. Hình 5 biểu diễn hợp ra hệ thống. hành trình của xe trên bản đồ số. Hình 3. Quy trình thực hiện phương pháp ghép nối – lựa chọn đơn vị. 4. HOẠT ĐỘNG HỆ THỐNG Trong hình 4, TBGSHT có hai chức năng chính cần xử lý: chức năng thứ nhất là TBGSHT phải thực hiện đầy đủ các tính năng theo Nghị định của Bộ Giao thông vận tải, chức năng thứ hai là tổng hợp tiếng nói Hình 5. Bản đồ số giám sát TBGSHT bằng phương pháp ghép nối – lựa chọn đơn Nội dung văn bản cần tổng hợp tiếng nói vị. có thể được truyền bằng tin nhắn SMS hoặc Trong chức năng thứ nhất, TBGSHT thu bằng máy chủ qua giao thức TCP/IP được thập dữ liệu thời gian, vận tốc, tọa độ, v.v. từ mô tả như hình 6. vệ tinh, thu thập các tín hiệu từ xe, xử lý thông tin cần thiết để truyền đến trung tâm giám sát qua GPRS. Trong chức năng thứ hai, TBGSHT nhận Hình 6. Văn bản tổng hợp được truyền bằng văn bản từ SMS hoặc từ máy chủ qua giao SMS hoặc TCP/IP
- Bảng 1 mô tả một vài ví dụ đánh giá 5. KẾT LUẬN mức độ tổng hợp tiếng nói về mức độ tự Đề tài đã hoàn thành các vấn đề đặt ra và nhiên và mức độ dễ nghe. được đánh giá như sau: Bảng 1. Đánh giá một số ví dụ về mức độ Tổng hợp tiếng nói tiếng Việt và lập tổng hợp tiếng nói trình nhúng vào TBGSHT: Đánh giá - Chuẩn hóa văn bản đầu vào, tổng hợp Nội dung Số ký mức độ tự tự nhiên và tiếng nói bằng phương pháp ghép nối – lựa mức độ dễ chọn đơn vị. nghe (%) - Viết chương trình tổng hợp tiếng nói trên Máy chủ (Server) máy tính có hệ điều hành Linux và trên thiết Cú pháp: $MTTS˽Nội_dung bị giám sát hành trình. Cấu trúc có tối đa 1024 byte, mỗi ký tự có - Viết chương trình cho TBGSHT đáp ứng dấu thay đổi từ 1 đến 3 byte. Vậy trung bình nội dung có tối đa khoảng 512 ký tự. đầy đủ các tính năng theo Nghị định của Bộ Xin chào bạn. 13 97 Giao thông vận tải. Chào mừng các bạn 41 96 - Tích hợp hệ thống tổng hợp tiếng nói tân sinh viên năm tiếng Việt vào TBGSHT. 2015. - Truyền nội dung văn bản cần tổng hợp Chào mừng các bạn 61 98 bằng tin nhắn SMS hoặc bằng máy chủ qua sinh viên trường ĐH giao thức TCP/IP. Sư Phạm Kỹ Thuật - So sánh kết quả tổng hợp tiếng nói tiếng TPHCM. Chương trình tổng hợp 44 98 Việt trên thiết bị TBGSHT với trên máy tính, tiếng nói trên thì trên TBGSHT tốc độ chậm hơn trong việc TBGSHT. chuyển văn bản thành tệp tin âm thanh, nhưng Theo nhiều chuyên 101 95 âm thanh được đọc phát ra là tương đương gia, Khoa học Máy nhau. Phần cơ sở dữ liệu có thể được đánh giá tính là một chuyên là lớn hơn so với các phương pháp tổng hợp ngành khó vì nó thiên Formant hay phương pháp ghép nối dùng các về lý thuyết, học thuật. Facebook công bố kế 109 97 diphone. hoạch phóng vệ tinh - Phương pháp này cho chất lượng tiếng cung cấp đường truyền nói tốt hơn, với lại kho dữ liệu âm thanh được Internet cho các khu lưu trong SD card (4GB), và thuận lợi ứng vực hẻo lánh của châu dụng trên thiết bị giám sát hành trình xe ô tô. Phi. Tổng hợp tiếng nói được ứng dụng thực tế Tin nhắn SMS trên thiết bị giám sát hành trình, xử lý được Cú pháp: C4321˽MTTS˽Nội_dung Cấu trúc có tối đa 134 byte, mỗi ký tự có dấu các từ viết tắt, số, tên riêng và một số địa danh là 2 byte, nội dung có tối đa 67 ký tự. tiếng nước ngoài mà các thuật toán tổng hợp Xin chào bạn. 13 97 trước đây còn hạn chế [5, 7]. Chào mừng các bạn 41 96 tân sinh viên năm Thiết bị có chức năng giám sát hoạt 2015. động của xe: Thông báo trạng thái hoạt động Chương trình tổng hợp 44 98 của thiết bị bằng đèn, còi và có cơ chế tự kiểm tiếng nói trên tra các trạng thái xe; Nhận dạng, thay đổi lái TBGSHT. xe sử dụng công nghệ thẻ RFID, chuẩn ISO/IEC 15693; Cảnh báo lái xe khi xe đang
- chạy: quá tốc độ, đăng nhập, đăng xuất; Giám Thay đổi các thông số hoạt động của sát thời gian lái xe liên tục, lái xe trong ngày TBGSHT bằng SMS theo cú pháp định sẵn. và cảnh báo khi lái xe vượt quá thời gian qui LỜI CẢM ƠN định; Đếm số lần, thời gian đóng mở cửa; Đếm số lần, thời gian dừng đỗ; Giao tiếp với Xin chân thành gửi lời cảm ơn đến Ban phần mềm phân tích dữ liệu của BGTVT qua lãnh đạo Trung tâm Nghiên cứu và Đào cổng COM; Hiển thị trạng thái tín hiệu GPS, tạo Thiết kế Vi mạch (ICDREC) đã tạo GSM, kết nối server, thẻ SD-card, lái xe và điều kiện cho em hoàn thành tốt đề tài này. nguồn cấp; Hỗ trợ đo số km đi được (sai số đơn vị: 0.001km). Xin chân thành gửi lời cảm ơn đến toàn thể quý thầy cô Trường Đại học Sư phạm Kỹ Thiết bị có chức năng hõ trợ cho thuật TP. Hồ Chí Minh đã giảng dạy, hướng ngƣời quản lý và ngƣời sử dụng: SOS khi dẫn, truyền đạt kiến thức, kinh nghiệm quý cần sự trợ giúp nhanh; Chế độ chống trộm báu và tạo mọi điều kiện học tập tốt cho em. khi xe đỗ/nghỉ; Kiểm tra tài khoản trong SIM và tự động cảnh báo khi tài khoản sắp hết; Kiểm tra trạng thái máy điều hòa của xe; TÀI LIỆU THAM KHẢO [1] D. Eastlake, P. Jones, US Secure Hash Algorithm 1 (SHA1), RFC, 2001. [2] DO Van Thao, TRAN Do Dat, NGUYEN Thi Thu Trang, Non-uniform unit selection in Vietnamese Speech Synthesis, Proceedings of the 2nd SoICT 2011, tr. 165-171, 2011. [3] Nguyễn Thị Thanh Mai, Nghiên cứu các phương pháp nâng cao chất luợng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice, LVThS Truờng Ðại học Công nghệ, Ðại học Quốc gia Hà Nội, 2007. [4] Phan Thanh Sơn, Phùng Trung Nghĩa, Một số vấn đề về tổng hợp hợp tiếng nói tiếng Việt, Hội thảo Quốc gia về Điện tử, Truyền thông và Công nghệ Thông tin, REV-ECIT2014, 2014. [5] Phan Thanh Tài, Tổng hợp tiếng nói tiếng Việt sử dụng mô hình tổng hợp tiếng nói Formant, LVThS Trường Đại học Sư phạm Kỹ thuật TP.HCM, 2009. [6] Trung-Nghia Phung; Chi-Mai Luong và Masato Akagi, A Hybrid TTS between Unit Selection and HMM-based TTS under limited data conditions, Proc. in 8th ISCA Speech Synthesis Workshop, Barcelona, Spain, 2013. [7] Võ Văn Nguyên, Tổng hợp tiếng nói sử dụng giải thuật TD_PSOLA, LVThS Trường Đại học Sư phạm Kỹ thuật TP.HCM, 2013. [8] Vũ Hải Quân và Cao Xuân Nam, Tổng hợp tiếng nói tiếng Việt theo phương pháp ghép nối cụm từ, Tạp chí CNTT và TT, Tập V-1(1), tr. 70-76, 2009. Thông tin liên hệ tác giả chính (người chịu trách nhiệm bài viết): Họ tên: Phạm Minh Dương Đơn vị: Trung tâm Nghiên cứu và Đào tạo Thiết kế Vi mạch (ICDREC) Điện thoại: 0913.531.247 Email: duong.phamminh@icdrec.edu.vn
- BÀI BÁO KHOA HỌC THỰC HIỆN CÔNG BỐ THEO QUY CHẾ ĐÀO TẠO THẠC SỸ Bài báo khoa học của học viên có xác nhận và đề xuất cho đăng của Giảng viên hướng dẫn Bản tiếng Việt ©, TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HỒ CHÍ MINH và TÁC GIẢ Bản quyền tác phẩm đã được bảo hộ bởi Luật xuất bản và Luật Sở hữu trí tuệ Việt Nam. Nghiêm cấm mọi hình thức xuất bản, sao chụp, phát tán nội dung khi chưa có sự đồng ý của tác giả và Trường Đại học Sư phạm Kỹ thuật TP. Hồ Chí Minh. ĐỂ CÓ BÀI BÁO KHOA HỌC TỐT, CẦN CHUNG TAY BẢO VỆ TÁC QUYỀN! Thực hiện theo MTCL & KHTHMTCL Năm học 2016-2017 của Thư viện Trường Đại học Sư phạm Kỹ thuật Tp. Hồ Chí Minh.