Tổng hợp tiếng nói tiếng Việt sử dụng giải thuật TD_PSOLA

6 trang phuongnguyen 2530

Download

Bạn đang xem tài liệu "Tổng hợp tiếng nói tiếng Việt sử dụng giải thuật TD_PSOLA", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

tong_hop_tieng_noi_tieng_viet_su_dung_giai_thuat_td_psola.pdf

Nội dung text: Tổng hợp tiếng nói tiếng Việt sử dụng giải thuật TD_PSOLA

TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT SỬ DỤNG GIẢI THUẬT TD_PSOLA Võ Văn Nguyên, Đinh Thị Thanh Hoa PGS.TS Dương Hoài Nghĩa Khoa điện - điện tử, Đại học Sư phạm kỹ Khoa điện - điện tử, Đại học Bách khoa thuật Thành phố Hồ Chí Minh Thành phố Hồ Chí Minh Email: vovannguyen1985@yahoo.com Email: dhnghia@hcmut.edu.vn ABSTRACT 2. CƠ SỞ NGHIÊN CỨU Vietnamese speech synthesis is the 2.1 Mô hình tổng hợp tiếng nói process of generating Vietnamese speech Quá trình tổng hợp tiếng nói từ văn bản signal from Vietnamese text. được chia làm hai mức xử lý: tổng hợp văn The TD_PSOLA algorithm enables bản và tổng hợp diphone. modification of speech signal in time domain by using prepared diphone database. Because of its high computational efficiency, it brings a great advance in text-to-speech synthesis. The synthesis based on TD_PSOLA algorithm comes out of human speech signal, Hình 1: Mô hình tổng quát tổng hợp tiếng nói divided into segments, called diphones. We are able to achieve synthesized speech by a. Tổng hợp văn bản concatenating these segments. Tổng hợp văn bản là giai đoạn chuyển The algorithm enables to modify the đổi các văn bản (text) thành các đơn vị tiếng pitch and duration of the speech. We are able nói (diphone), quá trình chuyển đổi: xử lý văn to modify the pitch by changing distance bản tiếng Việt ngõ vào, phân tích cách phát among the periods, and duration by adding or âm, ngữ điệu của tiếng nói và phân tích từ omitting some of them. thành các đơn vị tiếng nói. Keyword: Speech synthesis, Text-to- b. Tổng hợp diphone [6] speech, PSOLA, TD_PSOLA. Là quá trình ghép nối các diphone, phân 1. GIỚI THIỆU tích tín hiệu sau ghép nối thành các tín hiệu Tổng hợp tiếng nói là một vấn đề khoa thành phần, hiệu chỉnh tần số cơ bản của các học liên quan đến nhiều lĩnh vực khoa học tín hiệu thành phần rồi đưa vào bộ cộng khác nhau như ngôn ngữ học, tâm lý học, toán chồng lấp các thành phần để thu được tiếng học, xử lý tín hiệu số và khoa học máy tính. nói tổng hợp. Đối với phương pháp ghép nối Hướng nghiên cứu tạo ra tiếng nói nhân thì cơ sở dữ liệu sẽ lớn, do đó việc nén tín tạo trên máy tính được gọi là tổng hợp tiếng hiệu sẽ làm giảm đáng kể dung lượng của bộ nói. Hai yêu cầu quan trọng về chất lượng nhớ. tổng hợp tiếng nói là: mức độ tự nhiên và 2.2 Giải thuật TD_PSOLA [1] mức độ dễ nghe. Mức độ tự nhiên chỉ sự giống nhau giữa giọng tổng hợp và giọng nói Giả sử rằng s(n) là tín hiệu tuần hoàn, tự nhiên của người thật. Mức độ dễ nghe là 푠 푛 là tín hiệu sau khi đã thay đổi chu kỳ cơ khả năng hiểu câu nói phát âm có dễ dàng bản của s(n) bằng cách lấy tổng chồng lấp của không. si(n) với cửa sổ hanning w(n), sự thay đổi của Các phương pháp tổng hợp tiếng nói chu kỳ cơ bản T0i (xác định trong hình 8) tới được sử dụng phổ biến: phương pháp mô chu kỳ T tạo ra sự thay đổi của si(n) và 푠 (푛): phỏng bộ máy phát âm, phương pháp tổng hợp bộ tham số formant và phương pháp ghép 풔풊 풏 = 풔 풏 풘 풏 − 풊푻 풊 nối. Bài báo này trình bày hệ thống tổng hợp ∞ tiếng nói tiếng Việt sử dụng giải thuật 풔 풏 = 풔풊 풏 − 풊 푻 − 푻 풊 TD_PSOLA. 풊=−∞ Trang 1
Độ dài cửa sổ hanning w(n) được lấy Để tổng hợp tiếng nói tiếng Việt từ văn đồng bộ với chu kỳ cơ bản T0i, vì thế các mẫu bản bằng giải thuật TD_PSOLA thì các công si(n) chỉ khác 0 nếu như nó thuộc vào một cửa việc cần thực hiện là: sổ nào đó. Khi tổng hợp tiếng nói thì kích + Tạo cơ sở dữ liệu gồm các diphone. thước của cửa sổ sẽ thay đổi theo mỗi khung + Phân tích văn bản tiếng Việt ngõ vào tín hiệu và phụ thuộc vào hệ số xếp chồng FR: thành các đơn vị tiếng nói (diphone). 푳 + Ghép nối các diphone và biến đổi chu 퐅퐑 = + , với L là chiều dài của cửa sổ. 푻 풊 kỳ cơ bản. Sự thay đổi của chu kỳ cơ bản T0i của + Biểu diễn tiếng nói tổng hợp: phát ra tín hiệu được thực hiện bằng hai cách sau [6]: tiếng nói hoặc biểu diễn dạng sóng. Cách thứ nhất: hiệu chỉnh tỉ lệ Pitch. Quá trình tổng hợp tiếng nói được mô tả Gọi FP là hệ số tỉ lệ pitch là tỉ số của chu kỳ bằng sơ đồ sau: tuần hoàn địa phương T với chu kỳ cơ bản 푻 T0i: FP = giá trị nằm trong đoạn [0.5 2]. 푻 풊 Hình 4: Quy trình tổng hợp tiếng nói từ văn Hình 2: Quá trình thay đổi tỉ lệ Pitch bản Cách thứ hai: hiệu chỉnh tỉ lệ thời gian. 3.1 Phân tích văn bản tiếng Việt thành Việc kéo giản tín hiệu theo thời gian được các diphone thực hiện bằng cách cộng thêm một số khung cố định vào, và ngược lại. Trước tiên hệ thống xử lý văn bản tiếng Việt có dấu, kiểu fonts .VnTime, sau đó phân tích một từ thành hai diphone tương ứng: + Minh = “mi_” + “inh__” + Chào = “chà” + “ào” = “chaf_” + “afo__” + Trường = “trườ” + “ường” = “truwowf_” + “uwowfng__” Cách phát âm của một câu được được phân ra ba loại cơ bản như sau: + Câu trần thuật ứng với dấu: “.”, “;”, + Câu hỏi ứng với dấu: “?” + Câu lên giọng ở cuối câu: “,”, “!” 3.2 Xây dựng cơ sở dữ liệu [5] Hình 3: Quá trình thay đổi tỉ lệ Time Chất lượng của diphone sẽ ảnh hưởng trực tiếp tới chất lượng của tiếng nói tổng 3. TỔNG HỢP TIẾNG NÓI TIẾNG hợp. Cho nên quá trình xây dựng cơ sở dữ VIỆT liệu cần phải thực hiện tốt các công việc sau: Trang 2
+ Thu âm: tần số lấy mẫu fs = 8KHz, Tin hieu trong mien tan so 0 16-bit, mono, định dạng lưu trữ *.wav. + Xử lý sau thu âm: lọc nhiễu, cắt -20 khoảng lặng, hiệu chỉnh biên độ. -40 Do lon (dB) lon Do + Tách từ thành các diphone. -60 0 500 1000 1500 2000 2500 3000 3500 4000 Tan so (Hz) Tin hieu trong mien thoi gian 0.02 0 Bien Bien do -0.02 -0.04 0 500 1000 1500 2000 2500 3000 3500 Thoi gian (Ts) Hình 5: Tách một từ thành hai diphone Hình 7: Tín hiệu sau ghép nối và làm trơn + Lưu trữ diphone. Quá trình điều khiển chu kỳ cơ bản của từ “đại” bằng giải thuật TD_PSOLA được mô tả như sau: Bước 1: phân tích tín hiệu thành chuổi các đoạn tín hiệu, mỗi đoạn ta có một chu kỳ Bảng 1: Thứ tự vị trí lưu trữ các diphone cơ bản riêng T0i sử dụng hàm tự tương quan: [1] chiều dài tên diphone, [2-19] tên của diphone, [20] vị trí bắt đầu của dữ liệu, [21] chiều dài của dữ liệu, [22-4000] dữ liệu của diphone. 3.3 Ghép nối các diphone và điều khiển chu kỳ cơ bản [9] Các diphone được ghép nối theo trình tự văn bản và làm trơn tín hiệu sau khi ghép nối theo giải thuật làm trơn tín hiệu như sau: Hình 8: Cực đại địa phương hàm năng lượng y(1) = x(1) y(2) = (x(1) + x(2) + x(3))/3 Bước 2: thay đổi chu kỳ cơ bản T0i theo y(3) = (x(1) + x(2) + x(3) + x(4) + x(5))/5 T, xác định kích thước của cửa sổ tổng hợp y(4) = (x(2) + x(3) + x(4) + x(5) + x(6))/5 rồi đưa vào bộ cộng chồng lấp các đoạn tín hiệu. Quá trình ghép từ “đại” được biểu diễn + Hiệu chỉnh tỉ lệ Pitch = 1.7, Time = 1 Tin hieu trong mien tan so như hình sau. 0 -20 -40 Do lon (dB) lon Do -60 0 500 1000 1500 2000 2500 3000 3500 4000 Tan so (Hz) Tin hieu trong mien thoi gian 0.02 0 Hình 6: Hai diphone trước khi ghép nối Bien Bien do -0.02 Kết quả sau khi ghép nối hai diphone và -0.04 0 500 1000 1500 2000 2500 3000 3500 làm trơn tín hiệu được mô tả như sau: Thoi gian (Ts) Hình 9: Hiệu chỉnh tăng tỉ lệ Pitch Trang 3
+ Hiệu chỉnh tỉ lệ Pitch = 0.6, Time = 1 Các diphone được ghi xuống Tin hieu trong mien tan so Mydatabase.mat và đọc lên Workspace theo 0 lưu đồ được mô tả trong lưu đồ giải thuật hình -20 13, các diphone được lưu trên Workspace -40 tương ứng với dữ liệu đã có trên RAM, lúc Do lon (dB) lon Do này tốc độ xử lý truy cập diphone của hệ -60 0 500 1000 1500 2000 2500 3000 3500 4000 Tan so (Hz) thống tổng hợp tiếng nói được nhanh hơn. Tin hieu trong mien thoi gian 0.02 0 Bien Bien do -0.02 -0.04 0 500 1000 1500 2000 2500 3000 3500 Thoi gian (Ts) Hình 10: Hiệu chỉnh giảm tỉ lệ Pitch + Hiệu chỉnh tỉ lệ Time = 1.5, Pitch = 1 Tin hieu trong mien tan so 0 -20 -40 Do lon (dB) lon Do -60 0 500 1000 1500 2000 2500 3000 3500 4000 Tan so (Hz) Tin hieu trong mien thoi gian 0.02 Hình 13: Lưu đồ đọc và ghi diphone trên 0 Mydatabase.mat Bien Bien do -0.02 Hệ thống quản lý, giám sát, cập nhật dữ -0.04 0 1000 2000 3000 4000 5000 6000 liệu diphone được thể hiện trong hình 14. Thoi gian (Ts) Hình 11: Hiệu chỉnh tăng tỉ lệ Time + Hiệu chỉnh tỉ lệ Time = 0.6, Pitch = 1 Tin hieu trong mien tan so 0 -20 -40 Do lon (dB) lon Do -60 0 500 1000 1500 2000 2500 3000 3500 4000 Hình 14: Giao diện quản lý CSDL diphone Tan so (Hz) Tin hieu trong mien thoi gian 0.02 Giai đoạn thực thi ứng dụng tổng hợp 0 tiếng nói từ văn bản tiếng Việt. Bien Bien do -0.02 -0.04 0 500 1000 1500 2000 2500 Thoi gian (Ts) Hình 12: Hiệu chỉnh giảm tỉ lệ Time 3.4 Mô phỏng hệ thống trên Matlab Quá trình mô phỏng được chia làm hai giai đoạn: giai đoạn quản lý, lưu trữ cơ sở dữ liệu và giai đoạn thực thi ứng dụng tổng hợp tiếng nói tiếng Việt từ văn bản. Hình 15: Hệ thống tổng hợp tiếng nói tiếng Việt Trang 4
Kết quả mô phỏng thực hiện đọc văn Chiều dài của văn bản tiếng Việt không bản tiếng Việt “Luận văn tổng hợp tiếng giới hạn. nói” thu được kết quả như hình 16. Tin hieu trong mien tan so 4.3 Khả năng tổng hợp tiếng nói 20 Văn bản đầu vào không phân biệt chữ 0 hoa và chữ thường, được nhập trực tiếp trên -20 Do lon (dB) lon Do hệ thống hoặc nhập từ file word. -40 Tiếng nói tổng hợp được dễ nghe và 0 500 1000 1500 2000 2500 3000 3500 4000 Tan so (Hz) tương đối tự nhiên. Tin hieu trong mien thoi gian 0.1 Hệ thống hoạt động ổn định và tiện lợi. 0.05 TÀI LIỆU THAM KHẢO 0 Bien Bien do -0.05 [1]. Akshay Rangamani, Voice Conversion -0.1 Using PSOLA and Pitch 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 Thoi gian (Ts) 4 x 10 Transformation, EE09B002, 2012 Hình 16: Tiếng nói thu được sau khi tổng hợp [2]. Sean A. Fulop, Speech Spectrum Analysis, Department of Linguistics Tiếng nói “Luận văn tổng hợp tiếng California State University Fresno, nói” sau khi thu âm trong tự nhiên được có 2011 dạng sóng tín hiệu như sau: [3]. Daniel Povey, Estimation for Speech Tin hieu trong mien tan so Processing with Matlab or Octave, 10 2009 0 [4]. Paul Tayloy, Text-to-Speech Synthesis, -10 Do lon (dB) lon Do University of Cambridge, 2009 [5]. Ann Syrdal and Yannis Stylianou, -20 0 500 1000 1500 2000 2500 3000 3500 4000 Tan so (Hz) TD_PSOLA versus harmonic plus noise Tin hieu trong mien thoi gian 0.2 model in diphone based speech 0.1 synthesis, AT&T Labs-Research, SIPS 0 180 Park Avenue, Florham Park, NJ Bien Bien do -0.1 07932 -0.2 [6]. Vincent Colotteand and Yves Laprie, 0 0.5 1 1.5 2 2.5 Thoi gian (Ts) 4 x 10 Higher Precision Pitch Marking For Hình 17: Tiếng nói được thu âm tự nhiên TD_PSOLA, Loria, Campus scientifique, BP 239, F-54506 Từ hình 16 và hình 17 ta thấy tiếng nói Vandoeuvre-lès-Nancy, France thu được sau khi tổng hợp từ văn bản có [7]. Dr. Gregor Rozinaj, Usage of đường bao phổ gần giống với tiếng nói được TD_PSOLA algorithm in slovak speech ghi âm trực tiếp. synthesis based on the EMU database 4. KẾT LUẬN system, Andrej VRÁBEL, Bachelor 4.1 Giải thuật TD_PSOLA Degree Programme Dept. of Telecommunications, FEI STU Tín hiệu tiếng nói sau khi tổng hợp vẫn Bratislava giữ nguyên đường bao phổ, cho phép điều [8]. Mark Tatham, Developments in khiển độc lập tần số cơ bản của tín hiệu, thời speech synthesis, Department of gian tính toán thấp. Language and Linguistics, University of Essex, UK, 2005 4.2 Cơ sở dữ liệu [9]. Nader Abu Ghattas & Hanna Abdel Số lượng các diphone đã xây dựng là Nour, Text-to-Speech Synthesis by 209 diphone. Tất cả diphone được lưu trong Diphones for Modern Standard Arabic, Mydatabase.mat có dung lượng là 779 KB. Department of Electronic Engineering. Các diphone chỉ giới hạn trong những tình Faculty of Engineering. Al-Quds huống giao tiếp cơ bản. University. Jerusalem, Palestine, 2005 Trang 5
BÀI BÁO KHOA HỌC THỰC HIỆN CÔNG BỐ THEO QUY CHẾ ĐÀO TẠO THẠC SỸ Bài báo khoa học của học viên có xác nhận và đề xuất cho đăng của Giảng viên hướng dẫn Bản tiếng Việt ©, TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HỒ CHÍ MINH và TÁC GIẢ Bản quyền tác phẩm đã được bảo hộ bởi Luật xuất bản và Luật Sở hữu trí tuệ Việt Nam. Nghiêm cấm mọi hình thức xuất bản, sao chụp, phát tán nội dung khi chưa có sự đồng ý của tác giả và Trường Đại học Sư phạm Kỹ thuật TP. Hồ Chí Minh. ĐỂ CÓ BÀI BÁO KHOA HỌC TỐT, CẦN CHUNG TAY BẢO VỆ TÁC QUYỀN! Thực hiện theo MTCL & KHTHMTCL Năm học 2016-2017 của Thư viện Trường Đại học Sư phạm Kỹ thuật Tp. Hồ Chí Minh.