Bài giảng Xử lý tiếng nói - Phạm Văn Sự

pdf 100 trang phuongnguyen 90
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Xử lý tiếng nói - Phạm Văn Sự", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_xu_ly_tieng_noi_pham_van_su.pdf

Nội dung text: Bài giảng Xử lý tiếng nói - Phạm Văn Sự

  1. TP ðỒN B ƯU CHÍNH VI N THƠNG VI T NAM HC VI N CƠNG NGH B ƯU CHÍNH VI N THƠNG BÀI GI NG X LÝ TI NG NĨI BIÊN SO N: PH M V ĂN S LÊ XUÂN THÀNH HÀ N I - 2010
  2. Li nĩi đu Ti ng nĩi là m t ph ươ ng ti n trao đi thơng tin ti n ích v n cĩ c a con ng ưi. Ưc m ơ v nh ng "máy nĩi", "máy hi u ti ng nĩi" đã khơng ch xu t hi n t nh ng câu truy n khoa h c vi n t ưng xa x ưa mà nĩ cịn là đng l c thơi thúc c a nhi u nhà nghiên c u, nhĩm nghiên cu trên th gi i. Ho t đng nghiên c u và x lý ti ng nĩi đã tr i qua g n m t th k cùng v i nhi u thành t u to l n trong vi c xây d ng phát tri n các k thu t cơng ngh x lý ti ng nĩi đã đt đưc. Tuy v y, vi c cĩ đưc m t "máy nĩi" mang tính t nhiên (v gi ng điu, phát âm ) c ũng nh ư m t "máy hi u ti ng nĩi" th c th v n cịn khá xa v i. Xu th phát tri n c a cơng ngh h i t th k 21 càng thơi thúc vi c hồn thi n h ơn n a cơng ngh đ cĩ th đt đưc m c tiêu c a con ng ưi v l ĩnh v c x lý ti ng nĩi. Chính vì th , vi c n m b t đưc các k thu t c ơ b n c ũng nh ư các cơng ngh ti n ti n cho vic x lý ti ng nĩi là th c s c n thi t cho sinh viên chuyên ngành X lý Tín hi u và Truy n thơng nĩi riêng, sinh viên chuyên ngành K thu t ðin - ðin t nĩi chung. V i m c đích đĩ, bài gi ng mơn h c X lý ti ng nĩi đưc biên so n nh m trang b cho sinh viên các khái ni m c ơ b n quan tr ng và c n thi t cũng nh ư nh m gi i thi u cho sinh viên các cơng ngh tiên ti n, xu th nghiên c u và phát tri n c a l ĩnh v c x lý ti ng nĩi. Cu n sách đưc chia làm 5 ch ươ ng: 1. M t s khái ni m c ơ b n. 2. Bi u di n s c a tín hi u ti ng nĩi. 3. Phân tích ti ng nĩi. 4. T ng h p ti ng nĩi. 5. Nh n d ng ti ng nĩi. Các ch ươ ng 1 và 2 do gi ng viên Lê Xuân Thành biên so n, các ch ươ ng cịn l i do gi ng viên Ph m V ăn S biên so n. Trong th i gian g p rút hồn thành cu n bài gi ng này, m c dù vi s c g ng n l c h t s c, nh ư do kinh nghi m cịn nhi u h n ch , nhĩm tác gi khơng tránh kh i nh ng sai sĩt và nh m l n. Nhĩm tác gi chân thành mong mu n nh n đưc nh ng đĩng gĩp t đng nghi p và các em sinh viên đ hồn thi n h ơn trong phiên b n sau. Mi gĩp ý xin g i v : B mơn Lý thuy t m ch, Khoa K thu t ðin t I, H c vi n Cơng ngh B ưu chính Vi n thơng, Km10 ðưng Nguy n Trãi, Hà ðơng, Hà N i ho c gi email v đa ch xulytiengnoi@gmail.com. Hà N i, ngày 02 tháng 05 n ăm 2010 Nhĩm biên so n i
  3. Danh m c các t vi t t t ADC Analog Digital Converter B chuy n đi t ươ ng t - s ADM Adaptive Delta Modulation ðiu ch Delta thích nghi ADPCM Adaptive Differential PCM ðiu xung mã vi sai thích nghi CSR Continuous Speech Recognition Nhn d ng ti ng nĩi liên t c DCT Discrete Cosine Transform Bi n đi Cosine r i r c DFT Discrete Fourier Transform Bi n đi Fourier r i r c DM Delta Modulation ðiu ch Delta DTFT Discrete Time FT Bi n đi Fourier v i th i gian r i r c DPCM Differential PCM ðiu ch xung mã vi sai FFT Fast FT Bi n đi Fourier nhanh FIR Finite Impulse Response B l c đáp ng h u h n FT Fourier Transform Bi n đi Fourier HMM Hidden Markov Model Mơ hình Markov n IDFT Inverse Discrete FT Bi n đi Fourier r i r c ng ưc Bi n đi Fourier v i th i gian r i r c IDTFT Inverse DTFT ng ưc IFT Inverse FT Bi n đi Fourier ng ưc LMS Least Mean Square Bình ph ươ ng trung bình t i thi u LPC Linear Predictive Coding Mã hĩa d đốn tuy n tính B l c tuy n tính khơng thay đi theo LTI Linear Time-Invariant th i gian MFCC Mel frequency cepstral coefficient Các h s cepstral t n s Mel NLP Natural Language Processing X lý ngơn ng t nhiên PAM Pulse Amplitude Modulation ðiu ch biên đ xung mã SNR Signal to Noise Ratio T s tín hi u trên nhi u ST Short-time Transform Bi n đi ng n h n STFT Short-time FT Bi n đi Fourier ng n h n TDNN Time delay Neural Network Mng n ơ-ron v i th i gian tr Ph ươ ng pháp ch ng l n đng b pitch TD-PSOLA Time-domain PSOLA trong mi n th i gian ii
  4. Mc l c Li nĩi đu i Danh m c các t vi t t t ii Mc l c iii Ch−¬ng 1: Mt s khái ni m c ơ b n 1 1.1. M đu 1 1.1.1 Ngu n g c c a ti ng nĩi 1 1.1.2 Phân lo i ti ng nĩi 1 1.2. Quá trình t o ti ng nĩi 2 1.2.1 Cu t o c a h thng c u âm 2 1.2.2 Cu t o c a h th ng ti p âm 3 1.3. Các đc tính c ơ b n c a ti ng nĩi 6 1.3.1 Tn s c ơ b n và ph t n 6 1.3.2 Bi u di n tín hi u ti ng nĩi 6 Ch−¬ng 2: Bi u di n s c a tín hi u ti ng nĩi 12 2.1. M đu 12 2.2. Ly m u tín hi u ti ng nĩi 13 2.3. Lưng t hĩa 14 2.4. Mã hĩa và gi i mã 16 2.5. ðiu ch xung mã vi sai DPCM 18 2.6. ðiu ch Delta (DM) 19 2.7. ðiu ch Delta thích nghi (ADM) 20 2.8. ðiu ch xung mã vi sai thích nghi (ADPCM) 22 2.9. Bài th c hành các ph ươ ng pháp bi u di n s tín hi u ti ng nĩi 22 Ch−¬ng 3: Phân tích ti ng nĩi 24 3.1. M đu 24 3.2. Mơ hình phân tích ti ng nĩi 24 3.3. Phân tích ti ng nĩi ng n h n 24 3.4. Phân tích ti ng nĩi trong mi n th i gian 26 3.5. Phân tích ti ng nĩi trong mi n t n s 28 iii
  5. 3.5.1 Cu trúc ph c a tín hi u ti ng nĩi 28 3.5.2 Spectrogram 30 3.6. Ph ươ ng pháp phân tích mã hĩa d đốn tuy n tính (LPC) 32 3.7. Ph ươ ng pháp phân tích cepstral 39 3.8. Mt s ph ươ ng pháp xác đnh t n s Formant 40 3.9. Mt s ph ươ ng pháp xác đnh t n s c ơ b n 41 3.10. Bài th c hành phân tích ti ng nĩi 44 Ch−¬ng 4: Tng h p ti ng nĩi 45 4.1. M đu 45 4.2. Các ph ươ ng pháp t ng h p ti ng nĩi 45 4.2.1 Tng h p tr c ti p 45 4.2.2 Tng h p ti ng nĩi theo Formant 47 4.2.3 Tng h p ti ng nĩi theo ph ươ ng pháp mơ ph ng b máy phát âm 51 4.3. H th ng t ng h p ch vi t sang ti ng nĩi 52 4.4. Bài th c hành t ng h p ti ng nĩi 56 Ch−¬ng 5: Nh n d ng ti ng nĩi 57 5.1. M đu 57 5.2. Lch s phát tri n các h th ng nh n d ng ti ng nĩi 57 5.3. Phân lo i các h th ng nh n d ng ti ng nĩi 58 5.4. Cu trúc h nh n d ng ti ng nĩi 59 5.5. Các ph ươ ng pháp phân tích cho nh n d ng ti ng nĩi 60 5.5.1 Lưng t hĩa véc-tơ 60 5.5.2 B x lý LPC trong nh n d ng ti ng nĩi 63 5.5.3 Phân tích MFCC trong nh n d ng ting nĩi 69 5.6. Gi i thi u m t s ph ươ ng pháp nh n d ng ti ng nĩi 71 5.6.1 Ph ươ ng pháp acoustic-phonetic 73 5.6.2 Ph ươ ng pháp nh n d ng m u th ng kê 77 5.6.3 Ph ươ ng pháp s d ng trí tu nhân t o 78 5.6.4 ng d ng m ng n ơ-ron trong h th ng nh n d ng ti ng nĩi 81 5.6.5 H th ng nh n d ng d a trên mơ hình Markov n (HMM) 84 5.7. Bài th c hành nh n d ng ti ng nĩi 87 iv
  6. Ph l c 1: M ng n ơ-ron 88 Ph l c 2: Mơ hình Markov n 90 Tài li u tham kh o 94 v
  7. Ch ươ ng 1: M t s khái ni m c ơ b n Ch−¬ng 1: Mt s khái ni m c ơ b n 1.1. M đu Ti ng nĩi th ưng xu t hi n d ưi nhi u hình th c mà ta g i là đàm tho i, vi c đàm tho i th hi n kinh nghi m c a con ng ưi. ðàm tho i là m t quá trình g m nhi u ng ưi, cĩ s hi u hi t chung và m t nghi th c luân phiên nhau nĩi. Nh ng ng ưi cĩ điu ki n th ch t và tinh th n bình th ưng thì r t d di n đt ti ng nĩi c a mình, do đĩ ti ng nĩi là ph ươ ng ti n giao ti p chính trong lúc đàm tho i. Ti ng nĩi cĩ r t nhi u y u t khác h tr nh m giúp ng ưi nghe hi u đưc ý c n di n đt nh ư bi u hi n trên g ươ ng m t, c ch , điu b . Vì cĩ đc tính tác đng qua l i, nên ti ng nĩi đưc s d ng trong nhu c u giao ti p nhanh chĩng. Trong khi đĩ, ch vi t l i cĩ kho ng cách v khơng gian l n th i gian gi a tác gi và ng ưi đc. S bi u đt ca ti ng nĩi h tr m nh m cho vi c ra đi các h th ng máy tính cĩ s d ng ti ng nĩi, ví d nh ư l ưu tr ti ng nĩi nh ư là m t lo i d li u, hay dùng ti ng nĩi làm ph ươ ng ti n giao ti p qua l i. N u chúng ta cĩ th phân tích quá trình giao ti p qua nhi u l p, thì l p th p nh t chính là âm thanh và l p cu i cùng là ti ng nĩi di n t ý ngh ĩa mu n nĩi. 1.1.1 Ngu n g c c a ti ng nĩi Âm thanh c a l i nĩi c ũng nh ư âm thanh trong th gi i t nhiên xung quanh ta, v b n ch t đu là nh ng sĩng âm đưc lan truy n trong m t mơi tr ưng nh t đnh (th ưng là khơng khí). Khi chúng ta nĩi dây thanh trong h u b ch n đng, t o nên nh ng sĩng âm, sĩng truy n trong khơng khí đn màng nh ĩ – m t màng m ng r t nh y c m c a tai ta – làm cho màng nh ĩ c ũng dao đng, các dây th n kinh c a màng nh ĩ s nh n đưc c m giác âm khi t n s dao đng c a sĩng đt đn m t đ l n nh t đnh. Tai con ng ưi ch c m th đưc nh ng dao đng cĩ t n s t kho ng 16Hz đn kho ng 20000Hz. Nh ng dao đng trong mi n t n s này g i là dao đng âm hay âm thanh, và các sĩng t ươ ng ng g i là sĩng âm. Nh ng sĩng cĩ t n s nh h ơn 16Hz gi là sĩng h âm, nh ng sĩng cĩ t n s l n h ơn 20000Hz g i là sĩng siêu âm, con ng ưi khơng c m nh n đưc (ví d lồi d ơi cĩ th nghe đưc ti ng siêu âm). Sĩng âm, sĩng siêu âm và h âm khơng ch truy n trong khơng khí mà cịn cĩ th lan truy n t t nh ng mơi tr ưng rn, l ng, do đĩ c ũng đưc s d ng r t nhi u trong các thi t b máy mĩc hi n nay. 1.1.2 Phân lo i ti ng nĩi Ti ng nĩi là âm thanh mang m c đích di n đt thơng tin, r t uy n chuy n và đc bi t. Là cơng c c a t ư duy và trí tu , ti ng nĩi mang tính đc tr ưng c a lồi ng ưi. Nĩ khơng th tách riêng khi nhìn vào tồn th nhân lo i, và nh cĩ ngơn ng ti ng nĩi mà lồi ng ưi s ng và phát tri n xã h i tin b , cĩ v ăn hĩa, v ăn minh nh ư ngày nay. Trong quá trình giao ti p ng ưi nĩi, cĩ nhi u câu nĩi, m i câu g m nhi u t , m i t l i cĩ th g m 1 hay nhi u âm ti t. ti ng Vi t, s âm ti t đưc s d ng vào kho ng 6700. Khi chúng ta phát ra m t ti ng thì cĩ rt nhi u b ph n nh ư l ưi, thanh mơn, mơi, h ng, thanh qu n, k t h p v i nhau đ t o thành âm thanh. Âm thanh phát ra đưc lan truy n trong khơng khí đ đn tai ng ưi nh n. Vì âm thanh phát ra t s k t h p c a r t nhi u b ph n, do đĩ âm thanh m i l n nĩi khác nhau hu nh ư khác nhau d n đn khá khĩ kh ăn khi ta mu n phân chia ti ng nĩi theo nh ng đc tính riêng. Ng ưi ta ch chia ti ng nĩi thành 3 lo i c ơ b n nh ư sau: • Âm h u thanh : Là âm khi phát ra thì cĩ thanh, ví d nh ư chúng ta nĩi “i”, “a”, hay “o” ch ng h n. Th c ra âm h u thanh đưc t o ra là do vi c khơng khí qua thanh mơn 1
  8. Ch ươ ng 1: M t s khái ni m c ơ b n (thanh mơn t o ra s khép m c a dây thanh d ưi s điu khi n c a hai s n chĩp) v i mt đ c ăng c a dây thanh sao cho chúng t o nên dao đng. • Âm vơ thanh : Là âm khi t o ra ti ng thì dây thanh khơng rung ho c rung đơi chút t o ra gi ng nh ư gi ng th , ví d “h”, “p” hay “th”. • Âm b t: ð phát ra âm b t, đu tiên b máy phát âm ph i đĩng kín, t o nên m t áp su t, sau đĩ khơng khí đưc gi i phĩng m t cách đt ng t, ví d “ch”, “t”. 1.2. Quá trình t o ti ng nĩi 1.2.1 Cu t o c a h th ng c u âm Li nĩi là k t qu c a s ho t đng v i m i liên k t gi a các b ph n hơ h p và nhai. Hành đng này di n ra d ưi s ki m sốt c a h th n kinh trung ươ ng, b ph n này th ưng xuyên nh n đưc thơng tin b ng nh ng tác đng ng ưc c a các b ph n thính giác và c m giác b n th . B máy hơ h p cung c p l c c n thi t khi khí đưc th ra b ng khí qu n. đnh khí qu n là thanh qu n n ơi áp su t khí đưc điu bi n tr ưc khi đn tuy n âm kéo dài t h u đn mơi (hình 1.1). Thanh qu n là t p h p các c ơ và s n đng bao quanh m t khoang n m ph n trên c a khí qu n. Các dây thanh gi ng nh ư là m t đơi mơi đi x ng n m ngang thanh qu n, hai mơi này cĩ th khép hồn tồn thanh qu n và khi m ra chúng cĩ th t o ra đ m hình tam giác g i là thanh mơn. Khơng khí qua thanh qu n m t cách t do trong quá trình th và c trong quá trình c u âm c a nh ng âm đic hay âm vơ thanh. Cịn các âm h u thanh thì l i là k t qu c a s rung đng tu n hồn c a nh ng dây thanh. Và nh ư v y nh ng rung đng liên ti p s đn đưc tuy n âm. Tuy n âm là t p h p nh ng khoang n m gi a thanh mơn và mơi, trên hình ta cĩ th phân bi t đưc khoang h u (h ng), khoang mi ng và khoang m ũi. Hình 1.1 H th ng phát âm c a con ng ưi Khi nĩi, l ng ng c m r ng và thu h p, khơng khí đưc đy t ph i vào khí qu n, đi qua thanh mơn do các dây thanh t o thành. Lu ng khí này đưc g i là tín hi u kích cho tuy n âm vì sau đĩ nĩ đưc đy qua tuy n âm và cu i cùng tán x ra mơi. Tuy n âm cĩ th đưc coi nh ư m t ng âm h c (g m các đon ng v i đ dài b ng nhau và thi t di n các m t c t khác nhau m c n i ti p) v i đu vào là các dây thanh (hay thanh mơn) và đu ra là mơi. Nh ư v y tuy n âm cĩ d ng thay đi nh ư m t hàm theo th i gian. Các m t c t c a tuy n âm đưc xác đnh b ng v trí ca l ưi, mơi, hàm, vịm mi ng và thi t di n c a nh ng m t c t này thay đi t 0cm 2 (khi ng m mơi) đn kho ng 20cm 2 (khi h mơi). Tuy n m ũi t o thành tuy n âm h c 2
  9. Ch ươ ng 1: M t s khái ni m c ơ b n ph tr cho truy n âm thanh, nĩ b t đu t vịm mi ng và k t thúc các l m ũi. Khi vịm mi ng h th p, tuy n m ũi đưc n i v i tuy n âm v m t âm h c và t o nên ti ng nĩi âm m ũi. Các âm c a ti ng nĩi đưc t o trong h th ng này theo ba cách ph thu c vào tín hi u kích. âm h u thanh nh ư âm /i/ đưc t o nên khi kích tuy n âm b ng chu i xung (hay chu k ỳ dao đng c a đơi dây thanh) xác đnh chu k ỳ pitch T và đi l ưng ngh ch đo c a nĩ là t n s c ơ bn F 0. ði v i ngơn ng cĩ thanh điu thì ki u thay đi này cịn ph thu c vào thanh điu. Âm vơ thanh nh ư âm /s/ đưc t o nên khi các dây thanh khơng dao đng, xung kích đưc coi nh ư các t p ng u nhiên, kích b i các dịng khí xốy qua các ch h p c a tuy n âm (th ưng là phía khoang mi ng). Âm n nh ư âm /p/ đưc t o ra b ng cách đĩng hồn tồn tuy n âm, gây nên áp su t bên c nh v trí đĩng, r i nhanh chĩng gi i phĩng âm này. Vì tuy n âm và tuy n mũi bao g m các ng âm h c cĩ m t c t khác nhau nên khi âm truy n trong ng, ph t n s thay đi theo tính ch n l c t n s c a ng. Trong ph m vi t o ti ng nĩi, nh ng t n s c ng hưng c a tuy n âm đưc g i là t n s formant hay đơ n gi n là formant. Nh ng t n s này ph thu c vào d ng và kích th ưc c a tuy n âm, do đĩ m i d ng tuy n âm đưc đc tr ưng bng m t t h p t n s formant. Các âm khác nhau đưc t o b i s thay đi d ng c a tuy n âm. Nh ư v y tính ch t ph c a tín hi u ti ng nĩi thay đi theo th i gian gi ng v i s thay đi dng c a tuy n âm. Quá trình truy n âm qua tuy n âm làm m nh lên m t vùng t n s nào đĩ b ng c ng h ưng và t o cho m i âm nh ng tính ch t riêng bi t g i là quá trình phát âm. Âm đưc phát cĩ ngh ĩa nĩ đã mang thơng tin v âm v đưc tán x ra ngồi t mơi. Trong mt vài tr ưng h p, đi v i nh ng âm m ũi (nh ư /m/, /n/ trong ti ng Anh), tuy n m ũi c ũng tham gia vào quá trình phát âm và âm đưc tán x ra t m ũi. Tĩm l i, sĩng tín hi u đưc ch to b ng ba đng tác: t o ngu n âm (h u thanh và vơ thanh), phát âm khi truy n qua tuy n âm và tán x âm t mơi ho c t m ũi, nh ư hình 1.2 sau đây: Hình 1.2 Quá trình c ơ b n t o tín hi u ti ng nĩi 1.2.2 Cu t o c a h th ng ti p âm Khơng gi ng nh ư các c ơ quan tham gia vào quá trình t o ra ti ng nĩi khi th c hi n các ch c n ăng khác trong c ơ th nh ư: th , ăn, ng i. Tai ch s d ng cho ch c n ăng nghe. Tai đc bi t nh y c m v i nh ng t n s trong tín hi u ti ng nĩi ch a thơng tin phù h p nh t v i vi c liên l c (nh ng t n s x p x 200 – 5600Hz). Ng ưi nghe cĩ th phân bi t đưc nh ng s khác bi t nh trong th i gian và t n s c a nh ng âm thanh n m trong vùng t n s này. Tai g m cĩ ba ph n: tai ngồi, tai gi a và tai trong. Tai ngồi d n h ưng nh ng thay đi áp xu t ti ng nĩi vào trong màng nh ĩ, đĩ tai gi a s chuy n đi áp xu t này thành chuy n đng cơ h c. Tai trong chuy n đi nh ng rung đng c ơ h c này thành nh ng lu ng đin trong nơron thính giác d n đn não. Tai ngồi : bao g m LOA TAI (pina) hay TÂM NH Ĩ (aurical) và L (meatus) thính giác hay ng tai ngồi. Loa tai cĩ tham gia r t ít ho c h u nh ư khơng vào đ thính c a tai, nh ưng 3
  10. Ch ươ ng 1: M t s khái ni m c ơ b n cĩ ch c n ăng b o v l i vào ng tai và d ưng nh ư c ũng tham gia vào kh n ăng khu bi t các âm, đc bi t là nh ng t n s cao h ơn. Loa tai n i v i ng tai ngồi, m t ng ng n cĩ hình dáng thay đi cĩ chi u dài kho ng t 25 đn 53 cm làm đưng cho các tín hi u âm h c đn tai gi a. L tai cĩ hai ch c n ăng chính. Ch c n ăng th nh t là b o v các c u trúc ph c t p và khơng cĩ tính ch t c ơ h c l m c a tai gi a. Ch c n ăng th hai là đĩng vai trị nh ư m t b máy cng h ưng hình ng v n ưu tiên cho vi c truy n các âm cĩ t n s cao gi a 2000 Hz và 4000Hz. Ch c n ăng này là quan tr ng đi v i vi c ti p nh n l i nĩi và đc bi t tr giúp cho vi c ti p nh n các âm xát, vì đc đim c a chúng th ưng đưc l p mã trong ngu n n ăng lưng khơng cĩ chu kì trong khu v c nh ph âm h c này. S c ng h ưng trong l thính giác cũng tham gia vào đ thính chung c a chúng ta gi a 500Hz và 4000Hz, v n là m t d i t n cĩ ch a nhi u d u hi u chính đi v i c u trúc âm v h c. Hình 1.3 Cu trúc h thính giác ngồi Tai gi a bao g m m t khoang n m trong c u trúc h p s cĩ ch a màng nh ĩ (eardrum) - màng đu trong c a ng tai ngồi , m t b ba khúc x ươ ng liên k t v i nhau, đưc g i là xươ ng v (mallet), x ươ ng đe (anvil) và x ươ ng bàn đp (stirrup) (c ũng cĩ thu t ng là x ươ ng tai (auditory ossicle)) và c u trúc c ơ liên k t. M c đích c a tai gi a là truy n nh ng bi n đi áp su t âm trong khơng khí đn tai ngồi vào nh ng d ch chuy n c ơ khí t ươ ng ng. Quá trình truy n này b t đu màng nh ĩ, b làm l ch đi b i nh ng bi n đi áp su t khí truy n đn nĩ qua l tai. S d ch chuy n này đưc truy n đn các x ươ ng tai, v n đĩng vai trị nh ư m t h th ng địn b y c ơ h c khéo léo đ chuy n t i nh ng d ch chuy n này đn ca hình b u d c giao di n đn tai trong và ch t d ch trong l tai trên. Ho t đng làm địn b y c a các x ươ ng tai, và s th c là màng nh ĩ cĩ vùng b m t l n h ơn nhi u so v i c a hình b u d c, đm b o cho vi c truy n hi u ng c a n ăng l ưng âm h c gi a 500Hz và 4000Hz, làm t ăng đn m c t i đa kh n ăng thính c a tai vùng t n s này. H c ơ gn v i các x ươ ng tai c ũng ho t đng đ b o v tai ch ng l i nh ng âm l n do ho t đng c ơ 4
  11. Ch ươ ng 1: M t s khái ni m c ơ b n ch ph n x âm h c. C ơ ch này đi vào ho t đng khi các âm cĩ biên đ kho ng 90dB và l n hơn truy n đn tai: h c ơ k t h p và s p x p l i các x ươ ng tai đ làm gi m hi u qu truy n âm đn c a hình b u d c (Borden và Harris 1980, Moore 1989). Tai gi a đưc n i v i h ng b ng mt ng h p g i là vịi c tai (eustachian tube). ðiu này hình thành m t đưng khí và con đưng này s m ra khi c n cân b ng nh ng thay đi áp su t khí n n gi a c u trúc tai gi a và tai ngồi. Tai trong là m t c u trúc ph c t p b c trong h p s , c tai (cochlea) cĩ trách nhi m bi n đi s chuy n d ch c ơ khí thành các tín hi u th n kinh: s d ch chuy n c ơ khí đưc truy n đn c a hình b u d c b ng các c tai đưc chuy n thành các tín hi u th n kinh và các tín hi u th n kinh này đưc truy n đn h th ng th n kinh trung ươ ng. V c ơ b n, c tai là mt c u trúc hình xo n tn h t b ng m t c a s cĩ m t màng linh ho t m i đu. bên trong, c tai chia thành hai màng, m t trong s đĩ, màng n n (basilar membrane) là c c kì quan tr ng đi v i ho t đng nghe. Khi nh ng d ch chuy n (do các rung đng âm gây ra) di n ra t i ca s hình b u d c, chúng đưc truy n qua ch t d ch trong c tai và gây ra s d ch chuy n (displacement) c a màng n n. m t đu màng n n c ng h ơn so v i đu kia, và điu này cĩ ngh ĩa là cách th c mà trong đĩ nĩ đưc d ch chuy n ph thu c vào t n s c a âm tác đng vào. Các âm cĩ t n s cao s gây ra s d ch chuy n l n h ơn đu c ng; v i t n s gi m d n, s d ch chuy n c c đi s di chuy n liên t c v phía đu ít c ng h ơn. G n d c v i màng n n là c ơ quan v não (organ of corti), m t c u trúc ph c t p ch a nhiu t bào tĩc. Nĩ là s d ch chuy n và s kích thích c a các t bào tĩc này v n bi n s d ch chuy n c a màng n n thành các tín hi u th n kinh. Vì màng n n đưc d ch chuy n nhi u v trí khác nhau ph thu c vào tn s , cho nên c tai và các c u trúc bên trong c a nĩ cĩ th bi n t n s và c ưng đ c a âm thành các tín hi u th n kinh. Nh ưng c n ph i nh n m nh r ng s tái hi n cĩ tính th n kinh cu i cùng c a thơng tin t n s khơng ph thu c vào v trí c a ch riêng s d ch chuy n màng nn khơng, và hi u bi t ca chúng ta v cách th c t n s đưc l p mã thơng qua h th ng thính giác là ch ưa hồn thi n. Hình 1.4 Mt c t ngang c a c tai 5
  12. Ch ươ ng 1: M t s khái ni m c ơ b n Nghiên c u đu tiên v th m nh n l i nĩi ch tính đn r t ít các thu c tính th m nh n c ơ bn c a tai. H ơn n a, nĩ đã c g ng g n k t các thu c tính th m nh n c a tín hi u l i nĩi v i ki u tái hi n ph thay đi theo th i gian tuy n tính. ðn kho ng n ăm 1980 nhi u nhà nghiên cu đã nh n ra r ng c n ph i hi u nh ng hi u ng cĩ tính ch t phân tích c a h thính giác ng ưi v các tín hi u l i nĩi và th t là sai l m khi cho r ng ng ưi nghe ch đang x lí thơng tin theo cách gi ng nh ư chi c máy ghi ph bình th ưng mà thơi. 1.3. Các đc tính c ơ b n c a ti ng nĩi 1.3.1 Tn s c ơ b n và ph t n Thơng l ưng: th tích khơng khí v n chuy n qua thanh mơn trong m t đơ n v th i gian (kho ng 1cm 3 /s). Chu k ỳ c ơ b n T 0: khi dây thanh rung v i chu k ỳ T0 thì thơng l ưng c ũng bi n đi tu n hồn theo chu k ỳ này và ta g i T0 là chu k ỳ c ơ b n. Hình 1.5 Tn s c ơ b n Giá tr ngh ch đo c a T0 là F0=1/ T0 đưc g i là t n s c ơ b n ca ti ng nĩi. F0 ph thu c vào gi i tính và l a tu i c a ng ưi phát âm; F0 thay đi theo thanh điu và F0 c ũng nh h ưng đn ng điu c a câu nĩi. 1.3.2 Bi u di n tín hi u ti ng nĩi Cĩ 3 ph ươ ng pháp bi u di n tín hi u ti ng nĩi c ơ b n là: - Bi u di n d ưi d ng sĩng theo th i gian. - Bi u di n trong mi n t n s : ph c a tín hi u ti ng nĩi. - Bi u di n trong khơng gian 3 chi u (Sonagram) a) Dng sĩng theo th i gian Ph n tín hi u ng v i âm vơ thanh là khơng tu n hồn, ng u nhiên và cĩ biên đ hay n ăng lưng nh h ơn c a nguyên âm (c kho ng 1/3). Ranh gi i gi a các t : là các kho ng l ng (Silent). Ta c n phân bi t rõ các kho ng l ng v i âm vơ thanh. 6
  13. Ch ươ ng 1: M t s khái ni m c ơ b n Hình 1.6 Dng sĩng theo th i gian Âm thanh d ưi d ng sĩng đưc l ưu tr theo đnh d ng thơng d ng trong máy tính là *.WAV v i các t n s l y m u th ưng g p là: 8000Hz, 10000Hz, 11025Hz, 16000Hz, 22050Hz, 32000Hz, 44100Hz, ; đ phân gi i hay cịn g i là s bít/m u là 8 ho c 16 bít và s kênh là 1 (Mono) ho c 2 (Stereo). Nh ư v y, d li u l ưu tr c a tín hi u âm thanh s khác nhau tu ỳ theo máy thu thanh, th i đim phát âm hay ng ưi phát âm, điu này đưc th hi n rõ nét trong các hình v sau: Hình 1.7 Âm thanh đưc thu b ng 2 micro khác nhau Hình 1.8 Âm thanh do hai ng ưi khác nhau phát ra 7
  14. Ch ươ ng 1: M t s khái ni m c ơ b n Hình 1.9 Âm thanh do m t ng ưi phát ra hai th i đim khác nhau b) Ph tín hi u ti ng nĩi ph n trên ta đã bi t r ng d i t n s c a tín hi u âm thanh là kho ng t 0Hz đn 20KHz, tuy nhiên ph n l n cơng su t n m trong d i t n s t 0,3KHz đn 3,4KHz. D ưi đây là m t s hình nh c a ph tín hi u ti ng nĩi: Hình 1.10 Ph tín hi u ting nĩi và đưng bao ph Hình 1.11 Ph tín hi u ti ng nĩi v i s m u khác nhau 8
  15. Ch ươ ng 1: M t s khái ni m c ơ b n c) Bi u di n tín hi u ti ng nĩi trong khơng gian ba chi u (Sonagram) ð bi u di n trong khơng gian 3 chi u ng ưi ta chia tín hi u thành các khung c a s (frame) ng v i các ơ quan sát nh ư hình v 1.12. Hình 1.12 Chia tín hi u thành các khung c a s ð dài m t c a s t ươ ng ng là 10ms. Vy, n u t n s Fs = 16000Hz thì ta cĩ 160 m u trên m t c a s . Các c a s cĩ đon ch ng l n lên nhau (kho ng 1/2 c a s ). Ti p theo ta v ph c a khung tín hi u trên tr c th ng đng, biên đ ph bi u di n b ng đ đm, nh t c a màu s c. Sau đĩ ta v theo tr c th i gian b ng cách chuy n sang c a s ti p theo. Hình 1.13 Ph c a m t khung c a s Hình 1.14 Các khung c a s li n nhau và spectrogram t ươ ng ng Bi u di n tín hi u ti ng nĩi theo khơng gian 3 chi u là m t cơng c r t m nh đ quan sát và phân tích tín hi u. Ví d : theo ph ươ ng th c bi u di n này ta cĩ th d dàng phân bi t âm vơ thanh và âm h u thanh d a theo các đc đim sau: +Âm vơ thanh: - Năng l ưng t p trung t n s cao. 9
  16. Ch ươ ng 1: M t s khái ni m c ơ b n - Các t n s phân b khá đng đu trong 2 mi n t n s cao và t n s th p. + Âm h u thanh: - Năng l ưng t p khơng đng đu. - Cĩ nh ng v ch c c tr . Hình 1.15 Âm h u thanh Hình 1.16 Âm vơ thanh d) Formant và Antiformant Tuy n âm đưc coi nh ư m t h c c ng h ưng cĩ tác d ng t ăng c ưng m t t n s nào đĩ. Nh ng t n s đưc t ăng c ưng lên đưc g i là các Formant. N u khoang mi ng đưc coi là tuy n âm thì khoang m ũi c ũng đưc coi nh ư là m t h c c ng h ưng. Khoang m ũi và khoang mi ng đưc m c song song nên s làm suy gi m m t t n s nào đĩ và nh ng t n s b suy gi m này đưc g i là các AntiFormant. Hình 1.17 ðưng bao ph và các Formant 10
  17. Ch ươ ng 1: M t s khái ni m c ơ b n Da trên hình 1.17 ta th y cĩ th tính đn Formant th 5 (F5) nh ưng quan tr ng nh t c n chú ý đây là các F1 và F2. Cùng m t ng ưi phát âm nh ưng Formant cĩ th khác nhau. N u ta ch c ăn c vào giá tr c a Formant đ đc tr ưng cho âm h u thanh thì ch ưa chính xác mà ph i d a vào phân b t ươ ng đi gi a các Formant. Ngồi ra, n u xác đnh Formant tr c ti p t ph thì khơng chính xác mà ph i d a vào đưng bao ph , đây c ũng chính là đáp ng t n s ca tuy n âm. 11
  18. Ch ươ ng 2: Bi u di n s c a tín hi u ti ng nĩi Ch−¬ng 2: Bi u di n s c a tín hi u ti ng nĩi 2.1. M đu Mã hố là quá trình bi n đi các giá tr r i r c thành các mã t ươ ng ng. Nhìn chung, vi c ly m u liên quan t i quá trình bi n đi các tín hi u liên tc thành các tín hi u r i r c c a tr ưng th i gian g i là PAM ( điu ch biên đ xung mã). Vi c mã hố là quá trình l ưng t hố các giá tr m u này thành các giá tr r i r c c a tr ưng biên đ và sau đĩ bi n đi chúng thành mã nh phân hay các mã ghép kênh. Khi truy n thơng tin mã, nhi u xung đưc yêu c u cho m i giá tr l y m u và vì th đ r ng d i t n s c n thi t cho truy n d n ph i đưc m rng. ðng th i xuyên âm, t p âm nhi t, bi n d ng m u, m t xung m u, bi n d ng nén, t p âm mã hố, t p âm san b ng đưc sinh ra trong lúc ti n hành l y m u và mã hố. Vi c gi i mã là quá trình khơi ph c các tín hi u đã mã hố thành các tín hi u PAM đưc l ưng t hố. Quá trình này ti n hành theo th t đo đúng nh ư quá trình mã hố. M t khác quá trình l ưng t hố, nén và mã hố các tín hi u PAM đưc g i là quá trình mã hố và quá trình chuy n đi các tín hi u PCM thành D/A, sau đĩ, l c chúng sau khi giãn đ đư a v ti ng nĩi ban đu g i là quá trình gi i mã. C u hình c ơ s c a h th ng truy n d n PCM đi v i vi c thay đi các tín hi u t ươ ng t thành các tín hi u xung mã đ truy n d n đưc th hi n hình (pcm1). Tr ưc tiên các tín hi u đu vào đưc l y m u m t cách tu n t , sau đĩ đưc l ưng t hố thành các giá tr r i r c trên tr c biên đ. Các giá tr l ưng t hố đc tr ưng b i các mã nh phân. Các mã nh phân này đưc mã hố thành các d ng mã thích h p tu ỳ theo đc tính c a đưng truy n d n. Thi t b đu cu i mã hố chuy n đi các tín hi u thơng tin nh ư ti ng nĩi thành các tín hi u s nh ư PCM. Khi các tín hi u thơng tin là các tín hi u t ươ ng t , vi c chuy n đi A/D đưc ti n hành và vi c chuy n đi D/D đc ti n hành tr ưng h p c a các tín hi u s . ðơi khi, quá trình nén và mã hố b ăng t n r ng đưc ti n hành b ng cách tri t s d ư th a trong quá trình ti n hành chuy n đi A/D ho c D/D). Các quy lu t đi v i PCM vi phân thích ng 32Kbps cĩ nén giãn nh ư mã hố d đốn ca các tín hi u ti ng đưc ch rõ trong các khuy n ngh G712 c a ITU. Ph ươ ng pháp ADPCM 32 Kbps đưc ch p nh n vào tháng 10 n ăm 1984 đưc dùng đ chuy n đi các tín hi u PCM 64 Kbps theo lu t A hay lu t µ hi n nay sang các tín hi u ADPCM. Ph ươ ng pháp 32 Kbps ADPCM cĩ kh n ăng chuy n m t l ưng ti ng nĩi l n g p hai l n th m trí cịn nhi u hơn ph ươ ng pháp qui ưc 64 Kbps PCM, đưc ch p nh n m t cách r ng rãi b i b chuy n mã ho c các thi t b đu cu i mã hố v i hi u qu cao. Hi n nay các n ưc tiên ti n trên th gi i đang ti n hành nghiên c u m t cách ráo ri t v cơng ngh mã hố t c đ khơng nh ng cho tho i mà c truy n hình. C th s bàn đn ti p các ph n ti p theo. 12
  19. Ch ươ ng 2: Bi u di n s c a tín hi u ti ng nĩi Hình 2.1 Cu hình h thơng truy n và x lý thơng tin c ơ b n 2.2. Ly m u tín hi u ti ng nĩi Nguyên t c c ơ b n c a điu xung mã là quá trình chuy n đi các tín hi u liên t c nh ư ti ng nĩi thành tín hi u s r i r c và sau đĩ tái t o chúng l i thành thơng tin ban đu. ð ti n hành vi c này, các ph n t thơng tin đưc rút ra t các tín hi u t ươ ng t m t cách tu n t . Quá trình này đưc g i là cơng vi c l y m u. - Tín hi u ti ng nĩi m(t). - Xung l y m u s(t). - Ch c danh l y m u. - Tín hi u PAM đã l y m u. Theo thuy t l y m u c a Shannon, các tín hi u ban đu cĩ th đưc khơi ph c khi ti n hành cơng vi c l y m u trên các ph n t tín hi u đưc truy n đi l n h ơn ho c b ng hai l n t n s cao nh t. Các tín hi u xung l y m u là tín hi u d ng sĩng chu k, là t ng các tín hi u sĩng hài cĩ đưng bao hàm s sin đi v i các t n s . Vì th , ph tín hi u ti ng nĩi t o ra sau khi đã qua quá trình l y m u th hi n hình 2.3. Cĩ hai ki u l y m u tu ỳ theo d ng c a đnh đ r ng xung, l y m u t nhiên và l y m u đnh b ng ph ng. Ly m u t nhiên đưc ti n hành m t cách lý t ưng khi ph t n s sau khi ly m u trùng v i ph c a các tín hi u ban đu. Tuy nhiên trong các h th ng th c t , điu này khơng th cĩ đưc. Khi ti n hành l y m u đnh b ng ph ng, m t s nén g i là hi u ng biên đ l y m u làm xu t hi n méo. Ngồi ra, n u các ph n t tín hi u đu vào v ưt quá đ rng d i t n 4 KHz, xu t hi n s nén quá n p g p. Vì v y, vi c l c b ăng r ng các tín hi u đu vào ph i đưc ti n hành tr ưc khi l y m u. 13
  20. Ch ươ ng 2: Bi u di n s c a tín hi u ti ng nĩi Hình 2.2 Quá trình l y m u Hình 2.3 Ph tín hiu tr ưc và sau l y m u 2.3. Lưng t hĩa PAM v i biên đ t ươ ng t chuy n đi thành các tín hi u s là các tín hi u r i r c sau khi đi qua quá trình l ưng t hố. Khi ch th biên đ c a ti ng nĩi liên t c v i s l ưng h n ch , nĩ đưc đc tr ưng v i d ng sĩng xp x c a b ưc. T p âm l ưng t NQ = Q ư S t n t i gi a dng sĩng ban đu (S) và d ng sĩng đã l ưng t (Q); n u b ưc nh t p âm l ưng t đưc gi m đi nh ưng s l ưng b ưc đu c n thi t cho l ưng t tồn b d i tín hi u đu vào tr nên rng h ơn. Vì th s l ưng các dãy s mã hố t ăng lên. Tp âm t o ra khi biên đ c a các tín hi u đu vào v ưt quá dãy l ưng t g i là t p âm quá ti hay t p âm bão hồ. S/NQ đưc s d ng nh ư m t đơ n v đ đánh giá nh ng ưu đim và nh ưc đim c a ph ươ ng pháp PCM. Khi s l ưng các dãy s mã hố trên m i m u t ăng lên 1 bit, S/NQ đưc m r ng thêm 6 dB. 14
  21. Ch ươ ng 2: Bi u di n s c a tín hi u ti ng nĩi Hình 2.4 Tp âm l ưng t theo biên đ c a tín hi u đu vào Nh ư ph ươ ng pháp ti n hành mã hố ho c gi i mã, mã đưng, mã khơng ph i mã đưng và mã đánh giá cĩ th đưc l a ch n theo các ki u c a ngu n thơng tin. Mã đưng là m t quá trình tri t s l ưng t p âm l ưng t sinh ra trên thơng tin đưc g i đi b t ch p m c đu vào. Nĩ đưc s d ng trong m t h th ng đĩ giá tr tuy t đi c a s l ưng t p âm là t i h n h ơn S/NQ. Mã khơng ph i là mã đưng đưc s d ng r ng dãi trong m t h th ng đĩ S/N c a h th ng thu đưc quan tr ng h ơn s l ưng tuy t đi c a t p âm nh ư ti ng nĩi. Khi b ưc lưng t là m t h ng s , S/N thay đi theo m c tín hi u. Ch t l ưng g i tr nên x u h ơn khi mc tín hi u th p. Vì th đi v i các tín hi u m c th p, b ưc l ưng t đưc gi m và đi v i các tín hi u m c cao nĩ đưc t ăng đ ít ho c nhi u cân b ng S/N v i m c tín hi u đu vào. Nh ng v n đ trên đưc ti n hành b ng cách nén biên đ. M t cách lý t ưng, đi v i các tín hi u m c th p đưng cong nén và giãn là truy n tính. ði v i các tín hi u m c cao chúng đc tr ưng b i đưng cong đi s . Hi n nay, ITU-T khuy n ngh lu t ( =255) là ph ươ ng pháp 15 đon (các h th ng c a Hoa K ỳ và Nh t) và lu t (A= 87,6) (các h th ng c a châu âu, trong đĩ cĩ Vi t nam) là ph ươ ng pháp 13 đon nh ư là ph ươ ng pháp nén đon mà các hàm đi s đưc bi u di n g n đúng v i m t vài đưng tuy n tính. Hình 2.5 Lưng t hố tuy n tính và phi tuy n 15
  22. Ch ươ ng 2: Bi u di n s c a tín hi u ti ng nĩi Hình 2.6 Các đc tính S/NQ c a các ph ươ ng pháp l ưng t C hai ph ươ ng pháp mã hố và ph ươ ng pháp nén là đng th i đưc ti n hành qua b ưc nén s ư s ho c t mã hố mà khơng thêm nh ng m ch riêng r khác b i s d ng tính ch t tuy n tính c a ph ươ ng pháp nén đon trong s . M t b ng giá tr v i ph ươ ng pháp mã hố và cách nén mã =255 đưc ch ra trên b ng 2.1. Bng 2.1 B ng mã hố và gi i mã v i =255 2.4. Mã hĩa và gi i mã Mã hố là m t quá trình so các giá tr r i r c nh n đưc b i quá trình l ưng t hố v i các xung mã. Thơng th ưng các mã nh phân đưc s d ng cho vi c mã hố là các mã nh phân t nhiên, các mã Gray (các mã nh phân ph n x ), và các mã nh phân kép. Ph n l n các kí hi u mã so sánh các tín hi u vào v i đin áp chuy n đ đánh giá xem cĩ các tín hi u nào khơng. Nh ư v y, m t b ph n chuy n đi D/A ho c b gi i mã là c n thi t cho vi c t o ra đin áp 16
  23. Ch ươ ng 2: Bi u di n s c a tín hi u ti ng nĩi chu n. Trong liên l c cơng c ng PCM, ti ng nĩi đưc bi u di n v i 8 bits. Tuy nhiên trong tr ưng h p c a lu t , các t PCM đưc l p nên nh ư sau (8 bits). Bit phân c c = {0,1}. Bit phân đon = { 000, 001, , 111}. Bit phân b ưc = {0000, 0001, , 1111}. T đon th nh t c a tín hi u "+" và tín hi u " ư" là các đưng th ng, cĩ 15 phân đon. Cc "+" c a d ng sĩng tín hi u t ươ ng ng v i bit phân c c 0 và c c " ư", v i "1". Vi c báo hi u đưc th c hi n sau khi thay đi "0" c a t PCM sang "1" và "1" sang "0" và vì th , m t l ưng l n s 1 đã đưc thu th p chung quanh m c 0 và s tách các tín hi u th i gian trong khi thu nh n cĩ th d dàng th c hi n. B8 là bít th 8 c a t PCM, đơi khi đưc dùng nh ư là m t bit báo hi u. B7 (ho c B8) chuy n đi sang "1" khi m i t c a PCM là "0". Nh ư v y, trong các tín hi u PCM đưc g i đi, các s "0" liên t c luơn luơn ít h ơn 16. M t khác, khi s d ng ph ươ ng pháp B c M , bit B2 c a m i kênh đưc thay đi thành "0" nh m chuy n đi thơng tin c nh báo cho đi ph ươ ng. Nh t B n, bit "S" đĩ là m t ph n c a khung các bit ch đnh đưc dùng thay th cho m c đích này. Các t PCM nh n đưc, đưc chuy n đi thành các tín hi u PAM b i b gi i mã. phía thu, các xung t ươ ng ng v i m i kênh đưc ch n l c t các d y xung ghép kênh đ t o ra các tín hi u PAM. R i, các tín hi u ti ng nĩi đưc ph c h i b ng m t b l c thơng th p. Hình 2.7 Mã hố t PCM 17
  24. Ch ươ ng 2: Bi u di n s c a tín hi u ti ng nĩi Hình 2.8 Quá trình gi i mã Hình 2.9 Quá trình gi i mã và ph 2.5. ðiu ch xung mã vi sai DPCM ðây là ph ươ ng pháp d a trên tính ch t tươ ng quan c a tín hi u ti ng nĩi, ch truy n đi đ chênh l ch gi a các m u c nh nhau c a tín hi u ti ng nĩi: 18
  25. Ch ươ ng 2: Bi u di n s c a tín hi u ti ng nĩi Hình 2.10 Sơ đ mã hố và gi i mã DPCM Tín hi u ti ng nĩi t ươ ng t vào qua b l c thơng th p, h n ch b ăng t n c a tín hi u vào (th ưng là m t n a t n s ly m u), máy phát l ưng t và mã hố l ưng t trênh l ch gi a ’ xung l y m u t ươ ng t x n và tín hi u d đốn x n l y t đu ra b d đốn x n. Giá tr d đốn ca m u ti p theo cĩ đưc nh ngo i suy t p giá tr m u cho tr ưc: p = xn'( )∑ axi ' n− i (2.1) i=1 ai là h s c a các b d đốn, đ chênh l ch gi a xung l y m u đu vào và tín hi u ra l y mu là: = − en x n xn'( ) (2.2) ðây chính là giá tr dùng đ l ưng t hố và truy n đi, phía thu s ti n hành h i ph c l i tín hi u sai s này và tích phân l i cơng v i tín hi u đã h i ph c tr ưc đĩ, tuy nhiên đ gi m li c ng l i c a nhi u l n ta dùng phia thu m t b d đốn gi ng v i phía phát. Vi c s d ng vịng ph n h i giúp cho b l ưng t h n ch đ chênh l ch gi a sai s e n và s i s đưc l ưng ’ ’ t e n (e n-en). N u giá tr này càng nh thì ch t l ưng ti ng nĩi càng t t, theo các tính tốn thì ph ươ ng pháp này cĩ đ r ng b ăng t n đi m t n a. 2.6. ðiu ch Delta (DM) ðiu ch DM là m t lo i điu ch DPCM trong đĩ m i t mã ch cĩ m t bít nh phân, cĩ ưu đim m ch đin d dàng ch t o ( hình d ưi ). Tín hi u tho i sau khi đưc l c b ăng t n 0,3-3,4Khz đưc r i r c hố t o thành tín hi u PAM x n, so sánh tín hi u này v i tín hi u d ’ đốn x n, đ l ch gi a hai giá tr này (en) đưc l ưng t thành m t trong hai giá tr -∆, ho c +∆. Phía ra b l ưng t ho s truy n đi m t bit nh phân cho m i xung l y m u. T i phía thu các giá tr ±∆ đưc c ng v i các giá tr d đốn t c th i phía ra b gi i mã khơi ph c l i ti ng 19
  26. Ch ươ ng 2: Bi u di n s c a tín hi u ti ng nĩi nĩi ban đu. T c đ bit c a điu ch delta b ng t c đ c a t n s l y m u, t c là 8 kbps. Ph ươ ng pháp này nh ư đã nĩi là khá đơ n gi n, đt đưc t c đ mã hố r t th p, nĩ là ph ươ ng pháp duy nh t c a ph ươ ng pháp mã hố d ng sĩng cĩ th so sánh v t c đ v i ph ươ ng pháp tham s ngu n v t c đ, song ch t l ưng tín hi u mã hố khơng cao, khơng đm b o đưc ph m vi đng c a h th ng PCM. 2.7. ðiu ch Delta thích nghi (ADM) Ph ươ ng pháp này cịn g i là ph ươ ng pháp điu ch delta cĩ đ d c thay đi liên t c. Ph ươ ng pháp này kh c ph c cho điu ch delta v kh n ăng d i đng, ph ươ ng pháp này d a trên ph ươ ng pháp thay đi đng h s khuy ch đi c a b tích phân phù h p v i m c cơng su t trung bình c a tín hi u vào. Hình 2.11 Sơ đ mã hố và gi i mã Delta Hình 2.12 Dng sĩng tín hi u c a điu ch DM 20
  27. Ch ươ ng 2: Bi u di n s c a tín hi u ti ng nĩi C c a b ưc l ưng t thay đi nh thay đi h s khuy ch đi c a b tích phân nh m ch RC và m ch bình ph ươ ng, khi tín hi u vào là h ng s ho c thay đi ch m theo th i gian thì b điu ch này s tìm ki m và đư a ra m t dãy xung cĩ c c tính xen k , m ch RC l y trung bình các dãy này, khi nĩ đư a ra gía tr b ng zero. Cĩ ngh ĩa là tín hi u điu khi n làm h s khuy ch đi c a b khuy ch đi thay đi r t ít. ðu ra b khuy ch đi cĩ b ưc ∆ kích th ưc nh , khi tín hi u vào cĩ s ưn d c thì hàm b c thang đưc t o ra đ k p đ d c c a tín hi u vào. Lúc đĩ s t o ra m t lo t xung âm m ch RC l y trung bình lo t xung này và đư a ra đin áp điu khi n l n, t c là c c a b ưc t ăng lên, nh m ch bình ph ươ ng nên đin điu khi n b khuy ch đi luơn luơn d ươ ng, mà khơng ph thu c c c tính c a xung th nào ph ươ ng pháp này cĩ kh n ăng gi m méo do quá t i s ưn và t p âm h t. Hình 2.13 Dng sĩng tín hi u trong ADM Hình 2.14 Sơ đ mã hố và gi i mã ADM 21
  28. Ch ươ ng 2: Bi u di n s c a tín hi u ti ng nĩi 2.8. ðiu ch xung mã vi sai thích nghi (ADPCM) ðây là ph ươ ng pháp mã hố khá quan tr ng, t p h p đưc nh ng ưu đim c a các ph ươ ng pháp trên và đã đưc ITU-T tiêu chu n hố trong khuy n ngh G721, và đã cĩ nhi u ng d ng trong th c t nh ư h th ng di đng CT2 c a Hàn Qu c, DECT c a M . Vì v y ta s nghiên cu sâu ph ươ ng pháp. Các t c đ đưc tiêu chu n là 40, 32, 24, 26 kbps. Ph ươ ng pháp này da trên tính ch t thay đi ch m c a ph ươ ng sai và hàm t t ươ ng quan, v i ph ươ ng pháp PCM ta dùng b l ưng t đu cĩ cơng su t t p âm là ∆2/12, ph ươ ng pháp ADPCM và các ph ươ ng pháp d đốn tuy n tính nĩi chung là thay đi ∆ hay cịn g i là ph ươ ng pháp dùng b lưng t hố t thích nghi. Các thu t tốn đưc phát tri n cho h th ng điu xung mã vi sai khi khi mã hố tín hi u ti ng nĩi b ng cách s d ng b l ưng t hố và b d đốn thích nghi, cĩ thơng s thay đi theo chu k ỳ đ ph n ánh tính thơng kê c a tín hi u ti ng nĩi. Hình 2.15 Sơ đ mã hố ADPCM Hình 2.16 Sơ đ gi i mã ADPCM 2.9. Bài th c hành các ph ươ ng pháp bi u di n s tín hi u ti ng nĩi S d ng máy tính cá nhân và ph n m m Matlab (ho c các ngơn ng l p trình khác) th c hi n các cơng vi c sau: Ghi âm m t đon tín hi u ti ng nĩi b t k ỳ. L ưu t p đnh d ng thơ (*.wav). S d ng Matlab ho c các ngơn ng l p trình khác đc và hi n th tín hi u theo d ng sĩng mi n th i gian. 22
  29. Ch ươ ng 2: Bi u di n s c a tín hi u ti ng nĩi Bi u di n ph c a m t phân đon tín hi u v i các d ng hàm c a s khác nhau. S d ng m t trong các ph ươ ng pháp bi n đi đã h c trong ch ươ ng này cho đon tín hi u. Kt qu thu đưc đưc ki m tra theo các tiêu chí: dung l ưng t p, ch t l ưng âm thanh c m th , 23
  30. Ch ươ ng 3: Phân tích ti ng nĩi Ch−¬ng 3: Phân tích ti ng nĩi 3.1. M đu Trong ch ươ ng này chúng ta s xem xét các ph ươ ng pháp phân tích tín hi u ti ng nĩi. Phân tích ti ng nĩi th c hi n gi i quy t các v n đ tìm ra m t d ng th c t i ưu bi u di n đưc ti ng nĩi m t các hi u qu . Nĩ là c ơ s cho vi c phát tri n các k thu t, cơng ngh t ng h p, nh n dng và nâng cao ch t l ưng tín hi u ti ng nĩi. Phân tích ti ng nĩi th ưng th c hi n vi c trích ch n ho c chuy n đi tín hi u ti ng nĩi sang m t d ng th c bi u di n khác sao cho cĩ th bi u di n thơng tin ti ng nĩi t t h ơn theo cách mà chúng ta c n. M t cách t ng quát, h u h t các ph ươ ng pháp phân tích tín hi u ti ng nĩi t p trung vào m t trong ba v n đ chính. Th nh t là tìm cách lo i b nh h ưng c a pha, thành ph n khơng đĩng vai trong quan tr ng trong vi c truy n t i thơng tin ti ng nĩi. Th hai, th c hi n vi c chia tách ngu n âm và m ch lc (mơ hình tuy n âm) sao cho chúng ta cĩ th nghiên c u biên ph c a tín hi u m t cách đc l p. Cu i cùng là chuy n đi tín hi u ho c biên ph tín hi u sang m t d ng bi u di n khác hi u qu h ơn. 3.2. Mơ hình phân tích ti ng nĩi Mơ hình t ng quát cho vi c phân tích ti ng nĩi đưc trình bày trong hình 3.1. Các d ng tín hi u t i các b ưc c ũng đưc trình bày kèm theo trong minh h a. Tín hi u ti ng nĩi đưc ti n x lý b ng cách cho qua m t b l c thơng th p v i t n s c t kho ng 8kHz. Tín hi u thu đưc sau đĩ đưc th c hi n quá trình bi n đi sang d ng tín hi u s nh b bi n đi ADC. Thơng th ưng, t n s l y m u b ng 16kHz v i t c đ bít l ưng t hĩa là 16bit. Tín hi u ti ng nĩi d ng s đưc phân khung v i chi u dài khung th ưng kho ng 30ms và kho ng l ch các khung th ưng b ng 10ms. Khung phân tích tín hi u sau đĩ đưc ch nh biên bng cách l y c a s v i các hàm c a s ph bi n nh ư Hamming, Hanning Tín hi u thu đưc sau khi l y c a s đưc đư a vào phân tích v i các ph ươ ng pháp phân tích ph (ch ng hn nh ư STFT, LPC, ). Ho c sau khi phân tích ph c ơ b n, ti p t c đưc đư a đn các kh i đ trích ch n các đc tr ưng. 3.3. Phân tích ti ng nĩi ng n h n Trong lý thuy t phân tích, chúng ta th ưng khơng đ ý đn m t đim quan tr ng là các phân tích ph i đưc ti n hành trong m t kho ng th i gian gi i h n. Ch ng h n, chúng ta bi t rng bi n đi Fourier theo th i gian liên t c là m t cơng c vơ cùng h u ích cho vi c phân tích tín hi u. Tuy nhiên, nĩ yêu c u ph i bi t đưc tín hi u trong m i kho ng th i gian. H ơn na, các tính ch t hay đc tr ưng c a tín hi u mà chúng ta c n tìm hi u ph i là các đi l ưng khơng đi theo th i gian. ðiu này trong th c t phân tích tín hi u khĩ mà đt đưc vì vi c phân tích tín hi u đáp ng các ng d ng th c t cĩ th i gian h u h n. H u h t các tín hi u, đc bi t là tín hi u ti ng nĩi, khơng ph i là tín hi u khơng đi theo th i gian. 24
  31. Ch ươ ng 3: Phân tích ti ng nĩi Hình 3.1 Mơ hình t ng quát c a vi c x lý tín hi u ti ng nĩi V m t nguyên lý, chúng ta cĩ th áp d ng các k thu t phân tích đã bi t vào phân tích tín hi u trong ng n h n. Tuy nhiên vì tín hi u ti ng nĩi là m t quá trình mang thơng tin đng nên chúng ta khơng th ch đơ n thu n xem xét phân tích ng n h n trong ch m t khung th i gian đơ n l . Tín hi u ti ng nĩi nh ư đã đ c p là tín hi u thay đi theo th i gian. Nĩ cĩ các đc tr ưng c ơ bn nh ư ngu n kích thích (excitation), c ưng đ (pitch), biên đ (amplitude), Các tham s thay đi theo th i gian c a tín hi u ti ng nĩi cĩ th k đn là t n s c ơ b n (fundamental frequency - pitch), lo i âm (âm h u thanh - voiced, vơ thanh - unvoiced, t c - fricative hay kho ng l ng - silence), các t n s c ng h ưng chính (formant), hàm di n tích c a tuy n âm (vocal tract area), Vi c th c hi n phân tích ng n h n t c là xem xét tín hi u trong m t kho ng nh th i gian xung quanh th i đim đang xét n nào đĩ. Các kho ng này th ưng kho ng t 10-30ms. ðiu này cho phép chúng ta gi thi t r ng trong kho ng th i gian đĩ các tính ch t c a d ng sĩng tín hi u ti ng nĩi là t ươ ng đi n đnh. Kho ng nh tín hi u dùng đ phân tích th ưng đưc g i là m t khung (frame), hay m t đon (segment). M t khung tín hi u đưc xác đnh là tích c a mt hàm c a s d ch w(m) và dãy tín hi u s(n): 25
  32. Ch ươ ng 3: Phân tích ti ng nĩi ( ) =( ) ( − ) sn m smwn m (3.1) Mt khung tín hi u cĩ th đưc hi u nh ư m t đon tín hi u đưc c t g t b i m t hàm c a s đ t o thành m t dãy m i mà các giá tr c a nĩ b ng khơng bên ngồi kho ng n ∈[m- N+1,m]. T cơng th c (3.1) chúng ta th y r ng khung tín hi u này ph thu c vào kho ng th i gian k t thúc m. Trong khung tín hi u nh v a đưc đnh ngh ĩa, d dàng th y r ng các phép x lý ng n h n c ũng cĩ ý ngh ĩa t ươ ng đươ ng các phép x lý dài h n. Nh ư đã đ c p, vi c phân tích tín hi u ti ng nĩi khơng th đơ n gi n ch b ng phân tích m t khung tín hi u đơ n l mà ph i b ng các phân tích c a các khung tín hi u liên ti p. Th c t , đ tránh m t thơng tin, các khung tín hi u th ưng đưc l y bao trùm nhau. Nĩi m t các khác, hai khung c nh nhau cĩ chung ít nh t M>0 m u. Hình 3.2 minh h a vi c phân chia khung v i hàm c a s . Hình 3.2 Phân tích tín hi u trên các khung bao trùm nhau Mt phép phân tích ng n h n t ng quát cĩ th bi u di n là: ∞ ()()()= − Xmn ∑ Tm{s w nm } (3.2) m=−∞ trong đĩ, Xn bi u di n tham s phân tích (ho c véc-tơ các tham s phân tích) t i th i đim phân tích n. Tốn t T{} đnh ngh ĩa m t hàm phân tích ng n h n. T ng (3.2) đưc tính v i gi i h n vơ cùng đưc hi u là phép l y t ng đưc th c hi n v i t t c các thành ph n khác khơng c a khung tín hi u là k t qu c a phép l y c a s . Nĩi cách khác, t ng đưc th c hi n vi m i giá tr c a m trong t p xác đnh (support) c a hàm c a s . Mt s hàm c a s ph bi n th ưng hay đưc s d ng là: hàm c a s ch nh t (rectangular window), hàm c a s Hanning, và hàm c a s Hamming. 3.4. Phân tích ti ng nĩi trong mi n th i gian Vi c phân tích ti ng nĩi trong mi n th i gian t c là phân tích tr c ti p trên d ng sĩng tín hi u sau khi th c hi n vi c l y c a s trong mi n th i gian. Nh ư đã đ c p trong ph n tr ưc, chúng ta ch xem xét các phân tích ng n h n c a tín hi u. Vì v y, đ đơ n gi n trong trình bày chúng ta m c đnh các cơng th c xây d ng là các phân tích ng n h n. Trong tr ưng h p n u các phân tích khơng ph i là ng n h n thì chúng s đưc chú thích rõ ràng. 26
  33. Ch ươ ng 3: Phân tích ti ng nĩi a) Năng l ưng trung bình Tham s đu tiên chúng ta c n quan tâm trong phân tích tín hi u ti ng nĩi trong mi n th i gian đĩ là năng l ưng trung bình . N ăng l ưng trung bình c a tín hi u ti ng nĩi đưc xác đnh nh ư sau: ∞ ∞ =() 2 =()() − 2 En∑() sm n ∑ () smnmw (3.3) m=−∞ m =−∞ Vi c xác đnh n ăng l ưng trung bình c a tín hi u r t h u ích trong vi c ưc l ưng các tính ch t c a các hàm kích thích trong mơ hình mơ ph ng b máy phát âm hay các mơ hình t ng hp tín hi u ti ng nĩi. Ngồi ra, nĩ cung c p cho chúng ta m t cơng c h u ích đ phát hi n mt tín hi u âm là c a âm h u thanh, vơ thanh hay m t kho ng l ng. ðiu này là b i vì biên đ tín hi u âm vơ thanh th ưng r t nh h ơn so v i biên đ tín hi u âm h u thanh. Cn chú ý r ng đ dài c a s phân tích ph i đưc ch n thích h p. Nĩ ph i đ dài đ s thay đi c a n ăng l ưng tín hi u trong m t khung cĩ th đưc làm m n. Tuy nhiên c ũng khơng đưc quá dài d n đn lu t thay đi n ăng l ưng tín hi u t m t đon này sang m t đon tín hi u khác b hi u l m. Mt nh ưc đim c a vi c s d ng n ăng l ưng trung bình c a tín hi u là v i các m c tín hi u l n, chúng cĩ xu th làm l ch m t cách đáng k giá tr ưc l ưng n ăng l ưng tồn khung. b) ð l n biên đ trung bình Nh ư đã đ c p trong ph n trên, năng l ưng trung bình tín hi u khá nh y c m v i đ l n ca tín hi u. Do đĩ, ng ưi ta th ưng hay s d ng m t đi l ưng thay th là đ l n biên đ trung bình , đưc xác đnh b i: ∞ =()() − Mn ∑ | sm | w nm (3.4) m=−∞ c) Tc đ tr v khơng Mt tham s khác c ũng th ưng đưc quan tâm trong các phép phân tích tín hi u ti ng nĩi trong mi n th i gian đĩ là tc đ tr v khơng (zero-crossing rate). S ki n tr v khơng x y ra khi tín d ng sĩng tín hi u c t tr c hồnh hay nĩi cách khác khi các m u liên t c nhau cĩ du khác nhau. V m t tốn h c, t c đ tr v khơng đưc xác đnh nh ư sau: ∞ =()() −−−() Zn ∑ 0,5sgn{s m } sgn{s mnm 1}w (3.5) m=−∞ Trong đĩ hàm sgn(a) là hàm d u: b ng 1 n u a ≥0; b ng -1 n u a<0. D th y 0,5|sgn{s(m)}- sgn{s(m-1)}| b ng 1 n u s(m) và s(m-1) khác d u nhau và b ng 0 n u chúng cùng d u. ðiu này ngh ĩa là Z n là t ng tr ng s c a t t c các thay đi d u c a các m u trong vùng xác đnh (support) c a c a s d ch w(n-m). T c đ tr v khơng cĩ th xem nh ư là m t đo l ưng c a tn s . M c dù t c đ tr v khơng thay đi khá l n theo th i gian và lo i tín hi u, nh ưng nĩ bi u hi n s khác bi t rõ r t v i tín hi u âm vơ thanh và h u thanh. Các tín hi u âm h u thanh cĩ s suy gi m l n vùng t n cao do đc tính t nhiên thơng th p c a các xung dây thanh (glottal pulse), trong khi các tín hi u âm vơ thanh cĩ n ăng l ưng l n vùng t n cao. Do v y, cũng nh ư đi l ưng n ăng l ưng trung bình tín hi u, t c đ tr v khơng c ũng là các tham s quan tr ng đ phát hi n xem m t tín hi u là tín hi u c a âm vơ thanh, h u thanh hay kho ng lng. 27
  34. Ch ươ ng 3: Phân tích ti ng nĩi d) Hàm t t ươ ng quan Hàm t t ươ ng quan th ưng đưc s d ng nh ư m t cơng c đ xác đnh tính chu k ỳ c a tín hi u và nĩ c ũng là c ơ s cho nhi u ph ươ ng pháp phân tích ph khác. Hàm t t ươ ng quan đưc đnh ngh ĩa t ươ ng t nh ư hàm t t ươ ng quan thơng th ưng: ∞ Φ()()() = + nk∑ smsmk n n m=−∞ ∞ =∑ sm()()()()w nmsmk − + w nkm −− (3.6) m=−∞ ∞ =()()() −ɶ − ∑ smsnmw n nm m=−∞ Trong cơng th c (3.6) chúng ta đã s d ng tính ch t c a hàm t t ươ ng quan là m t hàm ɶ ( ) =( ) ( + ) ch n, đi x ng và wk m w m w mk . Cũng t ươ ng t nh ư hàm t t ươ ng quan tín hi u chúng ta đã bi t, cĩ m t m i quan h gi a hàm t t ươ ng quan và n ăng l ưng trung bình tín hi u nh ư sau: ∞ =()() −=Φ2 () En ∑ () smw nm n 0 (3.7) m=−∞ e) Hàm vi phân biên đ trung bình Hàm vi phân biên đ trung bình đưc đnh ngh ĩa nh ư sau: ∞ ∆=()()() −−η − Mn ∑ | smsm | w nm (3.8) m=−∞ Cơng th c (3.8) cho th y giá tr hàm vi phân biên đ trung bình, v i tham s v s khác nhau v th i gian η s r t nh khi η ti n đn chu k ỳ (n u cĩ) c a tín hi u s(n). Do đĩ hàm vi phân biên đ trung bình là m t trong các cơng c h u ích cho vi c xác đnh t n s c ơ b n c a tín hi u ti ng nĩi. 3.5. Phân tích ti ng nĩi trong mi n t n s 3.5.1 Cu trúc ph c a tín hi u ti ng nĩi Trong phân tích tín hi u ti ng nĩi, thay vì s d ng tr c ti p tín hi u ti ng nĩi trong mi n th i gian, ng ưi ta th ưng hay s d ng các đc tr ưng ph c a ti ng nĩi. ðiu này xu t phát t quan đim r ng tín hi u ti ng nĩi c ũng gi ng nh ư các tín hi u xác đnh khác cĩ th xem nh ư là t ng c a các tín hi u hình sin v i biên đ và pha thay đi ch m. H ơn n a, m t nguyên nhân quan tr ng khơng kém đĩ là vi c c m nh n ti ng nĩi c a con ng ưi liên quan tr c ti p đn thơng tin ph c a tín hi u ti ng nĩi nhi u h ơn trong khi các thơng tin v pha c a tín hi u ti ng nĩi khơng cĩ vai trị quy t đnh. Ph biên đ ph c c a tín hi u ti ng nĩi đưc đnh ngh ĩa là bi n đi Fourier (FT) c a khung tín hi u v i kho ng th i gian phân tích n c đnh: ∞ jω =()() − jω m Sen () ∑ smw nme (3.9) m=−∞ Bi u th c (3.9) cĩ th vi t l i nh ư sau: 28
  35. Ch ươ ng 3: Phân tích ti ng nĩi jω= ( ɶ) − j ω nɶ ( ɶ ) Sen ( ) ( sne)* w n | nɶ= n (3.10) Bi u th c (3.10) đưc g i là m t cách di n d ch phép bi n đi Fourier r i r c theo khía cnh m ch l c. Tín hi u điu biên $s(\tilde{n})e^{-j\omega \tilde{n}}$ d ch ph c a $s(\tilde{n})$ xu ng ω l n và k t qu thu đưc s đưc l a ch n b i m t b l c c a s thơng di v i t n s trung tâm b ng khơng. Mt khác cơng th c (3.9) c ũng cĩ th vi t là: jω= ()()ɶ ɶ jnjn ωɶ− ω ɶ Sen ( ) ( sn*w( ne)) * e | nɶ= n (3.11) Cơng th c (3.11) cĩ th di n gi i nh ư sau. Tín hi u s( nɶ) đưc đư a qua b l c thơng d i cĩ tn s trung tâm ω và đáp ng xung w (nɶ) e jω n ɶ . K t qu thu đưc đưc d ch t n xu ng b ng ω ɶ cách điu ch biên đ v i e j n đ t o ra tín hi u b ăng t n th p. Hình 3.3 minh h a m t khung tín hi u và ph t ươ ng ng. Mt đ ph cơng su t trong m t kho ng th i gian ng n, t c là ph ng n h n c a tín hi u ti ng nĩi, cĩ th đưc xem nh ư là tích c a hai thành ph n: thành ph n th nh t là đưng biên ph thay đi m t cách ch m ch p theo t n s ; thành ph n th hai là c u trúc ph m n (spectral fine structure) thay đi r t nhanh theo t n s . ði v i các âm h u thanh thì c u trúc ph m n to thành các m u tu n hồn, cịn đi v i các âm vơ thanh thì khơng. Biên ph , hay c ũng chính là đc tr ưng ph t ng quát (overall), mơ t khơng ch các đc tính (characteristics) c ng hưng và ph n c ng h ưng (anti-resonance) c a các c ơ quan phát âm (articulatory organs) mà cịn mơ t các đc tr ưng t ng quát c a phát x (radiation) và ph ngu n glottal mơi và khoang m ũi. Trong khi đĩ, c u trúc ph m n mơ t tính tu n hồn c a ngu n âm. Cơng th c (3.9) là mt hàm c a t n s phân tích liên t c ω. Do đĩ đ FT tr thành m t cơng c h u ích trong các phân tích th c t chúng ta c n tính tốn nĩ v i t p t n s r i r c và hàm c a s cĩ b r ng h u h n v i m i b ưc d ch chuy n R>1. Khi đĩ chúng ta cĩ: 2π k rR − j m ()()()= −N () =− SkrR ∑ smrRmew k 0,1, , N 1 (3.12) m= rR − L + 1 N là s các t n s cách đu nhau trong kho ng 0 ≤ ω ≤ 2 π, L là đ dài hàm c a s ( đo lưng b ng s m u). Vì chúng ta gi thi t hàm c a s w(n) là hàm cĩ tính nhân qu và cĩ giá tr khác khơng ch trong kho ng 0 ≤ m ≤ L-1 do đĩ ph n tín hi u l y qua c a s s(m)w(rR-m) s cĩ giá tr khác khơng trên kho ng rR-L+1 ≤ m ≤ rR. 29
  36. Ch ươ ng 3: Phân tích ti ng nĩi Hình 3.3 Khung tín hi u và ph t ươ ng ng 3.5.2 Spectrogram Spectrogram là m t trong nh ng cơng c c ơ b n c a phân tích ph tín hi u ti ng nĩi, trong đĩ nĩ chuy n đi d ng sĩng tín hi u ti ng nĩi hai chi u thanh c u trúc ba chi u (biên đ/t n s/th i gian). Trong đ spectrogram, th i gian và t n s t ươ ng ng là các tr c ngang và d c, cịn biên đ đưc bi u di n b i đ đm nh t. Các đnh c a ph tín hi u xu t hi n là các d i nm ngang màu đm. T n s trung tâm c a các d i th ưng đưc coi là các formant. Các âm hu thanh t o ra các m ng d c trong bi u đ spectrogram b i vì cĩ m t s t ăng c ưng biên đ tín hi u ti ng nĩi m i khi thanh qu n đĩng l i. Nhi u trong các âm vơ thanh t o ra các c u trúc đm hình ch nh t và k t thúc ng u nhiên v i nhi u đm nh t do s thay đi t c thì c a năng l ưng tín hi u. L ưc đ spectrogram ch di n t biên đ ph c a tín hi u mà b qua các 30
  37. Ch ươ ng 3: Phân tích ti ng nĩi thơng tin v pha b i vì các thơng tin v pha đưc cho r ng khơng cĩ vai trị quan tr ng trong hu h t các ng d ng liên quan đn ti ng nĩi. ð xây d ng l ưc đ spectrogram, ng ưi ta th c hi n vi c bi u di n biên đ c a bi n đi jω Fourier ng n h n (STFT) |S n(e )| theo th i gian trên tr c n m ngang, đng th i theo t n s ω (t 0 đn π) trên tr c th ng đng (t c là t 0 đn F s/2, v i F s là t n s l y m u), đng th i đ ln biên đ b ng đ đm nh t (th ưng theo thang t l lơ-ga-rít) ɶ ( ) = ( ) (3.13) Stfr, kn 20log|10 Sk rR | Trong đĩ t r=rRT và f k=k/(NT) và T là chu k ỳ l y m u c a tín hi u. Hình 3.4 minh h a spectrogram c a tín hi u ti ng nĩi cùng v i d ng sĩng tín hi u t ươ ng ng. Hình 3.4 Lưc đ spectrogram c a tín hi u ti ng nĩi "Should we chase" Hai l ưc đ spectrogram đưc xây d ng vi các hàm c a s cĩ đ dài khác nhau.L ưc đ spectrogram phía trên là k qu khi s d ng c a s cĩ chi u dài 101 m u t ươ ng ng v i 10ms. Chi u dài c a c a s phân tích này x p x b ng chu k ỳ c a d ng sĩng trong các kho ng tín hi u âm h u thanh. K t qu là trong các kho ng tín hi u âm h u thanh, spectrogram bi u hi n các v n đnh h ưng th ng đng t ươ ng ng v i th c t r ng c a s tr ưt lúc gom h u h t các mu cĩ biên đ l n, lúc gom h u h t các m u cĩ biên đ nh . Nĩi m t cách khác, khi c a s phân tích cĩ đ dài ng n, m i chu k ỳ pitch riêng r đưc hi n th rõ nét theo th i gian, trong khi đ phân gi i theo t n s thì r t kém. C ũng chính vì lý do này, n u chi u dài c a s phân tích mà ng n, thì l ưc đ spectrogram thu đưc g i là l ưc đ spectrogram b ăng r ng. Ng ưc li, n u chi u dài c a s phân tích l n, thì l ưc đ spectrogram thu đưc g i là l ưc đ spectrogram b ăng h p. L ưc đ spectrogram b ăng h p cĩ đ phân gi i theo t n s cao nh ưng theo th i gian thì nh . Minh h a phía d ưi c a hình 3.4 là k t qu ca vi c s d ng c a s phân tích cĩ đ dài 401 m u, t ươ ng ng v i 40ms, b ng kho ng vài chu k ỳ tín hi u. Và nh ư 31
  38. Ch ươ ng 3: Phân tích ti ng nĩi chúng ta th y, l ưc đ spectrogram t ươ ng ng khơng cịn nh y v i s thay đi v th i gian na. 3.6. Ph ươ ng pháp phân tích mã hĩa d đốn tuy n tính (LPC) Ph ươ ng pháp phân tích d đốn tuy n tính là m t trong các ph ươ ng pháp phân tích tín hi u ti ng nĩi m nh nh t và đưc s d ng ph bi n. ðim quan tr ng c a ph ươ ng pháp này n m kh n ăng nĩ cĩ th cung c p các ưc l ưng chính xác c a các tham s tín hi u ti ng nĩi và kh n ăng th c hi n tính tốn t ươ ng đi nhanh. Mơ hình c a ph ươ ng pháp phân tích tín hi u ti ng nĩi d a trên mã d đốn tuy n tính (LPC- Linear Predictive Coding) đưc trình bày trong hình v 3.5. Ph ươ ng pháp phân tích LPC th c hi n vi c phân tích ph trên các khung (kh i - block) tín hi u hay cịn g i là các khung tín hi u (speech frames) b ng vi c s d ng m t mơ hình hĩa tồn đim c c. ðiu này jω jω cĩ ngh ĩa là k t qu bi u di n ph thu đưc X n(e ) đưc gi i h n trong d ng δ/A(e ), trong ω đĩ A(e j ) là m t đa th c b c p t ươ ng ng khi th c hi n phép bi n đi z: ( ) =+−1 + − 2 ++ − p Az1 az1 az 2 azp (3.14) Hình 3.5 Mơ hình phân tích LPC cho tín hi u ti ng nĩi Bc c a đa th c, p, cịn đưc g i là b c phân tích LPC. K t qu thu đưc t kh i phân tích ph LPC là m t véc-tơ các h s (cịn g i là các tham s LPC) c th hĩa (specify) ph c a mt mơ hình tồn đim c c mà phù h p nh t v i ph tín hi u g c trên tồn kho ng th i gian xem xét các m u tín hi u. Ý t ưng đng sau vi c s d ng mơ hình LPC là vi c cĩ th x p x m t m u tín hi u ti ng nĩi th i đim n b t k ỳ, s( n ) , nh ư là m t t h p tuy n tính c a p m u tr ưc đĩ. Nĩi cách khác: ( ) ≈( −+) ( −++) ( − ) sn asn11 asn 2 2 asnpp (3.15) Các h s a 1, a 2, , a p đưc gi thi t là khơng đi trong khung phân tích tín hi u. Bi u th c (3.15) cĩ th đưc vi t l i thành đng th c n u ta thêm vào m t thành ph n kích thích (excitation term) Gu(n), ta đưc: p ()()()= − + sn∑ asnii Gun (3.16) i=1 32
  39. Ch ươ ng 3: Phân tích ti ng nĩi Trong cơng th c (3.16), u(n) là thành ph n kích thích chu n và G là h s khu ch đi c a thành ph n kích thích. N u xem xét bi u th c (316) trong mi n z chúng ta cĩ bi u th c: p ()()()=−i + Sz∑ azSzi GUz (3.17) i=1 Hay hàm truy n đt t ươ ng ng là: S( z ) 1 1 H() z = = = (3.18) () p () GU z− −i A z 1 ∑ ai z i=1 Hàm truy n đt (3.18) cĩ th đưc th c hi n b i s ơ đ kh i trong hình 3.6. S ơ đ kh i đĩ cĩ th đưc gi i thích nh ư sau. Ngu n kích thích chu n hĩa u(n) đưc nhân v i h s khu ch đi G tr thành đu vào c a m t h th ng tồn đim c c H(z)=1/A(z) đ t o ra tín hi u ti ng nĩi s(n). Chúng ta bi t r ng hàm kích thích th c c a tín hi u ti ng nĩi là dãy xung bán tu n hồn đi v i tín hi u âm h u thanh và là ngu n nhi u ng u nhiên đi v i tín hi u âm vơ thanh. T th c t này, d dàng xây d ng đưc m ch t ng h p tín hi u ti ng nĩi d a vào mơ hình phân tích LPC nh ư trong hình 3.7. Trong s ơ đ t ng h p ti ng nĩi s d ng mơ hình phân tích LPC, ngu n kích thích đưc ch n t ươ ng ng phù h p v i tín hi u âm h u thanh hay vơ thanh nh m t chuy n m ch. H s khu ch đi G c a tín hi u đưc ưc l ưng t tín hi u ti ng nĩi. Mch l c s H(z) đưc điu khi n b i các tham s c a b máy phát âm t ươ ng ng v i tín hi u ti ng nĩi đưc t o ra. Nĩi m t cách c th , các tham s c a mơ hình t ng h p này là các phân lo i (classification) âm h u thanh hay vơ thanh, kho ng chu k ỳ pitch (pitch period) c a tín hi u, tham s đ khu ch đi, các h s c a b l c a k. T t c các tham s này thay đi ch m theo th i gian. Hình 3.6 Mơ hình d đốn mơ ph ng ti ng nĩi Gi s r ng t h p tuy n tính c a các m u tr ưc th i đim xem xét là m t ưc l ưng c a tín hi u, kí hi u là sɶ ( n ) : p ɶ ()()= − sn∑ asnkk (3.19) k=1 Khi đĩ, sai s d tính e(n) s đưc tính là: p ()()()()()=−=−ɶ − en sn sn sn∑ asnkk (3.20) k=1 Hay nĩi cách khác, hàm truy n đt sai s t ươ ng ng là: E( z ) p () = = − −k Az1 ∑ azk (3.21) S() z k =1 33
  40. Ch ươ ng 3: Phân tích ti ng nĩi T đây ta th y r ng, n u tín hi u ti ng nĩi đưc t o ra t s ơ đ m ch 3.6 thì sai s d đốn e(n) s b ng tín hi u kích thích Gu(n). Vn đ đt ra đi v i ph ươ ng pháp phân tích LPC là xác đnh đưc t p các h s a k m t cách tr c ti p t tín hi u ti ng nĩi sao cho tính ch t ph c a m ch l c trong s ơ đ 3.7 t ươ ng đng v i ph c a tín hi u ti ng nĩi trong kho ng c a s phân tích. Vì đc tính ph c a tín hi u ti ng nĩi luơn thay đi theo th i gian, các h s d đốn th i đim n xác đnh ph i là nh ng giá tr đưc ưc l ưng t các đon ng n h n c a tín hi u ti ng nĩi xung quanh th i đim n. T đây chúng ta th y ph ươ ng pháp ti p c n c ơ b n là tìm đưc m t t p các h s d đốn (predictor coefficients) sao cho chúng làm t i thi u hĩa sai s d đốn trung bình bình ph ươ ng trên tồn đon ng n h n c a tín hi u phân tích. Th ưng thì ph ươ ng pháp phân tích ph theo cách này đưc th c hi n trên các khung tín hi u liên ti p mà kho ng cách gi a các khung vào kho ng b c c a 10ms. Hình 3.7 Mơ hình t ng h p ti ng nĩi dùng LPC ð xây d ng bi u th c và t đĩ tìm ra đưc các h s d đốn thích h p, chúng ta đnh ngh ĩa các khung tín hi u ng n h n và t ươ ng ng là các sai s ng n h n: ( ) =( + ) sn m sn m (3.22) ( ) =( + ) en n en m (3.23) Chúng ta c n t i thiu hĩa tín hi u sai s trung bình bình ph ươ ng th i đim n: ε = 2 ( ) n∑e n m (3.24) m Bi u th c (3.24) cĩ th đưc vi t l i b ng cách s d ng các đnh ngh ĩa e n(m) và sn(m) nh ư sau: p  2 ε =()() − − n∑sm n ∑ asmk kn  (3.25) m k =1  ð tìm c c ti u c a (3.25), chúng ta l y đo hàm l n l ưt theo các h s a k và cho chúng bng khơng: 34
  41. Ch ươ ng 3: Phân tích ti ng nĩi ∂ε n =0()k = 1,2, , p (3.26) ∂ ak Khi đĩ chúng ta cĩ: p ()()()()− = −− ∑smismn n ∑ aˆ kn ∑ smismk n (3.27) m k=1 m ( −) ( − ) Chúng ta bi t r ng h s cĩ d ng ∑ sn m is n m k là các thành ph n c a covariance ng n h n c a s n(m). Nĩi cách khác: Ψ( ) =( −) ( − ) nik, ∑ smismk n n (3.28) m Chúng ta cĩ th thu g n bi u th c (3.27) nh ư sau: p Ψ()() = Ψ ni,0∑ aˆ k n ik , (3.29) k =1 Bi u th c (3.29) bi u di n h th ng g m p bi u th c c a p bi n s . D cĩ giá tr sai s ε trung bình bình ph ươ ng t i thi u, ˆn đưc tính nh ư sau: p ε =2 ()()() − − ˆn∑sm n ∑ aˆ knn ∑ smsmk m k=1 m (3.30) p =Ψ()() − Ψ n0,0∑ aˆ k n 0, k k=1 Chúng ta th y r ng, giá tr sai s trung bình bình ph ươ ng t i thi u cĩ ch a m t thành ph n c đnh Ψn (0,0) và các thành ph n khác ph thu c vào các h s d đốn. Ψ ð tìm các h s d đốn t i ưu aˆk tr ưc h t chúng ta ph i tính n (i,k) (1 ≤ i ≤ p và 0 ≤ k ≤ p) và sau đĩ gi i h (3.29) đng th i c a p bi u th c. Trong th c t , vi c gi i h và tính tốn các thành ph n Ψ ph thu c r t nhi u vào kho ng th i gian m đưc s d ng đ đnh ra khung tín hi u phân tích và vùng mà trên đĩ sai s trung bình bình ph ươ ng đưc ưc l ưng. Cĩ hai ph ươ ng pháp chu n đ đnh ra kho ng thích h p cho tín hi u ti ng nĩi: ph ươ ng pháp s d ng s t t ươ ng quan; và ph ươ ng pháp s d ng covariance. Ph ươ ng pháp s d ng hàm t t ươ ng quan xu t phát tr c ti p t vi c đnh ra kho ng gi i hn m trong t h p tuy n tính sao cho đon tín hi u ti ng nĩi s n(m) b ng 0 ngồi kho ng 0 ≤ m ≤ N-1. ðiu này t ươ ng đươ ng v i vi c gi thi t tín hi u ti ng nĩi s(n+m) đưc nhân v i hàm c a s w(m) h u h n cĩ giá tr b ng 0 ngồi kho ng 0 ≤m ≤ N-1. Nĩi m t cách khác, mu tín hi u ti ng nĩi đ làm t i thi u hĩa sai s trung bình bình ph ươ ng cĩ th bi u di n dưi d ng: snm( +) w( m) 0 ≤≤− mN 1 () =  sn m  (3.31) 0m∉[] 0, N − 1 T cơng th c (3.31), khi m N-1+p s khơng cĩ sai s d đốn b i vì khi đĩ ta c ũng cĩ s n(m)=0. Tuy nhiên trong vùng m=0 (t c là t m=0 đn m=p-1) tín hi u thu đưc sau khi th c hi n vi c l y ca s cĩ th đưc d đốn t các m u tr ưc đĩ, mà m t s trong chúng cĩ th b ng 0. Và 35
  42. Ch ươ ng 3: Phân tích ti ng nĩi nh ư v y, kh n ăng sai s d đốn t ươ ng đi l n cĩ th t n t i trong vùng này. T i vùng m=N- 1 (t c là t m=N-1 đn m=N-1+p) kh n ăng cĩ th t n t i sai s d đốn l n c ũng cĩ th t n ti b i vì các tín hi u thu đưc t quá trình l y c a s b ng 0 đưc d đốn t m t vài m u cu i cùng khác khơng c a tín hiêu. V i tín hi u âm h u thanh,các hi u ng ti m n ăng t n t i sai s d đốn l n đu ho c cu i khung tín hi u th hi n rõ ràng khi b t đu chu k ỳ c a pitch ho c r t g n v i các đim m=0 ho c m=N-1. ði v i tín hi u âm vơ thanh thì hi n tưng này g n nh ư đưc lo i b b i vì khơng cĩ ph n tín hi u nào nh y c m (position sensitive). Các hi n t ưng này cùng v i tín hiu c a s đưc minh h a trong các hình 3.8- 3.10. Hình 3.8 Minh h a tr ưng h p sai s d đốn l n đu khung v i tín hi u âm h u thanh 36
  43. Ch ươ ng 3: Phân tích ti ng nĩi Hình 3.9 Minh h a tr ưng h p sai s d đốn l n cu i khung v i tín hi u âm h u thanh Hình 3.10 Minh h a tr ưng h p sai s d đoan l n v i tín hi u âm vơ thanh Mc đích c a vi c l y c a s là nh m ch nh (taper) tín hi u g n các đim m=0 và m=N-1 đ làm t i thi u hĩa các sai s các vùng biên này. Vi vi c đnh ngh ĩa kho ng tín hi u sau phép l y qua c a s , chúng ta cĩ th vi t bi u th c tính sai s trung bình bình ph ươ ng nh ư sau: 37
  44. Ch ươ ng 3: Phân tích ti ng nĩi N−1 + p ε = 2 () n∑ e n n (3.32) m=0 Khi đĩ Ψn (i,k) cĩ th đưc vi t l i là: N−1 + p Ψ()()()() = − − ≤≤≤≤ nik,∑ smismk n n 1,0 ip kp (3.33) m=0 Bng cách thay ch s bi u th c trên cĩ th đưc vi t d ưi d ng: N−1 −( i − k ) Ψ()()() = +−() ≤≤≤≤ nik,∑ smsmik n n 1,0 ip kp (3.34) m=0 Ta th y bi u th c (3.34) là m t hàm ch ph thu c vào hi u i-k ch khơng ph i ph thu c hai bi n s đc l p i và k. Do đĩ, hàm covariance Ψn(i,k) tr thành hàm t t ươ ng quan: Ψ( ) =Φ( − ) nik, n ik N−1 −() i − k (3.35) =()() +−() ≤≤≤≤ ∑ smsmikn n 1 ip ,0 kp m=0 Φ( −) =Φ ( ) Do hàm t t ươ ng quan là hàm đi x ng, t c là nk n k , bi u th c t ươ ng ng c a LPC cĩ th đưc bi u di n là: p Φ− =Φ()() ≤≤ ∑ n()ikaˆ k n i1 ip (3.36) k=1 Nu bi u di n d ưi d ng ma tr n chúng ta cĩ: Φ Φ Φ⋯ Φ− Φ  (012) ( ) ( ) ( p 1) aˆ1  ( 1 )   nnn n   n  Φ()()()() Φ Φ⋯ Φ−aˆ Φ ()  nnn101 np 22   n 2   Φ()()()()210 Φ Φ⋯ Φ−p 3aˆ  =Φ () 3  (3.37)  nnn n3   n   ⋮ ⋮ ⋮⋱⋮⋮   ⋮  Φ−Φ−Φ−()()()()⋯ Φˆ   Φ ()   nnnppp1 2 3 n 0 ap   n p  Trong cơng th c trên, ma tr n các thành ph n t t ươ ng quan là m t ma tr n Toeplitz (ma tr n đi x ng v i các thành ph n đưng chéo chính b ng nhau), do đĩ vi c gi i h ph ươ ng trình trên d dàng th c hi n đưc b ng vi c áp d ng các thu t tốn tính tốn hi u qu đã bi t. Ph ươ ng pháp s d ng covariance là m t ph ươ ng pháp khác v i ph ươ ng pháp s d ng hàm t t ươ ng quan đã đ c p trên. Ph ươ ng pháp này c đnh kho ng mà trên đĩ sai s trung bình bình ph ươ ng đưc tính trong kho ng 0 ≤ m ≤N-1 và s d ng khung tín hi u trong kho ng đĩ mt cách tr c ti p mà khơng th c hi n phép l y c a s . Sai s trung bình bình ph ươ ng khi đĩ đưc tính là: N −1 ε = 2 () n∑ e n m (3.38) m=0 Và covariance đưc tính b i: N −1 Ψ()()()() = − − ≤≤≤≤ nik,∑ smismk n n 1,0 ip kp (3.39) m=0 Ho c b ng cách đi ch s : 38
  45. Ch ươ ng 3: Phân tích ti ng nĩi N− i − 1 Ψ()()()() = +− ≤≤≤≤ nik,∑ smsmik n n 1,0 ip kp (3.40) m=0 ð ý th y r ng vi c tính tốn theo bi u th c (3.40) liên quan đn các m u tín hi u s n(m) t th i đim m=-p đn m=N-1-p khi i=p, và liên quan đn các m u s n(m+i-k) t th i đim 0 đn th i đim N-1. Do đĩ, kho ng tín hi u c n thi t đ cĩ th tính tốn hồn thi n là t s n(-p) đn sn(N-1). Nĩi m t cách khác, vi c tính tồn c n đn các m u bên ngồi kho ng t i thi u sai s gm s n(-p), sn(-p+1), , s n (-1). Bng vi c s d ng kho ng tín hi u m r ng đ tính tốn các giá tr covariance Ψn(i,k), bi u th c phân tích LPC d ng ma tr n đưc bi u di n nh ư sau: ΨΨΨ⋯ Ψ Ψ  (1,1) ( 1,2) ( 1,3) ( 1,p) aˆ1  ( 1,0 )   nnn n   n  ΨΨΨ()()()()⋯ Ψaˆ Ψ ()  nnn2,1 2,2 2,3 n 2,p 2   n 2,0   ΨΨ()()()()3,1 3,2 Ψ 3,3⋯ Ψ 3,4aˆ  =Ψ () 3,0  (3.41)  nnn n3   n   ⋮ ⋮ ⋮⋱⋮⋮   ⋮  ΨΨΨ()()()()⋯ Ψˆ   Ψ ()   nnnpp,1 ,2 p ,3 n pp ,ap   n p ,0  Ma tr n các h s covariance là m t ma tr n đi x ng (vì Ψn(i,k)= Ψn(k,i)) tuy nhiên khơng ph i ma tr n Toeplitz. Vi c gi i h ph ươ ng trình trên cĩ th th c hi n b ng vi c s dng thu t tốn phân tích Cholesky. Trong th c t , mơ hình phân tích LPC bi u di n d ng covariance đy đ th ưng khơng đưc s d ng trong các h th ng nh n d ng tín hi u ti ng nĩi. 3.7. Ph ươ ng pháp phân tích cepstral Khái ni m cepstrum đưc đư a ra b i Bogert, Healy và Tukey. Cepstrum đưc đnh ngh ĩa là bi n Fourier ng ưc (IFT) c a lơ-ga-rít đ l n biên đ ph c a tín hi u. Nĩi các khác, cepstrum c a m t tín hi u v i th i gian r i r c đưc cho b i cơng th c: π 1 ω ω cm() = log Seed()j j ω (3.42) nπ ∫ n 2 −π jω đây, log|S n(e )| là lơ-ga-rít c a đ l n biên đ (magnitude) c a FT tín hi u. Khái ni m (3.42) cĩ th đưc m r ng thành cepstrum ph c nh ư sau: π 1 ω ω cmˆ () = log{S() eedj } j m ω (3.43) nπ ∫ n 2 −π jω jω Trong cơng th c (3.43), log{S n(e )} là lơ-ga-rít ph c c a S n(e ) và đưc đnh ngh ĩa nh ư sau: ω ω ω ω ˆ ( j) =( j) =( j) + ( j )  (3.44) Senlog{S n e } log SejSe n arg  n  ( ) =( ) + ( ) Gi s s(n)=s 1(n)*s 2(n), v i đnh ngh ĩa cepstrum d dàng th y r ng cnˆ cn ˆ1 cn ˆ 2 . Nh ư v y phép tốn v i cepstrum đã chuy n tích ch p thành phép c ng. Chính điu này đã làm cho phép phân tích cepstrum tr thành m t cơng c h u ích cho vi c phân tích tín hi u ti ng nĩi. Tuy nhiên các cơng th c (3.42)-(3.44) là các đnh ngh ĩa d a trên các cơng th c tốn h c. ð cơng th c cĩ ý ngh ĩa trong các phân tích th c t , chúng ta ph i xây d ng các cơng th c mà 39
  46. Ch ươ ng 3: Phân tích ti ng nĩi vi c tính tốn cĩ th d dàng th c hi n đưc. Vì bi n đi Fourier r i r c (DFT) là phiên b n ly m u c a bi n đi Fourier v i th i gian r i r c (DTFT) c a m t dãy chi u dài c đnh (t c π là S(k)=S(e j2 k/N )), do đĩ IDFT và DFT cĩ th đưc thay th t ươ ng ng b ng IDTFT và DTFT. N −1 − π Sk()()= ∑ sne j2 kn / N (3.45) n=0 ˆ Xk( ) =log Sk( ) + j arg  Sk( )  (3.46) N −1 1 π snɶ () = ∑ Xkeˆ () j2 kn / N (3.47) N n=0 3.8. Mt s ph ươ ng pháp xác đnh t n s Formant Formant c a tín hi u ti ng nĩi là m t trong các tham s quan tr ng và h u ích cĩ ng d ng rng rãi trong nhi u l ĩnh v c ch ng h n nh ư trong vi c x lý, t ng h p và nh n d ng ti ng nĩi. Các formant là các t n s c ng h ưng c a tuy n âm (vocal tract), nĩ th ưng đưc th hi n trong các bi u di n ph ch ng h n nh ư trong bi u di n spectrogram nh ư là m t vùng cĩ n ăng lưng cao, và chúng bi n đi ch m theo th i gian theo ho t đng c a b máy phát âm. S d ĩ formant cĩ vai trị quan tr ng và là m t tham s h u ích trong các nghiên c u x lý ti ng nĩi là vì các formant cĩ th miêu t đưc các khía c nh quan tr ng nh t c a ti ng nĩi b ng vi c s d ng m t t p r t h n ch các đc tr ưng. Ch ng h n trong mã hĩa ti ng nĩi, n u s d ng các tham s formant đ bi u di n c u hình c a b máy phát âm và m t vài tham s ph tr bi u di n ngu n kích thích, chúng ta cĩ th đt đưc t c đ mã hĩa th p đn 2,4kbps. Nhi u nghiên c u v x lý và nh n d ng ti ng nĩi đã ch ra r ng các tham s formant là ng c viên t t nh t cho vi c bi u di n ph c a b máy phát âm m t cách hi u qu . Tuy nhiên vi c xác đnh các formant khơng đơ n gi n ch là vi c xác đnh các đnh trong ph biên đ b i vì các đnh ph c a tín hi u ra ca b máy phát âm ph thu c m t cách ph c t p vào nhi u yu ch ng h n nh ư c u hình b máy phát âm, các ngu n kích thích, Các ph ươ ng pháp xác đnh formant liên quan đn vi c tìm ki m các đnh trong các bi u di n ph , th ưng là t k t qu phân tích ph theo ph ươ ng pháp STFT ho c mã hĩa d đốn tuy n tính (LPC). a) Xác đnh formant t phân tích STFT Các phân tích STFT t ươ ng t và r i r c đã tr thành m t cơng c c ơ b n cho nhi u phát tri n trong phân tích và t ng h p tín hi u ti ng nĩi. D dàng th y STFT tr c ti p ch a các thơng tin v formant ngay trong biên đ ph . Do đĩ, nĩ tr thành m t c ơ s cho vi c phân tích các t n s formant c a tín hi u ti ng nĩi. b) Xác đnh formant t phân tích LPC Các t n s formant cĩ th đưc ưc l ưng t các tham s d đốn theo m t trong hai cách. Cách th nh t là xác đnh tr c ti p b ng cách phân tích nhân t đa th c d đốn và d a trên các nghi m thu đưc đ quy t đnh xem nghi m nào t ươ ng ng v i formant. Cách th hai là s d ng phân tích ph và ch n các formant t ươ ng ng v i các đnh nh n b ng m t trong các thu t tốn ch n đnh đã bi t. Mt l i đim khi s d ng ph ươ ng pháp phân tích LPC đ phân tích formant là t n s trung tâm c a các formant và b ăng t n c a chúng cĩ th xác đnh đưc m t cách chính xác thơng qua vi c phân tích nhân t đa th c d đốn. M t phép phân tích LPC b c p đưc ch n 40
  47. Ch ươ ng 3: Phân tích ti ng nĩi tr ưc, thì s kh n ăng l n nh t cĩ th cĩ các đim c c liên h p ph c là p/2. Do đĩ, vi c gán nhãn trong quá trình xác đnh xem đim c c nào t ươ ng ng v i các formant đơ n gi n h ơn các ph ươ ng pháp khác. Ngồi ra, v i các đim c c bên ngồi th ưng cĩ th d dàng phân tách trong phân tích LPC vì b ăng t n c a chúng th ưng r t l n so v i b ăng t n thơng th ưng c a các formant tín hi u ti ng nĩi. 3.9. Mt s ph ươ ng pháp xác đnh t n s c ơ b n Tn s c ơ bn F 0 là t n s giao đng c a dây thanh. T n s này ph thu c vào gi i tính và đ tu i. F 0 c a n th ưng cao h ơn c a nam, F0 c a ng ưi tr th ưng cao h ơn c a ng ưi già. Th ưng v i gi ng c a nam, F0 n m trong kho ng t 80-250Hz, v i gi ng c a n , F0 trong kho ng 150-500Hz. S bi n đi c a F0 cĩ tính quy t đnh đn thanh điu c a t c ũng nh ư ng điu c a câu. Câu h i đt ra là làm th nào đ xác đnh t n c c ơ b n (fundamental frequency). Mt s ph ươ ng pháp xác đnh t n s c ơ b n cĩ th k đn là: Ph ươ ng pháp s d ng hàm t tươ ng quan, ph ươ ng pháp s d ng hàm vi sai biên đ trung bình; Ph ươ ng pháp s d ng b l c đo và hàm t t ươ ng quan; Ph ươ ng pháp x lý đng hình (homomophic). a) S d ng hàm t t ươ ng quan Hàm t t ươ ng quan Φn(k) s đt các giá tr c c khi t ươ ng ng t i các đim là b i c a chu kỳ c ơ b n c a tín hi u. Khi đĩ các t n s c ơ b n là t n s xu t hi n c a các đnh c a Φn(t). Bài tốn tr thành bài tốn xác đnh chu k ỳ hàm t t ươ ng quan. b) S d ng hàm vi sai biên đ trung bình (AMDF) Nh ư đã đ c p n u dãy s(n) tu n hồn v i chu k ỳ T thì hàm AMDF ∆Mn s tri t tiêu t i các giá tr t là b i c a s T. Do đĩ, chúng ta ch c n xác đnh hai đim c c ti u g n nhau nh t và t đĩ cĩ th xác đnh đưc chu k ỳ c a dãy và t đĩ suy ra t n s c ơ b n. c) S d ng t c đ tr v khơng - zero crossing rate Khi xem xét các tín hi u v i th i gian r i r c, m t l n qua đim khơng c a tín hi u x y ra khi các m u c nh nhau cĩ d u khác nhau. Do v y, t c đ qua đim khơng c a tín hi u là m t đo l ưng đơ n gi n c a t n s c a tín hi u. L y ví d , m t tín hi u hình sin cĩ t n s F 0 đưc ly m u v i t n s F s s cĩ Fs/F0 m u trong m t chu k ỳ. Vì m i chu k ỳ cĩ hai l n qua đim khơng nên t c đ trung bình qua đim khơng là Z n=2F 0/F s. Nh ư v y, t c đ qua đim khơng trung bình cho là m t cách đánh giá t ươ ng đi v t n s c a sĩng sin. d) Ph ươ ng pháp s d ng STFT T k t qu ph n bi u di n Fourier c a tín hi u ti ng nĩi, d th y r ng ngu n kích thích c a tín hi u âm h u thanh đưc t ăng c ưng nh ng đnh nh n và các đnh này x y ra các đim là b i s c a t n s c ơ b n. ðây chính là nguyên lý c ơ b n c a m t trong các ph ươ ng pháp xác đnh t n s c ơ b n. 41
  48. Ch ươ ng 3: Phân tích ti ng nĩi Hình 3.11 S nén t n s Xét bi u th c ph tích các hài (harmonic) nh ư sau: K jω= j ω r Pen()()∏ Se n (3.48) r=1 Nu l y lơ-ga-rít c a bi u th c (3.48), thu đưc ph tích các hài trong thang lơ-ga-rít: K ˆ jω= j ω r Pen()()2∑ log Se n (3.49) r=1 ˆ jω jω Hàm Pn ( e ) trong cơng th c (3.49) là m t t ng c a K ph nén t n s c a |S n(e )|. Vi c s d ng hàm trong cơng th c (3.49) xu t phát t nh n xét r ng v i tín hi u âm h u thanh, vi c nén t n s b i các h s nguyên s làm các hài c a t n s c ơ b n trùng v i t n s c ơ b n. vùng t n s gi a các hài, cĩ m t hài c a các s t n s khác c ũng b nén trùng nhau, tuy nhiên ch t i t n s c ơ b n là đưc c ng c . Hình 3.11 minh h a nh n xét v a nêu. e) S d ng phân tích Cepstral Trong phân tích cepstral ng ưi ta quan sát th y r ng, v i tín hi u âm h u thanh, cĩ m t đnh nh n t i chu k ỳ c ơ b n c a tín hi u. Tuy nhiên v i tín hi u âm vơ thanh thì đnh nh n này khơng xu t hi n. Do đĩ, phân tích cepstral cĩ th đưc s d ng nh ư m t cơng c c ơ b n dùng đ xác đnh xem m t đon tín hi u ti ng nĩi là tín hi u âm vơ thanh hay h u thanh, và đ xác đnh chu k ỳ c ơ b n c a tín hi u âm hu thanh. Ph ươ ng pháp s d ng phân tích cepstral đ ưc l ưng t n s c ơ b n khá đơ n gi n. Tr ưc h t các cepstrum đưc tính tốn và tìm ki m 42
  49. Ch ươ ng 3: Phân tích ti ng nĩi đnh nh n trong m t kho ng lân c n c a chu k ỳ ph ng đốn. N u đnh cepstrum t i đĩ l n hơn m t ng ưng đnh tr ưc thì tín hi u ti ng nĩi đư a vào cĩ kh n ăng l n là tín hi u âm h u thanh và v trí đnh đĩ là m t ưc l ưng chu k ỳ tín hi u c ơ b n (c ũng t c là xác đnh đưc t n s c ơ b n). Hình 3.12 minh h a vi c s d ng ph ươ ng pháp phân tích cepstral đ xác đnh tín hi u âm vơ thanh và h u thanh cùng v i xác đnh t n s c ơ b n c a âm h u thanh. Phía bên trái là dãy các lơ-ga ph ng n h n (các đưng thay đi r t nhanh theo th i gian), phía bên ph i là các dãy cepstra t ươ ng ng đưc tính tốn t các lơ-ga ph phía bên tai trái. Các dãy lơ-ga ph và cepstra t ươ ng ng là các đon liên ti p chi u dài 50ms thu đưc t hàm c a s d ch 12,5ms mi b ưc (ngh ĩa là d ch kho ng 100 m u t n s l y m u 800m u/giây). T hình v , chúng ta th y các dãy 1-5, c a s tín hi u ch bao g m tín hi u âm vơ thanh (khơng xu t hi n đnh, s thay đi ph r t nhanh và x y ra ng u nhiên khơng cĩ c u trúc chu k ỳ) trong khi các dãy 6 và 7 bao g m c tín hi u âm vơ thanh và h u thanh. Các dãy 8-15 ch bao g m tín hi u âm hu thanh. D dàng th y đnh cepstrum t i t n s ng v i 11-12ms tín hi u âm h u thanh. Và nh ư v y, t n s c a đnh là m t ưc l ưng chính xác t n s c ơ b n trong kho ng tín hi u h u thanh. Hình 3.12 Lơ-ga-rít các thành ph n hài trong ph tín hi u 43
  50. Ch ươ ng 3: Phân tích ti ng nĩi 3.10. Bài th c hành phân tích ti ng nĩi S d ng máy tính cá nhân và ph n m m Matlab (ho c các ngơn ng l p trình khác) th c hi n các cơng vi c sau: Vi cùng m t n i dung thơng tin, các thành viên trong nhĩm l n l ưt phát âm ( đc/nĩi) và ghi âm. L ưu t p đnh d ng thơ (*.wav). S d ng ph n m m Matlab (ho c các ngơn ng l p trình khác) và ki n th c đã h c trong ch ươ ng này: Xác đnh t n s c ơ b n Xác đnh tn s c a Formant đu tiên c a m i thành viên Lp b n đ phân b c a các nguyên âm trong ti ng Vi t. 44
  51. Ch ươ ng 4: T ng h p ti ng nĩi Ch−¬ng 4: Tng h p ti ng nĩi 4.1. M đu Tr ưc đây khái ni m "t ng h p ti ng nĩi" th ưng đưc dùng đ ch quá trình t o âm thanh ti ng nĩi m t cách nhân t o t máy d a theo nguyên lý mơ ph ng c ơ quan phát âm c a ng ưi. Tuy nhiên ngày nay, cùng v i s phát tri n c a khoa h c cơng ngh , khái ni m này đã đưc m r ng bao g m c quá trình cung c p các thơng tin d ng ti ng nĩi t máy trong đĩ các b n tin đưc t o d ng m t cách linh đng đ phù h p cho nhu c u nào đĩ. Các ng d ng c a các h th ng t ng h p ti ng nĩi ngày nay r t r ng rãi, t vi c cung c p các thơng tin d ng ti ng nĩi, các máy đc cho ng ưi mù, nh ng thi t b h tr cho ng ưi g p khĩ kh ăn trong vi c giao ti p, 4.2. Các ph ươ ng pháp t ng h p ti ng nĩi 4.2.1 Tng h p tr c ti p Mt ph ươ ng pháp đơ n gi n th c hi n vi c t ng h p các b n tin là ph ươ ng pháp t ng h p tr c ti p trong đĩ các ph n c a b n tin đưc ch p n i b i các ph n (fragment) đơ n v c a ti ng nĩi con ng ưi. Các đơ n v ti ng nĩi th ưng là các t ho c các c m t đưc l ưu tr và bn tin ti ng nĩi mong mu n đưc t ng h p b ng cách l a ch n và ch p n i các đơ n v thích hp. Cĩ nhi u k thu t trong vi c t ng h p tr c ti p ti ng nĩi và các k thu t này đưc phân lo i theo kích th ưc c a các đơ n v dùng đ ch p n i c ũng nh ư nh ng lo i bi u di n tín hi u dùng đ ch p n i. Các ph ươ ng pháp ph bi n cĩ th kêt đn là: ph ươ ng pháp ch p n i t , ch p n i các đơ n v t con (âm v sub-word unit), ch p n i các phân đon d ng sĩng tín hi u. a) Ph ươ ng pháp t ng h p tr c ti p đơ n gi n Ph ươ ng pháp đơ n gi n nh t đ t o các b n tin ti ng nĩi là ghi và l ưu tr ti ng nĩi c a con ng ưi theo các đơ n v t riêng l khác nhau và sau đĩ ch n phát l i các t theo th t mong mu n nào đĩ. Ph ươ ng pháp này đưc đư a vào s d ng trong h th ng đin tho i c a n ưc Anh t nh ng n ăm 36 c a th k tr ưc, t nh ng n ăm 60 c a th k tr ưc th ưng đưc dùng trong m t s h th ng thơng báo cơng c ng, và ngày nay v n cịn cĩ m t nhi u h th ng qu n lý đin tho i trên th gi i. H th ng ph i l ưu tr đy đ các thành ph n c a các b n tin cn thi tt ph i tái t o và l ưu trong m t b nh . B t ng h p ch làm nhi m v k t n i các đơ n v yêu c u c u thành b n tin l i v i nhau theo m t th t nào đĩ mà khơng ph i thay đi hay bi n đi các thành ph n riêng r . Ch t l ưng c a b n tin ti ng nĩi đưc t ng h p theo ph ươ ng pháp này b nh h ưng b i ch t l ưng c a tính liên t c c a các đc tr ưng âm h c (biên ph , biên đ, t n s c ơ b n, t c đ nĩi) c a các đơ n v đưc ch p n i. Ph ươ ng pháp t ng h p này t ra hi u qu khi các b n tin cĩ d ng m t danh sách ch ng h n nh ư m t dãy s c ơ b n, ho c các kh i b n tin th ưng xu t hi n m t v trí nh t đnh trong câu. ðiu này d hi u b i vì điu đĩ cho phép d dàng đm bo r ng b n tin đưc phát ra cĩ tính t nhiên v m t th i gian và cao đ. Khi cĩ yêu c u m t cu trúc câu đc bi t nào đĩ mà trong đĩ các t thay th nh ng v trí nh t đnh trong câu thì các t đĩ ph i đưc ghi l i đúng nh ư th t c a nĩ trong câu n u khơng nĩ s khơng phù hp v i ng điu c a câu. Ch ng h n v i các dãy s c ơ b n c ũng c n thi t ph i ghi l i chúng hai d ng: m t t ươ ng ng v i v trí cu i câu và m t d ng khơng. ðiu này là vì c u trúc pitch ca m i đơ n v ti ng nĩi thay đi tùy theo v trí c a t trong câu. Nh ư v y, quá trình biên so n 45
  52. Ch ươ ng 4: T ng h p ti ng nĩi là m t quá trình r t t n th i gian và cơng s c. Ngồi ra vi c ch p n i tr c ti p các đơ n v ti ng nĩi g p r t nhi u khĩ kh ăn trong vi c di n t s nh h ưng t nhiên gi a các t , c ũng nh ư ng điu và nh p điu c a câu. M t h n ch n a ph i k đn là kích th ưc c a b nh cho các ng d ng v i s l ưng các b n tin l n là r t l n. Yêu c u b nh l ưu tr l n cĩ th đưc ph n nào gi i quy t b ng vi c s d ng ph ươ ng pháp mã hĩa t c đ th p cho các đơ n v ti ng nĩi tr ưc khi th c hi n vi c l ưu tr . Tuy nhiên c ph ươ ng pháp s d ng l ưu tr tr c ti p ho c mã hĩa c a các đơ n v l n (t , c m t ) c a ti ng nĩi, s l ưng b n tin cĩ th t ng h p đưc r t h n ch . ð t ăng s l ưng b n tin cĩ th tng h p đưc, các đơ n v t cĩ th đưc chia nh h ơn thành đơ n v t con, diphone, demisyllable, syllable đưc ghi và l ưu tr . Tuy nhiên khi đơ n v ti ng nĩi càng đưc chia nh thì ch t l ưng b n tin t ng h p đưc ch t l ưng càng b gi m. Hình 4.1 minh h a s so sánh spectrogram c a câu t ng h p đưc theo ph ươ ng pháp t ng hp tr c ti p đơ n gi n và b n tin nguyên th y. Hình 4.1 So sánh k t qu t b n tin t ng h p tr c ti p và b n tin nguyên th y b) Ph ươ ng pháp t ng h p tr c ti p t các phân đon d ng sĩng Nh ư đã đ c p ph n trên, ph ươ ng pháp t ng h p tr c ti p đơ n gi n g p ph i h n ch trong vi c khơi ph c t c đ và tính t nhiên (nh n, nh p, ng điu) c a b n tin đưc t ng h p. V n đ này cĩ th đưc gi i quy t b ng cách s d ng ph ươ ng pháp t ng h p t các phân đon dng sĩng hay cịn g i là ph ươ ng pháp t ng h p ch ng và thêm các đon sĩng theo đ dài pitch. Xem xét bài tốn ch p n i hai phân đon c a d ng sĩng c a tín hi u c a nguyên âm. Chúng ta th y r ng s khơng liên t c trong d ng sĩng t ng h p s đưc gi m nh t i thi u nu vi c ch p n i x y ra cùng v trí c a m t chu k ỳ glottal c a c hai phân đon. V trí này th ưng là v trí t ươ ng ng v i vùng cĩ biên đ tín hi u nh nh t khi đáp ng tuy n âm v i xung glottal hi n t i cĩ s suy gi m l n và ch ngay tr ưc m t xung ti p theo. Nĩi cách khác, hai phân đon tín hi u đưc ch p n i theo ki u đng b pitch (pitch-synchronous manner). 46
  53. Ch ươ ng 4: T ng h p ti ng nĩi Ph ươ ng pháp ph bi n th c hi n vi c này là ph ươ ng pháp TD-PSOLA (Time domain Pitch Synchronous Overlap Add). TD-PSOLA th c hi n vi c đánh d u các v trí t ươ ng ng v i s đĩng l i c a dây thanh (t c là xung pitch) trong d ng sĩng tín hi u ti ng nĩi. Các v trí đánh d u này đưc s d ng đ t o ra các phân đon c a s c a d ng sĩng tín hi u cho m i chu k ỳ. V i m i chu k ỳ, hàm ca s ph i đưc ch nh trùng v i trung tâm c a vùng cĩ biên đ tín hi u c c đi và hình d ng ca hàm c a s ph i đưc ch n thích h p. Ngồi ra, đ dài hàm c a s ph i dài h ơn m t chu kỳ nh m t o ra m t s ch ng l n nh gi a các c a s tín hi u c nh nhau. Hình 4.2 minh h a nguyên lý làm vi c c a ph ươ ng pháp TD-PSOLA trong đĩ s d ng hàm c a s Hanning. Hình 4.2 Nguyên lý ph ươ ng pháp TD-PSOLA T minh h a, chúng ta th y r ng, b ng cách ch p n i dãy các phân đon c a s tín hi u sĩng theo các v trí t ươ ng đi cho tr ưc theo các đim d u pitch đã phân tích, chúng ta cĩ th tái t o m t cách khá chính xác b n tin theo ý mong mu n. Ngồi ra, b ng cách thay đi các v trí t ươ ng đi và s l ưng các đim d u pitch, chúng ta cĩ th làm thay đi pitch và th i gian ca b n tin đưc t ng h p. 4.2.2 Tng h p ti ng nĩi theo Formant Ph ươ ng pháp t ng h p theo Formant là ph ươ ng pháp t ng h p đích th c đu tiên đưc phát tri n và là ph ươ ng pháp t ng h p ph bi n cho đn t n nh ng n ăm đu c a th p k $80$. Ph ươ ng pháp t ng h p theo Formant cịn đưc g i là ph ươ ng pháp t ng h p theo lu t. Nĩ s dng các ph ươ ng pháp mơ-đun (modular), d a trên mơ hình (model-based), m i quan h âm thanh-âm ti t đ gi i các bài tốn t ng h p ti ng nĩi. Trong ph ươ ng pháp này, mơ hình ng âm thanh đưc s d ng m t cách đt bi t sao cho các thành ph n điu khi n c a ng d dàng 47
  54. Ch ươ ng 4: T ng h p ti ng nĩi đươ c liên h v i các tính ch t c a m i quan h âm thanh-âm ti t (acoustic-phonetic) và cĩ th quan sát đưc m t cách d dàng. Hình 4.3 mơ t s ơ đ t ng quát m t h th ng t ng h p theo formant. Nguyên lý t ng quát ca h th ng đưc mơ t nh ư sau. Âm thanh đưc phát ra t m t ngu n. ði v i các nguyên âm và các ph âm h u thanh thì ngu n âm này cĩ th đưc t o ra ho c đy đ b ng m t hàm tu n hồn trong mi n thi gian ho c b ng m t dãy đáp ng xung đư a qua m ch l c tuy n tính mơ ph ng khe thanh (glottal LTI filter). ði v i các âm vơ thanh thì ngu n âm này đưc t o ra t m t b phát nhi u ng u nhiên. ði v i các âm t c thì ngu n c ơ b n này đưc t o ra b ng cách k t h p ngu n cho âm h u thanh và ngu n cho âm vơ thanh. Tín hi u âm thanh t ngu n âm c ơ b n đưc đư a vào mơ hình tuy n âm (vocal tract). ð tái t o t t c các formant, mơ ph ng khoang mi ng và khoang m ũi đưc xây d ng song song riêng bi t. Do đĩ, khi tín hi u đi qua h th ng s đi qua mơ hình khoang mi ng, n u cĩ yêu c u v các âm m ũi thì c ũng đi qua h th ng mơ hình khoang m ũi. Cu i cùng k t qu các thành ph n âm thanh t o ra t các mơ hình khoang mi ng và m ũi đưc k t h p l i và đưc đư a qua h th ng phát x , h th ng này mơ ph ng các đc tính lan truy n và đc tính t i c a mơi và m ũi. Hình 4.3 Sơ đ ph ươ ng pháp t ng h p theo formant Theo lý thuy t m ch l c, m t formant cĩ th đưc t o ra b ng các s d ng m t m ch l c IIR b c hai v i hàm truy n: 1 H() z = (4.1) −−1 − − 2 1 az1 az 2 Trong đĩ hàm truy n đt cĩ th phân tích thành: 1 H() z = (4.2) −−1 − − 1 ()()1pz1 1 pz 2 Chúng ta bi t r ng, đ xây d ng m ch l c v i các h s a 1 và a 2 là th c thì các đim c c ph i cĩ d ng là c p liên h p ph c. C n chú ý r ng m t b l c b c hai nh ư trên s cĩ đ th ph v i hai formant, tuy nhiên ch cĩ m t trong hai n m ph n t n s d ươ ng. Do đĩ, chúng ta cĩ th coi b l c trên t o ra m t formant đơ n l cĩ ích. Các đim c c cĩ th quan sát đưc trên đ th , trong đĩ đ l n biên đ c a các đim c c quy t đnh b ăng t n và biên đ c a c ng hưng. ð l n biên đ càng nh thì c ng h ưng càng ph ng, ng ưc l i, đ l n biên đ càng ln thì c ng h ưng càng nh n. 48
  55. Ch ươ ng 4: T ng h p ti ng nĩi Nu bi u di n các đim c c trong t a đ c c v i pha θ và bán kính r và chú ý đn nh n xét cp đim c c là liên h p ph c chúng ta cĩ th vi t hàm truy n đt trong cơng th c (4.1) nh ư sau : 1 H() z = (4.3) 1− 2rc os ()θ + rz2− 2 T đây chúng ta th y cúng ta cĩ th t o ra m t formant v i b t c t n s mong mu n nào bng vi c s d ng tr c ti p giá tr thích h p c a θ. Tuy v y vi c điu khi n b ăng t n m t cách tr c ti p khĩ kh ăn h ơn. V trí c a formant s thay đi hình d ng c a ph do đĩ m t m i quan h chính xác cho m i tr ưng h p là khơng th đt đưc. C ũng c n chú ý r ng, n u hai đim cc g n nhau, chúng s cĩ nh h ưng đn vi c k t h p thành m t đnh c ng h ưng duy nh t và điu này l i gây khĩ kh ăn cho vi c tính tốn b ăng t n. Th c nghi m cho th y m i liên h gi a b ăng t n chu n hĩa c a formant và bán kính c a đim c c cĩ th x p x h p lý b i: Bˆ = − 2ln ( r ) (4.4) Khi đĩ ta cĩ th bi u di n hàm truy n đt theo hàm c a t n s chu n hĩa Fˆ và b ăng t n chu n hĩa Bˆ c a formant nh ư sau: 1 H() z = (4.5) 1− 2ec−2Bˆ os2()π Fzˆ −−− 122 + ez B ˆ đây, các t n s chu n hĩa Fˆ và b ăng t n chu n hĩa Bˆ cĩ th xác đnh t ươ ng ng b ng cách chia F và B cho t n s l y m u F s. ð cĩ th t o ra nhi u formant chúng ta cĩ th th c hi n b ng m t b l c mà hàm truy n đt là tích c a m t s hàm truy n đt b c hai. Nĩi m t cách khác, hàm truy n cho tuy n âm (vocal tract) cĩ d ng: ( ) = ( ) ( ) ( ) ( ) Hz HzH1 2 zH 3 zH 4 z (4.6) Trong đĩ Hi(z) là hàm c a t n s F i và b ăng t n B i c a formant th i. Tươ ng ng bi u th c quan h đu vào đu ra trong mi n th i gian cĩ d ng: ( ) =( ) +( −+) ( −++) ( − ) yn xn ayn11 ayn 2 2 ayn 8 8 (4.7) Mt cách t ươ ng t , chúng ta cĩ th xây d ng h thng mơ ph ng khoang m ũi. Các bi u th c (4.6) và (4.7) bi u di n k thu t t ng h p formant theo s ơ đ n i ti p hay cịn g i là s ơ đ cascade. Mt k thu t khác là t ng h p formant song song. Ph ươ ng pháp t ng h p formant song song mơ ph ng m i formant riêng r . Nĩi cách khác, m i mơ hình cĩ m t hàm truy n H i(z) riêng r . Trong quá trình t o tín hi u ti ng nĩi các ngu n tín hi u đưc đư a vào các mơ hình mt cách riêng r . Sau đĩ, các tín hi u t các mơ hình y i(n) đưc t ng h p l i. ( ) =( ) +( ) + yn yn1 yn 2 (4.8) Hình 4.4 minh h a c u hình t ng quát c a ph ươ ng pháp t ng h p n i ti p và song song. 49
  56. Ch ươ ng 4: T ng h p ti ng nĩi Hình 4.4 Các c u hình c a ph ươ ng pháp t ng h p nhi u formant Ph ươ ng pháp t ng h p theo s ơ đ n i ti p cĩ l i đim là v i m t t p các giá tr formant cho tr ưc, chúng ta cĩ th d dàng xây d ng các hàm truy n đt và bi u th c quan h đu vào đu ra (cơng th c vi sai - difference equation). Vi c t ng h p riêng r các formant trong ph ươ ng pháp t ng h p song song cho phép chúng ta xác đnh m t cách chính xác t n s c a các formant. Mc dù là m t ph ươ ng pháp t ng h p đơ n gi n và th ưng mang l i tín hi u âm thanh rõ, ph ươ ng pháp t ng h p theo formant khĩ đt đưc tính t nhiên c a tín hi u ti ng nĩi. ðiu này là do mơ hình ngu n và mơ hình chuy n đi đã b đơ n gi n hĩa quá m c và đã b qua nhi u y u t ph tr gĩp ph n t o ra đc tính đng c a tín hi u. B t ng h p Klatt B t ng h p Klatt là m t trong các b t ng h p ti n nĩi d a trên formant ph c t p nh t đã đưc phát tri n. S ơ đ c a b t ng h p này đưc trình bày trong hình 4.5 trong đĩ cĩ s d ng c các h th ng c ng h ưng song song và n i ti p. Trong s ơ đ các kh i R i t ươ ng ng v i các b t o t n s c ng h ưng formant th i; các h p Ai điu khi n biên đ tín hi u t ươ ng ng. B c ng h ưng đưc thi t l p đ làm vi c t n s 10kHz v i 6 formant chính đưc s d ng. Cn chú ý r ng, trong th c t các b t ng h p formant th ưng s s ng t n s l y m u kho ng 8kHz ho c 10kHZ. ðiu này khơng h n b i m t lý do nào đc bit liên quan đn nguyên t c v ch t l ưng t ng h p mà b i vì s h n ch v khơng gian l ưu tr , t c đ x lý và các yêu c u đu ra khơng cho phép th c hi n v i t c đ l y m u cao h ơn. M t đim khác cũng c n chú ý là, các nghiên c u đã chúng minh r ng ch cĩ ba formant đu tiên là đ đ phân bi t tín hi u âm thanh, do đĩ vi c s d ng 6 formant thì các formant b c cao đơ n gi n đưc s d ng đ t ăng thêm tính t nhiên cho tín hi u t ng h p đưc. 50