Đồ án Xe điều khiển bằng giọng nói và hỗ trợ trẻ em học qua trò chơi trên điện thoại androd (Phần 1)
Bạn đang xem 20 trang mẫu của tài liệu "Đồ án Xe điều khiển bằng giọng nói và hỗ trợ trẻ em học qua trò chơi trên điện thoại androd (Phần 1)", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
do_an_xe_dieu_khien_bang_giong_noi_va_ho_tro_tre_em_hoc_qua.pdf
Nội dung text: Đồ án Xe điều khiển bằng giọng nói và hỗ trợ trẻ em học qua trò chơi trên điện thoại androd (Phần 1)
- BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM KHOA ĐÀO TẠO CHẤT LƯỢNG CAO NGÀNH CNKT ĐIỆN TỬ TRUYỀN THÔNG ĐỒ ÁN TỐT NGHIỆP ĐỀ TÀI: XE ĐIỀU KHIỂN BẰNG GIỌNG NÓI VÀ HỖ TRỢ TRẺ EM HỌC QUA TRÒ CHƠI TRÊN ĐIỆN THOAI ANDROD GVHD : Th.SNGUYỄN VĂN HIỆP SVTH : NGÔ PHƯƠNG LAN MSSV : 13141515 SVTH : LÊ VĂN TÀI MSSV : 13141286 LỚP : 13141CLDT1 KHÓA : 2013 HỆ : ĐẠI HỌC CHÍNH QUY S K L 0 0 4 9 3 8 Tp. Hồ Chí Minh, tháng 07/2017
- CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh Phúc Tp. Hồ Chí Minh, ngày 05 tháng 07 năm 2017 NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Họ và tên sinh viên: Ngô Phƣơng Nam MSSV: 13141515 Lê Văn Tài MSSV: 13141286 Ngành: CNKT Điện tử Truyền Thông Lớp: 13141CLDT1 Giảng viên hƣớng dẫn: ThS.Nguyễn Văn Hiệp ĐT: 0909 960000 Ngày nhâṇ đề tài: Ngày nộp đề tài: 1. Tên đề tài : Xe điều khiển bằng giọng nói và hỗ trợ trẻ em học qua trò chơi trên điện thoại Android 2. Các số liệu, tài liệu ban đầu: 3. Nội dung thƣc̣ hiêṇ đề tài: 4. Sản phẩm: GIẢNG VIÊN HƢỚNG DẪN
- CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh Phúc PHIẾ U NHẬN XÉT CỦA GIÁO VIÊN HƢỚNG DẪN Họ và tên Sinh viên: Ngô Phƣơng Nam MSSV: 13141515 Lê Văn Tài MSSV: 13141286 Ngành: CNKT Điện tử, Truyền thông Tên đề tài: Xe điều khiển bằng giọng nói và hỗ trợ trẻ em học qua trò chơi trên điện thoại Android Họ và tên Giáo viên hƣớng dẫn: ThS. Nguyễn Văn Hiệp NHẬN XÉT 1. Về nội dung đề tài & khối lƣợng thực hiện: 2. Ƣu điểm: 3. Khuyết điểm: 4. Đề nghị cho bảo vệ hay không? 5. Đánh giá loại:
- 6. Điểm: .(Bằng chữ: ) Tp. HồChí Minh, ngày tháng năm 20 Giáo viên hƣớng dẫn (Ký & ghi rõ họ tên)
- CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh Phúc PHIẾ U NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Họ và tên Sinh viên: Ngô Phƣơng Nam MSSV: 13141515 Lê Văn Tài MSSV: 13141286 Ngành: CNKT Điện tử, Truyền thông Tên đề tài: Xe điều khiển bằng giọng nói và hỗ trợ trẻ em học qua trò chơi trên điện thoại Android Họ và tên Giáo viên phản biện: NHẬN XÉT 1. Về nội dung đề tài & khối lƣợng thực hiện: 2. Ƣu điểm: 3. Khuyết điểm: 4. Đề nghị cho bảo vệ hay không? 5. Đánh giá loại:
- 6. Điểm: .(Bằng chữ: ) Tp. Hồ Chí Minh, ngày tháng năm 20 Giáo viên phản biện (Ký & ghi rõ họ tên)
- ĐỒ ÁN TỐT NGHIỆP LỜI CẢM ƠN Để hoàn thành đồ án tốt nghiệp này, lời đầu tiên chúng em xin bày tỏ lòng biết ơn sâu sắc đến thầy ThS. Nguyễn Văn Hiệp, đã tận tình hƣớng dẫn trong suốt quá trình chúng em thực hiện đồ án. Chúng em cũng xin chân thành cảm ơn quý thầy, cô trƣờng Đại Học Sƣ Phạm Kỹ Thuật TP.HCM, đặc biệt là các thầy cô trong khoa Đào tạo chất lƣợng cao, đã nhiệt tình giúp đỡ, truyền đạt kiến thức trong suốt quá trình học tập của nhóm tại trƣờng. Vốn kiến thức đƣợc tiếp thu trong quá trình học tập không chỉ là nền tảng cho quá trình thực hiện đồ án tốt nghiệp mà còn là hành trang quý báu cho sự nghiệp của nhóm sau này. Bên cạnh đó, chúng tôi xin cảm ơn sự hỗ trợ và giúp đỡ của bạn bè trong thời gian học tập tại Trƣờng Đại học Sƣ phạm Kỹ thuật Thành phố Hồ Chí Minh và trong quá trình hoàn thành luận văn tốt nghiệp này. Cuối cùng, chúng conchân thành cảm ơn sự động viên và hỗ trợ của gia đình trong suốt thời gian học tập. Đặc biệt, chúng con xin gửi lời cảm ơn trân trọng nhất đến cha mẹ, ngƣời đã sinh ra và nuôi dƣỡng chúng con nên ngƣời. Sự quan tâm, lo lắng và hy sinh lớn lao của cha mẹ luôn là động lực cho chúng con cố gắng phấn đấu trên con đƣờng học tập của mình. Xin chân thành cảm ơn! Ngƣời thực hiện đề tài Ngô Phƣơng Nam Lê Văn Tài i
- ĐỒ ÁN TỐT NGHIỆP TÓM TẮT Hiện nay, điện thoại đi động thông minh (Smart Phone) đang ngày càng phát triển và phổ biến trên thế giới.Việc áp dụng điện thoại thông minh để hỗ trợ trẻ em trong việc học tập đang ngày càng đƣợc quan tâm; thêm vào đó việc lập trình ứng dụng trên điện thoại vào các sản phẩm công nghệ càng phổ biến và dễ tiếp cận hơn bao giờ hết. Với mục đích giúp trẻ em Việt Nam tiếp cận các sản phẩm công nghệ trong việc hỗ trợ học tập và vui chơi, đồng thời chúng em muốn tìm hiểu sâu hơn về mảng lập trình ứng dụng để tạo ra các sản phẩm có thể kết hợp với sản phẩm công nghệ nhƣ robot, mô hình xe, Dựa vào kiến thức đã học của môn lập trình Android và chuyên ngành Điện tử công nghiệp, chúng em cũng tạo ra đƣợc mô hình xe thông minh có thể điều khiển thông qua điện thoại Android. Trong quá trình thực hiện đề tài ―Xe điều khiển bằng giọng nói và hỗ trợ trẻ em học qua trò chơi trên điện thoại Android”, mặc dù nhóm thực hiện đề tài đã cố gắng hoàn thành nhiệm vụ đặt ra và đúng thời hạn nhƣng do còn hạn chế về kiến thức nên chắc chắn sẽ không tránh khỏi những thiếu sót, hạn chế, mong quý Thầy/Cô và các bạn sinh viên thông cảm. Nhóm rất biết ơn và mong nhận đƣợc những ý kiến đóng góp của quý Thầy/Cô và các bạn sinh viên về đề tài này. ii
- ĐỒ ÁN TỐT NGHIỆP MỤC LỤC LỜI CẢM ƠN i TÓM TẮT ii MỤC LỤC iii DANH MỤC BẢNG vi DANH MỤC HÌNH ẢNH vii Chương 1: TỔNG QUAN 1 1.1. GIỚI THIỆU: 1 1.2. TÍNH CẤP THIẾT CỦA ĐỀ TÀI: 1 1.3. ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU: 2 1.4. PHƢƠNG PHÁP NGHIÊN CỨU: 3 1.5. BỐ CỤC ĐỒ ÁN: 3 Chương 2: CƠ SỞ LÝ THUYẾT 4 2.1. CÔNG NGHỆ NHẬN DẠNG GIỌNG NÓI: 4 2.1.1. Vì sao lại là giọng nói? 4 2.1.2. Một số ví dụ trong thế giới công nghệ: 5 2.1.3. Mô hình triển khai: 6 2.1.4. Các thƣ viện giọng nói phổ biến: 6 2.2. ROBOT HỖ TRỢ TRẺ EM: 7 2.2.1. Trợ lý mầm non: 8 2.2.2. Hỗ trợ trẻ có nhu cầu đặc biệt: 9 2.2.3. Huấn luyện kỹ năng: 10 2.3. HỆ ĐIỀU HÀNH ANDROID: 11 2.3.1. Khái quát về Android: 11 iii
- ĐỒ ÁN TỐT NGHIỆP 2.3.2. Công cụ lập trình cho Android: 13 2.4. GIAO TIẾP KHÔNG DÂY BLUETOOTH: 16 2.4.1. Giới thiệu: 16 2.4.2. Các chuẩn Bluetooth: 17 Chương 3: THIẾT KẾ 19 3.1 GIỚI THIỆU: 19 3.2. THIẾT KẾ SƠ ĐỒ KHỐI: 19 3.3. Thiết kế các khối: 20 3.3.1. Khối động cơ: 20 3.3.1. Khối điều khiển động cơ: 21 3.3.2. Khối truyền nhận dữ liệu: 27 3.3.3. Khối cảm biến: 30 3.3.4. Khối xử lý trung tâm: 33 3.3.5. Khối Nguồn: 40 3.3.6. Khối ứng dụng điện thoại: 40 3.3.7. Khối nhận dạng giọng nói: 42 3.4. SƠ ĐỒ NGUYÊN LÝ TOÀN MẠCH: 43 3.4.1. Sơ đồ nguyên lý: 43 3.4.2. Mạch nguyên lý mô phỏng: 44 Chương 4: THI CÔNG 45 4.1. THI CÔNG MÔ HÌNH XE: 45 4.1.1. Thiết kế mô hình xe: 45 4.1.2. Lập trình cho xe: 46 4.2. THI CÔNG ỨNG DỤNG TRÊN ĐIỆN THOẠI ANDROID: 50 4.2.1. Giới thiệu phần mềm lập trình Android Studio: 50 iv
- ĐỒ ÁN TỐT NGHIỆP 4.2.2. Lƣu đồ giải thuật: 64 Chương 5: KẾT QUẢ THỰC TẾ 70 5.1. ỨNG DỤNG ANDROID TRÊN ĐIỆN THOẠI: 70 5.2. MÔ HÌNH XE: 74 Chương 6: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 76 6.1. KẾT LUẬN: 76 6.2. HƢỚNG PHÁT TRIỂN: 76 TÀI LIỆU THAM KHẢO 77 PHỤ LỤC: CODE ARDUINO 78 PHỤ LỤC: CODE ANDROID 81 v
- ĐỒ ÁN TỐT NGHIỆP DANH MỤC BẢNG Bảng 3.1: Một số lệnh AT cơ bản: 29 Bảng 3.2: Thông số kỹ thuật Board Arduino Uno R3. 34 Bảng 5.1: Thống kê các thiết bị đã chạy thử nghiệm trong 15 phút. 74 vi
- ĐỒ ÁN TỐT NGHIỆP DANH MỤC HÌNH ẢNH Hình 2.1: Ứng dụng nhận dạng giọng nói Cortana của Microsoft. 5 Hình 2.2: Robot Pepper trong một lớp học. 8 Hình 2.3: Robot Kaspar đang giao tiếp với trẻ. 9 Hình 2.4: Robot Leka. 10 Hình 2.5: Robot Tega đang giao tiếp với trẻ. 10 Hình 2.6: Logo Android. 11 Hình 2.7: Logo một số phiên bản đầu tiên của Android. 12 Hình 2.8: Kiến trúc của hệ điều hành Android. 13 Hình 2.9: Logo giao tiếp không giây Bluetooth. 16 Hình 3.1: Sơ đồ khối của đề tài. 19 Hình 3.2: Một số hình ảnh về động cơ DC. 20 Hình 3.3: Motor Driver Shield L293D. 22 Hình 3.4: Motor Driver Shield L293D đƣợc cắm trực tiếp vào board Arduino. 22 Hình 3.5: Các chân kết nối với động cơ trên Motor Driver Shield L293D. 22 Hình 3.6: Sơ đồ tổng quát của một mạch cầu H sử dụng transistor BJT. 24 Hình 3.7:Dòng điện trong động cơ quay theo chiều thuận. 25 Hình 3.8: Dòng điện trong động cơ quay theo chiều nghịch. 25 Hình 3.9: Mạch nguyên lý module L293D. 26 Hình 3.10: Module Blutooth HC-05. 27 Hình 3.11: Module Blutooth HC-05 kết nối với Arduino. 30 Hình 3.12:Cảm biến siêu âm SRF-04. 31 Hình 3.13: Các chân củaCảm biến siêu âm SRF-04. 31 vii
- ĐỒ ÁN TỐT NGHIỆP Hình 3.14: Kết nối cảm biến siêu âm SRF-04 với Arduino. 33 Hình 3.15: Board mạch Arduino Uno R3 tiêu chuẩn. 34 Hình 3.16: Sơ đồ chân Board Arduino Uno R3. 36 Hình 3.17: Sơ đồ nguyên lý Arduino UNO R3. 40 Hình 3.18: Phác thảo giao diện ứng ứng dụng điện thoại. 41 Hình 3.19: Dịch vụ nhận dạng giọng nói của Google. 42 Hình 3.20: Sơ đồ nguyên lý toàn mạch. 43 Hình 3.21: Sơ đồ nguyên lý mô phỏng 3D. 44 Hình 4.1:Chi tiết mô hình xe. 45 Hình 4.2:Giao diện phần mềm Arduino IDE. 47 Hình 4.3:Chức năng các nút lệnh trong Arduino IDE. 48 Hình 4.4: Chọn Port kết nối. 48 Hình 4.5: Lƣu đồ giải thuật chƣơng trình cho Arduino. 49 Hình 4.6: Trang web tải phần mềm Android Studio. 50 Hình 4.7: Cài đặt phần mềm Android Studio bƣớc 1. 51 Hình 4.8: Cài đặt phần mềm Android Studio bƣớc 2. 51 Hình 4.9: Giao diện khởi động phần mềm Android Studio. 52 Hình 4.10: Tải các thƣ viện cần thiết cho lập trình. 52 Hình 4.11: Tạo project mới trong Android Studio bƣớc 1. 53 Hình 4.12: Tạo project mới trong Android Studio bƣớc 2. 54 Hình 4.13: Lựa chọn phiên bản cho project. 55 Hình 4.14: Lựa chọn Activity cho project. 56 Hình 4.15: Đặt tên MainActivity cho cho project. 56 viii
- ĐỒ ÁN TỐT NGHIỆP Hình 4.16: Project mới đang đƣợc khởi động. 57 Hình 4.17: Project mới đã đƣợc khởi động xong. 57 Hình 4.18: Các vùng làm việc của phần mềm Android Studio. 58 Hình 4.19: Vùng làm việc số 1 của Android Studio. 59 Hình 4.20: Thuộc tính cơ bản của lập trình Android. 60 Hình 4.21: Thuộc tính Padding và Margin trong Android. 61 Hình 4.22: Chạy và debug ƣng dụng. 61 Hình 4.23: Lựa chọn thiết bị cho máy ảo. 62 Hình 4.24: Lựa chọn API level cho máy ảo. 62 Hình 4.25: Hoàn tất tạo máy ảo trong Android Studio. 63 Hình 4.26: Lựa chọn máy ảo để test ứng dụng. 64 Hình 4.27: Lƣu đồ chƣơng trình màn hình chính. 65 Hình 4.28: Lƣu đồ chƣơng trình màn hình điều khiển xe. 67 Hình 4.29: Lƣu đồ chƣơng trình màn hình trò chơi đoán hình. 68 Hình 4.30: Lƣu đồ chƣơng trình màn hình kể chuyện. 69 Hình 5.1: Giao diện chính của ứng dụng. 70 Hình 5.2: Giao diện màn hình điều khiển xe. 71 Hình 5.3: Giao diện trò chơi đoán hình. 72 Hình 5.4: Giao diện màn hình kể chuyện. 73 Hình 5.5: Mô hình xe sau khi lắp ráp. 74 ix
- ĐỒ ÁN TỐT NGHIỆP Chương 1:TỔNG QUAN 1.1. GIỚI THIỆU: Trong những năm qua, khoa học máy tính và xử lý thông tin có những bƣớc tiến vƣợt bậc và ngày càng phát triểnmạnh, đặcbiệtsựra đời và pháttriển nhanhchóngcủakỹthuậtsốđãlàm cho ngành điện tửtrởnên phong phú và đadạnghơn đã gópphầnrấtlớntrongviệc đƣa kỹthuật hiện đại vào mọi lĩnh vực của hoạt động sản xuất, kinh tếvà đời sống xã hội.Từnhững hệthống máy tính lớn đến những hệ thống máy tính cá nhân, từnhững việc điều khiển các máy công nghiệp đến các thiết bịphục vụđời sống hằng ngày của con ngƣời. Công nghệ số thực sự là bƣớc tiến lớn cho công nghệ hiện nay. Một trong những xu hƣớng đang đƣợc sự quan tâm rất lớn từ các nhà phát triển trong những năm gần đây đó là ―Trí tuệ nhân tạo‖, trong đó có thể kể đến các trợ lí ảo đã đƣợc các hãng điện thoại smartphone nổi tiếng cho ra đời nhƣ Siri, Cortana Đó thật sự là những đột phá trong công nghệ khi mà giờ đây máy móc không những răm rắp nghe lệnh của còn ngƣời mà còn có thể hồi đáp lại. Bên cạnh đó, các sản phẩm đồ chơi cho trẻ em đƣợc sản xuất tràn lan nhƣng chỉ sử dụng trong mục đích giải trí. Để thay đổi thì chúng ta cần có những sản phẩm kết hợp giữa việc giải trí và học tập để đem lại những giá trí tốt nhất, đặc biệt là với trẻ nhỏ Từ những cơ sở đó kết hợp với mong muốn áp dụng công nghệ số vào thực tiễn nên nhóm đã quyết định lựa chọn đề tài “Xe điều khiển bằng giọng nói và hỗ trợ trẻ em học qua trò chơi trên điện thoại Android”. 1.2. TÍNH CẤP THIẾT CỦA ĐỀ TÀI: Trên thị trƣờng hiện nay đã có rất nhiều sản phẩm công nghệ đƣợc chế tạo ra nhằm mục đích chăm sóc sức khỏe cho con ngƣời, đặc biệt là các thiết bị theo dõi,cảnh báo sức khỏe dành cho ngƣời già và đồ chơi dành cho trẻ nhỏ.Trẻ em trong độ tuổi ―mầm non‖(tức là từ 3 đến 6 tuổi) có những đặc điểm riêng về phát triển thể chất và vận động não bộ, có khả năng và nhu cầu lớn về tìm hiểu và nâng cao kiến thức về cuộc sống xung quanh.Vì vậy ở độ tuổi này môi trƣờng sống xung quanh ảnh hƣởng rất nhiều đến việc hình thành nhân cách và tƣ duy của trẻ sau này. Việc lựa chọn các phƣơng pháp nuôi dạy trẻ độ tuổi ―mầm non‖ là hết sức quan trọng, cha mẹ cần lựa 1
- ĐỒ ÁN TỐT NGHIỆP chọn không gian phù hợp cũng nhƣ những đồ chơi, trò chơi mà thông qua đó tạo kích thích cho trí não của trẻ. Lấy mô hình là chiếc xe đồ chơi, là loại hình đồ chơi mà hầu hết các trẻ em đều ƣa thích kết hợp với chiếc điện thoại smartphone hiện nay đang là thiết bị phổ biến và thân thuộc nhất của con ngƣờiđể thiết kế ra một chiếc xe đồ chơi không chỉ giúp trẻ giải trí mà còn có thể tƣơng tác lại với trẻ thông qua một số trò chơi bằng giọng nói và sử dụng ngôn ngữ Tiếng Việt, qua đó giúp kích thích hơn sự sáng tạo và vui thích của trẻ. Mô hình xe với thiết kế nhỏ gọn mang đến sự thích thú và thân thiện khi chơi cùng trẻ, đồng thời việc sử dụng công nghệ nhận dạng và giao tiếp qua giọng nói giúp những trò chơi trở nên sự sinh động, kích thích hơn việc duy trì sự chú ý, vui thích của trẻ khi tham gia các trò chơi mà không cần nhiều sự dẫn dắt và hƣớng dẫn của cha mẹ. 1.3. MỤC TIÊU NGHIÊN CỨU: Mục đích nghiên cứu của đề tài này đó là nghiên cứu lập trình ra mộtphần mềm giúp cho một chiếc điện thoại sử dụng hệ điều hành android trở thành một công cụ hỗ trợ việc giáo dục nhận thức cho trẻ em trong độ tuổi ―mầm non‖(từ 3 đến 6 tuổi) dựa trên nền tảng phƣơng pháp ―Học mà chơi, Chơi mà học‖. Phần mềm có khả năng kết nối Bluetooth để điều khiển xe và thực hiện các tƣơng tác với trẻ qua một số trò chơi thông qua giọng nói Tiếng Việt. Đề tài đƣợc xây dựng bằng việc sử dụng môi trƣờng lập trìnhAndroidStudio kết hợp lập trình Arduino, nhận diện giọng nói,giao tiếp không giây Bluetooth, cảm biến khoảng cách HC-SR04, shield điều khiển động cơ L293D 1.3. ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU: - Phần cứng và cách lập trình board Arduino uno r3. - Viết app andriod để phục vụ cho việc điều khiển xe và thực hiện tƣơng tác với ngƣời sử dụng. - Module bluetooth HC-05. - Module điều khiển động cơ L293-D. - Module cảm biến khoảng cách HC-SR04. 2
- ĐỒ ÁN TỐT NGHIỆP 1.4. PHƢƠNG PHÁP NGHIÊN CỨU: Tìm hiểu phần cứng của Board Arduino và cách sử dụng phần mềm Arduino IDE, lập trình một số chƣơng trình điều khiển led cơ bản để quen với thao tác lập trình code và nạp code. Sau đó tiếp cận cách lập trình để giao tiếp và nhận dữ liệu qua module HC-05 và xuất tín hiệu điều khiển ra module L293D Làm quen với phần mềm lập trình Adroid Studio bằng cách viết các app cơ bản nhƣ xuất chữ ra màn hình, bấm nút hiển thị chuỗi kí tự, tính tổng 2 số, để nắm rõ các file chƣơng trình chính, file giao diện, file layout, cũng nhƣ các bƣớc để lập trình ra một app hoàn chỉnh. Sau đó nghiên cứu lập trình android giao tiếp bluetooth, speech to text android, cách lƣu và xuất file âm thanh, hình ảnh, 1.5. BỐ CỤC ĐỒ ÁN: Đồ án đƣợc trình bày bao gồm 5 chƣơng: Chƣơng 1: Tổng quan. Chƣơng 2: Cơ sở lý thuyết. Chƣơng 3: Thiết kế. Chƣơng 4: Thi công. Chƣơng 5: Kết quả thực tế. Chƣơng 6: Kết luận và hƣớng phát triển. 3
- ĐỒ ÁN TỐT NGHIỆP Chương 2: CƠ SỞ LÝ THUYẾT 2.1. CÔNG NGHỆ NHẬN DẠNG GIỌNG NÓI: Trong những bộ phim khoa học viễn tƣởng, chúng ta rất thƣờng hay thấy cảnh con ngƣời tƣơng tác với các thiết bị điện tử bằng giọng nói. Giấc mơ này đã có từ khá lâu và bây giờ nó đang dần trở thành hiện thực.Những chiếc smartphone, tablet giờ đây đều có tính năng điều khiển bằng giọng nói, một số sản phẩm thậm chí còn trả lời lại ngƣời dùng nhƣ thể hai ngƣời đang nói chuyện với nhau.Sự ra đời của công nghệ này đã trở thành một xu hƣớng mới mẻ trong thị trƣờng ứng dụng di động, đặc biệt là những app trƣớc đây đòi hỏi ngƣời dùng phải gõ và nhập liệu nhiều. 2.1.1. Vì sao lại là giọng nói? Có cả trăm, cả nghìn ứng dụng cho phép ngƣời dùng tìm kiếm, viết email, ghi chú và đặt lịch hẹn trên smartphone.Thế nhƣng, với một số ngƣời, việc sử dụng bàn phím nhỏ xíu trên điện thoại là không tiện lợi, thậm chí là rất khó chịu. Tốc độ gõ của bạn có thể rất nhanh và chính xác, nhƣng cũng có những ngƣời nhƣ nổi điên lên khi phải xóa đi viết lại chỉ một chữ duy nhất chỉ vì họ bấm nhầm sang những phím bên cạnh. Giọng nói là giải pháp hợp lý nhất tính đến thời điểm hiện tại.Ngƣời dùng không chỉ xài giọng nói của mình nhƣ một phƣơng thức nhập liệu mà chính bản thân thiết bị cũng có thể xài giọng nói để đọc ra những thông tin cần thiết.Đó là chƣa kể đến lợi ích to lớn mà những phần mềm dựa trên giọng nói có thể mang lại cho những ngƣời khiếm thị. Họ có thể tận hƣởng những tiến bộ công nghệ tƣơng tự nhƣ những gì mà một ngƣời bình thƣờng có thể làm, không còn khoảng cách xuất hiện do những khiếm khuyết về giác quan. Tất nhiên, hiện nay công nghệ giọng nói vẫn chỉ mới ở giai đoạn đầu chứ chƣa thể nào thay thế hoàn toàn bàn phím ảo/vật lý hoặc các nút trên màn hình.Tuy nhiên, chúng ta đang dần tiến đến một kỉ nguyên hiện đại hơn, các ứng dụng giọng nói cũng dần dần đƣợc hoàn thiện. Hãy nhìn vào Google Voice Input, Apple Siri hay mới đây là Microsoft Cortana là bạn sẽ dễ dàng thấy đƣợc xu hƣớng này. 4
- ĐỒ ÁN TỐT NGHIỆP 2.1.2. Một số ví dụ trong thế giới công nghệ: Đã có nhiều nghiên cứu về việc triển khai hoặc giới thiệu thành công những ứng dụng giọng nói. Chúng có thể nhắc đến Ask.com, một dịch vụ cho phép ngƣời dùng hỏi và nhận câu trả lời, đã tích hợp công nghệ nhận dạng giọng nói do Nuance phát triển vào ứng dụng iOS và Android của mình. Sự liên kết này cho phép ngƣời dùng hỏi, trả lời cũng nhƣ đăng tải các lời bình luận. Amazon cũng cập nhật app Kindle trên iOS để hỗ trợ tính năng VoiceOver trong iOS. VoiceOver sẽ tự động đọc nội dung trên màn hình để giúp cho việc xem sách của những ngƣời bị khiếm thị đƣợc dễ dàng và thuận tiện hơn. Hãng cho biết có khoảng 1,8 triệu đầu sách e-book tƣơng thích với tính năng này. Bản thân Amazon cũng từng mua lại công ty IVONA Software vốn cung cấp giải pháp chuyển đổi từ chữ sang giọng nói cho các sách mua từ Amazon. Hình 2.1: Ứng dụng nhận dạng giọng nói Cortana của Microsoft. Và rồi chúng ta có Siri, Google Voice hay Cortana. Đây đều là những ứng dụng đƣợc phát triển bởi các tập đoàn công nghệ lớn với tiềm lực mạnh mẽ và quy tụ nhiều nhân tài. Bộ ba phần mềm này đã giúp ngƣời dùng thiết bị di động tƣơng tác với thiết bị của mình một cách thông minh hơn, từ việc đặt câu hỏi, nhận câu trả lời cho đến điều chỉnh các thông số máy và khởi chạy app. Một việc đơn giản có thể kể đến là đặt lịch hẹn hoặc báo thức. Trƣớc đây chúng ta phải mất cả chục thao tác chạm mới đặt xong một sự kiện, còn với Siri, Google Voice hay Cortana, bạn chỉ cần ra lệnh một cái 5
- ĐỒ ÁN TỐT NGHIỆP là xong. Mọi thao tác, từ việc ghi nội dung cho đến thiết lập giờ giấc, đều đƣợc thực hiện một cách tự động. 2.1.3. Mô hình triển khai: Vậy ngƣời ta áp dụng công nghệ giọng nói vào phần mềm nhƣ thế nào?Thông thƣờng một bộ máy giọng nói sẽ có hai phần.Phần thứ nhất gọi là speech synthesizer (còn gọi là Text to Speech hay TTS). Đây là một trình tổng hợp giọng nói và thiết bị hoặc ứng dụng xài để tƣơng tác với ngƣời dùng, ví dụ: đọc văn bản trên màn hình, thông báo về tiến độ chạy một tác vụ nào đó. Phần thứ hai là một công nghệ nhận dạng cho phép app biết đƣợc ngƣời dùng đang nói gì, từ đó chuyển thể thành lệnh để thiết bị thực thi hoặc chuyển đổi thành các kí tự nhập liệu.Nói cách khác, đây là thứ thay thế cho bàn phím của chúng ta.Một ứng dụng nhận dạng giọng nói lý tƣởng sẽ bao gồm cả hai bộ phận nói trên, nhƣng một số app chỉ xài một cái rồi từ từ nâng cấp sau. Siri, Google Voice, Cortana là ví dụ của những phần mềm tƣơng tác giọng nói lý tƣởng, còn Facebook Messenger, Zalo, WhatsApp là các phần mềm chỉ sử dụng giọng nói cho chiều nhập liệu, không có nhiều phản hồi. Thoạt nhìn thì việc triển khai công nghệ nhận dạng giọng nói khá đơn giản, nhƣng thực chất thì không phải nhƣ thế. Thứ nhất, các nhà phát triển phải xây dựng nên một công nghệ có thể lắng nghe, phân tích và phiên dịch một cách chính xác giọng nói của ngƣời dùng.Nếu không thì làm sao app biết bạn đang nói gì, còn nếu độ chính xác không cao thì cũng nhƣ không. Thứ hai, vấn đề bản địa hóa (localization) cũng là một chuyện làm đau đầu các lập trình viên.Mỗi quốc gia sẽ có ngôn ngữ của riêng mình, vấn đề đó là làm thế nào để có thể hỗ trợ càng nhiều ngôn ngữ càng tốt. Hiện nay hầu hết những dịch vụ giọng nói đều hỗ trợ tiếng Anh, Google Voice Input trong Android và Voice Dictation trong iOS 8 thì có hỗ trợ tiếng Việt nhƣng cũng còn nhiều hạn chế. Đó là chƣa nói đến việc mỗi vùng miền lại có cách nói, giọng điệu khác nhau mặc dù họ sử dụng cùng một ngôn ngữ. 2.1.4. Các thƣ viện giọng nói phổ biến: 6



