Đồ án Hiểu biết cảnh quang cho hệ thống hỗ trợ lái trong môi trường đô thịsử dụng thị giác máy tính (Phần 1)
Bạn đang xem 20 trang mẫu của tài liệu "Đồ án Hiểu biết cảnh quang cho hệ thống hỗ trợ lái trong môi trường đô thịsử dụng thị giác máy tính (Phần 1)", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- do_an_hieu_biet_canh_quang_cho_he_thong_ho_tro_lai_trong_moi.pdf
Nội dung text: Đồ án Hiểu biết cảnh quang cho hệ thống hỗ trợ lái trong môi trường đô thịsử dụng thị giác máy tính (Phần 1)
- BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM KHOA ĐÀO TẠO CHẤT LƯỢNG CAO ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ KỸ THUẬT ĐIỀU KHIỂN - TỰ ĐỘNG HÓA HIỂU BIẾT CẢNH QUANG CHO HỆ THỐNG HỖ TRỢ LÁI TRONG MÔI TRƯỜNG ĐÔ THỊSỬ DỤNG THỊ GIÁC MÁY TÍNH GVHD: TS. LÊ MỸ HÀ SVTH: PHAN ĐOÀN TIẾN BÌNH – 12151133 LÊ ĐÌNH DŨ – 12151127 HUỲNH PHÚC THỊNH – 12151150 S K L 0 0 4 4 8 7 Tp. Hồ Chí Minh, tháng 7 năm 2016
- TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA ĐÀO TẠO CHẤT LƯỢNG CAO ĐỒ ÁN TỐT NGHIỆP HIỂU BIẾT CẢNH QUANG CHO HỆ THỐNG HỖ TRỢ LÁI TRONG MÔI TRƯỜNG ĐÔ THỊ SỬ DỤNG THỊ GIÁC MÁY TÍNH SVTH: PHAN ĐOÀN TIẾN BÌNH – 12151133 LÊ ĐÌNH DŨ – 12151127 HUỲNH PHÚC THỊNH – 12151150 Khóa: 2012 Ngành: CÔNG NGHỆ KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA GVHD: TS. LÊ MỸ HÀ TP. Hồ Chí Minh tháng 07 năm 2016
- CỘNG HÒA XÃ HỘI CH Ủ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Họ và tên sinh viên: MSSV: - Phan Đoàn Tiến Bình - 12151133 - Lê Đình Dũ - 12151127 - Huỳnh Phúc Thịnh - 12151150 Ngành: CNKT Điều khiển và Tự động hóa Lớp: 12151CLC GVHD: TS Lê Mỹ Hà ĐT: 0938.811.201 Ngày nhận đề tài: Ngày nộp đề tài: 1. Tên đề tài: Hiểu biết cảnh quan cho hệ thống hỗ tự lái trong môi trường đô thị sử dụng thị giác máy tính. 2. Các số liệu, tài liệu ban đầu: Tập dữ liệu huấn luyện gồm 16.000 ảnh thu thập từ điện thoại di động có độ phân giải là 8 megapixel và 23 megapixel. Hệ thống được xây dựng với phần mềm Matlab 2015b trên máy tính xách tay có chíp xử lý Intel Core i5-RAM 8G và Core i3-RAM 4G. 3. Nội dung thực hiện đề tài: - Thu thập dữ liệu. - Xây dựng, huấn luyện bộ phân loại xếp tầng cho hệ thống phát hiện đối tượng. - Đánh giá kết quả đạt được. Kết luận. 4. Sản phẩm: - Phần mềm phát hiện đối tượng. - Quyển báo cáo. TRƯỞNG NGÀNH GIẢNG VIÊN HƯỚNG DẪN i
- CỘNG HÒA XÃ HỘI CH Ủ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc PHIẾU NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN Họ và tên sinh viên: MSSV: - Phan Đoàn Tiến Bình - 12151133 - Lê Đình Dũ - 12151127 - Huỳnh Phúc Thịnh - 12151150 Ngành: CNKT Điều khiển và tự động hóa Tên đề tài: Hiểu biết cảnh quan cho hệ thống hỗ tự lái trong môi trường đô thị sử dụng thị giác máy tính. GVHD: TS. Lê Mỹ Hà NHẬN XÉT 1. Về nội dung đề tài và khối lượng thực hiện: 2. Ưu điểm: 3. Khuyết điểm: 4. Đề nghị cho bảo vệ hay không? 5. Đánh giá loại? 6. Điểm: (Bằng chữ: ) Tp. Hồ Chí Minh, ngày tháng 7 năm 2016 Giảng viên hướng dẫn ii
- CỘNG HÒA XÃ HỘI CH Ủ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc PHIẾU NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN Họ và tên sinh viên: MSSV: - Phan Đoàn Tiến Bình - 12151133 - Lê Đình Dũ - 12151127 - Huỳnh Phúc Thịnh - 12151150 Ngành: CNKT Điều khiển và tự động hóa Tên đề tài: Hiểu biết cảnh quan cho hệ thống hỗ tự lái trong môi trường đô thị sử dụng thị giác máy tính. GVPB: ThS. Nguyễn Trần Minh Nguyệt NHẬN XÉT 1. Về nội dung đề tài và khối lượng thực hiện: 2. Ưu điểm: 3. Khuyết điểm: 4. Đề nghị cho bảo vệ hay không? 5. Đánh giá loại? 6. Điểm: (Bằng chữ: ) Tp. Hồ Chí Minh, ngày tháng 7 năm 2016 Giảng viên phản biện iii
- LỜI CẢM ƠN Đầu tiên chúng em xin được gửi lời cảm ơn đến TS. Lê Mỹ Hà – Giảng viên hướng dẫn của nhóm chúng em. Cảm ơn thầy đã gợi mở, đã dành nhiều thời gian quý báu để hướng dẫn chúng em trong suốt thời gian thực hiện đề tài. Bên cạnh đó đó chúng em cũng xin gửi lời cảm ơn chân thành đến các thầy cô đã giảng dạy, chia sẽ kinh nghiệm, hỗ trợ chúng em trong quá trình thực hiện đồ án và suốt khoảng thời gian trên giảng đường đại học. Sau cùng chúng em xin chúc quý thầy cô nhiều sức khỏe và nhiều niềm vui trong cuộc sống. Trường ĐH Sư phạm Kỹ thuật TP.HCM Tháng 7 năm 2016 Phan Đoàn Tiến Bình Lê Đình Dũ Huỳnh Phúc Thịnh iv
- TÓM TẮT BÁO CÁO ĐỒ ÁN Sau hơn 70 năm từ cuộc cách mạng khoa học – kỹ thuật lần thứ hai diễn ra, tốc độ phát triển khoa học – kỹ thuật ngày càng nhanh, những gì mà khoa học – kỹ thuật mang lại ngày càng ngoài sự mong đợi của con người. Hệ thống điều khiển, giám sát thông minh, siêu máy tính, người máy, dần thay thế con người trong những việc nguy hiểm và đòi hỏi sự chính xác cao. Với đề tài “Hiểu biết cảnh quan cho hệ thống hỗ tự lái trong môi trường đô thị sử dụng thị giác máy tính” nhóm nghiên cứu đề tài hy vọng có thể tìm hiểu, áp dụng và cải tiến hệ thống nhận biết đối tượng đang được nhà khoa học, nhóm nghiên cứu và các viện khoa học trên thế giới tìm hiểu và phát triển phục vụ cho nhiều mục đích như hệ thống giám sát tự động, xe tự lái, người máy thông minh, Trong báo cáo này, nhóm nghiên cứu đề tài sẽ trình bày các kiến thức cơ sở trong việc xây dựng bộ phân loại xếp tầng để phát hiện đối tượng (ôtô và người đi bộ). Nhóm chúng em đã sử dụng công cụ huấn luyện bộ phân loại xếp tầng trong phần mềm Matlab kết hợp cùng đặc trưng HOG và thuật toán AdaBoost nhằm nâng tốc độ phát hiện đối tượng. v
- MỤC LỤC trang Nhiệm vụ đồ án i Trang nhận xét của giảng viên hướng dẫn ii Trang nhận xét của giảng viên phản biện iii Lời cảm ơn iv Tóm tắt (Tiếng Việt) v Tóm tắt (Tiếng Anh) vi Mục lục vii Danh mục các từ viết tắt viii Danh mục các bảng biểu ix Danh mục hình ảnh, biểu đồ x Chương 1: Tổng quan 1 Chương 2: Cơ sở lý thuyết 4 2.1. Thị giác máy tính 4 2.2. Phát hiện đối tượng 5 2.3. Đặc trưng phát hiện đối tượng 8 2.4. Thuật toán AdaBoost – Thuật toán Viola-Jones 17 2.5. Bộ phân loại xếp tầng 21 Chương 3: Hệ thống phát hiện đối tượng và Kết quả thực nghiệm 23 3.1. Hệ thống phát hiện đối tượng 23 3.2. Kết quả thực nghiệm 28 Chương 4: Kết luận và Hướng phát triển 34 4.1. Kết luân 34 4.2. Hướng phát triển 35 Tài liệu tham khảo 36 Phụ lục 37 vii
- DANH MỤC CÁC TỪ VIẾT TẮT AdaBoost : Adaptive Boosting HOG : Histogram of oriented gradients PCA : Principal component analysis SVM : Support Vector Machine HMM : Hidden Markov Model SNoW : Sparse Network of Winnows LBP : Local Binary Pattern DAB : Discrete AdaBoost GAB : Gentle AdaBoost RAB : Real AdaBoost ROI : Regions of interest ACC : Accuracy viii
- DANH MỤC CÁC BẢNG BIỂU trang Bảng 2.1 Thuật toán tăng tốc thích nghi rời rạc DAB 19 Bảng 2.2 Thuật toán tăng tốc thích nghi linh hoạt GAB 19 Bảng 2.3 Thuật toán tăng tốc thích nghi linh hoạt thực RAB 19 Bảng 3.1 Bảng lưu ý thiết lập thông số cho việc huấn luyện bộ phân 27 loại xếp tầng Bảng 3.2 Quá trình huấn luyện bộ phân loại xếp tầng 29 Bảng 3.3 Kết quả kiểm tra bộ phân loại xếp tầng đối với đối tượng 30 là ôtô Bảng 3.4 Kết quả kiểm tra bộ phân loại xếp tầng đối với đối tượng 30 là người đi bộ ix
- DANH MỤC CÁC HÌNH ẢNH, BIỂU ĐỒ trang Hình 1.1 Các xe tự lái 1 Hình 2.1 Mối tương quan giữa thị giác máy tính và các lĩnh vực khoa 5 học khác Hình 2.2 Ro-bot sử dụng máy ảnh chuyên dụng để kiểm tra chất 6 lượng quá trình sơn khung xe ôtô Hình 2.3 Máy bay chiến đấu không người lái MQ-9 của hãng General 7 Atomics Hình 2.4 Mặt phẳng phân lớp không gian vec-tơ của phương pháp 9 SVM Hình 2.5 Các dạng cơ bản của đặc trưng Haar-like 10 Hình 2.6 Ví dụ cách tính đăc trưng LBP 10 Hình 2.7 Các ví dụ về cấu trúc LBP 11 Hình 2.8 Cấu trúc chia khối của đặc trưng HOG 13 Hình 2.9 Ảnh đầu vào và vùng ảnh I 13 Hình 2.10 Nối các vec-tơ đặc trưng cells thành block 16 Hình 2.11 Các block trong ảnh gối lên nhau bởi một cell 16 Hình 2.12 Biểu đồ cường độ theo hướng của mỗi pixel ảnh đầu vào 18 và vùng ảnh I Hình 2.13 Sơ đồ cơ bản thuật toán AdaBoost 17 Hình 2.14 Quy trình huấn luyện thuật toán AdaBoost 18 Hình 2.15 Cấu trúc bộ phân loại xếp tầng 22 Hình 3.1 Giải thuật xây dựng hệ thống phát hiện đối tượng 24 Hình 3.2 Tập mẫu huấn luyện chứa đối tượng 25 Hình 3.3 Tập mẫu huấn luyện không chứa đối tượng 26 Hình 3.4 ROI được vẽ cho các mẫu chứa đối tượng 27 Hình 3.5 Ảnh kiểm tra bộ phân loại xếp tầng cho đối tượng ôtô 28 Hình 3.6 Ảnh kiểm tra bộ phân loại xếp tầng cho đối tượng người đi 30 bộ Hình 3.7 Mẫu chứa đối tượng được phân loại bởi bộ phân loại xếp 31 tầng Hình 3.8 Mẫu không chứa đối tượng được phân loại bởi bộ phân loại 31 xếp tầng Biểu đồ 2.1 Phân bố pixel theo bin hướng 17 x
- Biểu đồ 3.1 Đường cong ROC biểu diễn kết quả phân loại của bộ 32 phân loại xếp tầng đối với ôtô Biểu đồ 3.2 Đường cong ROC biểu diễn kết quả phân loại của bộ 33 phân loại xếp tầng đối với người đi bộ xi
- Chương 1: Tổng quan CHƯƠNG 1: TỔNG QUAN Với sự trỗi dậy mạnh mẽ của khoa học kỹ thuật trong đời sống xã hội, các thiết bị tự động ngày càng thông minh và dần thay thế con người trong mọi lĩnh vực đời sống. Điều này thực sự có ý nghĩa to lớn và góp phần tăng cao chất lượng cuộc sống. Trong đó, xe tự lái là một sản phẩm tiềm năng, là một trong những chủ đề thu hút được sự quan tâm đặt biệt của giới nghiên cứu khoa học công nghệ và các nhà đầu tư. Từ chiếc Navlab – chiếc xe trang bị hệ thống hỗ tự lái đầu tiên, được phát triển bởi một nhóm nghiên cứu của đại học Carnegie Mellon, bang Pennsylvania, Hoa Kỳ vào năm 1980, đến các chiếc xe bán tự động hiện đại ngày nay như các mẫu xe điện bán tự động của hãng ôtô Tesla trong năm 2015, hay mẫu xe tự động của hãng cộng nghệ Google vào cuối năm 2015 và mẫu xe tự lại Mercedes – Benz 500 ra mắt vào tháng 10/2015 đã chứng minh được một chiếc xe tự lái hay bán tự động không còn là ý tưởng hay suy nghĩ viễn vong nữa mà đã dần thành hiện thực. (a) (b) (c) Hình 1.1 Các xe tự lái (a) Chiếc Navlab. (b) Chiếc xe tự lái của Tesla. (c) Chiếc xe tự lái của Google Xe bán tự động được trang bị hệ thống hỗ trợ lái, giúp người sử dụng phát hiện được các vật thể trên đường và đưa ra thông báo cho người đang lái xe. Nhờ vào thị giác mà con người có thể thu thập thông tin một cách nhanh chóng và chính xác để đưa ra những quyết định kịp thời trong quá trình điều khiển xe. Vì thế, với ý nghĩa vô cùng quan trọng đó, cùng với sự phát triển vượt bậc trong lĩnh vực thị giác máy tính và xử lý ảnh đã hỗ trợ tạo nên “thị giác” cho các xe bán tự động nhận biết được cảnh quang giao thông . Phương tiện giao thông và người đi bộ là 02 đối tượng cơ bản trong việc nhận biết cảnh quan giao thông và được nhiều nhóm nghiên cứu trên thế giới quan tâm đầu tư nghiên cứu và đạt hiệu quả cao có thể kể đến như: 1
- Chương 1: Tổng quan Đối với chủ đề phát hiện phương tiện giao thông có nhóm Matveev, Murynin và Trekin [1] đã đề xuất phương pháp phát hiện phương tiện giao thông dựa trên việc phát hiện các vùng có màu sắc đặc trưng giống nhau từ việc thu các ảnh chụp từ trên không. Phương pháp này được bắt nguồn từ thực tế đa số các phương tiên giao thông được sơn một màu đồng nhất và khác với màu nền nhìn từ trên không (đường đi, thảm thực vật, ). Tuy nhiên, phương pháp này khó có thể đưa vào các ứng dụng thực tế. Hay nhóm S. Han, Y. Han và Hahn [2] đã sử dụng đặc trưng Haar-like và đặc trưng đối xứng để xác định một cách chính xác các phương tiện giao thông mà không bị nhiễu bởi bóng đỗ của chúng. Tuy nhiên, phương pháp này có thường xảy ra lỗi do sự thay đổi độ sáng thường xuyên từ môi trường thực tế. Đối với chủ đề phát hiện người đi bộ có nhóm Mikolajczyk, Schmid và Zisserman [3] sử dụng việc phát hiện từng bộ phận của cơ thể người để xây dựng phương pháp phát hiện con người. Tuy nhiên, kết quả của phương pháp này sẽ không được đảm bảo nếu trong quá trình huấn luyện có quá nhiều hình ảnh không phải người trong tập mẫu. Và nhóm Zhang, Bauckhage và Gremers [4] cũng đã đề xuất một phương pháp phát hiện người đi bộ bằng cách sử dụng đặc trưng Haar-like và thu nhỏ vùng khảo sát trên ảnh đầu vào – theo khảo sát của họ thì người đi bộ thường xuyên xuất hiện ở phía trên bên phải của ảnh đầu vào. Tuy nhiên, hiệu xuất của phương pháp này vẫn chưa cao và có thể bỏ qua dữ kiện quan trọng của ảnh đầu vào. Chức năng nhận biết cảnh quan giao thông nói riêng, nhận biết đối tượng của các nhà khoa học, nhóm nghiên cứu và các phòng thí nghiệm trong lĩnh vực thị giác máy tính và xử lý ảnh trên thế giới không chỉ được áp dụng cho xe tự lái mà còn được áp dụng cho nhiều hệ thống tự động thông minh khác như: thị giác người máy, điều tiết giao thông, hệ thống giám sát an ninh, Với đồ án này, chúng em sẽ áp dụng kết quả của Viola-Jones [5] trong việc đẩy nhanh quá trình huấn luyện bộ phân loại xếp tầng để phân loại đối tượng với các đặc trưng đơn giản dựa trên thuật toán AdaBoost kết hợp cùng đặc trưng Histogram of Oriented Gradients (HOG), đặc trưng cho hiệu suất cao trong việc phát hiện phương tiện giao thông và người đi bộ, được đề xuất bởi Dalal và Triggs [6]. Với sự kết họp thuật toán tối ưu quá trình huấn luyện với đặc trưng đơn giản chúng em có thể đạt được hiệu xuất cao trong việc đối tượng của đề tài trong thời gian ngắn. Tuy nhiên, trong quá trình nghiên cứu, tìm hiểu nhóm 2
- Chương 1: Tổng quan chúng em đã gặp khá nhiều ảnh hưởng đến kết quả của bộ phân loại như vị trí tương quan giữa máy ảnh và đối tượng, đối tượng bị che khuất, sự khác nhau về kích thước và màu sắc của đối tượng và ảnh hưởng của cảnh nền (độ sáng chối, độ tương phản, ). Đặc tính kỹ thuật của máy ảnh, kỹ thuật chụp ảnh và tốc độ xử lý của máy tính cũng gây ra không ít khó khăn cho đề tài. Đề tài này được trình bày theo cấu trúc sau: trong chương kế đến – chương cơ sở lý thuyết, các phương pháp phát hiện đối tượng, các đặc trưng phát hiện đối tượng, thuật toán Adaptive Boosting (AdaBoost) và phương pháp thực hiện của nhóm chúng esẽ được trình bày (xử lý dữ liệu, cách thức huấn luyện hệ thống, ). Hệ thống phát hiện đối tượng (phần mềm, phần cứng) và kết quả thực nghiệm sẽ được trình bày trong chương 3. Chương 4 là kết luận và đánh giá về các vấn đề mà nhóm chúng em đã thực hiện được. 3
- Chương 2: Cơ sở lý thuyết CHƯƠNG 2: CƠ SỞ LÝ THUYẾT Các nội dung cơ bản về cở sở lý thuyết để xây dựng hệ thống phát hiện đối tượng sẽ được trình bày trong chương này. Các nội dung này bao gồm thị giác máy tính, phát hiện đối tượng, đặc trưng phát hiện đối tượng, thuật toán Adaptive Boosting (AdaBoost) và bộ phân loại xếp tầng. 2.1 Thị giác máy tính Thị giác máy tính là một lĩnh vực bao gồm các phương pháp thu nhận, xử lý ảnh kỹ thuật số, phân tích và nhận dạng các hình ảnh, nói chung là dữ liệu đa chiều từ thế giới thực để cho ra các thông tin số hoặc biểu tượng. Việc phát triển lĩnh vực này có ý tưởng từ việc sao chép các khả năng thị giác con người bằng cách sự nhận diện và hiểu biết một hình ảnh mang tính hiệu điện tử. Sự nhận diện hình ảnh có thể được xem như là việc giải quyết vấn đề của các thông tin từ dữ liệu hình ảnh qua cách dùng các mô hình được xây dựng với sự giúp đỡ của các ngành khoa học lý thuyết liên quan, thống kê, vật lý và hình học. Thị giác máy tính cũng được mô tả là sự tổng thể của một dải rộng các quá trình tự động và tích hợp và các thể hiện cho các nhận thức thị giác. Thị giác máy tính là một môn học khoa học liên quan đến lý thuyết nền tảng của các hệ thống nhân tạo có trích xuất các thông tin từ hình ảnh. Dữ liệu hình ảnh có thể nhiều dạng, chẳng hạn như chuỗi video, các cảnh từ nhiều góc chụp của máy ảnh, hay dữ liệu đa chiều từ máy quét y học. Thị giác máy tính còn là một môn học kỹ thuật, trong đó tìm kiếm việc áp dụng các mô hình và các lý thuyết cho việc xây dựng nên hệ thống thị giác máy tính. Các lĩnh vực liên quan chặt chẽ nhất với thị giác máy tính là xử lý hình ảnh , phân tích hình ảnh và thị giác máy. Mối liên hệ này được thể hiện qua Hình 2.1, có sự trùng lặp đáng kể trong phạm vi về của kỹ thuật và ứng dụng của các lĩnh vực trên. Điều này cũng có ý nghĩa rằng các kỹ thuật cơ bản được sử dụng và phát triển trong các lĩnh vực ít nhiều cũng có phần giống nhau, và các lĩnh vực khoa học – kỹ thuật chỉ khác nhau tuyệt đối về tên gọi. Thị giác máy tính được ứng dụng trong nhiều lĩnh vực cuộc sống. Một trong những lĩnh vực ứng dụng nổi bật nhất là thị giác máy tính trong y học hoặc xử lý hình ảnh y tế. Ứng dụng của thị giác máy tính trong lĩnh vực này là giúp khai thác các thông tin từ dữ liệu hình ảnh cho mục đích chẩn đoán cho một bệnh nhân. Dữ liệu ảnh được cung cấp dưới nhiều dạng ảnh như: ảnh hiển vi , ảnh X- quang , ảnh chụp động mạch, ảnh siêu âm và ảnh chụp cắt lớp. Các thông tin được khai thác từ các ảnh dữ liệu đặc biệt có hiệu quả đối với việc chuẩn đoán 4
- Chương 2: Cơ sở lý thuyết các bệnh liên quan đến cấu trúc não, các khối ưu, xơ cứng động mạch mà không bị ảnh hưởng nhiều bởi nhiễu. Hình 2.1 Mối tương quan giữa thị giác máy tính và các lĩnh vực khoa học khác Một lĩnh vực khác khai thác nhiều ứng dụng của thị giác máy tính là công nghiệp. Trong công nghiệp, thị giác máy tính còn được gọi là thị giác máy. Ứng dụng chủ yếu của thị giác máy tính trong công nghiệp là kiểm soát chất lượng sản phẩm như Hình 2.2. Xem xét các lỗi sản phẩm mà mắt thường con người khó nhận biết được. Quân sự cũng là một lĩnh vực nổi bậc trong việc khai thác ứng dụng của thị giác máy tính. Trong quân sự, thị giác máy tính được trang bị cho các ro-bot tự hành, máy bay không người (Hình 2.3) lái hay dẫn đường cho tên lửa. 2.2 Các phương pháp phát hiện đối tượng Phát hiện hay phát hiện đối tượng chuyên biệt, ví dụ như xe ôtô va người đi bộ trong cảnh quan giao thông, là xác định xem trong ảnh thu được có đối tượng hay không. Yêu cầu quan trọng được đặt lên hàng đầu cho các nhóm nghiên cứu và phát triển đó chính là độ chính xác và đáp ứng thời gian thực. Vì thế, chủ đề này cần có sự phối họp và bổ sung cho nhau của 02 lĩnh vực là Xử lý ảnh (Image Processing) và Thị giác máy tính (Computer Vision). Với chủ đề phát hiện đối tượng thì hiện nay có rất nhiều phương pháp và hướng tiếp cận. Trong đó, các phương pháp dựa trên ảnh và các phương pháp dựa trên dạng hình học là hướng tiếp cận thường được áp dụng nhất [7] 5
- Chương 2: Cơ sở lý thuyết Hình 2.2 Ro-bot sử dụng máy ảnh chuyên dụng để kiểm tra chất lượng quá trình sơn khung xe ôtô 2.2.1. Phát hiện đối tượng dựa trên ảnh: Các phương pháp thuộc nhóm này dựa trên cơ sở dữ liệu là hình mẫu của đối tượng và sử dụng cửa sổ trượt (sub-window) để phát hiện đối tượng. Người sử dụng phương pháp này cần phải huấn luyện hệ thống của mình bằng các dạng thống kê hoặc các thuật toán học máy (mechine learning) với số lượng mẫu đủ lớn bao gồm mẫu chứa đối tượng cần nhận dạng (positive samples) và mẫu không chứa đối tượng cần nhận dạng (negative saples). Do sự xuất hiện của đối tượng trong ảnh là ngẫu nhiên với nhiều góc quan sát khác nhau nên thường phải áp dụng phương pháp xác suất để phát hiện đối tượng. Tùy vào cách tiếp cận xác suất nào thì sẽ các phương pháp phát hiện tương ứng đó. Sau đây, là một vài phương pháp phát hiện đối tượng trong nhóm phương pháp phát hiện đối tượng dựa trên ảnh: Phương pháp EigenObject (PCA): PCA là một thuật toán được sử dụng nhằm tạo ra một ảnh mới từ ảnh ban đầu. Ảnh mới này có kích thước nhỏ hơn ảnh ban đầu nhưng vẫn mang đặc trưng cơ bản nhất của ảnh chứa đối tượng cần phát hiện. Tóm lại, mục tiêu của PCA là tìm một không giang mới (với số chiều nhỏ hơn không gian cũ). Các trục tọa độ trong không gian mới được xây dựng sao cho trê mỗi trục, độ biến thiên của dữ liệu trên nó là lớn nhất. Phương pháp PCA có thể tìm được các đặc tính cơ bản của đối tượng cần nhận biết trong ảnh mà không cần xác định 6
- Chương 2: Cơ sở lý thuyết các thành phần và mối quan hệ giữa các thành phần đó, thuật toán sử dụng đặc biệt có hiệu quả với các ảnh có độ phân giải cao. Tuy nhiên, PCA rất nhạy với nhiễu, cách cài đặt thuật toán rất phức tạp và không phù hợp với các mô hình phi tuyến. Hình 2.3 Máy bay chiến đấu không người lái MQ-9 của hãng General Atomics Phương pháp SVM: Với phương pháp này người dùng cần cung cấp trước một tập huấn luyện với các ảnh, đã được biểu diễn dưới dạng vec- tơ. Trong không gian vec-tơ, mỗi vec-tơ được biểu diễn là một điểm. Phương pháp SVM sẽ tìm được một mặt phẳng chia không gian vec-tơ này thành hai phần được thể hiện trong Hình 2.4. Chất lượng của mặt phẳng này phụ thuộc vào khoảng các của các vec-tơ, tức là phụ thuộc vào đặc trưng của ảnh. Độ chính xác của SVM thường rất cao. Tuy nhiên, tốc độ phân lớp cho SVM là hạn chế lớn nhất của phương pháp này vì thường tốc độ phân lớp thường là rất chậm và cần phải cung cấp cho SVM một tập huấn luyện rất lớn. Các phương pháp sau đây cũng thuộc nhóm phương pháp phát hiện đối tượng dựa trên ảnh: Phương pháp Fisher’s Linear Discriminant Các phương pháp dựa trên Eigen-space Phương pháp Mạng thần kinh nhân tạo. Phương pháp HMM 7
- Chương 2: Cơ sở lý thuyết Phương pháp SnoW Ưu điểm của nhóm phương pháp phát hiện đối tượng dựa trên ảnh là các sự so sánh tương quan trực tiếp đến các đặc điểm hình học của đối tượng. Tuy nhiên, với phương pháp này cần phải đòi hỏi phải có một cơ sở dữ liệu rất lớn. Để phát hiện đối tượng, máy tính luôn phải dò trong cơ sở dữ liệu rồi mới đưa ra được kết quả. 2.2.2. Phát hiện đối tượng dựa trên dạng hình học Điểm khác biệt giữa nhóm phương pháp phát hiện đối tượng dựa trên ảnh và dựa trên dạng hình học chính là nhóm phương pháp phát hiện đối tượng dựa trên dạng hình học quan tâm đến đặc điểm hình học của đối tượng. Vì thế, nhóm phương pháp này còn được gọi là nhóm phương pháp tiếp cận dựa trên đặc trưng (feature-base). Dựa vào cách triển khai vấn đề mà nhóm phương pháp này được chia thành 02 nhóm lớn: Nhóm phương pháp Bottom – Up. Nhóm này, chủ yếu dụng các đặc trưng hình dáng bất biến của đối tượng đối với ngoại cảnh và nền ảnh để phát hiện đối tượng. Rồi tùy vào mối liên hệ của chúng với nhau mà thiết lập các liên kết giữa các đặc điểm bất biến này cho ảnh đầu tiên và dựa vào đó để tìm chúng ở các ảnh tiếp theo. Nhóm phương pháp dựa vào luồng ánh sáng (lưu lượng quang/optical flow): Đây là phương pháp xử lý tổng quan ánh sang theo tuần tự sau. Đầu tiên, dùng thuật toán tìm đặc trưng quan trọng của đối tượng trong hai khung hình liên tiếp. Kế đến, dùng thuật toán để hợp nhất tính liên quan đồng nhất giữa các đặc trưng vừa tìm. Cuối cùng, các luồng đặc trưng của đối tượng được trích xuất khỏi ảnh được tập hợp lại thành một nhóm nếu vị trí và hướng chuyển động của đối tượng là nhỏ. Với nhóm phương pháp này, tốc độ tìm kiếm đối tượng của bộ phân loại sẽ được cải thiện bằng cách sử dụng thuật toán học (learning algorithm) huấn luyện cho bộ phân loại xếp tầng. Để phát hiện đối tượng của đề tài nhóm chúng em là ôtô và người đi bộ chúng em sẽ kết hợp 02 nhóm phương pháp phát hiện đối tượng trên bằng cách xây dựng bộ cơ sở dữ liệu gồm ảnh chứa đối tượng và ảnh không chứa đối tượng đủ lớn để huấn luyện cho bộ phân loại xếp tầng. Để đảm bảo cho độ chính xác và thời gian huấn luyện tối ưu nhất, nhóm chúng em áp dụng thuật toán AdaBoost và đặc trưng HOG. 2.3 Đặc trưng phát hiện đối tượng: Đặc trưng phát hiện đối tượng là một khái niệm trong lĩnh vực thị giác máy tính và xử lý ảnh nhằm mục đích tính toán một cách trừu tượng các thông tin của hình ảnh. Các đặc trưng này có thể sử dụng đơn lẻ hay kết hợp với nhau tùy theo đối tượng cần được phát hiện. Chúng em sẽ giới thiệu 03 đặc trưng phát 8
- Chương 2: Cơ sở lý thuyết hiện đối tượng cơ bản và thường được sử dụng nhất. Đó là đặc trưng Haar-like, đặc trưng LBP và đặc trưng HOG. Hình 2.4 Mặt phẳng phân lớp không gian vec-tơ của phương pháp SVM 2.3.1. Đặc trưng Haar-like: Đặc trưng Haar-like được phát triển bởi Viola-Jones [5] dựa trên tính năng Haar wavelet của Papageorgiou và nhóm của ông. Đặc trưng này được áp dụng cho các vùng có kích thước khác nhau và các vị trí khác nhau trên khung ảnh (nhỏ hơn ảnh đầu vào) để phát hiện đối tượng. Mỗi đặc trưng Haar-like gồm 2 hoặc 3 khối hình chữ nhật màu trắng và màu đen liên kết với nhau. Đặc trưng Haar-like có 03 dạng cơ bản, dạng two-rectangle, three-rectangle và four- rectangle, như trong Hình 2.5. Giá trị của đặc trưng Haar-like được tính bởi độ chênh lệch giữa tổng các giá trị pixel mức xám nằm trong vùng trắng so với vùng đen. Cụ thể hơn, đối với đặc trưng two-rectangle là sự chênh lệch tổng giá trị pixel của 02 vùng chữ nhât, các vùng có kích thước và hình dạng tương tự nhau và theo chiều ngang hoặc chiều dọc liền kề nhau. Đối với đặc trưng three-rectangle độ chênh lệch là hiệu giữa tổng pixel vùng chính giữa với tổng pixel 02 vùng bên ngoài. Còn, đặc trưng four-rectangle là độ chênh lệch tổng giá trị pixel giữa cặp đường chéo hình chữ nhật. Đặc trưng Haar-like được sử dụng nhầm mục đích đảm bảo yêu cầu đáp ứng thời gian thực. 9
- S K L 0 0 2 1 5 4