Phát hiện vật cản chuyển động cho robot làm việc trong môi trường đô thị
Bạn đang xem tài liệu "Phát hiện vật cản chuyển động cho robot làm việc trong môi trường đô thị", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
phat_hien_vat_can_chuyen_dong_cho_robot_lam_viec_trong_moi_t.pdf
Nội dung text: Phát hiện vật cản chuyển động cho robot làm việc trong môi trường đô thị
- PHÁT HIỆN VẬT CẢN CHUYỂN ĐỘNG CHO ROBOT LÀM VIỆC TRONG MÔI TRƯỜNG ĐÔ THỊ DETECTION OF MOVING OBSTACLES FOR ROBOT WORKING IN THE URBAN ENVIRONMENT Nguyễn Đình Huân Trường đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Các quá trình xử lý tránh vật cản cho Robot cũng như hệ thống hỗ trợ lái xe trong môi trường đô thị thì cần rất nhiều thông tin về môi trường đang làm việc. Trích xuất thông tin từ các hình ảnh của một hệ thống camera là một nhiệm vụ phức tạp và có nhiều khó khăn cho các cảnh trong môi trường đô thị. Luận văn sẽ trình bày một phương pháp để phát hiện đối tượng chuyển động bằng cách sử dụng dòng cảnh thưa. Đối với các hình ảnh stereo liên tục lấy được từ một chiếc xe đang di chuyển, điểm đặc trưng tương ứng được trích xuất. Khi đó, với mỗi điểm đặc trưng, các giá trị chênh lệch điểm ảnh và dòng quang được biết đến, và do đó thì dòng cảnh sẽ được tính toán. Các điểm đặc trưng liền kề nhau cùng mô tả một dòng cảnh tương tự giống nhau thì được coi là cùng thuộc về một đối tượng duy nhất. Phương pháp được đề xuất cho phép phát hiện mạnh mẽ các đối tượng chuyển động trong môi trường đô thị. Các đối tượng quan trọng được phát hiện liên tục trong nhiều khung hình. Các đối tượng đang đến gần Robot thì được phát hiện trong vòng năm khung hình sau khi chúng xuất hiện ở trong cảnh. Từ khóa: vật cản, Robot, đô thị, phát hiện, dòng cảnh, điểm đặc trưng. ABSTRACT The process of obstacle avoidance of Robot as well as driver assistance systems (DAS) need reliable information on the current environment. Extracting such information from camera-based systems is a complex and challenging task for inner city scenarios. This thesis presents an approach for object detection utilizing sparse scene flow. For consecutive stereo images taken from a moving vehicle, corresponding feature points are extracted. Thus, for every feature point, disparity and optical flow values are known and consequently, scene flow can be calculated. Adjacent feature points describing a similar scene flow are considered to belong to one rigid object. The proposed method allows a robust detection of dynamic objects in traffic scenes. Leading objects are continuously detected for several frames. Oncoming objects are detected within five frames after their appearance. Keywords: obstacle, Robot, urban, detection, scene flow, feature point I. GIỚI THIỆU biệt là trong an ninh quốc phòng thì thị Theo dự đoán trong tương lai, Robot sẽ là trường Robot sẽ vô cùng to lớn. tâm điểm của một cuộc cách mạng lớn sau Một trong các yêu cầu cơ bản của Robot Internet. Con người sẽ có nhu cầu sở hữu tự động thực thụ là khả năng định hướng tốt một Robot cá nhân như một máy tính PC bây trong phạm vi môi trường chưa xác định và giờ. Với xu hướng này, cùng các ứng dụng hình dung ra một bản đồ định hướng, sau đó truyền thống khác của Robot trong công là né tránh vật cản. Bằng cách sử dụng các quan sát thích hợp từ môi trường, kết hợp nghiệp, y tế, giáo dục đào tạo, giải trí và đặc cùng lúc với bản đồ để định hướng và né
- tránh vật cản cho Robot đang là một yêu cảnh được tính toán thông qua sai phân hữu cầu cần nghiên cứu cho Robot di động.Việc hạn khi theo dõi đến năm vị trí 3D. Sử dụng đồng thời định vị, vẽ bản đồ và né tránh vật các thông tin này để nhóm các điểm có mô tả cản cùng lúc là một phương pháp chung có dòng cảnh tương tự cùng thuộc về một đối liên quan đến việc triển khai một hệ thống di động trong môi trường chưa xác định. tượng cố định trong cảnh. Các điểm đặc trưng sẽ được kết nối bằng tam giác Môi trường đô thị rất phức tạp và đòi hỏi Delaunay và các cạnh đồ thị sẽ bị loại bỏ nếu nhận biết cho các hệ thống hỗ trợ lái xe hiện vượt qua một ngưỡng cố định. Vì sai số của đại DAS (driver assistance systems) hay vị trí 3D tăng bình phương theo khoảng cách, Robot. Các ứng dụng khác nhau như tránh va lan truyền sai số khi tính toán dòng cảnh chạm, giữ làn đường hoặc hỗ trợ ở giao lộ được đưa vào để loại bỏ cách cạnh theo cần thông tin đáng tin cậy về tình hình giao ngưỡng bằng khoảng cách Mahalanobis. thông hiện tại. Nhận thức và hiểu biết về những cảnh giao thông động ở mức độ cao là Những người đi bộ và xe ô tô được phát rất quan trọng cho các hệ thống như vậy. Môi hiện trong một phạm vi hợp lý cho các cảnh trường đô thị phức tạp hơn môi trường trong đô thị. Đối tượng được phát hiện ở phía trước nhà, do đó công việc đối với DAS là khó của chiếc xe quan sát hay Robot được theo khăn hơn và hiện đang là một vấn đề chưa dõi cho đến 15 giây và các đối tượng tham được giải quyết triệt để: Cảnh giao thông gia giao thông không thường xuyên như xe đông đúc với nhiều loại phương tiện khác lăn được phát hiện cũng rất tốt. nhau như ô tô, người đi bộ, người đi xe đạp Bài báo có cấu trúc như sau: Trong phần hoặc xe điện mà phải được phân biệt trong tiếp theo các công trình liên quan được giới khi khung cảnh xung quanh có thể thay đổi thiệu. Tổng quan về phương pháp trong Mục liên tục. III, sau đó phương pháp phát hiện đối tượng Mục tiêu của phương pháp là phát hiện trong Mục IV. Một số kết quả được trình bày các lớp đối tượng chuyển động độc lập cho trong Mục V và phần kết luận và công trình các cảnh đô thị. Phương pháp đề xuất sẽ tương lai thể hiện trong mục VI. cung cấp thông tin vị trí ba chiều (3D) của II. CÔNG TRÌNH LIÊN QUAN đối tượng chuyển động trong hệ tọa độ thực. Có rất nhiều công trình nghiên cứu và Khi đó các thông tin này sẽ được sử dụng cho các bước xử lý tiếp theo như theo dõi, thực nghiệm đã được thực hiện trong ước tính quỹ đạo, và cuối cùng là mô tả mức nhiều năm qua. Một số nghiên cứu trong cao của môi trường hiện tại. nước và ngoài nước được tóm tắt lại như dưới đây. Trong phương pháp này, chúng tôi sử dụng stereo camera để phát hiện đối tượng. Trong bài viết của tác giả Nguyễn Bằng cách khai thác bốn hình ảnh cùng một Minh Thức, định vị cho mobile Robot sử lúc, sẽ có được thông tin ảnh stereo và dòng dụng GPS [1], Robot di chuyển và định quang. Từ đó mỗi vị trí điểm 3D và dòng vị dựa và tín hiệu GPS, tuy nhiên trong quang giữa hai khung hình liên tiếp được biết đề tài còn hạn chế là Robot không thể đến, một dòng cảnh thưa mô tả cảnh đã có tránh nhiều vật cản gần nhau. được [8] , cũng mô tả chuyển động 3D của các điểm thực. Sau đó các điểm đặc trưng Lập bản đồ 3D và 2D sử dụng stereo được theo dõi qua nhiều khung hình, dòng camera [2], tác giả dùng stereo camera
- gắn trên xe lăn để xây dựng bản đồ 3D, từ huống bên trong nội thành. Ess [9] sử đó phát hiện vật cản, điều khiển xe lăn di dụng khung hình HOG [10] để phát hiện chuyển an toàn mà không cần sự điều đối tượng và do đó theo dõi đa đối tượng khiển của người tàn tật. cho những cảnh giao thông nội thành. Một hệ thống stereo camera cho phép Đối với phương pháp này, hóa ra là vượt khôi phục cấu trúc hình học của khung trội so với [11], [12] vì sự thay đổi hình cảnh trong hệ tọa độ thực 3D. Nedevschi dạng của người tham gia giao thông là [4],đã giới thiệu một hệ thống cho sự phát tương đối nhỏ. hiện đối tượng trong khu vực nội thành III. TỔNG QUAN VỀ PHƯƠNG PHÁP và phân loại cách sử dụng một hệ thống Hình 1 thể hiện tổng quan của phương stereo camera. Thông tin mật độ hình ảnh pháp: Những điểm đặc trưng được phát hiện stereo được sử dụng cho xây dựng lại và trong hai hình ảnh stereo liên tiếp và những dữ liệu 3D được sử dụng để lựa chọn mô hình ảnh stereo này được chỉnh sửa và kiểm hình và ước tính tỷ lệ. Phân loại đối tra cho phù hợp lẫn nhau. Các giá trị chênh tượng dựa trên mô hình phù hợp với tỷ lệ lệch kết quả d dẫn đến một mô tả 3D cho tất đối tượng đang khảo sát, định hướng và cả các điểm đặc trưng được phát hiện. Tất cả định vị trong khung cảnh thu được từ các điểm đặc trưng được theo dõi theo thời gian và dòng cảnh của chúng được tính bằng bước lựa chọn mô hình trước đó. Franke cách sử dụng sự gần đúng sai phân hữu hạn [5] và Wedel [6] sử dụng dữ liệu hình ảnh để mang lại các đạo hàm. Hiệp phương sai stereo để ước tính vị trí 3D và chuyển liên kết thu được bằng cách lan truyền sai số động 3D của các điểm quan tâm để phát tuyến tính. hiện mạnh mẽ của các đối tượng chuyển Một cấu trúc như đồ thị kết nối tất cả các động. Pfeiffer [7] giới thiệu việc theo dõi điểm đặc trưng đã phát hiện trong mặt phẳng stixels thu được từ hình ảnh stereo dày hình ảnh được tạo ra bằng cách sử dụng tam đặc như một đại diện cho các kịch bản giác Delaunay [21]. Các cạnh kết quả được giao thông ngoại thành. lo ại bỏ theo sự khác biệt dòng cảnh vượt quá Mueller [8] đánh giá sự chênh lệch một ngưỡng nhất định đối với sự không chắc dòng quang của các điểm quan tâm để chắn về vị trí 3D được tính toán của mỗi nhóm các đối tượng độc lập đang mô tả điểm đặc trưng. Các thành phần được kết nối còn lại của đồ thị mô tả sự di chuyển các đối trong khung cảnh đó. Phương pháp này tượng trong cảnh. Các đối tượng đã phát hiện tận dụng các điểm quan tâm được phát được theo dõi theo thời gian bằng cách sử hiện trong chuỗi hình ảnh đơn camera mà dụng phương pháp láng giềng gần nhất toàn được kết nối trong một cấu trúc như đồ cục (GNN) [18]. thị và rất giống với phương pháp được chúng tôi đề xuất. Mặt khác, chúng tôi sử dụng thông tin dòng cảnh của các điểm đặc trưng từ phương pháp phát hiện chuyển động để mô tả hạn chế của các đối tượng cố định trong mặt phẳng ảnh mà không đủ mạnh mẽ cho các tình
- Tam giác điểm đặc trưng & Trọng số cạnh Chênh lệch stereo & Dòng quang Hình 1: Tổng quan phương pháp: a) Những điểm đặc trưng được phát hiện trong hai hình ảnh stereo liên tiếp. b) Thông tin chênh lệch stereo và dòng quang dẫn đến khôi phục 3D của các điểm đặc trưng. c) Điểm đặc trưng được kết nối trong một cấu trúc giống đồ thị và các cạnh được loại bỏ (điểm màu cam) nếu sự khác biệt dòng cảnh vượt quá một ngưỡng cố định. d) Các thành phần kết nối còn lại của đồ thị mô tả các đối tượng di chuyển trong cảnh. IV. PHÁT HIỆN ĐỐI TƯỢNG nên để tìm vị trí đặc trưng ổn định, đầu tiên A. Phát hiện đặc trưng chúng tôi lọc những hình ảnh đầu vào với Thuật toán SIFT và SURF dùng để tìm mặt nạ đốm và góc 5x5 [13], như được đưa các đặc trưng trong các chuỗi hình ảnh ra trong Hình 2. Tiếp theo, chúng tôi loại bỏ các đặc trưng không cực đại và không cực không có thứ tự. Tuy mạnh mẽ nhưng chậm tiểu trên hình ảnh được lọc, kết quả là ứng và nặng, vì vậy cần bộ xử lý mạnh và mất nhiều thời gian. Ở đây phương pháp nghiên viên đặc trưng đó thuộc về một trong bốn lớp cứu hướng tới việc sử dụng trong hệ thống (ví dụ, đốm max, đốm min, góc max, góc thực realtime, yêu cầu tìm đặc trưng và xử lý min). Để nỗ lực giảm bớt tính toán, chúng tôi nhanh. chỉ đối sánh với các đặc trưng bên trong các lớp này. Vì chuỗi ảnh là các hình ảnh có thứ tự, -1 -1 -1 -1 -1 -1 -1 0 +1 +1 -1 +1 +1 +1 -1 -1 -1 0 +1 +1 -1 +1 +8 +1 -1 0 0 0 0 0 -1 +1 +1 +1 -1 +1 +1 0 -1 -1 -1 -1 -1 -1 -1 +1 +1 0 -1 -1 a ) Bộ dò đốm b) Bộ dò đốm c) Bộ mô tả đặc trưng Hình 2: Bộ dò đốm, góc và mô tả đặc trưng
- Cho hai điểm đặc trưng, chúng ta đơn hàng chục ngàn điểm tương ứng vẫn cần có giản chỉ cần so sánh các khối cửa sổ 11x 11 nhiều thời gian, do đó nó vẫn quá chậm cho của bộ mô tả đặc trưng theo chiều ngang và các ứng dụng trực tuyến. Bằng cách chuyển dọc tương ứng với nhau bằng cách sử dụng các ý tưởng đã được sử dụng trong các thuật toán tổng độ chênh lệch tuyệt đối công trình trước đây về đối sánh stereo, SAD. Để tăng tốc độ đối sánh, chúng tôi tăng tốc đáng kể là có thể thực hiện: Trong chỉ đối sánh và tính toán trong 16 vị trí bước chuyển đầu tiên, chúng tôi chỉ đối (xem Hình 2c) thay vì tính toán qua toàn bộ sánh một tập hợp con của tất cả các đặc khối cửa sổ. trưng, tìm thấy bằng cách loại trừ không cực đại (NMS) bằng cách sử dụng một kích B. Đối sánh đặc trưng thước lân cận NMS lớn hơn (hệ số 3). Vì Chúng tôi đối sánh các đặc trưng giữa tập hợp con này nhỏ hơn nhiều so với bộ những hình ảnh trái và phải và hai khung đặc trưng đầy đủ, nên đối sánh là rất nhanh. hình liên tiếp, có nghĩa là đối sánh các đặc Tiếp theo, chúng ta gán từng đặc trưng trưng trong một "vòng tròn". trong ảnh trái hiện tại với một bin lưới 50 × 50 pixel cách đều nhau. Hình 3: Đối sánh vòng tròn Hình 3: Gán bin lưới cho đặc trưng Bắt đầu từ tất cả các ứng viên đặc trưng Với tất cả các điểm đối sánh đặc trưng trong các hình ảnh trái hiện tại, chúng ta thưa, chúng tôi tính toán độ dịch chuyển tối tìm thấy những đối sánh tốt nhất trong hình thiểu và tối đa cho mỗi bin. Cuối cùng ảnh trái trước đó trong một cửa sổ tìm kiếm những số liệu này được sử dụng để thu hẹp M x M, tiếp theo trong hình ảnh phải trước không gian tìm kiếm cục bộ, dẫn đến đối đó, hình ảnh phải hiện tại và cuối cùng lại sánh nhanh hơn và số lư ợng đối sánh cùng có trong hình ảnh trái hiện tại. Một 'đối một lúc cũng nhiều hơn, như được chứng sánh vòng tròn' được chấp nhận, nếu đặc minh trong phần thực nghiệm. trưng cuối cùng trùng với các đặc trưng đầu C. Khôi phục 3D tiên. Khi đối sánh giữa những hình ảnh trái và phải, chúng tôi thêm vào các ràng buộc Các điểm đặc trưng x = [u, v]⊤ được phát epipolar bằng cách sử dụng một sai số cho hiện trong hai cặp ảnh stereo liên tiếp vào phép 1 pixel. Khoảng chênh lệch thưa được thời điểm k, k-1. Chỉ có sự tương ứng đặc lo ại bỏ bằng cách thiết lập quan hệ láng trưng đáng tin cậy được so ghép trong một giềng như cạnh của một tam giác Delaunay vòng được giữ lại (XL, k-1 ↔ XR, k-1 ↔ XR, k 2d trên vị trí đặc trưng trong các hình ảnh ↔ XL, k ↔ XL, k-1). Vì tỷ lệ tín hiệu nhiễu là trái hiện tại. Chúng tôi chỉ giữ lại các đối khá thấp nên chỉ xem khung trước đó, các sánh mà được hỗ trợ bởi ít nhất hai đối sánh điểm đặc trưng được phát hiện thì được liên lân cận, trong đó một đối sánh đang hỗ trợ kết và được lưu trữ như tracklets lên đến 5 một đối sánh khác, nếu độ chênh lệch và bước thời gian. khác biệt dòng của nó nằm trong ngưỡng Từ đó hình ảnh được điều chỉnh thì tương ứng τdisp hoặc τflow. Nếu cần thiết, được sử dụng và sự chênh lệch được ước bộ lọc điểm ảnh phụ có thể được sử dụng tính chính xác tại phân điểm ảnh, điểm đặc qua bộ lọc parabol để cải thiện hơn nữa cục trưng được rút ra xk-1, xk được ánh xạ tới bộ hóa đặc trưng. các điểm 3D trên hệ thống tọa độ toàn cục 3 Mặc dù hệ thống xử lý của chúng tôi là Xk-1, Xk với X = [X, Y, Z]⊤∈ R . Việc khôi rất hiệu quả, xây dựng được vài ngàn đến
- phục được cho bởi: Đầu tiên, việc nén được sử dụng để giảm (풖 − ). X = 푳 풖,푳 số lượng các đặc trưng (trong thực tế chúng 풅 (풗 − ). tôi giữ lại khoảng 200 đến 500 đặc trưng) và Y = 푳 풗,푳 (1) 풅 rải đều trên miền ảnh. Tiếp theo, chúng tôi Z = .풇 chiếu các điểm đặc trưng từ các khung hình 풅 Trong đó: b là biểu thị đường cơ sở của hệ trước đó thành 3D qua tam giác bằng cách sử dụng các thông số đã hiệu chỉnh của thiết thống stereo, cu và cv là điểm sơ sở của camera, f là độ dài tiêu cự cho những hình bị camera stereo. Giả sử các điểm ảnh thẳng ảnh đã điều chỉnh. Tâm của hệ thống tọa độ hàng và độ lệch bằng không, phép chiếu lại thành ảnh hiện tại được cho bởi: toàn cục phía tay trái là OW với trục X chỉ 퐱 hướng đến bên phải như mô tả trong Hình 1. 퐮 퐟 퐜 퐬 퐮 퐲 (퐯) =( ) [(퐑(퐫) 퐭) ( ) − ( )] (2) 퐟 퐜퐯 퐳 Với: hệ tọa độ ảnh đều x = (u v)T, độ dài tiêu cự 퐟, điểm cơ sở (퐜퐮, 퐜퐯), ma trận quay R(r) = Rx(rx) Ry(ry) Rz(rz), vectơ tịnh tiến t = T T (tx ty tz ) , hệ tọa độ điểm 3D X = (x y z) và độ di chuyển s = 0 (ảnh trái), s = đường cơ sở (ảnh phải). a) Mô hình sai số của khôi phục 3D Bây giờ cho π(l)(X; r, t) : ℝ3 → ℝ2 biểu thị phép chiếu bởi công thức (3.9), biểu thị điểm 3D X và bản đồ của điểm x(l) ∈ ℝ2 i trên mặt phẳng ảnh trái. Tương tự, π(r)(X; r, t) là hình chiếu phía trên mặt phẳng ảnh phải. Sử dụng hàm tối ưu hóa Gauss-Newton, chúng ta lặp để tối thiểu hóa đến khi các thông số chuyển đổi (r, t) đến mong đợi. 퐍 ( ) ( ) ∑ ‖퐱 퐥 − 훑(퐥)(퐗; 퐫, 퐭)‖ + ‖퐱 퐫 − 훑(퐫)(퐗; 퐫,퐭)‖ (3) b) Sai số của khôi phục 3D tăng bình 퐢 퐢 phương theo khoảng cách 퐢= Ở đây x(l) và x(r) biểu thị các vị trí Hình 4: Nhiễu kết quả của khôi phục 3D. i i a) Sự chênh lệch uL-uR dẫn đến nhiễu vị trí điểm điểm đặc trưng tương ứng trong ảnh trái và ảnh 3D Xk và elip hiệp phương sai liên kết Σk. ảnh phải. Các Jacobian yêu cầu Jπl và Jπr (b) Lan truyền sai số dẫn đến sai số tăng bình được lấy dễ dàng từ biểu thức (3.9). Trong phương của các vị trí 3D. thực tế, chúng tôi thấy rằng ngay cả khi D. Ước lượng Egomotion chúng ta khởi đầu r và t từ 0, lặp lại một vài lần là đủ để hội tụ. Để có giá trị outlier mạnh Với tất cả điểm đối sánh đặc trưng 'vòng mẽ, chúng tôi thay phương pháp ước lượng tròn' từ các phần trước, chúng ta tính toán của chúng tôi thành một chương trình chuyển động camera bằng cách tối thiểu hóa RANSAC, bằng cách đầu tiên ước lượng (r, tổng sai số chiếu lại và tinh chỉnh ước lượng t) khoảng 50 lần một cách độc lập bằng cách tốc độ dòng thu được bằng phương pháp bộ sử dụng 3 điểm tương ứng được rút ngẫu lọc Kalman.
- nhiên. Tất cả các giá trị trong của vòng lặp đó cần được tối thiểu. Vì vậy, sai phân lùi thu nhận được sau đó được sử dụng để tinh được sử dụng để xác định dòng cảnh, các chỉnh các thông số, độ sai lệch dịch chuyển trọng số của phương trình được liệt kê trong cuối cùng (r, t). bảng I. Một ví dụ về dòng chảy cảnh có kết Phương pháp ước lượng này đơn giản, quả được hiển thị trong phần tổng quan hệ nhưng hiệu quả, chúng tôi đặt một bộ lọc thống trong Hình 1. Kalman chuẩn, giả sử gia tốc không đổi. Bảng I: Trọng số của phương trình sai Đến khi kết thúc, đầu tiên chúng ta có được phân lùi trong thực nghiệm T các vector vận tốc v = (r t) /Δt là các thông số dịch chuyển chia cho thời gian giữa 횫풕풊 ퟒ các khung Δt. Phương trình trạng thái được 1 1 -1 cho bởi: 2 3/2 -2 1/2 푣 (푡) I ∆ I 푣 (푡−1) 3 11/6 -3 3/2 -1/3 ( ) = ( 푡 ) ( ) + 휖 (4) 0 I 4 25/12 -4 3 -4/3 1/4 và phương trình đầu ra được rút gọn: 5 137/60 -5 5 -10/3 5/4 -1/5 ( ) 1 푡 푣 푡 ( ) = ( 0) ( ) + 푣 (5) F. Phân nhóm dòng cảnh ∆푡 푡 từ đó chúng ta quan sát trực tiếp 퐯. Ở đây, a Dòng cảnh đã tính toán bây giờ thì được là biểu thị cho gia tốc, I là ma trận đồng nhất phân thành các nhóm mô tả một chuyển 6×6 và 흐, 풗 là biểu hiện tương ứng cho động giống nhau. Với mục đích này, một cấu nhiễu của quá trình Gaussian và nhiễu đo trúc như đồ thị được xây dựng lên nơi mà lường các điểm đặc trưng được coi là các nút và các nút lân cận được kết nối bởi các cạnh. E. Tính toán dòng cảnh Để có được cấu trúc này, một tam giác Vận tốc V của mỗi điểm toàn cục được Delaunay như Hình 5(a) được sử dụng để giả định là không đổi trong thời gian theo xác định các điểm đặc trưng lân cận cho các dõi t của 5 khung hình (t = 0,5 s). Như vậy, bước xử lý tiếp theo. vận tốc được tính là đạo hàm bậc nhất của Xem xét sự khác biệt dòng cảnh tuyệt các điểm toàn cục Xk-Δti là: đối Vi - Vj của các nút lân cận i, j và loại bỏ ∆ −∆푡 các cạnh tương ứng không thỏa mãn như thể V = 푖 (6) ∆푡 hiện trong Hình 5(b). Vị trí 3D đã xây dựng lại dễ bị lỗi do nhiễu đo lường. Sai số kết Vận tốc được tính tại các bước thời gian rời rạc Δti, i = 0. . . 5 với tốc độ lấy mẫu quả của vị trí 3D được tính bằng cách lan truyền sai số tuyến tính. Sai số tăng bình không đổi 1/Δt = 10 Hz. Giả định này của phương với khoảng cách như mô tả trong một mạng lưới cách đều dẫn đến việc tính toán các hệ số cho đạo hàm bậc nhất f ' tùy Hình 4, do đó một ngưỡng cố định về sự khác biệt dòng cảnh là không phù hợp. thuộc vào các bước thời gian theo dõi. Do đó, Jacobian J của dòng cảnh cho 풇′(풙) ≈ 풇(풙) + 풇(풙 − ) + ⋯ + 풇(풙 − (7) một điểm 3D toàn cục X được tính theo Từ đó thuật toán đề xuất thiết kế cho các biểu thức (3.15) đối với tất cả tọa độ hình ứng dụng tự động, thì sự chậm trễ giữa sự ảnh uL, uR, v cho tất cả các bước thời gian có xuất hiện và sự phát hiện một đối tượng nào thể k - Δti.
- 휕 휕 휕 휕 휕 휕푣 퐿 , −∆푡푖 푅 , −∆푡푖 −∆푡푖 휕 휕 휕 J= = 푌 푌 푌 휕 퐿 , −∆푡 휕 퐿 , −∆푡 휕푣 −∆푡 푖 푖 푖 휕 푍 휕 푍 휕 푍 휕 휕 휕푣 [ 퐿 , −∆푡푖 퐿 , −∆푡푖 −∆푡푖 ] ,i = 0 5 (8) Các hiệp phương sai Σ của dòng cảnh c) Ngưỡng khoảng cách Mahalanobis được cho bởi: Hình 5: Xây dựng và phân nhóm đồ Σ = JSJT (9) thị. (a) Điểm đặc trưng đã phát hiện được kết Trong đó: S là ma trận đường chéo nhiễu bằng cách sử dụng một tam giác Delaunay. (b) đo lường giả định rằng nhiễu đo lường là 0.5 Một ngưỡng cố định để loại bỏ các cạnh bằng điểm ảnh. Giả sử sự nhiễu trở thành cách xem xét sự khác biệt dòng cảnh. (c) Xét Gaussian, cho hai nút liền kề i và j, khoảng phương sai và áp dụng ngưỡng khoảng cách cách Mahalanobis Δ được cho bởi: Mahalanobis cho các nhóm đối tượng giống trong khung cảnh. − ∆(푽풊, 푽풋) = √(푽풊 − 푽풋) ∑풊.풋 (푽풊 − 푽풋) (10) Mỗi cạnh có trọng số 0 (hoặc loại bỏ) nếu Δ vượt quá một ngưỡng nhất định. Do đó, đồ thị con còn lại chứa các nút với sự khác biệt dòng cảnh nhỏ và chuyển động tương tự nhau như cùng mô tả một đối tượng cố định như Hình 5(c). Các thành phần kết nối còn a) Các thành phần kết nối còn lại lại trong Hình 6(a) của đồ thị được phát hiện bằng cách tìm kiếm theo chiều sâu đầu tiên DFS. b) Các đối tượng được kiểm tra hình học a) Tam giác điểm đặc trưng c) Các đối tượng được theo dõi Hình 6: Phát hiện đối tượng. (a) Tất cả các thành phần kết nối còn lại của đồ thị tính b) Ngưỡng cố định toán được tìm thấy bằng cách tìm kiếm theo
- chiều sâu đầu tiên. (b) Đặc điểm hình học và sai số dự đoán có thể được chấp nhận như được đưa vào tính toán để loại bỏ các phần Hình 7. Nếu có hai sự quan sát được liên kết tĩnh của khung cảnh. Đối tượng được bao với một track dự đoán, sự quan sát không phủ bởi một khung giới hạn, tâm và vận tốc được gán sẽ bắt đầu một đường đi mới. Đối của đối tượng được đánh dấu màu tương tượng được giả định xuất hiện ít nhất tại hai ứng của chúng. (c) Theo dõi và chờ đợi sự bước thời gian liên tiếp để xác nhận và chỉ phát hiện đối tượng trong ít nhất hai bước thời gian dẫn đến sự phát hiện cuối cùng. có một sự bỏ lỡ được chấp nhận trước khi xóa. Vì chuyền động của Robot là không biết, các thuật toán đáp ứng các phần tĩnh của Các kết quả liên kết đối tượng trong các khung cảnh là tốt. Tuy nhiên, các phần tĩnh đối tượng được phát hiện trong Hình 6(c). mô tả khối 3D lớn hoặc một phần của mặt Các đối tượng không chính xác màu xanh phẳng đất. Khi đó, các đối tượng vượt quá dương trong Hình 6(b) không được phát kích cỡ hợp lý được bỏ qua cũng như các hiện vì nó chỉ xuất hiện trong ngay bước đối tượng chỉ có một phần hay không đứng thời gian này. Tuy nhiên, các đối tượng được trên mặt phẳng đất cũng được bỏ qua. Cả hai phát hiện với sự chậm trễ khung hình như là vấn đề trên đạt được bằng cách ước tính các xe cảnh sát, cái mà sẽ bắt đầu một đường đi thông số π1. . . π4 của mặt phẳng đất. từ các khung hình kế tiếp. E: 1X + 2 Y + 3 Z + 4 = 0 (11) sử dụng một thuật toán đồng nhất với mẫu ngẫu nhiên (RANSAC). G. Theo dõi đối tượng Bước cuối cùng là hình thành các track (đối tượng theo dõi) được tạo ra bởi cùng một đối tượng trong chuỗi được xem xét. Liên kết từ đối tượng quan sát được đến track được xử lý bởi phương pháp liên kết dữ liệu GNN. Phương pháp này sẽ tìm thấy Hình 7: Thuật toán láng giềng gần sự gán tốt nhất (có khả năng nhất) cho các nhất toàn cục GNN. Cổng theo dõi được quan sát đầu vào của các track hiện có. thiết lập xung quanh các vị trí dự đoán Thuật ngữ toàn cục được sử dụng để chỉ là 퐗(i) . Với sự một cổng rõ ràng thì cổng việc gán được thực hiện khi xem xét tất cả p,k các liên kết có thể (trong một cổng) với ràng quan sát một được gán cho một dự đoán như là (X (1)). Đối với một dự đoán có xung buộc là một quan sát chỉ có thể được liên kết đột (có từ hai điểm quan sát trở lên) như là với duy nhất một track. (2) (2) (i) 퐗p,k , thì một quan sát được gán cho 퐗p,k, Vị trí 퐗k−1 của một đối tượng được phát còn sự quan sát không được gán 퐗(3) khởi hiện thì được dự đoán cho bước thời gian p,k tạo một track mới. hiện tại 퐗(i) và được giả định chuyển động p,k liên tục trong Δt. Đối với mỗi đối tượng dự đoán, một cổng theo dõi không đổi được đặt (i) xung quanh 퐗p,k xem như sai số đo lường
- V. THỰC NGHIỆM xét: Các chiếc xe ở phía trước được nhìn thấy trong 150 khung hình. Sử dụng phương Với tất cả thực nghiệm, chúng tối sử pháp GNN mô tả trong IV-G, các chiếc xe dụng ảnh xám với độ phân giải là 1242 x này được phát hiện liên tục trong nhiều 375 pixel. Các chuỗi ảnh được lấy từ một khung hình. Các chiếc xe này sẽ được phát thư viện trên Internet và được chúng tôi thu hiện trong vòng năm bước thời gian (năm thập tại các cảnh đô thị ở gần trường đại học khung hình). Tốc độ tối đa của đối tượng Sư phạm kỹ thuật Thành phố Hồ Chí Minh. quan sát cho các cảnh này được giới hạn ở Với mỗi ảnh thì ít nhất có 2000 điểm đặc 60 km/h. Theo dõi liên tục các xe ô tô phía trưng được phát hiện. Thuật toán được thực trước trong vòng 10 s (10 fps). Phát hiện các hiện bằng chương trình Matlab với ít nhất là lớp đối tượng nhỏ như là xe đạp, xe máy, các một khung trên giây với cấu hình lõi Core i7, đối tượng tĩnh được phát hiện từ egomotion 2.1 GHz và 4 GB RAM. thì không được bù trừ. Những chiếc ô tô Để đánh giá khả năng của các thuật toán được phát hiện trong 5 bước thời gian thì đề xuất để phát hiện các đối tượng liên tục, trong cách phạm vi xa đến 60 m. các cảnh giao thông trong Hình 8 được xem Hình 8: Phát hiện đối tượng ở các cảnh đơn giản. Những chiếc xe ở phía trước của chiếc xe quan sát được theo dõi liên tục trong vòng 10 giây. Phương pháp cũng phát hiện người sử dụng xe lăn phía bên phải của khung thứ ba (màu vàng). Các đối tượng tĩnh như quảng cáo hoặc những đối tượng được phát hiện như cây cối, cột đèn từ egomotion không được đền bù. Tiếp theo chúng tôi sử dụng thuật toán để những chiếc xe đang rẽ hướng hoặc bị che phát hiện các đối tượng chuyển động độc lập một phần được phát hiện trong một khung tại các cảnh phức tạp tại trường ĐH Sư duy nhất, những nhóm người đi bộ chuyển phạm kỹ thuật TP. HCM: Người đi bộ được động giống nhau được phát hiện như là một phát hiện trong phạm vi lên đến 30 m, đối đối tượng. Lỗi liên kết từ quan sát đến track với các phạm vi xa lên đến 60 m, các đối cho các đối tượng rẽ hướng đột ngột hay là tượng lớn hơn cũng được phát hiện rất tốt, có quá nhiều đối tượng ở gần nhau.
- Hình 9: Phát hiện đối tượng trong tập dữ liệu phức tạp: Đối tượng di chuyển chậm và nhỏ như người đi bộ trong hai khung hình đầu tiên được phát hiện trong một phạm vi lên đến 30 m. Tuy nhiên, theo dõi của một đối tượng nhỏ bị gián đoạn và không được tiếp tục theo dõi. Tương tự nhóm người đi bộ di chuyển giống nhau được phát hiện như là một đối tượng vì giá trị dòng cảnh giống nhau và số lượng các điểm đặc trưng phát hiện là ít. Các đối tượng di chuyển trong chuỗi ảnh này được phát hiện, đặc biệt là các đối tượng tĩnh ở phạm vi xa cũng được phát hiện tốt. VI. KẾT LUẬN không rõ ràng, bị che mất một phần có thể phương pháp không đáp ứng được. Chúng tôi trình bày một phương pháp Các bước tiếp theo của chúng tôi sẽ bao gồm mới để phát hiện các lớp đối tượng chuyển theo dõi nhiều mục tiêu một cách chi tiết động độc lập cho Robot hay hệ thống trợ lái hơn để cải thiện sự nhận biết giữa những đối trong các cảnh ở môi trường đô thị. Thuật tượng được phát hiện chính xác và những toán được đề xuất sử dụng các điểm đặc đối tượng bị phát hiện sai, giải quyết các đối trưng thưa trong các hình ảnh stereo liên tiếp tượng bị che một phần cũng như là đặt cổng để tính toán dòng cảnh. Các điểm được theo dõi không chính xác. Ngoài ra, theo dõi nhóm lại vì cùng mô tả một kết quả dòng các đối tượng khi Robot dừng lại sẽ được cải cảnh giống nhau thì cho phép phát hiện thiện. Hơn nữa, chúng tôi muốn đưa vào bù mạnh mẽ các đối tượng chuyển động độc lập trừ chuyển động 3D của camera và một mô trong cảnh. Kết quả của chúng tôi so với hình chuyển động cho các điểm đặc trưng và phương pháp khác [8] chỉ ra rằng phương đối tượng được phát hiện, nhờ đó sự rẽ pháp này nhanh hơn so với phương pháp hướng của các đối tượng phát hiện sẽ được tương tự chỉ sử dụng dòng quang để phát xem xét dứt khoát. Xa hơn nữa, một giải hiện đối tượng. Đối với các đối tượng có pháp toàn cục để loại bỏ cạnh trong cấu trúc kích thước quá nhỏ hoặc các đối tượng đồ thị sẽ được nghiên cứu. Với phương pháp
- phát hiện đối tượng này, thì thông tin về không cung cấp dữ liệu cần thiết và chính chuyển động của đối tượng được cung cấp xác cho phương pháp đề xuất, chúng tôi sẽ cho các bước xử lý tiếp theo, ví dụ như: ra cải tiến, thu thập và xây dựng lại các cơ sở quyết định chuyển hướng hay né tránh vật dữ liệu để sử dụng cho phương pháp này và cản của Robot. các công trình tương lai. Vì cơ sở dữ liệu chúng tôi đã thu thập thì TÀI LIỆU THAM KHẢO TIẾNG VIỆT [1] Nguyễn Minh Thức, Định vị cho mobile Robot sử dụng GPS, ĐH SPKT TPHCM, 2012. [2] Lê Minh, Vẽ Map 3D và 2D dùng stereo camera, ĐH SPKT TPHCM, 2012. [3] My-Ha Le, A comparison of SIFT and Harris conner features for correspondence points matching, National IT Industry Promotion Agency, 2010. TIẾNG NƯỚC NGOÀI [4] S. Nedevschi, S. Bota, and C. Tomiuc. Stereo-based pedestrian detection for collision-avoidance applications. IEEE Transactions on Intelligent Transportation Systems, 10(3):380–391, 2009. [5] U. Franke, C. Rabe, H. Badino, and S. K. Gehrig. 6d-vision: Fusion of stereo and motion for robust environment perception. In Deutsche Arbeitsgemeinschaft für Mustererkennung e. V. Symposium, pages 216–223, 2005. [6] A. Wedel, A. Meißner, C. Rabe, U. Franke, and D. Cremers. Detection and segmentation of independently moving objects from dense scene flow. In International Conference on Energy Minimization Methods in Computer Vision and Pattern Recognition, pages 14–27, Berlin, Heidelberg, 2009. Springer-Verlag. [7] D. Pfeiffer and U. Franke. Efficient representation of traffic scenes by means of dynamic stixels. In IEEE Intelligent Vehicles Symposium, pages 217 –224, 2010. [8] D. Muller, M. Meuter, and S.-B. Park. Motion segmentation using interest points. In IEEE Intelligent Vehicles Symposium, pages 19 –24, 2008. [9] A. Ess, K. Schindler, B. Leibe, and L. V. Gool. Object detection and tracking for autonomous navigation in dynamic environments. In International Journal of Robotics Research, volume 29, pages 1707–1725, 2010. [10] N. Dalal, B. Triggs. Histograms of oriented gradients for human detection. In IEEE Conference on Computer Vision and Pattern Recognition, pages 886–893, 2005. [11] P. Felzenszwalb, D. McAllester, and D. Ramanan. A discriminatively trained, multiscale, deformable part model. In IEEE Conference on Computer Vision and Pattern Recognition, pages 1 –8, june 2008. [12] B. Leibe, E. Seemann, and B. Schiele. Pedestrian detection in crowded scenes. In IEEE Conference on Computer Vision and Pattern Recognition, volume 1, pages 878–885, Washington, DC, USA, 2005. IEEE Computer Society. [13] Andreas Geiger, Julius Ziegler and Christoph Stiller, StereoScan: Dense 3D Reconstruction in Real-time, Department of Measurement and Control, Karlsruhe Institute of Technology, 2011.
- [14] Harris C. and Stephens, A combined corner and edge detector, Proceedings of the Alvey Vision Conference, 1988. [15] D. Lowe, Object recognition from local scale-invariant features, Proc. of the International Conference on Computer Vision, 1999. [16] Konstantinos G. Derpanis, Overview of the RANSAC Algorithm, 2010. Zhang, A flexible new technique for camera calibration, IEEE, 2000. [17] Krystian Mikolajczyk, Scale & Affine Invariant Interest Point Detectors, Inria Rhne-Alpes Gravir-CNRS, 2004. [18] S. S. Blackman. Multiple hypothesis tracking for multiple target tracking. IEEE Aerospace and Electronic Systems Magazine, 19(1):5–18, 2004. TRANG WEB [19] Andreas Geiger, Julius Ziegler and Christoph Stiller, StereoScan: Dense 3D Reconstruction in Real-time. Internet: 09/03/2015. [20] D. Muller, M. Meuter, and S.-B. Park. Motion segmentation using interest points. In IEEE Intelligent Vehicles Symposium, pages 19 –24, 2008. Interner: , 10/03/2015. [21] Tìm kiếm theo chiều sâu DFS; Khoảng cách Mahalanobis, Tam giác Delaunay. Internet: 12/03/2015. [22] Jean-Yves Bouguet, Camera calibration toolbox for Matlab. Internet: 12/03/2015. [23] Ngô Mạnh Tiến. Một phương pháp sử dụng bộ lọc Kalman kết hợp với thuật toán bám ảnh Camshift. Hội nghị toàn quốc về điều khiển và Tự động hoá - VCCA-2011. Internet: 15/03/2015. Thông tin liên hệ tác giả chính (người chịu trách nhiệm bài viết): Họ tên: Nguyễn Đình Huân Đơn vị: Trường đại học Sư phạm kỹ thuật TP. Hồ Chí Minh Điện thoại: 0978747855 Email: dinhhuanspkt@gmail.com
- BÀI BÁO KHOA HỌC THỰC HIỆN CÔNG BỐ THEO QUY CHẾ ĐÀO TẠO THẠC SỸ Bài báo khoa học của học viên có xác nhận và đề xuất cho đăng của Giảng viên hướng dẫn Bản tiếng Việt ©, TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HỒ CHÍ MINH và TÁC GIẢ Bản quyền tác phẩm đã được bảo hộ bởi Luật xuất bản và Luật Sở hữu trí tuệ Việt Nam. Nghiêm cấm mọi hình thức xuất bản, sao chụp, phát tán nội dung khi chưa có sự đồng ý của tác giả và Trường Đại học Sư phạm Kỹ thuật TP. Hồ Chí Minh. ĐỂ CÓ BÀI BÁO KHOA HỌC TỐT, CẦN CHUNG TAY BẢO VỆ TÁC QUYỀN! Thực hiện theo MTCL & KHTHMTCL Năm học 2016-2017 của Thư viện Trường Đại học Sư phạm Kỹ thuật Tp. Hồ Chí Minh.