Phát hiện và cảnh báo sự thay đổi của Website dựa trên thay đổi nội dung và cấu trúc HTML
Bạn đang xem tài liệu "Phát hiện và cảnh báo sự thay đổi của Website dựa trên thay đổi nội dung và cấu trúc HTML", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- phat_hien_va_canh_bao_su_thay_doi_cua_website_dua_tren_thay.pdf
Nội dung text: Phát hiện và cảnh báo sự thay đổi của Website dựa trên thay đổi nội dung và cấu trúc HTML
- TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 07 - 2017 ISSN 2354-1482 PHÁT HIỆN VÀ CẢNH BÁO SỰ THAY ĐỔI CỦA WEBSITE DỰA TRÊN THAY ĐỔI NỘI DUNG VÀ CẤU TRÚC HTML Trần Đắc Tốt1 Vũ Văn Vinh1 TÓM TẮT Thực tế cho thấy hậu quả của việc tấn công làm thay đổi giao diện, nội dung website của hacker là đặc biệt nghiêm trọng. Vì vậy cần phải có những phương pháp cho phép kịp thời phát hiện những hình thức tấn công này, nhằm hạn chế tối những thiệt hại mà hacker gây ra. Trong bài báo này chúng tôi trình bày một phương pháp mới cho phép phát hiện sự thay đổi giao diện, nội dung của website. Phương pháp này được phát triển dựa trên thuật toán HTML Diff kết hợp với hàm băm MD5, và nó đã được xây dựng thành một ứng dụng với giao diện hài hòa, dễ sử dụng. Các thay đổi như chèn thêm nội dung mới, xóa hay sửa nội dung cũ, thay đổi các định dạng về màu sắc, kích thước, kiểu chữ của nội dung sẽ được ứng dụng ngay lập tức ghi nhận và thông báo tới người quản trị website. Ứng dụng cũng sẽ làm nổi bật nhưng vị trí đã thay đổi và gửi thư cảnh báo và khuyến nghị cho người quản trị trang web để xử lý. Từ khóa: Giám sát sự thay đổi, tấn công defacement, tính toàn vẹn trang web, phát hiện thay đổi trang web 1. Mở đầu Những cuộc tấn công thay đổi Một trong những kiểu tấn công website đã được thực hiện để xâm phạm được biết rộng rãi nhất là tấn công thay tính toàn vẹn của web bằng một trong đổi nội dung, giao diện của website [1]. những hình thức sau [1]: Hình thức tấn công này thường sử dụng - Thay đổi nội dung của trang web. các mã độc (virus, worm, trojan, và các - Thay đổi bất kỳ phần nào của nội loại mã độc khác), để xóa bỏ, sửa đổi, dung trang web. hoặc thay thế nội dung các trang web trên host (web server) [2]. - Thay thế toàn bộ trang web. Lỗ hổng website là mục tiêu tiềm - Chuyển hướng trang web. tàng của việc tấn công (hack) vì các - Phá hủy hoặc xóa bỏ trang web. mục đích khác nhau. Các hacker có các Các hệ thống kiểm soát an ninh công cụ để tìm kiếm các lỗ hổng mạng như Firewall, VPN (Virtual website một cách sâu rộng và nhanh Private Network), PKI (Public Key chóng, tiếp theo là chúng sẽ tiến hành Infrastructure) là những công cụ quan khai thác những điểm yếu đó [3-4]. trọng để giữ cho web được an toàn hơn, 1Trường Đại học Công nghiệp Thực phẩm TP. Hồ Chí Minh Email: tottd@cntp.edu.vn 137
- TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 07 - 2017 ISSN 2354-1482 nhưng chúng không đủ để đảm bảo an Phần còn lại của bài báo được tổ ninh website, do đó cần những cơ chế chức như sau: phần 2 trình bày các kiến an ninh tốt hơn [1]. thức cơ sở, phần 3 đề xuất phương pháp Có nhiều phương pháp được đề xuất phát hiện sự thay đổi trong tập tin để bảo vệ trang web chống lại các cuộc HTML, phần 4 trình bày các kết quả tấn công như; Integrit [5], Veracity [6], thực nghiệm khi triển khai hệ thống. Aide [7], L5 [8], Tripwire [9]. Tuy nhiên Phần 5 là kết luận và hướng nghiên cứu các phương pháp này cũng có nhiều tiếp theo. nhược điểm cụ thể như sau: 2. Kiến thức cơ sở - Integrit, Veracity, Aide và L5 2.1. Phân loại sự thay đổi không có phương án tự bảo vệ mình khi Hiện nay, với sự phát triển mạnh bản thân bị tấn công. mẽ của công nghệ gần như tất cả các tổ - Tripwire thiếu sự cảnh báo nếu chức, doanh nghiệp, các nhân đều sử quá trình kiểm tra của nó bị thất bại bởi dụng Website để quảng bá thông tin, kẻ tấn công. sản phẩm của mình. Tuy nhiên vấn đề - Các hệ thống nêu trên đều bị an toàn cũng trở nên hết sức cấp thiết dừng lại và không có giá trị bảo mật “các cuộc tấn công vào website Việt nếu bộ phận kiểm tra bị thất bại vì bất Nam trong ba tháng đầu năm 2017 gồm kỳ lý do nào. 2.853 trang bị tấn công Deface (thay đổi giao diện), 3.783 trang bị cài Malware Những hạn chế của các hệ thống (mã độc) và 1.050 website bị đặt mã nêu trên là động lực thúc đẩy chúng tôi Phishing (lừa đảo)” theo VNCERT1. nghiên cứu phương pháp mới kết hợp sử dụng hàm băm và thuật toán HTML Vì vậy để giám sát và phát hiện các Diff để tìm sự thay đổi nội dung dựa đấu hiệu bất thường trên website để cảnh báo kịp thời thì việc cần làm là tìm trên sự khác biệt giữa hai trang HTML của cùng một trang web tại hai thời ra các dấu hiệu để nhận biết được các điểm khác nhau. Từ đó áp dụng xây thay đổi này theo nhóm tác giả phân dựng hệ thống giám sát website nhằm tích thì sự thay đổi của một trang web phát hiện kịp thời các cuộc tấn công để có thể chia làm 4 loại phổ biến như sau: đảm bảo tính toàn vẹn của trang web, Thay đổi về cấu trúc, thay đổi về nội đồng thời tạo ra thông điệp cảnh báo có ý nghĩa khi trang web đã bị tấn công. Đặc biệt, hệ thống này đã khắc phục 1 được tối đa những hạn chế đã được đề 12017-gan-7700-cuoc-tan-cong-mang-viet- cập ở trên. nam-1284710.htm (Truy cập ngày 8/8/2017). 138
- TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 07 - 2017 ISSN 2354-1482 dung, thay đổi về hình thức, định dạng đổi cấu trúc của một trang web. Việc và thay đổi về hành vi. phát hiện tự động những thay đổi về cấu Thay đổi về cấu trúc: Các hành trúc này rất quan trọng vì các cấu trúc động thêm, xóa, hoặc chỉnh sửa một thẻ của trang web khi thay đổi rất khó để có trong văn bản HTML chính là đang thay thể phát hiện một cách trực quan. Trang chủ khoa CNTT Trang chủ khoa CNTT . . Hình 1: a) HTML ban đầu b) HTML đã chỉnh sửa dfadsf Thay đổi về nội dung và ngữ của những nhà đầu tư và kinh doanh. nghĩa: là những thay đổi từ cách nhìn Một ví dụ khác là sự thay đổi của các của người sử dụng. Ví dụ, việc thay đổi trang cập nhật tỷ số bóng đá online như về giá vàng và ngoại tệ trên các trang livescore.com, người dùng rất quan tâm sàn giao dịch hay trên các trang của tới tỷ số hiện tại và sự thay đổi tỷ số ngân hàng sẽ rất thu hút sự quan tâm giữa các trận đấu. Livescores.com Livescores.com Doi A 2 Doi A 3 Doi A 2 Doi A 2 Hình 2: a) HTML ban đầu dfadsf b) HTML đã chỉnh sửa Thay đổi về hình thức và định web. Ví dụ một trang web có thể thay đổi dạng: là thay đổi về cách thức thể hiện về tính chất các thẻ định dạng nhưng nhưng vẫn giữ nguyên nội dung của trang không có sự thay đổi nào về nội dung. 139
- TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 07 - 2017 ISSN 2354-1482 Livescores.com Livescores.com Doi A 2 Doi A 3 Doi A 2 Doi A 2 Hình 3: a) HTML ban đầu dfadsf b) HTML đã chỉnh sửa Thay đổi về hành vi: Một trang tập tin so với tập tin 2: web có thể chứa nhiều đoạn kịch bản Các bước thực hiện của thuật toán: (scripts), applet là các thành phần hoạt - B1: Tách file thành danh sách động của trang web đó. Khi một trong các từ các thành phần đang được ẩn giấu bị thay đổi thì dẫn đến hành vi của trang OneWords=TachTu(Text01) web đó cũng thay đổi theo. Tuy nhiên TwoWords=TachTu(Text02) những thay đổi này rất khó phát hiện, - B2: Đánh chỉ số cho các từ trong đặc biệt là các thành phần hoạt động lại TwoWords lưu trong wordIndices nằm trong một file khác. - B3: Với mỗi từ word trong 2.2. Thuận toán HTML Diff OneWord Thuật toán HTML Diff là thuật toán o Tìm kiếm và xác định vị trí dùng để so sánh 2 tập tin HTML và xác trong wordIndices định sự thay đổi của tập tin theo từng từ. o Xác định loại thay đổi o Chèn vào trong danh sách thay đổi - Input: 02 tập tin HTML, Text01 - B4: Hiển thị các thay đổi. và Text02 Giả sử ta có 2 file HTML, Text01 - Output: 01 tập tin được tạo thành và Text02 có nội dung như sau: từ tập tin 01 và chỉ rõ sự thay đổi của 140
- TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 07 - 2017 ISSN 2354-1482 Đây là ví dụ minh họa mô tả kiểm tra sự thay đổi nội dung bằng thuật toán Diff . Ngôn ngữ sử dụng C Sharp trên hệ điều hành windows của khoa CNTT Nội dung minh họa Giá trị minh họa Dữ liệu thử (this row will be removed) Dữ liệu thật Số lượng giảng viên trong khoa là 35" Hình 4: Nội dụng HTML của Text01 Có hiển thị trên website như sau: Hình 5: Nội dung hiển thị của Text01 Đây là ví dụ minh họa mô tả đánh giá kiểm tra sự thay đổi nội dung bằng thuật toán Diff . Đây là dòng dữ liệu thêm mới Ngôn ngữ sử dụng C Sharp trên hệ điều hành windows của khoa CNTT Nội dung minh họa mới Giá trị minh họa Số lượng giảng viên trong khoa là 35" Hình 6: Nội dụng HTML của Text02 Có hiển thị trên website như sau: 141
- TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 07 - 2017 ISSN 2354-1482 Hình 7: Nội dung hiển thị của Text02 Áp dụng thuật toán với đầu vào là hai tập tin Text01 và Text02 như hình 2 và 3 Bước 1: Thuật toán sẽ tách từ các văn bản trên thành danh sách các từ. Với Text01 ta có danh sách các từ oneWords như sau i 1 2 3 4 5 6 7 8 Từ Đây Là ví dụ minh Tương tự vậy ta có danh sách các từ của Text02 là twoWords Bước 2: Chương trình sẽ đánh chỉ mục cho các cho các từ đã của Text02 mà đã được tách trong B1 như sau và lưu trong wordIndices i 1 2 3 4 5 6 7 Từ Đây là ví dụ Vị trí 0, 53,70 1 2, 55 4, 57, 149 6 8 10 o Bước 3: Thuật toán tiến hành so Nếu tìm thấy và đúng vị trí thì là khớp. Trong khi so khớp thuật toán chia gán nhãn bằng: có nghĩa là không thay làm 3 thao tác là so sánh bằng, thêm và đổi o xóa. Và với mỗi ký tự so khớp thuật Nếu không bằng: Gán nhãn xóa bằng cách thêm vào từ kiểm tra cặp thẻ toán chia làm 3 loại cần so khớp là khoảng trắng, ký tự đóng mở thẻ và ký rồi kiểm tra xem trong tài tự khác (whitespace, tag, character). liệu 02 vị trí đó được thay thế bằng từ khác hoặc ký tự khác thì gán nhãn cho - Khởi tạo danh sách lưu kết quả từ đó là thêm mới và chèn thêm cặp thẻ so sánh content=null - Với mỗi từ item trong oneWords o Cập nhật kết quả so sánh vào đã xác định trong bước 1, thuật toán content dựa vào wordIndices xác định xem item đó xuất hiện ở vị trí nào trong Bước 4: Hiển thị nội dung trong twoWord content cho người sử dụng Kết quả thực hiện: 142
- TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 07 - 2017 ISSN 2354-1482 Hình 8: Kết quả thực hiện 2.3. Các hàm băm thông dụng bảo mật cao, trong đó họ hàm băm SHA được coi là có tính bảo mật cao nhất. Các hàm băm dòng MD (MD2, Tuy nhiên x t về tốc độ mã hóa, MD5 MD4, MD5) do Giáo sư Ronald L. là hàm băm có tốc độ mã hóa cao nhất Rivest đề xuất. Giá trị băm theo các trong các hàm băm trên [13] do đó thuật toán này có độ dài cố định là trong phương pháp đề nghị ở bài báo 128bit. này chúng tôi quyết định chọn MD5. Phương pháp Secure Hash Standard 3. Phương pháp đề xuất (SHS) gồm tập hợp các thuật toán băm Sau khi nghiên cứu chúng tôi đề mật mã an toàn (Secure Hash Algorithm – SHA) như SHA-1, SHA-224, SHA-256, xuất một phương pháp mới cho ph p SHA-384, SHA-512 do NIST và NSA phát hiện sự thay đổi giao diện, nội xây dựng. Hàm băm an toàn SHA phức dung của website. Phương pháp này tạp hơn nhiều cũng dựa trên các phương được phát triển dựa trên thuật toán pháp tương tự, được công bố trong Hồ HTML Diff kết hợp với hàm băm MD5. sơ Liên bang năm 1992 và được chấp Các thay đổi như chèn thêm nội dung mới, xóa hay sửa nội dung cũ, thay đổi nhận làm tiêu chuẩn năm 1993. Giá trị băm theo thuật toán này có độ dài cố các định dạng về màu sắc, kích thước, định là 160 bit. Ngoài ra còn có một số kiểu chữ của nội dung sẽ được ứng thuật toán khác như: RIPEMD, dụng ngay lập tức ghi nhận và thông HAVAL, Whirlpool, Tiger. báo tới người quản trị website. Mỗi hàm băm đều có những ưu 3.1. Phương pháp phát hiện thay điểm và nhược điểm riêng của mình. đổi nội dung Tất cả các hàm băm trên đều có tính 143
- TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 07 - 2017 ISSN 2354-1482 - Hình 9: Mô hình giải pháp Phương pháp giải quyết bài toán nghĩa với việc webpage đã thay đổi về được mô hình hóa trong hình 9. Chi tiết nội dung. được trình bày như sau: Lúc này hệ thống mới tiến hành áp Input: url: địa chỉ webpage cần dụng thuật toán HTML Diff để so khớp kiểm tra (Comparator) cụ thể trên toàn bộ Output: cảnh báo nếu phát hiện webpage. vấn đề bất thường. Để làm tăng tốc độ của phương Các bước thực hiện pháp đề xuất, hệ thống bổ sung thêm Bước 1: Hệ thống nhận dữ liệu đầu module Tree builder nhằm chia nhỏ vào là webpage cần được so khớp webpage thành nhiều phần theo cấu trúc (Webpage check (new and old HTML của cây trước khi so sánh. Vì webpage)). vậy, khi phát hiện webpage bị thay đổi Bước 2: Từ đó module Crawler sẽ ở phần cấu trúc nào, hệ thống sẽ chỉ so thu thập dữ liệu của webpage liên tục khớp phần nội dung của cấu trúc đó theo định kỳ do người dùng xác lập sẵn. bằng HTML Diff thay vì so khớp toàn Bước 3: Từ kết quả Crawler lấy về, bộ webpage. thay vì sử dụng trực tiếp thuật toán Bước 4: Sau khi có kết quả so sánh, HTML Diff để so sánh ngay và tìm ra kết quả sẽ được lưu trữ, hiển thị sự thay đổi của webpage, phương pháp (Presentation) cho người sử dụng đễ được đề xuất sẽ sử dụng thuật toán quan sát và gửi cảnh báo (Notification) MD5 (Hash) để băm kết quả thành một thông qua email hay SMS. chuỗi để lưu trữ và so sánh với kết quả Như vậy, trong phương pháp này hệ băm trước đó. Nếu kết quả băm ở thời thống sẽ giảm được thời gian vì đã điểm hiện tại có sự thay đổi so với kết không cần phải luôn so khớp bằng quả băm đã lưu trữ trước đó sẽ đồng HTML Diff ở mọi giai đoạn của 144
- TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 07 - 2017 ISSN 2354-1482 phương pháp mà chỉ áp dụng khi chắc hình ảnh nhưng lại có hàm băm MD5 chắn webpage có sự thay đổi. Thêm vào khác nhau, trong đó hàm băm MD5 đó, cấu trúc cây sẽ giới hạn phạm vi chính là sự thể hiện của nội dung hình thay đổi của webpage nên khi áp dụng ảnh) thì đó là một sự thay đổi bất HTML Diff sẽ hiệu quả hơn. thường và được cho là cần cảnh báo cho 3.2. Phương pháp phát hiện thay người quản trị website. đổi về hình ảnh Thuật toán kiểm tra sự thay đổi Kiểm tra sự thay đổi về hình ảnh hình ảnh được trình bày như sau: bằng cách lấy dữ liệu HTML Document Input: về. Để biết được sự thay đổi về hình - url: địa chỉ webpage chứa nội ảnh trong web so với lần lấy hình ảnh dung hình ảnh cần thu thập trước đó, ta chỉ cần kiểm tra tập hình - listIMGOld: danh sách các hình ảnh mới lấy AIMG_new so với tập hình ảnh từ lần lấy hình ảnh trước đó ảnh đã lấy trước đó AIMG_old. Nếu Output: Thực hiện lưu lại danh AIMG_new có tổng số lượng hình ảnh Tnew sách hình ảnh, đồng thời trả về giá trị = 0, Tnew giảm hoặc tăng đột ngột so với ngưỡng. Nếu ngưỡng = 0 thực hiện tổng số lượng hình ảnh của AIMG_old, có cảnh báo ngay và thoát ra. Nếu ngưỡng sự thay đổi về nội dung hình ảnh (nghĩa là một giá trị > 0 nghĩa là các tiêu chí là cùng một đường dẫn tới tài nguyên phát hiện không nghiêm trọng. Các bước thực hiện chính: CheckImage(url, listIMGOld) Bước 1: Lấy tài liệu HTML của webpage HtmlDocument GetHtml(url); Bước 2: Lấy tất cả đường dẫn tới tài nguyên hình ảnh và so sánh Foreach(src in GetAllSrcImg (htmlDocument)) { md5 DownloadIMG(src) total++; if(src != listIMGOld.src) listIMGNew.add(src) else if(md5 != listIMGOld.md5) listIMGChange.add(src) } Trong đó các hàm và thuộc tính được mô tả như sau: 145
- TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 07 - 2017 ISSN 2354-1482 GetHtml(url): có chức Bước 4: Sau đó lưu lại tất cả các năng gửi một request, nhận và trả về tài hình ảnh xuống cơ sở dữ liệu dưới dạng liệu HTML tương ứng với địa chỉ url. file xml gồm 2 thuộc tính quan trọng là GetAllSrcImg(htmlDoc src và MD5 của hình ảnh. ument): có chức năng lấy tất cả các Với phương pháp phát hiện thay thuộc tính src của tất cả các thẻ đổi về hình ảnh được đề xuất nó giúp trong tài liệu HTML đã tải về. gia tăng độ chính xác của cảnh báo, cụ DownloadIMG(src): tải thể đối với một webpage thì sẽ có rất về hình ảnh với đường dẫn src và nhiều hình ảnh đính kèm khi bị tấn công chuyển hình ảnh sang md5 có thể các hình ảnh này sẽ bị thay đổi total: tổng số lượng hình hoặc xóa hết, và thông thường các hình ảnh đếm được ảnh này chỉ có tăng chứ không giảm, listIMGNew: danh sách nên khi bị giảm hoặc thay đổi là đã bất các hình ảnh mới thêm vào trong lần thường cần phải cảnh báo ngay. kiểm tra này Tóm lại với các đề xuất trên đã listIMGChange: danh giúp hệ thống cảnh báo có thể làm việc sách các hình ảnh đã bị thay đổi nội hiệu quả và giúp quản trị viên website dung hình ảnh ứng cứu kịp thời khi có các sự cố không Bước 3: Xem x t sự thay đổi nằm mong muốn. trong ngưỡng nào 4. Kết quả thực nghiệm và thảo luận if(total == 0) Ứng dụng thực nghiệm “Monitor return 0; Webpage Changes” được phát triển if(listIMGChange.count > 0) bằng ngôn ngữ C# (Microsoft Visual Studio 2010). Với cấu hình máy sử return 0; dụng là: if(totalOdl/3 > total) • Bộ xử lý: Intel(R) Core(TM) i5 totalValue value; CPU M450 @ 2.40GHz if(listIMGNew.count > total/3) • Bộ nhớ Ram: 8.00 GB. totalValue value; Có 2 mức độ nguy hiểm đó là tất cả • Loại hệ thống: hệ điều hành 64- các hình ảnh bị mất hết (total == 0) và bit. danh sách những hình ảnh bị thay đổi • Hệ điều hành: Windows 10 nội dung > 0. Còn những mức độ còn Professional. lại sẽ cộng dồn ngưỡng giá trị. Giao diện chính của “Monitor Nếu trả về giá trị 0 nghĩa là đang ở Webpage Changes”; biểu tượng cái mức độ nguy hiểm, cần cảnh báo ngay. chuông sẽ thay đổi màu theo tình trạng Nếu không trả về không thì sẽ lấy giá trị của website được giám sát: màu đỏ là totalValue làm giá trị ngưỡng cho lần website đang bị nguy hiểm, màu xanh là kiểm tra này. 146
- TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 07 - 2017 ISSN 2354-1482 chưa phát hiện bất thường, màu vàng là trị viên website kiểm tra. có dấu hiệu nguy hiểm cần được quản Hình 10: Giao diện chính của ứng dụng “Monitor Webpage Changes” 4.1. Danh sách các trường hợp thử nghiệm STT Ngày Địa chỉ website thử nghiệm 1 16/7/2017 – 19/8/2017 2 16/7/2017 – 6/10/2017 3 22/8/2017 – 15/9/2017 Bảng tổng hợp kết quả: Số lần Số lần Số lần không đạt Tỷ lệ thành STT ịch bản thử nghiệ thử đạt yêu công nghiệm yêu cầu cầu 1 Thêm text trên home page 50 50 00 100% 2 Xóa text trên home page 50 50 00 100% 3 Thay đổi text trên home page 50 50 00 100% 4 Thêm hình ảnh trên home 50 50 00 100% page 5 Xóa hình ảnh trên home page 50 50 00 100% 6 Sửa hình ảnh trên home page 50 50 00 100% 7 Thêm link trên home page 50 50 00 100% 147
- TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 07 - 2017 ISSN 2354-1482 8 Xóa link trên home page 50 50 00 100% 9 Sửa link trên home page 50 50 00 100% 4.2. Một số hình ảnh chụp kết quả giám sát theo thời gian thực trên website Ngày 22/8/2017 khởi tạo giám sát website Ngày 23/8/2017, 28/8/2017 hệ thống phát hiện có liên kết mới được thêm vào, hệ thống đã ghi nhận lại kết quả và gởi mail cảnh báo. Hình 11: Ảnh chụp màn hình cảnh báo của ứng dụng “Monitor Webpage Changes” 4.3. Một số hình ảnh chụp kết quả giám sát theo thời gian thực trên website (bản sao của website fit.hufi.edu.vn) Website bị tấn công và để lại dòng chữ “Hack by VCS” Hình 12: Màn hình website bị tấn công để lại thông điệp của hacker Thông tin cảnh báo nhận được qua mail lúc 10/5/2017 9:46:07 AM 148
- TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 07 - 2017 ISSN 2354-1482 Hình 13: Ảnh chụp email cảnh báo khi website bị tấn công - Ứng dụng “Monitor Webpage Ứng dụng “Monitor Webpage Changes” đã cài đặt trên một số website Changes” được cài đặt độc lập với và giám sát thời gian thực trên các website và giám sát thông qua môi website này. Kết quả thực nghiệm cho trường internet và ứng dụng cài trực tiếp thấy ứng dụng hoạt động tốt và đã đạt trong cùng hệ thống của website đều cho được kết quả như sau: kết quả giống nhau. - Phát hiện được tất cả các thay 5. Kết luận đổi của website (trừ một số thông tin Trong bài báo này, chúng tôi đã không kiểm tra là số lượng online và số trình bày một hướng tiếp cận bài toán người truy cập) và gửi cảnh báo cho hoàn toàn khác so với các phương pháp quản trị viên mỗi khi có sự thay đổi. cũ trước đây như Integrit, Veracity, - Giao diện ứng dụng khá thuận Aide, L5 và Tripwire. Phương pháp đề tiện và dễ dàng cho quản trị viên kiểm xuất mới này dựa trên sự kết hợp hàm tra và phát hiện vị trí cần khắc phục khi băm MD5 và thuật toán HTML Diff đã có sự cố. mang lại kết quả rất khả quan trong việc - Tốc độ chương trình tương đối giám sát, có thể phát hiện sự thay đổi ổn định. giao diện, nội dung của website một cách nhanh chóng, kịp thời theo thời 149
- TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 07 - 2017 ISSN 2354-1482 gian thực. Qua kết quả thực nghiệm cho ngay lập tức ghi nhận và thông báo tới thấy các thay đổi như chèn thêm nội người quản trị website. Chương trình dung mới, xóa hay sửa nội dung cũ, ứng dụng cũng làm nổi bật nhưng vị trí thay đổi các định dạng về màu sắc, kích đã thay đổi và gửi thư cảnh báo và thước, kiểu chữ của nội dung đã được khuyến nghị cho người quản trị trang ứng dụng “Monitor Webpage Changes” web để xử lý. TÀI LIỆU THAM KHẢO 1. Charles P. Pfleeger and Shari Lawrence (2003), “Security in Computing”, 3rd Edition, Prentice Hall (available at zspJo4C&dq =%22web+site+defacement+attack+%22&source=gbs_navlinks_s) 2. William Stalling (1999), “Cryptography and Network Security”, Prentice Hall 3. Shar, L.K. and Hee Beng Kuan Tan (2013), “Defeating SQL Injection”, in IEEE Computer, Singapore, Vol. 46, Issue: 3, pp. 68-77 4. “Chinese websites 'defaced in Anonymous attack'” (2012), [Online], Available: April 5, 2012 5. E.L.Cashin (2000), “Integerit file Verification System”, (available at 6. Rocksoft (2003), “Veracity- nothing can change without you knowing: Data integrity assurance”, (available at 7. R.Lehti (2005), “Advanced Intrusion Detection Environment”, (available at 8. RSA Laboratories (1992), “The MD2 Message Digest Algorithm” 9. Gene Kim (2001), “Advanced Applications of Tripwire for Servers”, Tripwire, Inc 10. E.Berk, “HtmlDiff: A Differencing Tool for HTML Documents”, Student Project, Princeton University, 11. S.Chawate, A.Rajaraman, H.Garcia-Molina and J.Widom (1996), “Change Detection in Hierarchical Structured Information”, Proceedings of the ACM SIGMOD International Conference on Management of Data, Monteal, June 1996 12. H. P. Khandagale and P. P. Halkarnikar (2010), “Novel Approach for Web Page Change Detection System”, International Journal of Computer Theory and Engineering, Vol. 2, No. 3, June, 2010, 1793-8201 150
- TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 07 - 2017 ISSN 2354-1482 13. TS. Dương Anh Đức - ThS. Trần Minh Triết (2005), Mã hóa và ứng dụng, Khoa Công nghệ thông tin, Trường Đại Học Khoa học Tự nhiên, Đại Học Quốc gia TP. Hồ Chí Minh DETECTING AND GIVING WARNINGS OF CHANGED WEBSITES BASED ON CHANGED CONTENTS AND HTML STRUCTURES ABSTRACT Hackers’ attacks, which change the interface and contents of webpages, bring about particularly serious consequences. Therefore, there should be methods to allow real-time detection of these changes to minimize the consequences. In this article, we present a new method to detect the changes in webpage interface and contents. This method is developed based on the HTML Diff algorithm combined with the MD5 hash function, and has been built into an application with a nice, easy- to-use interface. Changes such as new contents inserted, contents deleted or edited, and changes to the format of color, size, type of content will be immediately recorded and notified to the website administrator. The application will also highlight the changed locations and send a warning message and recommendations to the webmaster. Keywords: Supervise changes, attack defacement, entire of website, dectection of changed websites (Received: 20/9/2017, Revised: 5/10/2017, Accepted for publication: 12/12/2017) 151