Báo cáo Xây dựng hệ thống tìm kiếm văn bản dựa trên khái niệm (Phần 1)

pdf 22 trang phuongnguyen 2940
Bạn đang xem 20 trang mẫu của tài liệu "Báo cáo Xây dựng hệ thống tìm kiếm văn bản dựa trên khái niệm (Phần 1)", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbao_cao_xay_dung_he_thong_tim_kiem_van_ban_dua_tren_khai_nie.pdf

Nội dung text: Báo cáo Xây dựng hệ thống tìm kiếm văn bản dựa trên khái niệm (Phần 1)

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CÔNG TRÌNH NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG XÂY DỰNG HỆ THỐNG TÌM KIẾM VĂN BẢN DỰA TRÊN KHÁIS K C 0 0 3 9 5 9 NIỆM MÃ SỐ: T2013-46 S KC 0 0 5 5 4 4 Tp. Hồ Chí Minh, 2013
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG XÂY DỰNG HỆ THỐNG TÌM KIẾM VĂN BẢN DỰA TRÊN KHÁI NIỆM Mã số: T2013-46 Chủ nhiệm đề tài: CN. Quách Đình Hoàng Hồ Chí Minh, Tháng 02/2014
  3. TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG XÂY DỰNG HỆ THỐNG TÌM KIẾM VĂN BẢN DỰA TRÊN KHÁI NIỆM Mã số: T2013-46 Chủ nhiệm đề tài: CN. Quách Đình Hoàng Thành viên đề tài: CN. Quách Đình Hoàng Hồ Chí Minh, Tháng 02/2014
  4. Mục lục 1 Mở đầu1 1.1 Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài 1 1.2 Tính cấp thiết 5 1.3 Mục tiêu của nghiên cứu 6 1.4 Cách tiếp cận 7 1.5 Phương pháp nghiên cứu 7 1.6 Đối tượng và phạm vi nghiên cứu 7 1.7 Nội dung nghiên cứu 7 2 Tổng quan về truy tìm thông tin9 2.1 Truy tìm thông tin 9 2.2 Hệ thống truy tìm thông tin 10 2.3 Mô hình truy tìm thông tin 12 2.4 Đánh giá hệ thống truy tìm thông tin 14 2.4.1 Phương pháp đánh giá 14 2.4.2 Các độ đo 15 2.5 Tổng kết chương 16 3 Truy tìm thông tin dựa trên từ khóa 18 3.1 Biểu diễn tài liệu và truy vấn 19 i
  5. 3.2 Xếp hạng tài liệu dựa trên từ khóa 20 3.3 Các kỹ thuật hỗ trợ 21 3.3.1 Mở rộng truy vấn 21 3.3.2 Khử nhập nhằng 21 3.3.3 Nhận xét 22 4 Truy tìm thông tin dựa trên khái niệm 23 4.1 Định nghĩa khái niệm 24 4.2 Biểu diễn nội dung tài liệu và truy vấn dựa trên khái niệm 25 4.2.1 Xây dựng cơ sở khái niệm 26 4.2.2 Rút trích và xác định trọng số cho các khái niệm 29 4.3 Xếp hạng tài liệu dựa trên khái niệm 30 4.4 Tổng kết chương 31 5 Mô hình tìm kiếm dựa trên khái niệm 34 5.1 Xây dựng cơ sở khái niệm 34 5.2 Biểu diễn tài liệu và truy vấn dựa trên cơ sở khái niệm 36 5.3 Xếp hạng tài liệu dựa trên cơ sở khái niệm 37 5.4 Nhận xét 38 6 Cài đặt ứng dụng 40 6.1 Chuẩn bị dữ liệu 40 6.2 Tiền xử lý Wikipedia 41 6.3 Lập chỉ mục Wikipedia 42 6.4 Lập chỉ mục kho tài liệu 43 6.5 Biểu diễn và xếp hạng tài liệu 43 7 Kết luận và kiến nghị 44 ii
  6. 7.1 Các kết quả đã đạt được 44 7.2 Giới hạn của đề tài 45 7.3 Các kiến nghị 45 Tài liệu tham khảo 46 iii
  7. Danh sách hình vẽ 2.1 Hệ thống truy tìm thông tin (phỏng theo Croft [14]) 11 iv
  8. Danh sách bảng 5.1 Ma trận Wiki term-concept 36 5.2 Ma trận term-concept, term-document term-query 37 5.3 Ma trận document-concept 38 v
  9. Danh mục các chữ viết tắt • SIGIR - Special Interest Group on Information Retrieval (the annual interna- tional ACM conference on research and development in information retrieval) • CIKM - Conference on Information and Knowledge Management • AAAI - Association for the Advancement of Artificial Intelligence (the con- ference on artificial intelligence) • IJCAI - International Joint Conference on Artificial Intelligence • JASIST - Journal of American Society for Information Sciences and Technol- ogy • JASIS - Journal of American Society for Information Sciences • IJCAI - International Joint Conference on Artificial Intelligence • TOIS - ACM Transactions on Information Systems • TKDE - IEEE Transaction on Knowledge and Data Engineering • IPM - Information Processing and Management • TREC - Text Retrieval Conferfence • RIAO - Recherche d’Information Assistée par Ordinateur vi
  10. BM 08TĐ. Thông tin kết quả nghiên cứu TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM THÀNH PHỐ HỒ CHÍ MINH Độc lập - Tự do - Hạnh phúc KHOA CNTT Tp. HCM, Ngày 19 tháng 2 năm 2014 THÔNG TIN KẾT QUẢ NGHIÊN CỨU 1. Thông tin chung: - Tên đề tài: Xây dựng hệ thống tìm kiếm văn bản dựa trên khái niệm - Mã số: T2013-46 - Chủ nhiệm: Quách Đình Hoàng - Cơ quan chủ trì: Khoa CNTT - Thời gian thực hiện: 1/2013 - 12/2013 2. Mục tiêu: Nghiên cứu tổng quan về hệ thống truy tìm thông tin và tập trung vào các kỹ thuật liên quan đến tìm kiếm thông tin dựa trên khái niệm. 1. Tính mới và sáng tạo: Truy tìm thông tin dựa trên khái niệm có sử dụng những cơ sở tri thức lớn sẵn có như Wikipedia là một cách tiếp cận mới và triển vọng trong tương lai. 2. Kết quả nghiên cứu: Bước đầu xây dựng được hệ thống tìm kiếm thông tin dựa trên khái niệm dùng Wikipedia làm sơ sở tri thức. 3. Sản phẩm: Báo cáo tổng kết và chương trình tìm kiếm thông tin dựa trên khái niệm. 6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng: Chương trình có thể được áp dụng để hỗ trợ tìm kiếm tài liệu điện tử của thư viện. Trưởng Đơn vị Chủ nhiệm đề tài (ký, họ và tên) (ký, họ và tên)
  11. BM 09TĐ. Thông tin kết quả nghiên cứu bằng tiếng Anh INFORMATION ON RESEARCH RESULTS 1. General information: Project title: Building a concept based text retrieval system Code number: T2013-46 Coordinator: Quach Dinh Hoang Implementing institution: Information Technology Department Duration: from 1/2013 to 12/2013 2. Objective(s): Studing about information retrieval system and focusing on techniques related to how to bulid a concept based information retrieval system. 3. Creativeness and innovativeness: Concept based information retrieval approach using world largest knowledge such as Wikipedia is a promising approach because it take advantage of the efforts of many people. 4. Research results: A concept based text retrieval system with Wikipedia as knowledge base. 5. Products: The technical report and a concept based text retrieval system. 6. Effects, transfer alternatives of reserach results and applicability: The system can be used to support for ebook search utility in library.
  12. Chương 1 Mở đầu 1.1 Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài Để xây dựng hệ thống tìm kiếm thông tin, bộ sưu tập tài liệu và nhu cầu thông tin của người dùng phải được biểu diễn trên máy tính một cách hợp lý. Cho trước các biểu diễn này, hệ thống phải đưa ra được một phương pháp để xác định mức độ liên quan giữa chúng. Trong nhiều nghiên cứu xây dựng hệ thống tìm kiếm, việc phát triển các kỹ thuật để lập chỉ mục và tìm kiếm độc lập với miền ứng dựng được quan tâm nhiều. Sự quan tâm này xuất phát từ mong muốn xây dựng một hệ thống có thể lưu trữ và tìm kiếm một số lượng lớn các tài liệu trong các lĩnh vực ứng dụng khác nhau nhưng lại có ít sự can thiệp của con người. Các hệ thống đã được phát triển, chẳng hạn như những hệ thống dựa trên các mô hình không gian vector [1], mô hình xác suất [2], mô hình ngôn ngữ [3] hoàn toàn dựa vào các số liệu thống kê về sự xuất hiện của những từ riêng lẻ (hoặc dạng từ gốc của chúng) trong các tài liệu và thống kê sự phụ thuộc giữa các từ. Tài liệu và truy vấn được biểu diễn bởi một tập từ khóa đại diện 1
  13. cho nội dung của chúng. Cách biểu diễn này được gọi là bag-of-words hay còn được gọi là cách biểu diễn dựa trên từ khóa. Các hệ thống tìm kiếm dựa trên cách biểu diễn này thường sử dụng các kỹ thuật thống kê. Các chiến lược tìm kiếm và các kỹ thuật lập chỉ mục được sử dụng cho cách biểu diễn này là đơn giản, dễ thực hiện và cho kết quả khá tốt theo thực nghiệm. Do đó, đây vẫn là cách biểu diễn phổ biến nhất được sử dụng trong hầu hết các máy tìm kiếm và trong nghiên cứu [4]. Cho đến nay ít có (nếu có) cách biểu diễn cho kết quả tìm kiếm thực sự tốt và ổn định hơn so với cách biểu diễn này [5]. Tuy hiện đang là cách biểu diễn chủ đạo, cách biểu diễn dựa trên từ khóa cũng có một số vấn đề. Một tập các từ khóa được cho là khó có thể biểu diễn được nhu cầu thông tin của người dùng cũng như nội dung của tài liệu một cách trọn vẹn. Mặt khác, các hệ thống tìm kiếm dựa trên từ khóa thường xem các từ này là độc lập nhau và ngữ nghĩa của chúng cũng không được xét đến. Từ khóa trong các hệ thống này chỉ đơn thuần là các chuỗi ký tự. Do vậy, nhiều tài liệu có nội dung phù hợp nhưng không chứa các từ trong truy vấn không được tìm thấy (do từ khóa được chọn bởi người dùng thường khác với từ khóa trong tài liệu), hoặc nhiều tài liệu có nội dung không phù hợp nhưng chứa các từ trong truy vấn lại được tìm thấy (do sự khác nhau về ngữ cảnh trong cách sử dụng từ). Kết quả là chúng làm giảm độ bao phủ cũng như độ chính xác của hệ thống. Hai vấn đề này được gọi là vấn đề đồng nghĩa (synonymy) và đa nghĩa (polysemy). Chúng thường được gọi là các vấn đề từ vựng (vocabulary problems) trong truy tìm thông tin. Nhiều nghiên cứu cố gắng giải quyết vấn đề đồng nghĩa bằng kỹ thuật mở rộng truy vấn (query expansion), thêm vào truy vấn ban đầu các từ liên quan [6], và vấn đề đa nghĩa bằng kỹ thuật khử nhập nhằng (word sense disambiguation), chọn ra nghĩa phù hợp nhất cho các từ trong truy vấn [7,8]. Những kỹ thuật xử lý ngôn ngữ tự nhiên được cũng được nghiên cứu nhiều nhằm khắc phục phương pháp biểu diễn hoàn toàn định lượng dựa trên từ khóa, 2
  14. nhưng các bằng chứng thực nghiệm đến nay vẫn chưa cho những kết quả đáng kể [9, 10, 11]. Để giải quyết những hạn chế của phương pháp tiếp cận dựa trên từ khóa, ý tưởng tìm kiếm dựa trên khái niệm, được hiểu như là tìm kiếm được trên ý nghĩa hơn là so khớp chuỗi, đã được đề xuất. Hệ thống tìm kiếm dựa trên khái niệm biểu diễn và tìm kiếm tài liệu dựa trên khái niệm thay cho (hoặc bổ sung cho) từ khóa. Mỗi từ, cụm từ trong tài liệu sẽ được ánh xạ vào các khái niệm mà chúng thể hiện và nội dung tài liệu được biểu diễn bởi các khái niệm này. Tìm kiếm dựa trên khái niệm là một cách tiếp cận khác đã được nghiên cứu từ những năm 80 và nghiên cứu của Croft [12] được xem là một trong những nghiên cứu tiên phong [13]. Croft cho rằng "phương pháp thống kê có nhiều lợi thế và có thể đạt được một mức độ phù hợp về độ chính xác với các kỹ thuật rất hiệu quả. Tuy nhiên, có vẻ như để đạt được cải tiến đáng kể về độ chính xác truy tìm so với các kỹ thuật hiện hành, hệ thống phải được thiết kế để thu giữ và sử dụng đến tri thức miền". Tri thức miền (domain knowledge) là thông tin về những chủ đề, khái niệm quan trọng trong một lĩnh vực cụ thể và quan hệ giữa chúng. Cách tiếp cận dựa trên khái niệm cố gắng mô phỏng cách con người tìm kiếm thông tin bằng cách tập trung vào việc biểu diễn và suy luận dùng các khái niệm, tri thức về các miền ứng dụng cụ thể. Các nghiên cứu theo đuổi cách tiếp cận này hy vọng sẽ xây dựng hệ thống đạt được hiệu quả tìm kiếm tốt hơn đáng kể so với cách tiếp cận dựa từ khóa truyền thống [14]. Castells và các cộng sự đề xuất phương pháp tìm kiếm dựa trên ontology bằng cách kết hợp mô hình không gian vectơ và ontology [15]. Trọng số của vector được tính bởi tần số xuất hiện của các thể hiện của khái niệm (ontology instance) trong tài liệu. Kết quả thực nghiệm cho thấy phương pháp này tốt hơn phương pháp dựa trên từ khóa khi tìm kiếm trên một lĩnh vực cụ thể. Sử dụng ontology cho truy tìm thông tin, nói chung, sẽ giúp cho kết quả chính tốt hơn, tuy nhiên, việc xây dựng ontology 3
  15. một cách thủ công tốn rất nhiều công sức và cần các chuyên gia về các lĩnh vực tham gia. Nhiều nghiên cứu cố gắng xây dựng ontology một cách tự động hoặc bán tự động dựa trên kỹ thuật học [16] nhưng chất lượng của ontology xây dựng được chưa như mong đợi. Một số nghiên cứu khác tìm cách biểu diễn tài liệu dùng đồ thị khái niệm và đánh giá độ liên quan giữa tài liệu và truy vấn dựa trên việc so khớp các đồ thị khái niệm [17, 18]. Các tác giả đánh giá đồ thị khái niệm là cách biểu diễn thích hợp cho truy tìm thông tin [17] và cho kết quả tốt hơn các phương pháp dựa trên từ khóa [18]. Tuy nhiên, các nghiên cứu này chỉ đánh giá thực nghiệm trên các bộ sưu tập nhỏ (lấy từ hệ thống truy tìm thông tin kinh điển SMART 1 của đại học Cornell). Việc mở rộng cách tiếp cận này trên một bộ sưu tập đánh giá chuẩn lớn hơn như TREC chưa được kiểm chứng. Gần đây, mô hình Explicit Semantic Analysis (ESA)[19, 20] được đề xuất cho việc biểu diễn tài liệu. ESA biểu biễn ý nghĩa, nội dung của tài liệu dùng một không gian nhiều chiều của các khái niệm bằng sử dụng những nguồn tri thức lớn được xây dựng bởi nhiều người như Wikipedia, Open Directory Project (ODP). Từ khi được đề xuất, ESA đã được áp dụng thành công cho phân loại văn bản (text categorization), xác định độ liên quan về ngữ nghĩa giữa các tài liệu (semanitc relatedness), truy tìm thông tin đa ngôn ngữ (cross-language information retrieval), và truy tìm thông tin dựa trên khái niệm [21]. Trong mô hình ESA dựa trên Wikipedia (Wikipedia-based ESA), ý nghĩa (mean- ing) của một từ cho trước được mô tả bởi một véctơ thể hiện mức độ liên quan của từ đó với các khái niệm Wikipedia (Wikipedia concept). Một khái niệm Wikipedia là tựa đề (title) của một bài viết Wikipedia (Wikipedia article) và được biểu diễn như một véctơ các từ xuất hiện trong bài viết này, các từ này được đánh trọng số dùng số đo TF.IDF [22]. Một chỉ mục ngược (inverted index) cũng được tạo ra để ánh xạ trở 1 4
  16. lại mỗi từ vào các khái niệm có liên quan với nó với trọng số tương ứng. Mỗi tài liệu được biểu diễn bởi một véctơ (có trọng số) các khái niệm Wikipedia [20, 23]. Theo thực nghiệm thì chỉ áp dụng mô hình ESA đơn thuần không cho kết quả tốt hơn các phương pháp dựa trên từ khóa. Các tác giả đã kết hợp cách biểu diễn dựa trên mô hình ESA với cách biểu diễn dựa trên từ khóa. Cách tiếp cận này rất thành công và cho kết quả vượt trội so với các phương pháp tìm kiếm dựa trên từ khóa tốt nhất hiện tại. 1.2 Tính cấp thiết Sự bùng nổ thông tin trong thời đại hiện nay khiến chúng ta đối mặt với vấn đề quá tải thông tin. Do vậy, việc tìm kiếm thông tin một cách nhanh chóng và chính xác ngày càng trở thành một nhu cầu cấp thiết. Một lĩnh vực của khoa học máy tính liên quan nhiều nhất đến việc nghiên cứu và phát triển các kỹ thuật tìm kiếm là truy tìm thông tin (information retrieval). Nói ngắn gọn, đây là một khoa học nền tảng cho các công cụ tìm kiếm. Vấn đề trên tưởng như đã được giải quyết trọn vẹn bởi các công cụ tìm kiếm dựa trên từ khóa nổi bật hiện nay như Google 2, Yahoo 3 hay Bing 4 nhưng sự thật dường như không phải vậy. Thực tế, các công cụ này tuy hiệu quả nhưng vẫn chưa thể đáp ứng hết các mong muốn của người dùng. Theo khảo sát của Spink và các cộng sự, người dùng thường chỉ dùng 2-4 từ để mô tả nhu cầu thông tin nên các hệ thống tìm kiếm gặp nhiều khó khăn trong việc hiểu được mong muốn thật sự của họ, kết quả là hệ thống thường trả về nhiều tài liệu không liên quan [24, 25]. Đến 50% người dùng không tìm thấy kết quả mong muốn trong lần kích chuột đầu tiên [26]. 2 3 4 5
  17. Phương pháp tiếp cận truyền thống trong truy tìm thông tin là dựa trên các từ khóa để lập chỉ mục, tìm và xếp hạng tài liệu. Cách tiếp cận này, mặc dù hiệu quả, khó có thể biểu diễn được nhu cầu thông tin của người dùng và nội dung của tài liệu một cách trọn vẹn. Các hệ thống tìm kiếm dựa trên từ khóa thường xem các từ này là độc lập nhau và ngữ nghĩa của chúng cũng không được xét đến. Từ khóa trong các hệ thống này chỉ đơn thuần là các chuỗi ký tự. Do vậy, nhiều tài liệu có nội dung phù hợp nhưng không chứa các từ trong truy vấn không được tìm thấy, hoặc nhiều tài liệu có nội dung không phù hợp nhưng chứa các từ trong truy vấn lại được tìm thấy. Nghiên cứu gần đây của Amstrong và các cộng sự [27] cho thấy độ chính xác trung bình (mean average precision) của các phương pháp tìm kiếm được đề xuất từ năm 1998 đến 2008 qua hai hội nghị chính của lĩnh vực là SIGIR (1998-2008) và CIKM (2004-2008) là không quá 35% và không thật sự tăng như các công bố đã mô tả. Trong đề tài này, chúng tôi tập trung nghiên cứu các vấn đề liên quan đến truy tìm thông tin dựa trên khái niệm vì chúng tôi cũng nghĩ rằng cách tiếp cận này sẽ nâng cao hiệu quả tìm kiếm. 1.3 Mục tiêu của nghiên cứu Mục tiêu của nghiên cứu là nghiên cứu tổng quan về hệ thống truy tìm thông tin và tập trung vào các kỹ thuật liên quan đến tìm kiếm dựa trên khái niệm, đặc biệt là các kỹ thuật để thực hiện các mục tiêu sau: • Xây dựng cơ sở khái niệm để biểu diễn tài liệu và truy vấn. • Biểu diễn nội dung tài liệu và truy vấn (nhu cầu thông tin của người dùng) dựa trên khái niệm thay cho từ khóa. • Tìm kiếm và xếp hạng tài liệu dựa trên khái niệm bằng cách sử dụng tri thức về miền ứng dụng (cơ sở khái niệm) đã xây dựng. 6
  18. 1.4 Cách tiếp cận • Khảo sát các phương pháp biểu diễn và xếp hạng tài liệu đã có • Tìm cách sử dụng đặc thù của kho dữ liệu về CNTT để nâng cao độ chính xác của kết quả tìm kiếm 1.5 Phương pháp nghiên cứu • Phương pháp đọc tài liệu (phần khảo sát các nghiên cứu liên quan) • Phương pháp thực nghiệm (phần đánh giá thực nghiệm và cài đặt chương trình) 1.6 Đối tượng và phạm vi nghiên cứu Việc xây dựng một hệ thống tìm kiếm thông tin cho một kho dữ liệu bất kỳ chứa nhiều vấn đề kỹ thuật rất phức tạp. Do đó, trong đề tài này, chúng tôi chỉ tập trung vào kho dữ liệu gồm những tài liệu tiếng Anh dạng văn bản (text). 1.7 Nội dung nghiên cứu Nội dung công việc cụ thể của nghiên cứu gồm: • Nghiên cứu tổng quan về lĩnh vực truy tìm thông tin để có được kiến thức cơ sở về việc xây dựng một hệ thống tìm kiếm. • Khảo sát phương pháp biểu diễn nội dung tài liệu và truy vấn (nhu cầu thông tin của người dùng) dựa trên khái niệm. 7
  19. • Khảo sát các phương pháp tìm kiếm và xếp hạng tài liệu dựa trên khái niệm. • Xây dựng một hệ thống tìm kiếm tài liệu dựa trên khái niệm cho kho dữ liệu thu thập được. • Viết báo cáo tổng kết. 8
  20. Chương 2 Tổng quan về truy tìm thông tin Truy tìm thông tin là một lĩnh vực cung cấp các kỹ thuật nền tảng cho việc xây dựng một hệ thống tìm kiếm thông tin. Chương này trình bày những kiến thức cơ sở về truy tìm thông tin để có được bức tranh tổng quát cho vấn đề đã nêu. Nội dung của chương là các khái cơ bản của lĩnh vực truy tìm thông tin, gồm: các định nghĩa về truy tìm thông tin, hệ thống truy tìm thông tin, mô hình truy tìm thông tin và phương pháp đánh giá mức độ chính xác của các hệ thống truy tìm thông tin. 2.1 Truy tìm thông tin Truy tìm thông tin là lĩnh vực quan tâm đến biểu diễn, tổ chức, lưu trữ, và truy cập vào thông tin [28]. Lĩnh vực này nghiên cứu và phát triển những lý thuyết, nguyên lý, thuật toán và những hệ thống giúp người dùng tìm được thông tin (thường là tài liệu ở dạng văn bản) thỏa mãn nhu cầu của họ (thường được diễn đạt dưới dạng một câu truy vấn) từ một nguồn thông tin (thường rất lớn) được lưu trữ trên máy tính [29]. Tuy nhiên, theo nghĩa rộng, lĩnh vực này nghiên cứu các vấn đề giúp con người quản lý và khai thác thông tin nói chung như tìm kiếm văn bản (text retrieval), 9
  21. phân loại văn bản (text classification), gom cụm văn bản (text clustering), tóm tắt văn bản (text summarization), trả lời câu hỏi (question answering), tìm kiếm văn bản đa ngôn ngữ (cross-language text retrieval), tìm kiếm thông tin đa phương tiện (multimedia retrieval) như hình ảnh, âm thanh, video, [4]. 2.2 Hệ thống truy tìm thông tin Một hệ thống truy tìm thông tin (information retrieval system) được xây dựng để tìm kiếm trên một bộ sưu tập tài liệu (document collection) nhất định, đó có thể là một tập các tài liệu trên máy tính cá nhân (desktop search engine), trong thư viện (digital library), hoặc trên toàn bộ world wide web (web search engine). Hình 2.1 minh họa các quá trình chính của một hệ thống truy tìm thông tin, gồm: biểu diễn truy vấn, biểu diễn nội dung tài liệu, phương pháp so sánh giữa biểu diễn tài liệu với biểu diễn truy vấn để quyết định tài liệu nào là phù hợp với truy vấn và phản hồi (feedback). Quá trình biểu diễn truy vấn thường được gọi là xử lý truy vấn (query processing) hoặc thành lập truy vấn (query formulation), quá trình biểu diễn tài liệu thường được gọi là lập chỉ mục tài liệu (document indexing). Thông thường, các quá trình này chủ yếu liên quan đến việc trích xuất các từ khóa quan trọng, đại diện cho nội dung của truy vấn, tài liệu và xác định trọng số (weight) cho chúng (mức độ quan trọng của các từ khóa đó trong truy vấn, tài liệu) một cách phù hợp. Kết quả của các quá trình này là các biểu diễn bên trong của hệ thống cho mỗi truy vấn và tài liệu. Quá trình so sánh giữa biểu diễn tài liệu và biểu diễn truy vấn để quyết định tài liệu nào phù hợp với truy vấn được gọi là chiến lược tìm kiếm (retrieval strategy). Một chiến lược tìm kiếm sẽ xác định một giá trị thực phản ánh mức độ phù hợp giữa tài liệu với truy vấn cho mỗi tài liệu. Hầu hết các hệ thống truy tìm thông tin giả định rằng người dùng có thể mô tả chính xác nhu cầu thông tin của họ thông qua một số từ khóa. Tuy nhiên, điều 10
  22. S K L 0 0 2 1 5 4