Bài giảng Thư viện số - TS. Đỗ Quang Vinh

pdf 360 trang phuongnguyen 2080
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Thư viện số - TS. Đỗ Quang Vinh", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_thu_vien_so_ts_do_quang_vinh.pdf

Nội dung text: Bài giảng Thư viện số - TS. Đỗ Quang Vinh

  1. PHD. DO QUANG VINH Email: dqvinh@live.com HANOI - 2013
  2. BÀI GIẢNG THƢ VIỆN SỐ TS. ĐỖ QUANG VINH Email: dqvinh@live.com HÀ NỘI - 2013
  3. NỘI DUNG I. TỔNG QUAN VỀ THƢ VIỆN SỐ DL II. MÔ HÌNH HÌNH THỨC CHO THƢ VIỆN SỐ DL III. CHỈ MỤC TÀI LIỆU IV. TÌM KIẾM THÔNG TIN V. CÁC CHUẨN SỬ DỤNG TRONG THƢ VIỆN SỐ VI. THỰC HÀNH HỆ PHẦN MỀM THƢ VIỆN SỐ GREENSTONE 3
  4. I. TỔNG QUAN VỀ THƢ VIỆN SỐ DL  TÍNH CẤP THIẾT – World Wide Web đã xâm nhập vào cuộc sống hàng ngày – Giao diện cho Web tiến triển từ duyệt đến tìm kiếm – DL là một trong những hướng nghiên cứu chính về Công nghệ Thông tin và Truyền thông ICT; Thư viện Thông tin LIS trên thế giới và ở Việt Nam hiện nay. 1. TÌNH HÌNH NGHIÊN CỨU VÀ PHÁT TRIỂN THƢ VIỆN SỐ TRÊN THẾ GIỚI VÀ Ở VIỆT NAM – Sự bùng nổ về nghiên cứu DL, các dự án và chương trình DL ở Mỹ và trên thế giới – Trọng tâm của các dự án DL  Về công nghệ: các phương pháp và công nghệ mới về lưu trữ và tìm kiếm thông tin 4
  5.  Về xã hội: khảo sát CSDL tài liệu và các vấn đề xã hội liên quan tới DL  Nghiên cứu và phát triển DL ở Mỹ . Có nhiều hoạt động và chương trình nghiên cứu DL đang được tiến hành ở Mỹ và số lượng tăng nhanh . 2 dự án DL được tài trợ bởi chính phủ Mỹ là Dự án thư viện số - giai đoạn 2 (DLI-2) và Dự án thư viện số quốc tế . Dự án thư viện số DLI:  Dự án thư viện video số Informedia của Đại học Carnegie Mellon CMU 5
  6.  Dự án dịch vụ thông tin số của Đại học California ở Berkeley  Dự án Alexandria của Đại học California ở Santa Barbara  Dự án Interspace của Đại học Illinois ở Urbana-Champaign  Dự án UMDL của Đại học Michigan  Dự án InfoBus của Đại học Stanford . Các dự án DL chủ yếu khác ở Mỹ:  Thư viện quốc hội (Library of Congress)  Dự án công nghệ thư viện số DLT của NASA  Dự án FedStats của hơn 70 cơ quan chính phủ khác nhau của Mỹ 6
  7.  Dự án thư viện số của IBM  Dự án thư viện số California CDL  Chương trình thư viện số D-Lib của DARPA (the Defence Advanced Researh Project Agency)  Dự án MOA của hai Đại học Cornel và Michigan  Dự án Open Book của Đại học Yale  Dự án hợp tác Red Sage của Đại học California ở San Francisco, Công ty AT&T Laboratories và Springer-Verlag  Dự án TULIP của nhà xuất bản Elsevier Science Publisher 7
  8.  DL ở các nước khác Tập trung vào các CSDL tài liệu, nói riêng vào nâng cao truy cập tới các CSDL tài liệu về lịch sử, văn hoá và nghệ thuật: Canada, Anh, Pháp, Đức, Nhật, Hàn quốc, Singapore, Trung quốc, Hồng Kông, Đài loan, Australia, New Zealand 8
  9.  Việt Nam Nhu cầu nghiên cứu DL bắt đầu từ khi hoạch định chiến lược phát triển thông tin - thư viện cho đến năm 2010, 2020, trước xu thế của sự chuyển hướng toàn cầu sang xã hội thông tin Xây dựng DL lý tưởng, độc lập, với vốn tư liệu hoàn toàn số hoá, với toàn bộ dịch vụ chuyển sang phương thức điện tử, là không khả thi Xu hướng sẽ xuất hiện nhiều thư viện điện tử là kết quả của quá trình tin học hoá, là các cổng vào thông tin và là một bộ phận của các thư viện lớn truyền thống ở Việt Nam 9
  10. . Đại bộ phận thư viện sẽ đi theo con đường: kết hợp các nguồn tin truyền thống với hiện đại, bổ sung thêm các tạp chí điện tử toàn văn trên CD-ROM, đặt mua các tạp chí điện tử toàn văn trên mạng, số hoá một phần vốn tư liệu, tự động hoá các dịch vụ và tạo điều kiện cho NSD chủ động khai thác thông tin . Hiện nay, một số phần mềm được cài đặt:  PM Thư viện số Greenstone của dự án New Zealand Digital Library ở Đại học Quốc gia TP Hồ Chí Minh và nhiều trường Đại học khác  PM Thư viện số VTLS ở Đại học Bách khoa Hà Nội  PM Thư viện số Koha ở Đại học Quốc gia Hà Nội  PM Thư viện số Dspace ở Đại học Đà Lạt  PM thư viện điện tử ILIB của công ty CMC ở Thư viện Quốc gia Việt Nam  PM thư viện điện tử LIBOL của công ty Tinh vân ở Cục Thông tin khoa học và công nghệ Quốc gia 10
  11. Hệ phần mềm nguồn mở Greenstone rất phổ biến trong xây dựng thư viện số. PM cung cấp cách tổ chức thông tin và đưa thông tin lên Internet rất thuận tiện. Kho tài liệu do Greenstone tạo ra có thể duy trì, tìm kiếm và duyệt. Kho tài liệu dành cho mọi đối tượng độc giả và có thể mở rộng. PM được phát hành theo General Public License (GNU) với tinh thần là phần mềm nguồn mở. Xem thông tin chi tiết tại www.nzdl.org. Phần mềm Thư viện số Greenstone do Dự án Thư viện số New Zealand của trường Đại học Waikato triển khai. Có thể tải phần mềm từ www.nzdl.org. Hệ phần mềm thư viện số Greenstone đang được Tổ chức Giáo dục, Khoa học và Văn hóa của Liên hợp quốc UNESCO ủng hộ và khuyến cáo các nước trên thế giới cài đặt và sử dụng. 11
  12. 2. ĐỊNH NGHĨA KHÔNG HÌNH THỨC . Định nghĩa 1 (Arms W.Y.): DL là một kho thông tin có quản lý với các dịch vụ liên kết, trong đó thông tin được lưu trữ ở dạng số và có thể truy cập qua một mạng. . Định nghĩa 2 (Chen H., Houston A.L.): DL là một thực thể liên quan tới sự tạo ra các nguồn tin và sự hoạt động thông tin qua các mạng toàn cầu. . Định nghĩa 3 (Reddy R., Wladawsky-Berger I.): DL là các kho dữ liệu mạng về tài liệu văn bản số, ảnh, âm thanh, dữ liệu khoa học và phần mềm là lõi của Internet hiện nay và các kho dữ liệu số có thể truy cập phổ biến về tất cả tri thức của loài người trong tương lai. 12
  13. . Định nghĩa 4 (Sun Microsystems): DL là sự mở rộng điện tử về các chức năng điển hình NSD thực hiện và các tài nguyên NSD truy cập trong thư viện truyền thống. . Định nghĩa 5 (Witten I.H., Bainbridge D.): DL là các kho đối tượng số, bao gồm văn bản, video và audio cùng với các phương pháp truy cập và tìm kiếm, lựa chọn, tổ chức và bảo trì. . Định nghĩa 6 (Liên đoàn Thư viện số - The Digital Library Federation): Thư viện số là những tổ chức cung cấp các nguồn lực gồm cả cán bộ chuyên môn để lựa chọn, xây dựng, truy cập tri thức, giải thích, phân phát, bảo tồn tính toàn vẹn và đảm bảo tính bền vững vượt thời gian của các kho tài liệu số, do đó chúng luôn sẵn sàng đáp ứng nhu cầu sử dụng của một cộng đồng cụ thể hoặc của một nhóm cộng đồng.  Tóm lại, thư viện số là một kho thông tin số khổng lồ có tổ chức với các dịch vụ liên kết qua mạng. 13
  14.  Ngoài ra, còn có một số định nghĩa khác về DL: . “Thư viện số là thuật ngữ được chấp nhận rộng rãi như sự mô tả việc sử dụng công nghệ số của thư viện để thu thập, lưu trữ, bảo tồn và cung cấp sự truy cập đến thông tin" - Trung tâm Nghiên cứu và đổi mới thư viện Anh 14
  15. . Thư viện số không phải chỉ là một thực thể đơn lẻ; Thư viện số phải có công nghệ để liên kết tài nguyên của nhiều dịch vụ; Sự liên kết giữa những thư viện điện tử và dịch vụ thông tin phải là trong suốt đối với người dùng tin đầu cuối; Sự truy nhập đến thư viện điện tử và dịch vụ thông tin là mục đích; Sưu tập số của thư viện số không chỉ giới hạn ở mẫu tìm của tài liệu; nó được mở rộng cả đến các đối tượng số mà chúng không thể được trình bày hoặc phổ biến ở dạng in ấn - Hiệp hội Thư viện nghiên cứu 15
  16. . "Thư viện số là cơ quan/tổ chức có các nguồn lực, kể cả các nguồn nhân lực chuyên hoá, để lựa chọn, cấu trúc việc truy cập đến diễn giải, phổ biến, bảo quản sự toàn vẹn, đảm bảo sự ổn định trong thời gian dài của sưu tập các công trình số hoá mà chúng ở dạng sẵn sàng để sử dụng một cách kinh tế cho một hoặc một số cộng đồng nhất định." - Liên đoàn Thư viện Hoa Kỳ 16
  17. . Thư viện số là nơi trình bày những bộ sưu tập thông tin có tổ chức. Đối tượng của những bộ sưu tập đó là nguồn tài nguyên thông tin số hóa cùng với các phương thức: truy hồi, chọn lọc, truy cập, tổ chức và bảo trì bộ sưu tập đó. . Người sử dụng: truy cập, chọn lọc, hiển thị tài liệu số . Cán bộ thư viện: xây dựng, tổ chức, lưu hành 17
  18. . Thư viện điện tử là loại thư viện "sử dụng các phương tiện điện tử trong thu thập, lưu trữ, xử lý, tìm kiếm và phổ biến thông tin" - Vũ Văn Sơn . Thư viện điện tử là thư viện duy trì toàn bộ hay một phần đáng kể sưu tập của mình ở dạng máy tính có thể xử lý được như một phương thức thay thế, bổ sung cho những tài liệu in truyền thống hoặc tài liệu trên vi hình hiện đang chiếm ưu thế trong thư viện – B. Sloan 18
  19. . “Thư viện điện tử là hệ thống thông tin phân tán cho phép tích hợp, bảo quản và sử dụng một cách hiệu quả những tập hợp đa dạng tài liệu điện tử, truy cập được ở dạng thuận tiện cho người sử dụng thông qua mạng truyền dữ liệu toàn cầu" - Chương trình thư viện điện tử của Nga 19
  20.  LỢI ÍCH CỦA DL 1. Thư viện số mang thư viện đến người sử dụng 2. Máy tính được sử dụng để tìm kiếm và duyệt 3. Thông tin có thể được chia sẻ 4. Thông tin dễ dàng cập nhật hơn 5. Thông tin luôn sẵn có 6. Các dạng thông tin mới trở thành thực hiện được 7. Giá của DL  PHÁT TRIỂN KỸ THUẬT 4 lĩnh vực kỹ thuật nổi bật đối với DL 1. Lưu trữ điện tử trở nên rẻ hơn giấy 2. Hiển thị máy tính cá nhân trở nên dùng thích hợp hơn 3. Mạng tốc độ cao trở nên phổ biến 4. Máy tính trở nên di động 20
  21. . Ưu điểm và nhược điểm của DL ƯU ĐIỂM NHƯỢC ĐIỂM  Không bị giới hạn về địa lý  Truy cập hạn chế  Tiết kiệm không gian  Phần cứng/Phần mềm  Sẵn có 24/24  Bản quyền  Truy cập đồng thời  Phụ thuộc vào nhà cung cấp  Khả năng tìm kiếm  Lưu trữ lâu dài  Lưu trữ thuận tiện  Mua quyền truy cập  Kết nối mạng  Chi phí thấp 21
  22. 3. CÁC KHÁI NIỆM CƠ BẢN  Cơ sở dữ liệu tài liệu DL quản lý bất kỳ thông tin có thể được mã hoá thành dãy bit. Ví dụ: version số hoá của vật tải thông thường: văn bản, ảnh, âm thanh, đặc tả và thiết kế kỹ thuật . Dữ liệu và Siêu dữ liệu Thông tin lưu trữ trong dữ liệu có thể được phân chia thành dữ liệu và siêu dữ liệu. Dữ liệu là một thuật ngữ mô tả thông tin được mã hoá thành dạng số. Siêu dữ liệu là dữ liệu về dữ liệu khác. Các loại siêu dữ liệu thông thường bao gồm + Siêu dữ liệu mô tả như thông tin thư mục; + Siêu dữ liệu cấu trúc về dạng và cấu trúc; + Siêu dữ liệu quản trị bao gồm các quyền, sự cho phép và thông tin khác được sử dụng để quản lý truy cập. 22
  23. Sự phân biệt giữa dữ liệu và siêu dữ liệu thường phụ thuộc vào ngữ cảnh. Mục lục bản ghi hoặc tóm tắt thường được coi là siêu dữ liệu, bởi vì chúng mô tả dữ liệu khác, nhưng ở một mục lục trực tuyến hoặc một CSDL về tóm tắt chúng là dữ liệu.  Siêu dữ liệu Metadata “Siêu dữ liệu Resource discovery là phần then chốt của bất kỳ nguồn tài liệu số. Nếu các nguồn tài liệu được tra cứu và hiểu trong môi trường phân bổ của World Wide Web, chúng cần được mô tả ngắn gọn, kết cấu rõ ràng phù hợp với quá trình xử lý của phần mềm máy tính. Hiện nay có nhiều tiêu chuẩn chính thức, từ hình thức đơn giản đến phức tạp, từ kết cấu lỏng đến chặt chẽ, từ các tiêu chuẩn độc quyền đến quốc tế.” (UNESCO) 23
  24. . Đối tƣợng số + Không có một thuật ngữ chung được thiết lập đối với mục tin được lưu trữ trong DL. + Tổng quát nhất, tài liệu: là bất kỳ thứ gì có thể được lưu trữ trong một thư viện. Không có từ nào hàm ý bất kỳ thứ gì về nội dung, cấu trúc hoặc khung nhìn thông tin của NSD. + Chính xác hơn là đối tƣợng số được dùng để mô tả các đối tượng vật lý/ thông tin ở dạng số, mô tả một mục tin lưu trữ trong DL, điển hình gồm có dữ liệu, dữ liệu liên kết và một bộ nhận dạng. + Người ta còn gọi mỗi một mục tin trong DL là một tài liệu. 24
  25. + Dạng lưu trữ của đối tượng số Dạng thông tin được lưu trữ trong dữ liệu có thể rất khác nhau. Một mô hình mô phỏng dùng để huấn luyện phi công máy bay được lưu trữ như một số chương trình máy tính, cấu trúc dữ liệu, ảnh số hoá và dữ liệu khác. . Máy tính và mạng + DL gồm có nhiều máy tính kết nối bằng một mạng truyền thông nói chung , Internet nói riêng + Máy tính trong DL có 3 chức năng chính: trợ giúp NSD tương tác với thư viện, lưu trữ CSDL tài liệu và cung cấp dịch vụ. + NSD User sử dụng máy khách Client + Kho lưu trữ Repository + Máy chủ Server + Gương (mirror) và cache + Proxy và gateway 25
  26. + Hệ phân tán: DL là một trong số hệ phân tán phức tạp nhất từng đƣợc xây dựng. + Hai loại dịch vụ điển hình được cung cấp bởi DL: Hệ thống định vị và hệ thống tìm kiếm. Hệ thống định vị được dùng để nhận dạng và định vị thông tin. Hệ thống tìm kiếm cung cấp các mục lục, chỉ mục và các dịch vụ khác để trợ giúp NSD tìm kiếm thông tin. 26
  27. Hình 1.1 - Máy tính trong thƣ viện số (W.Y.Arms) Kho lưu trữ NSD Hệ thống định vị Hệ thống tìm kiếm 27
  28. 4. NGHIÊN CỨU TIN HỌC TRONG DL a. Mô hình đối tƣợng DL lưu trữ và phân phát bất kỳ thông tin ở dạng số. Kết quả là, các bài toán nghiên cứu về biểu diễn và thao tác thông tin là đa dạng. NSD nhận thấy một công việc có thể được biểu diễn ở một máy tính là một quá trình lắp ráp các tệp và cấu trúc dữ liệu thành nhiều dạng. Quan hệ giữa các thành phần này và quan niệm về đối tượng của NSD được gọi là một mô hình đối tượng. 28
  29. b. Giao diện NSD Cải tiến cách NSD tương tác với thông tin trên máy tính là một chủ đề thú vị và phức tạp. Sự phát triển về các trình duyệt Web là một ví dụ về nghiên cứu sáng tạo ở các lĩnh vực như trực quan thông tin, phân lớp thông tin chứa trong tài liệu và trích rút một bản tóm tắt. c. Chỉ mục và Tìm kiếm thông tin Tìm kiếm thông tin là một chủ đề chính của thƣ viện. . Siêu dữ liệu mô tả . Chỉ mục tự động . Xử lý ngôn ngữ tự nhiên . Tài liệu phi văn bản 29
  30. d. Quản trị và bảo trì CSDL Quản trị CSDL là một chủ đề nghiên cứu được quan tâm trong DL. . Tổ chức CSDL . Lưu trữ và bảo trì . Chuyển đổi e. Tính liên tác (interoperability) + Nhiều bài toán khó khăn nhất ở DL là các khía cạnh của tính liên tác, làm sao nhận được tính đa dạng của các hệ thống tính toán làm việc đồng thời. + Trên thế giới, nhiều DL độc lập đang được tạo ra với các chính sách quản lý và hệ thống tính toán khác nhau. + Tính liên tác và sự chuẩn hoá được xen kẽ nhau. Không may, quá trình tạo lập các chuẩn quốc tế thường đối lập với tính liên tác ở DL. 30
  31. + Tính liên tác bao gồm: . Giao diện người sử dụng . Đặt tên và định danh . Dạng thức . Siêu dữ liệu Siêu dữ liệu đóng vai trò quan trọng ở nhiều khía cạnh của DL, nhưng đặc biệt quan trọng đối với tính liên tác . Tìm kiếm phân tán . Giao thức mạng . Giao thức tìm kiếm: giao thức Z39.50 . Xác thực và an toàn thông tin . Tính liên tác ngữ nghĩa Tính liên tác ngữ nghĩa xử lý với khả năng của NSD truy cập tới các lớp đối tượng số giống nhau, phân tán qua các CSDL không thuần nhất. 31
  32. 5. LẬP KẾ HOẠCH CHO DỰ ÁN XÂY DỰNG DL Tuy nhiên, sự xuất hiện của DL là điều tất yếu. Một DL thành công là một thư viện đáp ứng nhu cầu thông tin và truy cập của thị trường hiện nay và thị trường tiềm năng. Vốn tài liệu, người sử dụng và công nghệ là những vấn đề cần xem xét.  Lý do xây dựng thƣ viện số Lý do chính: DL phân phát thông tin tốt hơn thư viện truyền thống Số lượng tài liệu ngày càng tăng 32
  33. Sự phát triển của công nghệ thông tin và các hình thức xuất bản mới Nhu cầu của người sử dụng thay đổi Các hình thức tìm tin mới Vai trò của thư viện thay đổi  Các bƣớc cơ bản của dự án xây dựng DL 1. Xác định dự án 2. Phác thảo kế hoạch triển khai DL 3. Thực hiện 33
  34. a. Xác định dự án Nêu mục đích, mục tiêu rõ ràng, xác định đối tượng độc giả và nội dung: Phát triển hình ảnh và nhiệm vụ. Thư viện là các nguồn thông tin hàng đầu; là trung tâm thông tin quan trọng nhất dành cho sinh viên, giảng viên và nhân viên của trường đại học/ cao đẳng. Để thực hiện nhiệm vụ của mình, thư viện phát triển các kho tài liệu, tổ chức kho tài liệu để truy cập, cung cấp khả năng truy cập các nguồn thông tin khác, dạy người dùng các kỹ năng thư viện, tuyển dụng và đào tạo cán bộ các kỹ năng cần thiết để thư viện hoạt động, cung cấp phương tiện và dịch vụ thúc đẩy nghiên cứu và học tập. Lập mục đích và mục tiêu Mục đích là mục tiêu dài hạn hình thành cùng với hình ảnh của tổ chức. Mục tiêu là những hoạt động cụ thể mà tổ chức muốn hoàn thành trong một giai đoạn nào đó, thường là trong vòng một năm. Mục tiêu mang tính ngắn hạn, chỉ tiêu phấn đấu có thể đạt được. 34
  35. b. Phác thảo kế hoạch triển khai thƣ viện số Xác định các nguồn yêu cầu và phác thảo các nhiệm vụ khác nhau, chiến lược và thời hạn để hoàn thành mục đích. Chiến lược do các phương pháp cấu thành, được thiết kế để hoàn thành mục đích và mục tiêu. Chiến lược bao gồm kế hoạch hành động, người phụ trách, thời hạn và các nguồn cần có. Bảng dưới đây là bản mẫu của một kế hoạch hành động. Mục Kết quả Các nguồn lực yêu Người phụ Ngày dự kiến đích mong đợi cầu/ Chi phí dự án trách hoàn thành 35
  36.  Các nguồn lực yêu cầu Nội dung vốn tài liệu số đáp ứng nhu cầu của đối tượng độc giả và mục tiêu của dự án Nhân sự và những kỹ năng cần thiết để xây dựng, tổ chức và quản lý thư viện số và thức hiện các nhiệm vụ cần thiết trong xây dựng thư viện số Hạ tầng công nghệ thông tin (Ví dụ: phần cứng, phần mềm, khả năng kết nối) Phân bổ ngân sách Hỗ trợ và hợp tác của các đơn vị chính tham gia Khảo sát môi trường. Điểm chung của tất cả các định nghĩa và nhiệm vụ này là nhu cầu khảo sát môi trường kỹ lưỡng để có thể chuẩn bị một hình ảnh cho tương lai và chiến lược để đạt được tương lai đó  Các công cụ cùng các tiêu chuẩn và giao thức tương ứng cho việc cung cấp thông tin và dịch vụ và mô tả việc bảo trì và đánh giá hệ thống sẽ được thực hiện nằm trong chiến lược xây dựng36 thư viện số.
  37. c. Thực hiện Lựa chọn nội dung. Tiêu chí lựa chọn cần phải mở rộng Tổ chức tài liệu gốc để số hoá, lưu giữ, truy cập, tìm kiếm và tra cứu. Cung cấp dịch vụ. Nghiên cứu thị trường và cung cấp các dịch vụ phù hợp Tìm kiếm và sử dụng các công nghệ và công cụ chuyên dụng cho kế hoạch Bảo trì hệ thống. Liên tục giám sát và bảo trì hệ thống là biện pháp cần thiết để nâng cao chất lượng dịch vụ tốt hơn Thực hiện các chiến lược marketing. Thư viện số cần được tiếp thị tới người dùng hiện tại và tiềm năng. Có rất nhiều cách xúc tiến việc sử dụng thư viện số 37
  38. Giám sát và đánh giá hoạt động của thư viện. Đánh giá hoạt động định kỳ sẽ cho phép ban quản lý định hướng lại kế hoạch nhằm đáp ứng những thay đổi của môi trường. Nhu cầu tái định hướng có thể do những thay đổi công nghệ, chính sách  Khảo sát môi trƣờng Điểm chung của tất cả các định nghĩa và nhiệm vụ này là nhu cầu khảo sát môi trường kỹ lưỡng để có thể chuẩn bị một hình ảnh cho tương lai và chiến lược để đạt được tương lai đó.  Kho tài liệu Tiêu chí lựa chọn tài liệu của tổ chức cần phải rõ ràng. Tài liệu lựa chọn phải phù hợp với tiêu chí đề ra: chủ đề, yêu cầu, tính duy nhất và giá trị. Tài liệu còn phải có giá trị sử dụng lâu dài. Đôi khi một ấn phẩn mới có thể thay thế ấn phẩm hiện có. 38
  39.  Bản quyền Mục đích của thư viện số là cung cấp truy cập vốn tài liệu từ xa. Bản quyền là vấn đề quan trọng cần cân nhắc trong xây dựng thư viện số vì chức năng phân phối lại của thư viện số. . Công nghệ Có công nghệ để số hoá tài liệu in và tài liệu dạng thu nhỏ. Chí phí dành cho công nghệ tốn kém và đôi khi việc mua công nghệ có thể là sự lựa chọn tốt hơn. Ngoài ra, việc tạo ra các công cụ truy cập cần phải cân nhắc kỹ vì chi phí bỏ ra có thể rất cao. Công nghệ OCR vẫn chưa thực sự đáng tin cậy. Tiếp nhận và xây dựng hạ tầng công nghệ thông tin cần thiết. Lựa chọn hệ thống thư viện số dựa vào nhu cầu và khả năng của cơ quan (Ví dụ: ngân sách, khả năng chuyên môn). Bạn nên lựa chọn hệ thống có bán trên thị trường hay hệ thống sử dụng phần mềm nguồn mở do chính bạn xây dựng? 39
  40. 6. Vấn đề Bản quyền trong thƣ viện số a. Khái niệm cơ bản . Bản quyền (Copyright): thuật ngữ pháp lý mô tả quyền xác định cho người sáng tạo đối với tài liệu và các công trình nghệ thuật của họ. . Vi phạm bản quyền (Copyright infringement): việc sử dụng tài liệu được bảo vệ bởi luật bản quyền không được phép của chủ sở hữu, hoặc cấp phép và/hoặc bán quyền sử dụng. . Người sáng tạo (Creator): tác giả của tác phẩm, người mà công trình của họ được công nhận. Chủ sở hữu bản quyền. . Nguyên tắc sử dụng không phải xin phép (Fair use principle): cho phép thư viện sao chụp tác phẩm. Kiểm tra bốn nhân tố sẽ đảm bảo thư viện quyết định việc sử dụng là phải xin phép hay không trong trường hợp có một bản sao thực làm ra. 40
  41. . Học thuyết chấm dứt quyền sau lần bán đầu tiên (First sale doctrine): điều khoản cho phép thư viện, một khi đã bản sao tác phẩm đúng bản quyền, quyền phổ biến bản sao không cần phép của chủ sở hữu bản quyền. Lần bán đầu tiên đảm bảo các thư viện mượn sách hoặc tiến hành mượn liên thư viện không vi phạm luật bản quyền. . Quyền sở hữu trí tuệ (Intellectual Property Right)): sáng tạo trí óc: sáng chế, tác phẩm văn học và nghệ thuật, biểu tượng, tên, ảnh và các thiết kế dùng trong thương mại. . Quyền tinh thần (Moral rights): quyền dành cho như người sáng tạo tác phẩm, thực hiện hành động nếu ai đó gây sai trái hoặc tác phẩm bị xuyên tạc. 41
  42. . WIPO - Tổ chức Sở hữu trí tuệ quốc tế là tổ chức chuyên môn của Liên hiệp quốc hoạt động trong việc phát triển một hệ thống sở hữu trí tuệ quốc tế truy cập được và ổn định dành cho sự sáng tạo, kích thích cải tiến và góp phần vào phát triển kinh tế trong khi bảo vệ được lợi ích chung. 42
  43. b. Quyền sở hữu trí tuệ là gì?  Mở đầu . Thư viện là cơ quan có nhiệm vụ cung cấp sự truy cập thông tin công bằng cho cộng đồng nó phục vụ. Quyền sở hữu trí tuệ và bản quyền ảnh hưởng đến nhiệm vụ này như thế nào? . WIPO định nghĩa quyền sở hữu trí tuệ là “sáng tạo trí óc: sáng chế, tác phẩm văn học và nghệ thuật, biểu tượng, tên, ảnh và các thiết kế dùng trong thương mại.” . Theo WIPO, quyền sở hữu trí tuệ được phân thành hai loại: sở hữu công nghiệp và bản quyền.  Bản quyền là gì? . Bản quyền là thuật ngữ pháp lý mô tả quyền của người sáng tạo đối với các tác phẩm văn học và nghệ thuật của họ. Bảo vệ bản quyền là tự động cho dù tác phẩm này có được đăng ký hay không. Ngay khi tác phẩm được viết ra, nó đã được bảo vệ. . Bản quyền phức tạp và khác nhau giữa các nước. 43
  44.  Ai là chủ sở hữu bản quyền? . Nói chung, người sáng tạo ra tác phẩm là chủ sở hữu bản quyền. Trong trường hợp có từ hai người sáng tạo trở lên, điều quan trọng là cần có một bản cam kết viết ra xem ai là chủ sở hữu bản quyền. Mặt khác, đã có những ngoại lệ với quy định này, và ngoại lệ cũng khác nhau giữa các nước. . Bản quyền cũng có thể được cấp lại (thí dụ, cho nhà xuất bản) và/hoặc hết thời hạn sau khi tác giả chết.  Quyền dành riêng cho chủ sở hữu bản quyền . Quyền tái bản tác phẩm (gồm sao chụp, sao chép, làm phim, ghi âm và quét) . Đưa tác phẩm đến với công chúng lần đầu tiên 44
  45. . Tuyên truyền tác phẩm với công chúng . Trình diễn tác phẩm với công chúng (chiếu phim, chơi nhạc) . Phóng tác (gồm dịch, kịch hoá, chuyển biên) . Truyền tệp và ghi âm cho công chúng bằng cách sử dụng bất kỳ hình thức công nghệ nào (qua thư điện tử, phát thanh, ) . Phát lại trên vô tuyến hoặc truyền hình.  Bản quyền sẽ chấm dứt trong bao lâu? . Khoảng thời gian bản quyền khác nhau giữa các nước. Ở Philippines, khoảng thời gian bản quyền chấm dứt sau khi người sáng tạo chết 50 năm. 45
  46. . Ở Ôxtrâylia, từ tháng 1/2005, khoảng thời gian bản quyền là cuộc đời người sáng tạo công thêm 70 năm hoặc 70 năm từ khi tác phẩm được xuất bản lần đầu tiên. . Các điều khoản ở Hoa Kỳ còn phức tạp hơn.  Vi phạm bản quyền là gì? . Vi phạm bản quyền là sử dụng tài liệu được bảo vệ bản quyền không được phép của chủ sở hữu, hoặc cấp phép và/hoặc bán trái phép.  Các hoạt động không vi phạm bản quyền . Đó là các hoạt động thuộc sử dụng không phải xin phép. . Sử dụng thông tin, không nằm trong diện bảo vệ bản quyền. 46
  47.  Các tác phẩm không đƣợc bảo vệ bản quyền . Ý tưởng, quá trình, hệ thống, phương pháp hoặc hoạt động, khái niệm, nguyên lý, phát hiện hoặc siêu dữ liệu cũng như sự kiện nếu được diễn tả, giải thích, minh hoạ hoặc kèm trong một tác phẩm. . Tin tức hàng ngày và các sự kiện linh tinh khác có tính chất bình thường của thông tin báo chí. . Tài liệu luật, hành chính hoặc có tính pháp lý, cũng như các bản dịch chính thức của các tài liệu này. . Tài liệu của chính phủ; tuy nhiên cần phải xin phép trước khi khai thác vì mục đích lợi nhuận. . Tác giả của các bài nói chuyện, bài giảng, bài thuyết giáo, bài luận văn sẽ có độc quyền tạo ra bộ sưu tập các tác phẩm của họ. 47
  48.  Quyền tinh thần . Bổ sung cho bản quyền, người sáng tạo có các quyền tinh thần. Đó là các quyền dành cho người sáng tạo tác phẩm, thực hiện hành động nếu ai đó xâm phạm tác phẩm hoặc tác phẩm bị xuyên tạc.  Học thuyết chấm dứt quyền sau lần bán đầu tiên là gì? . Khi thư viện hoặc cá nhân mua hợp pháp một bản sao tác phẩm, Học thuyết chấm dứt quyền sau lần bán đầu tiên của luật bản quyền (17 U.S.C. Section 109) cho phép thư viện hoặc cá nhân này có thể thực hiện quyền dành riêng khác của bản quyền-quyền phổ biến bản sao-không cần phép của chủ sở hữu bản quyền 48
  49. . Lần bán đầu tiên đảm bảo cho thư viện mượn sách và tiến hành các dịch vụ liên thư viện không cần cam kết không vi phạm bản quyền.  Hƣớng dẫn sử dụng không phải xin phép Việc sao chép cá nhân một tác phẩm đã xuất bản ra một bản sao duy nhất, ở đây việc sao chép được thực hiện bởi một người tự nhiên chỉ cho mục đích nghiên cứu hoặc học tập cá nhân, sẽ được phép, không cần sự cho phép của chủ sở hữu bản quyền tác phẩm. Mặt khác, bản quyền sẽ không được mở rộng cho: . Sao chép toàn bộ cuốn sách hoặc phần quan trọng của nó hoặc nhạc phẩm dưới dạng đồ hoạ bằng các phương tiện sao chụp; . Tập hợp dữ liệu và các tài liệu khác; . Chương trình máy tính. 49
  50. . Bất kỳ tác phẩm nào khi sao chép có thể làm ảnh hưởng quyền lợi hợp pháp của tác giả. . Việc sử dụng chương trình máy tính cùng với máy tính cho mục đích này, và để mở rộng chương trình máy tính đã có; . Mục đích lưu trữ, và để thay thế bản sao đã có sở hữu luật pháp của một chương trình máy tính nếu bị mất, phá huỷ hoặc không sử dụng được nữa. 50
  51.  Phân tích 4 yếu tố về sử dụng không phải xin phép . Sử dụng việc kiểm tra sau đây để xác định việc sử dụng có phải là không cần xin phép hay không: – Mục đích và đặc điểm sử dụng là gì? Đó sử dụng có bản chất thương mại hay mục đích đào tạo phi lợi nhuận, – Bản chất của tác phẩm có bản quyền; – Số lượng và thực chất của phần được sử dụng so với toàn bộ tác phẩm; – Tác động của Việc sử dụng đến thị trường tiềm năng hoặc gía trị của tác phẩm được bảo vệ bản quyền. 51
  52.  Quyền đặc biệt của thƣ viện Các thư viện được phép thực thi những quyền đặc biệt bổ sung cho việc sử dụng không phải xin phép. Một số quyền đó là: . Lưu trữ những tác phẩm bị phá huỷ, hư hỏng, ăn cắp và mất. . Sao chụp cho người dùng thư viện. . Sao chụp cho những người dùng khác (mượn liên thư viện).  Trình diễn và trƣng bày trong dạy trực tiếp và đào tạo từ xa . Các cơ quan giáo dục cũng được phép trưng bày và trình diễn tác phẩm khác trong các khoá học có giảng dạy trực tiếp, và mức độ ít hơn trong đào tạo từ xa. 52
  53.  Bảo vệ bản quyền quốc tế . Không có gì là bảo vệ bản quyền quốc tế, nhưng phần lớn các nước có bảo vệ các tác phẩm nước ngoài theo các hiệp ước và công ước quốc tế.  Ghi nhớ . Nếu không chắc chắn về các điều khoản của luật này, để áp dụng cụ thể, cần xin giấy phép sử dụng tài liệu từ chủ sở hữu bản quyền và/hoặc tư vấn luật sư vì luật bản quyền ở các nước khác nhau thì khác nhau. Mặt khác, cũng nên nhớ rằng, do công ước quốc tế, có sự dành cho nhau những đặc quyền trong luật này với các nước tham gia công ước, hiệp ước hoặc nghị định liên quân đến quyền sở hữu trí tuệ. 53
  54. c. Luật bản quyền hiện hành có áp dụng trong thời đại số hay không?  Mở đầu . Mục đích của luật bản quyền là cân bằng quyền của chủ sở hữu bản quyền và người dùng. Luật bản quyền hiện hành có áp dụng được trong thời đại số hay không? Thư viện mua thông tin để cung cấp bình đẳng cho cộng đồng của mình. Vì ngày càng có nhiều thông tin phổ biến dưới dạng số, nên thư viện cần phải chú ý để đảm bảo cho công chúng có thể được hưởng các quyền truy cập giống như với thông tin dạng in. 54
  55.  Bản sao số . Bản quyền dựa trên việc sao chép tài liệu. Trong thời đại in, việc sao chụp có thể nhận biết được, và một trong các quyền dành riêng chi chủ sở hữu bản quyền là sao chụp. Trong thời đại số, các bản sao số được tạo ra ngay khi tài liệu này được truy cập.  Cấp phép và quyền sở hữu . Ngày nay các thư viện không bổ sung tài liệu số để sở hữu riêng. Thay vào đó họ mua quyền truy cập, mà đòi hỏi đặt mua dài hạn liên tục  Vấn đề bảo quản . Luật bản quyền cho phép thư viện sao chụp tài liệu in và sao chép tài liệu điện tử với mục đích bảo quản. 55
  56.  Đăng ký trƣớc điện tử . Luật bản quyền hạn chế việc đặt trước tài liệu điện tử ở các chương, bài báo đơn lẻ, một số biểu đồ và các minh hoạ khác, hoặc những phần nhỏ của tác phẩm. . Truy cập cũng có thể hạn chế cho các thành viên của lớp và cần chấm dứt vào cuối khoá học này. Giấy phép cũng có thể cần thiết đối với những tài liệu mà sẽ được sử dụng lại sau này.  Ngoại lệ đối với thƣ viện và cơ quan lƣu trữ . Theo Đạo luật bản quyền ở Hoa Kỳ, mục 404 của đạo luật bản quyền thiên niên kỷ số (DMCA) bổ sung mục 108 của đạo luật bản quyền. 56
  57. . Mục “Hạn chế các quyền đặc biệt: Tái bản bởi thư viện và cơ quan lưu trữ”  Kết luận . Mặc dù DMCA đã có hiệu lực năm 2000, những vẫn còn những vấn đề bất ổn và các mối quan tâm về bản quyền trong thời đại số. Đó là vấn đề ở Hoa Kỳ cũng như ở bất kỳ nước nào. Một lần nữa, xin lưu ý rằng nên tư vấn luật sư về các vấn đề bản quyền cụ thể.  Dùng Internet để tìm các luật trong nước bạn tác động đến bản quyền trong thời đại số. Nếu không có, hãy tìm các diều khoản bản quyền tác động đến thư viện ở nước bạn. 57
  58.  TÀI LIỆU THAM KHẢO 1. Đỗ Quang Vinh (2009), Thư viện số - Chỉ mục và Tìm kiếm, Nxb Đại học Quốc gia Hà Nội. 2. Lourdes T.D. (2006), Thư viện số và truy cập mở tài liệu lưu trữ, Nguyễn Xuân Bình và nnk biên dịch, UNESCO, Hà Nội. 3. Arms W.Y. (2003), Digital Libraries, MIT Press, Cambridge. 4. Fox E.A. (2000), Advanced Digital Libraries, Virginia Polytechnic Institue and State University. 5. Lesk M. (2005), Understanding Digital Libraries, 2nd Edition, Morgan Kaufmann, San Francisco. 6. Witten I.H., Bainbridge D. (2003), How to Build a Digital Library, Morgan Kaufmann, San Francisco. 58
  59. KẾT THÚC ! TRÂN TRỌNG CÁM ƠN ! 59
  60. PHD. DO QUANG VINH Email: dqvinh@live.com HANOI - 2013
  61. BÀI GIẢNG THƯ VIỆN SỐ TS. ĐỖ QUANG VINH Email: dqvinh@live.com HÀ NỘI - 2013
  62. NỘI DUNG I. TỔNG QUAN VỀ THƯ VIỆN SỐ DL II. MÔ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DL III. CHỈ MỤC TÀI LIỆU IV. TÌM KIẾM THÔNG TIN V. CÁC CHUẨN SỬ DỤNG TRONG THƯ VIỆN SỐ VI. THỰC HÀNH HỆ PHẦN MỀM THƯ VIỆN SỐ GREENSTONE 3
  63. II. MÔ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DL 1. Cơ sở toán học . Định nghĩa 2.1: Một tập hợp là một sưu tập không sắp xếp các thực thể phân biệt. . Định nghĩa 2.2: Một quan hệ nhị phân R trên tập hợp A và B là một tập con của A x B. Ký hiệu (a,b) R là aRb. Một quan hệ R n-phân trên các tập hợp A1, A2, , An là một tập con của tích Đề các A1x A2 x x An . Định nghĩa 2.3: Cho trước hai tập hợp A và B, một hàm f là một quan hệ nhị phân trên A x B sao cho đối với mỗi một a A tồn tại b B sao cho (a,b) f và nếu (a,b) f và (a,c) f thì b = c. Tập hợp A được gọi là miền xác định của f và tập hợp B được gọi là miền giá trị của f. Ký pháp f : A B và b = f(a) là một ký pháp chung đối với (a,b) f. Tập hợp {f(a)| a A} được gọi là vùng của f. . Định nghĩa 2.4: Một dãy là một hàm f , có miền xác định là tập hợp các số tự nhiên hoặc tập con ban đầu nào đó của {1, 2, , n} của các số tự nhiên và miền giá trị của nó là tập bất kỳ4.
  64. . Định nghĩa 2.5: Một bộ là một dãy hữu hạn thường được ký hiệu bằng cách liệt kê dải các giá trị của hàm như . . Định nghĩa 2.6: Một xâu là một dãy hữu hạn các ký tự hoặc ký hiệu rút ra từ một tập hợp hữu hạn với ít nhất hai phần tử, được gọi là bảng chữ. Một xâu thường được ký hiệu bằng cách nối với nhau dải các giá trị không có ký tự phân cách. Cho  là một bảng chữ. * ký hiệu tập hợp tất cả xâu từ , bao hàm xâu rỗng (một dãy rỗng ). Một ngôn ngữ là một tập con của *. 5
  65. . Định nghĩa 2.7: Một đồ thị G là một cặp (V, E), trong đó V là một tập đỉnh không rỗng và E là một tập của một tập cạnh {u, v}, u, v V. Một đồ thị có hướng G là một cặp (V, E), trong đó V là một tập đỉnh (nút) không rỗng và E là một tập cạnh (cung) trong đó mỗi một cạnh là một cặp thứ tự đỉnh phân biệt (vi, vj) với vi, vj V và vi vj. Cạnh (vi, vj) được gọi là liên thuộc trên các đỉnh vi và vj, trong đó vi kề với vj và vj kề từ vi. . Định nghĩa 2.8: Một văn phạm phi ngữ cảnh là một bộ bốn (V, , R, s0) trong đó V là một tập biến gọi là không kết thúc,  là bộ chữ ký hiệu kết thúc, R là một tập luật hữu hạn và s0 là một phần tử phân biệt của V gọi là ký hiệu bắt đầu. Một luật/ một sản xuất là một phần tử của tập V x (V  )*. Mỗi một sản xuất có dạng SX trong đó SX là một ký hiệu không kết thúc và là một xâu ký hiệu (kết thúc và/hoặc không kết thúc). 6
  66. 2. Dòng . Định nghĩa 2.14: Một dòng là một dãy có miền giá trị là một tập không rỗng. 3. Cấu trúc . Định nghĩa 2.15: Một cấu trúc là một bộ (G, L, F), trong đó G = (V, E) là một đồ thị có hướng với tập đỉnh V và tập cạnh E, L là một tập giá trị nhãn và F là một hàm gán nhãn F : (V  E) L 4. Không gian . Định nghĩa 2.23: Một không gian là một không gian đo được, không gian độ đo, không gian xác suất, không gian vector hoặc một không gian topo7
  67. 5. Kịch bản . Định nghĩa 2.26: Một kịch bản là một dãy sự kiện chuyển trạng thái liên quan (e1, e2, , en) trên tập trạng thái S sao cho ek = (sk, sk+1) đối với 1 k n 6. Cộng đồng . Định nghĩa 2.29: Một cộng đồng là một bộ (C, R), trong đó: C = {c1 , c2, , cn} là một tập của các cộng đồng khái niệm, mỗi một cộng đồng quy về một tập cá thể có cùng lớp hoặc kiểu; R = {r1 , r2, , rn} là một tập quan hệ, mỗi một quan hệ là một bộ rj = (ej, ij) trong đó ej là một tích Đề các ck1 x ck2 x x cknj , 1 k1 < k2 < < knj n, định rõ các cộng đồng bị dính vào quan hệ và ij là một hoạt động mô tả tương tác hoặc truyền thông giữa các cá thể 8
  68. 7. Định nghĩa hình thức thư viện số . Định nghĩa 2.41: Một thư viện số là một bộ bốn (R, MC, DV, XH) trong đó: R là một kho; MC là một mục lục siêu dữ liệu; DV là một tập dịch vụ chứa tối thiểu các dịch vụ chỉ mục, tìm kiếm và duyệt; XH là một cộng dồng NSD thư viện số. 9
  69.  TÀI LIỆU THAM KHẢO 1. Đỗ Quang Vinh (2009), Thư viện số - Chỉ mục và Tìm kiếm, Nxb Đại học Quốc gia Hà Nội. 2. Lourdes T.D. (2006), Thư viện số và truy cập mở tài liệu lưu trữ, Nguyễn Xuân Bình và nnk biên dịch, UNESCO, Hà Nội. 3. Arms W.Y. (2003), Digital Libraries, MIT Press, Cambridge. 4. Fox E.A. (2000), Advanced Digital Libraries, Virginia Polytechnic Institue and State University. 5. Lesk M. (2005), Understanding Digital Libraries, 2nd Edition, Morgan Kaufmann, San Francisco. 6. Witten I.H., Bainbridge D. (2003), How to Build a Digital Library, Morgan Kaufmann, San Francisco. 10
  70. KẾT THÚC ! TRÂN TRỌNG CÁM ƠN ! 11
  71. PHD. DO QUANG VINH Email: dqvinh@live.com HANOI - 2013
  72. BÀI GIẢNG THƯ VIỆN SỐ TS. ĐỖ QUANG VINH Email: dqvinh@live.com HÀ NỘI - 2013
  73. NỘI DUNG I. TỔNG QUAN VỀ THƯ VIỆN SỐ DL II. MÔ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DL III. CHỈ MỤC TÀI LIỆU IV. TÌM KIẾM THÔNG TIN V. CÁC CHUẨN SỬ DỤNG TRONG THƯ VIỆN SỐ VI. THỰC HÀNH HỆ PHẦN MỀM THƯ VIỆN SỐ GREENSTONE 3
  74. III. CHỈ MỤC TÀI LIỆU VĂN BẢN 3.1 MỞ ĐẦU . Định nghĩa 3.1 (từ để nhận dạng đối với chỉ mục): là một dãy cực đại của các ký tự chữ và số, nhưng giới hạn tối đa 256 ký tự và tối đa 4 ký tự số . Bảng 3.1 - CSDL TREC Số tài liệu N 741856 Số thuật ngữ F 333338738 Số thuật ngữ riêng biệt n 535346 Số con trỏ chỉ mục f 134994414 Kích thước tổng (MB) 2070.29 4
  75. 3.2 CHỈ MỤC TỆP ĐẢO IFID . Định nghĩa 3.2 (Đỗ Trung Tuấn): Chỉ mục là bảng dữ liệu hay cấu trúc dữ liệu dùng để xác định vị trí của các dòng trong tệp theo điều kiện nào đó . Định nghĩa 3.3 (Folk M.J., Zoellick B., Riccardi G.): Chỉ mục là một cách tìm kiếm thông tin . Định nghĩa 3.4: Chỉ mục là một cơ chế nhằm định vị thuật ngữ cho trước trong văn bản . Định nghĩa 3.5 (chỉ mục tệp đảo IFID): Đối với mỗi một thuật ngữ trong từ điển, một IF chứa một danh sách đảo (IL) lưu trữ một danh sách con trỏ tới tất cả xuất hiện của thuật ngữ đó trong văn bản chính, trong đó mỗi một con trỏ trong thực tế là số tài liệu mà thuật ngữ đó xuất hiện. IL đôi khi được coi là một danh sách mục lục và các con trỏ là mục lục  Đây là phương pháp chỉ mục tự nhiên nhất, gần tương ứng với chỉ mục của một cuốn sách và với cách dùng mục lục truyền thống 5
  76. Bảng 3.2 - Văn bản mẫu; mỗi dòng là một tài liệu TÀI LIỆU VĂN BẢN 1 Information retrieval is searching and indexing 2 Indexing is building an index 3 An inverted file is an index 4 Building an inverted file is indexing 6
  77. Bảng 3.3 - IF đối với văn bản của bảng 3.2 Số Thuật ngữ IL(tài liệu; vị trí) 1 an (2;4), (3;1), (3;5), (4;2) 2 and (1;5) 3 building (2;3), (4;1) 4 file (3;3), (4;4) 5 index (2;5), (3;6) 6 indexing (1;6), (2;1), (4;6) 7 information (1;1) 8 inverted (3;2), (4;3) 9 is (1;3), (2;2), (3;4), (4;5) 10 retrieval (1;2) 11 searching (1;4) 7
  78. . Định nghĩa 3.6: Độ hạt (granularity) của một chỉ mục là tính chính xác để nhận dạng vị trí của thuật ngữ Bảng 3.4 - IF mức từ đối với văn bản của bảng 3.2 Số Thuật ngữ (Tài liệu; từ) 1 an 2 and 3 building 4 file 5 index 6 indexing 7 information 8 inverted 9 is 10 retrieval 11 searching 8
  79. . Xây dựng chỉ mục tệp đảo IFID . Xây dựng chỉ mục là một trong những nhiệm vụ thách thức nhất phải đương đầu khi xây dựng một CSDL. Ở đây, ta đề cập đến bài toán xây dựng chỉ mục tệp đảo IFID, vì đây là dạng chỉ mục thiết thực nhất đối với cả hai truy vấn BQ và RQ. . Quá trình xây dựng chỉ mục được coi là sự đảo văn bản. Từ điển The Concise Oxford Dictionary định nghĩa “sự đảo là đảo lộn trên dưới, đảo vị trí, trật tự hoặc quan hệ bình thường” và đây đúng là điều phải làm để tạo lập chỉ mục. 9
  80. . Xét văn bản mẫu ở bảng 3.2 Mỗi tài liệu của văn bản chứa một số thuật ngữ chỉ mục và mỗi một thuật ngữ chỉ mục xuất hiện ở một số dòng. Quan hệ có thể được biểu diễn với một ma trận tần suất, trong đó mỗi một cột tương ứng với một từ, mỗi một hàng tương ứng với một tài liệu và số chứa tại hàng và cột bất kỳ là tần suất của từ chỉ định bởi cột đó. Ma trận tần suất đối với văn bản của bảng 3.2 được trình bày ở bảng 5.1 10
  81. Bảng 5.1 - Ma trận tần suất đối với văn bản của bảng 3.2 Thuật ngữ information retrieval searching indexing building index inverted file 1 1 1 - 1 - - - - 2 - - - 1 1 1 - - 3 - - - - - 1 1 1 4 - - - 1 1 - 1 1 11
  82. Bảng 5.2 - Chuyển vị tương đương của ma trận tần suất của bảng 5.1 Tài liệu Số Thuật ngữ 1 2 3 4 1 information 1 - - - 2 retrieval 1 - - - 3 searching - - - - 4 indexing 1 1 - 1 5 building - 1 - 1 6 index - 1 1 - 7 inverted - - 1 1 8 file - - 1 1 12
  83. . GIẢI THUẬT 5.1 ĐẢO DANH SÁCH MÓC NỐI 1. Sản xuất một chỉ mục đảo đối với một CSDL tài liệu /* Khởi tạo */ 2. Tạo ra một cấu trúc từ điển rỗng S. /* Pha 1 - tập hợp các xuất hiện thuật ngữ */ Đối với mỗi một tài liệu Dd trong CSDL, 1 ≤ d ≤ N, a. Đọc Dd , phân tích cú pháp nó thành các thuật ngữ chỉ mục b. Đối với mỗi một thuật ngữ chỉ mục t Dd i. Cho fd,t là tần suất của thuật ngữ t trong Dd ii. Tìm kiếm S đối với t iii. Nếu t không có trong S, chèn nó iv. Thêm một nút lưu trữ vào danh sách tương ứng với thuật ngữ t 13
  84. 3. /* Pha 2 - đầu ra của IF */ Đối với mỗi một thuật ngữ 1 ≤ t ≤ N a. Bắt đầu một mục vào IF mới b. Đối với mỗi một trong danh sách tương ứng với t, thêm vào mục vào IF này a. Nếu yêu cầu, nén mục vào IF b. Thêm mục vào IF này vào IF.  Thời gian đảo T yêu cầu là: T = Btr + Ftp + (đọc và phân tích cú pháp văn bản) I(td + tr) (ghi IF nén) 14
  85. Hình 5.1 - Cấu trúc dữ liệu biểu diễn IF đối với văn bản của bảng 3.2 information 1 1 retrieval 1 2 searching 1 4 indexing 1 6 2 1 4 6 buiding 2 3 4 1 index 2 5 3 6 inverted 3 2 4 3 file 3 3 4 4 15
  86. 3.3 CHỈ MỤC TỆP KÝ SỐ SFID Bảng 3.5 – Mã hoá chồng lên của tài liệu 2 đối với SF Thuật ngữ Ký số thuật ngữ indexing 0001 0000 1100 0100 is 0100 0100 0001 0000 building 0101 0011 0000 0000 an 0000 0100 0100 1100 index 1100 1000 0010 0000 Ký số bloc 1101 1111 1111 1110 . Tệp ký số SF: là một phương pháp xác suất để chỉ mục văn bản. Mỗi một tài liệu có một ký số liên kết, một xâu bit bắt nội dung tài liệu theo một nghĩa nào đó . Tệp ký số bitslice: Sự truy cập SF có thể được tăng nhanh hơn bằng cách dùng kỹ thuật bitslicing, tức là kỹ thuật chuyển vị ma trận bit 16
  87. 3.4 SO SÁNH CÁC PHƯƠNG PHÁP CHỈ MỤC . Phương pháp chỉ mục tệp đảo IFID và chỉ mục tệp ký số SFID là hai phương pháp chỉ mục chính tài liệu trong thư viện số. . Quy luật chỉ mục tài liệu trong DL: Ở hầu hết các ứng dụng, IF thực hiện tốt hơn SF trong phạm vi của cả hai kích thước chỉ mục và tốc độ truy vấn. IF nén là phương pháp chỉ mục hữu ích nhất một CSDL lớn các tài liệu văn bản có độ dài có thể thay đổi. 3.5 CÁC MÔ HÌNH NÉN IFID 3.5.1 Đặt vấn đề Khảo sát các mô hình và phương pháp mã hoá để nén IFID CSDL tài liệu trong thư viện số. Chìa khoá của bài toán nén là nhận xét mỗi một IL có thể được lưu trữ như một dãy số nguyên tăng dần. 17
  88. 3.5.2 Mô hình nén toàn cục . Mô hình không tham số . Mô hình Bernoulli toàn cục 3.5.3 Các mô hình nén cục bộ . Mô hình hyperbol cục bộ . Mô hình Bernoulli cục bộ . Mô hình Bernoulli lệch . Mô hình nén nội suy 18
  89. 3.5.4 Hiệu năng của các mô hình nén chỉ mục Bảng 3.9 - Nén IF bằng số bit/con trỏ đối với TREC Mô hình Số bit/con trỏ Mô hình toàn cục Đơn nguyên 1918 Nhị phân 20.00 Bernoulli 12.30  6.63  6.38 Mô hình cục bộ Hyperbol 5.89 Bernoulli 5.84 Bernoulli lệch 5.44 Nội suy 5.18 19
  90.  NHẬN XÉT: Các mô hình cục bộ có xu hướng thực hiện nén tốt hơn mô hình toàn cục và không hiệu quả hơn về thời gian xử lý đòi hỏi trong khi giải mã, vì chúng có xu hướng cài đặt phức tạp hơn. Đối với mục đích thực hành, mô hình nén chỉ mục phù hợp nhất là phương pháp Bernoulli cục bộ, cài đặt dùng kỹ thuật mã hoá Golomb 3.6 CÁC HIỆU ỨNG . Gộp dạng chữ (case folding) . Truy gốc từ (stemming) . Từ bỏ qua (stop word) 20
  91.  TÀI LIỆU THAM KHẢO 1. Đỗ Quang Vinh (2009), Thư viện số - Chỉ mục và Tìm kiếm, Nxb Đại học Quốc gia Hà Nội. 2. Lourdes T.D. (2006), Thư viện số và truy cập mở tài liệu lưu trữ, Nguyễn Xuân Bình và nnk biên dịch, UNESCO, Hà Nội. 3. Arms W.Y. (2003), Digital Libraries, MIT Press, Cambridge. 4. Fox E.A. (2000), Advanced Digital Libraries, Virginia Polytechnic Institue and State University. 5. Lesk M. (2005), Understanding Digital Libraries, 2nd Edition, Morgan Kaufmann, San Francisco. 6. Witten I.H., Bainbridge D. (2003), How to Build a Digital Library, Morgan Kaufmann, San Francisco. 21
  92. KẾT THÚC ! TRÂN TRỌNG CÁM ƠN ! 22
  93. PHD. DO QUANG VINH Email: dqvinh@live.com HANOI - 2013
  94. BÀI GIẢNG THƯ VIỆN SỐ TS. ĐỖ QUANG VINH Email: dqvinh@live.com HÀ NỘI - 2013
  95. NỘI DUNG I. TỔNG QUAN VỀ THƯ VIỆN SỐ DL II. MÔ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DL III. CHỈ MỤC TÀI LIỆU IV. TÌM KIẾM THÔNG TIN V. CÁC CHUẨN SỬ DỤNG TRONG THƯ VIỆN SỐ VI. THỰC HÀNH HỆ PHẦN MỀM THƯ VIỆN SỐ GREENSTONE 3
  96. IV. TÌM KIẾM THÔNG TIN 4.1 MÔ HÌNH TÌM KIẾM THÔNG TIN . Tìm kiếm thông tin IR đề cập đến tổ chức, lưu trữ, tìm kiếm và đánh giá thông tin có liên quan tới nhu cầu thông tin của NSD. . Mô hình IR tổng quát là một cặp bao gồm các đối tượng và một ánh xạ liên kết (“tìm kiếm”) một số đối tượng với một đối tượng đại diện cho một truy vấn. Cho D = {d1, d2, , dM}, M 2 (4.1) là một tập hữu hạn không rỗng đối tượng.  Chú ý: trường hợp M = 1 có thể được xem xét nhưng nó là tầm thường. Các đối tượng tiêu biểu là đại diện. 4
  97. Cho  là một ánh xạ tìm kiếm từ D vào trong lực lượng của nó (D), nghĩa là,  : D (D) (4.2) Bằng cách kết hợp tập đối tượng D và ánh xạ tìm kiếm , chúng tôi định nghĩa cấu trúc tìm kiếm thông tin như sau: . Định nghĩa 4.1 (cấu trúc tìm kiếm thông tin): Cấu trúc tìm kiếm thông tin SIR là một bộ 2 S = (4.3) Định nghĩa 4.1 là một định nghĩa tổng quát: nó không đề cập đến về các dạng riêng biệt của ánh xạ tìm kiếm  và đối tượng D. Từ đó, các mô hình IR riêng biệt khác nhau có thể nhận được bằng cách đặc tả D và . 5
  98. . Định nghĩa 4.2 (mô hình tìm kiếm thông tin MIR): Mô hình tìm kiếm thông tin MIR là một SIR S = với 2 thuộc tính sau đây: i. q =  ãi(q, ) = 1 i, q,  (tính phản xạ); (4.4) i ii.  (q) = { D| ãi(q, ) = max ãk(q, k)} a i, i cố định tùy ý. trong đó: + T = {t1, t2, , tN} là một tập hữu hạn thuật ngữ chỉ mục, N 1; + O = {o1, o2, , oU} là một tập hữu hạn đối tượng, U 2; + (Dj)j J = {1, 2, , M} là một họ cluster đối tượng, Dj (O), M 2; 6
  99. + D = {j| j J} là một tập tài liệu, trong đó tập mờ đã chuẩn hóa j = {(tk , j(tk))| tk T, k = 1, , N}, j = 1, , M, j : T S  [0, 1]  R là đại diện cluster của cluster đối tượng Dj. + A = {ã1, , ãC} là một tập hữu hạn tiêu chuẩn, C 1, trong đó ãi = {((q, j), ãi(q, j)) | j D, j =1, , M}, i = 1, , C là một quan hệ mờ chuẩn hóa, ãi : D x D [0, 1]  R, q D cố định tùy ý.  Theo truyền thống, IR kinh điển có thuộc tính phân đôi (lưỡng cực) trong đó có 2 tiêu chuẩn rõ ràng: i. có mặt và không có mặt; ii. tìm kiếm được thực hiện dựa vào (i). 7
  100. + a i = { D| ãi(q, ) > i}, i = 1, , C là một i-lát cắt tiêu chuẩn mạnh ãi, i 0, q D cố định tùy ý; +  : D (D) là một ánh xạ tìm kiếm. Về mặt hình thức, tìm kiếm nghĩa là liên kết một tập con tài liệu với một truy vấn nếu chúng liên quan với nhau – tuân theo một tiêu chuẩn lựa chọn - đủ mạnh. Từ đó, chúng ta bắt buộc phải xem truy vấn là một tài liệu và tìm kiếm được định nghĩa dùng -lát cắt. 8
  101. . Định nghĩa 4.3: R.B. Yates và B.R. Neto Một mô hình tìm kiếm thông tin là một bộ bốn [D, Q, F, R(qi, dj)] trong đó: + D là một tập các tài liệu; + Q là một tập hợp các truy vấn của NSD; + F là một khung mô hình hóa các biểu diễn tài liệu, truy vấn và các quan hệ giữa chúng; + R(qi, dj) là một hàm sắp xếp liên kết một số thực với một truy vấn qi Q và một biểu diễn tài liệu dj D. Hàm sắp xếp xác định thứ tự giữa các tài liệu đối với truy vấn qi. 9
  102. Khảo sát 3 kiểu truy vấn: . Truy vấn Boole BQ truyền thống; . Truy vấn xếp hạng RQ; . Mô hình tìm kiếm thông tin xác suất. 4.2 TRUY VẤN BOOLE BQ 4.2.1 Truy vấn BQ hội Dạng t1 AND t2 AND AND tr 4.2.2 Truy vấn BQ không hội Dạng phổ biến khác là một phép hội của các phép tuyển: (text OR data OR information) AND (search OR seek) AND (retrieval OR indexing) 10
  103. 4.3 TRUY VẤN XẾP HẠNG RQ 4.3.1 So khớp toạ độ Đếm số thuật ngữ truy vấn xuất hiện trong mỗi một tài liệu 4.3.2 Tích trong độ tương tự Quá trình được hình thức hoá bằng một tích trong của một vectơ truy vấn với một tập vectơ tài liệu Độ tương tự của truy vấn Q với tài liệu Dd được biểu diễn như sau: . S(Q, Dd) = Q Dd (4.5) trong đó: phép toán . là phép tích trong Tích trong của hai n-vectơ X = và Y = được định nghĩa: n X.Y  xiyi i 1 (4.6) 11
  104. Bảng 4.1 – Các vectơ đối với tính toán tích trong (a) Vectơ tài liệu, (b) Vectơ truy vấn. Vectơ tài liệu Wd,t D inf ret sea indexing bui index inv file (a) 1 1 1 1 1 0 0 0 0 2 0 0 0 1 1 1 0 0 3 0 0 0 0 0 1 1 1 4 0 0 0 1 1 0 1 1 searching 0 0 1 0 0 0 0 0 (b) indexing 0 0 0 1 0 0 0 0 12
  105. Ví dụ: . S(indexing, D1) = (0, 0, 0, 1, 0, 0, 0, 0) (1, 1, 1, 1, 0, 0, 0, 0) = 1  Cách tiếp cận so khớp toạ độ có 3 hạn chế: 1. Không tính đến tần suất thuật ngữ 2. Không tính đến sự khó tìm thuật ngữ 3. Các tài liệu dài với nhiều thuật ngữ . Bài toán 1 có thể được giải quyết bằng cách thay thế đánh giá “có” hoặc “không” nhị phân bằng một số nguyên chỉ thị thuật ngữ xuất hiện bao nhiêu lần trong tài liệu. 13
  106. Định nghĩa tần suất bên trong tài liệu của thuật ngữ fd,t : Số đếm chỉ thị số lần thuật ngữ xuất hiện trong tài liệu Ví dụ: Tính độ tương tự đối với truy vấn mẫu trở thành S(information retrieval, D1) = (1, 1, 0, 0, 0, 0, 0, 0,) . (1, 1, 1, 1, 0, 0, 0, 0) = 2 vì tài liệu D1 chứa information 1 lần và retrieval 1 lần. Tổng quát hơn, thuật ngữ t trong tài liệu d có thể được gán một trọng số tài liệu - thuật ngữ, ký hiệu là wd,t và trọng số khác wq,t trong vectơ truy vấn 14
  107. Độ tương tự là tích trong của hai trọng số wd,t và wq,t – lấy tổng của tích các trọng số của các thuật ngữ truy vấn và thuật ngữ tài liệu tương ứng: n S(Q, D ) = Q . D =  w q,t  w d,t (4.7) d d t 1 Nếu wq,t = 0 thì (nếu t không xuất hiện trong Q) độ tương tự như ∑ wq,t  wd,t sau: S(Q, Dd) = t∈ Q (4.8) . Bài toán 2 không tính đến các thuật ngữ khó tìm. Một tài liệu với đủ lần xuất hiện của một thuật ngữ phổ biến luôn được xếp hạng đầu tiên nếu truy vấn chứa thuật ngữ đó, khổng kể các từ khác, bằng cách lấy trọng số thuật ngữ tuân theo tần suất tài liệu đảo IDF. 15
  108. Zipf quan sát tần suất của một mục tin có xu hướng là tỉ lệ nghịch với hạng của nó. Tức là, nếu hạng được coi là một độ đo tầm quan trọng thì trọng số wt của một thuật ngữ t được tính như sau: 1 w t (4.9) ft trong đó: ft là số tài liệu chứa thuật ngữ t. Trọng số thuật ngữ wt được sử dụng theo 3 cách khác nhau: 1. Có thể được nhân với một giá trị tần suất thuật ngữ tương đối rd,t để sinh ra trọng số tài liệu-thuật ngữ wd,t , trong đó rd,t có thể được tính theo một số cách khác nhau. 2. Trọng số thuật ngữ có thể được tổ hợp bằng cách nhân với rq,t sinh ra một trọng số truy vấn-thuật ngữ wq,t 3. Có thể được dùng trong cả hai tính toán wd,t và wq,t , tức là, áp dụng hai lần. Không công thức nào ở trên là khả năng duy nhất được dùng đối với wt , thành phần IDF. 16
  109. . Luật TFxIDF: tần suất thuật ngữ nhân tần suất tài liệu đảo. Các vectơ tài liệu được tính như sau: wd,t = rd,t (4.12) hoặc wd,t = rd,t . wt (TF x IDF)  Chú ý: + Các thành phần TF và IDF không nên hiểu theo nghĩa đen là các hàm đưa ra tên của chúng. Một heuristic độ tương tự được gọi là “TF x IDF” bất kỳ khi dùng tần suất thuật ngữ fd,t tăng đều và tần suất tài liệu của thuật ngữ ft giảm đều. + Các trọng số truy vấn-thuật ngữ wq,t được tính tương tự 17
  110. Nhân tử chuẩn hoá để không kể đến phần đóng góp của các tài liệu dài. Do đó, luật tích trong đánh giá độ tương tự bằng  t Q wq,t  wd,t S(Q,D ) (4.14) d D d trong đó Dd  i f d,i là độ dài của tài liệu Dd 18
  111. 4.3.3 Mô hình không gian vectơ Độ tương tự đối với một cặp vectơ là khoảng cách Euclide: n 2 S( Q,D d )  w q ,t w d ,t (4.15) t 1 Hướng chỉ thị bởi 2 vectơ n x y X  Y  i i i 1 (4.18) cos  n n X Y 2 2  x i  yi i 1 i 1 Công thức có 2 hàm ý: 1. Chứng minh sự chuẩn hoá: Nhân tử chuẩn hoá là độ dài Euclide của tài liệu 2. Cung cấp một sự trực quan rõ ràng của luật xếp hạng 19
  112. Luật cosin đối với xếp hạng: 1 n Q  Dd ∑ cos(Q,D ) w q,t w d,t d t 1 Wq Wd Q Dd (4.19) n trong đó 2 Wd  w d,t t 1 (4.20) là độ dài Euclide – trọng số – của tài liệu d và n 2 (4.21) Wq ∑w q,t t 1 là trọng số của truy vấn q. Độ tương tự: 1 N cos( Q,D ) (1 log f ) log 1 d  e d,t e t QD d Wd Wq f t (4.22) 20
  113. 4.4 ĐỘ ĐO COSIN 4.4.1 Tần suất bên trong tài liệu 4.4.2 Tính độ đo cosin Xét lại công thức (4.22) đối với độ đo cosin: 1 N cos(Q,Dd )  (1 loge fd,t )loge 1 WdWq t QDd ft 4.4.3. Bộ nhớ dành cho trọng số tài liệu 4.4.4. Sắp xếp 21
  114. Giải thuật 4.2 Tìm kiếm r tài liệu dùng độ đo cosin, 1. Đặt A  { }. A là tập thanh tích luỹ. 2. Đối với mỗi một thuật ngữ truy vấn t Q, (a) Truy gốc từ t. (b) Tìm kiếm từ vựng. (c) Ghi ft và địa chỉ của It , mục vào IF đối với t. (d) Đặt wt  1 + loge(N / ft). (e) Đọc mục vào IF It. (f) Đối với mỗi một cặp (d, fd,t) thuộc It , i> Nếu Ad A thì Đặt Ad  0 , Đặt A  A + {Ad}. ii> Đặt Ad  Ad + loge(1 + fd,t) * wt. 22
  115. 3. Đối với mỗi một Ad A, Đặt Ad  Ad / Wd. Bây giờ Ad tỉ lệ với giá trị cos(Q, Dd). 4. Đối với 1 i r, (a) Lựa chọn d sao cho Ad = max{A}. (b) Dò tìm địa chỉ của tài liệu d. (c) Tìm kiếm tài liệu d và trình bày với NSD. (d) Đặt A  A - {Ad}. Giải thuật nêu lên 3 điểm như sau: 1. Wq bị bỏ qua vì Wq là một hằng số 2. lượng lớn bộ nhớ được sử dụng 3. chỉ r << N tài liệu có mặt 23
  116. 4.5 MÔ HÌNH TÌM KIẾM THÔNG TIN XÁC SUẤT . Nguyên lý xếp hạng theo xác suất do Robertson đưa ra (probability ranking principle): Nếu đáp ứng của một hệ tìm kiếm thông tin với mỗi một yêu cầu của NSD là một dãy các tài liệu sắp xếp theo thứ tự giảm dần của các xác suất liên quan, các xác suất ở đây được đánh giá là độ chính xác có thể trên CSDL có sẵn thì toàn bộ hiệu quả của hê đối với NSD sẽ là tốt nhất trên CSDL đó. . Mô hình tìm kiếm thông tin xác suất như sau: Định nghĩa 4.4 (PIR): Mô hình tìm kiếm thông tin xác suất PIR là một MIR S = thỏa mãn điều kiện sau đây: C = 2 (4.29) Chúng ta lấy C = 2 là vì ở mô hình IR xác suất truyền thống có 2 tiêu chuẩn: có liên quan và không liên quan. 24
  117. . Định nghĩa 4.5 (PIR): định nghĩa 4.4 có thể được định nghĩa lại như sau: Mô hình tìm kiếm thông tin xác suất PIR là một MIR S = trong đó: C = 2 và (q) = {|ãi(q,) ãj(q, )}, j = i + (-1)i+1, ãi(q, ) > i}. (4.30) . Định nghĩa 4.6 (mô hình tìm kiếm thông tin xác suất kinh điển) Cho D là một tập tài liệu, q D một truy vấn và P(R|(q, d)) xác suất tài liệu d D là có liên quan /không liên quan với truy vấn q tương ứng. Cho R(q) là tập tài liệu tìm kiếm đáp ứng truy vấn q. Một tài liệu d được lựa chọn đáp ứng một truy vấn q nếu P(R|(q, d)) P(I|(q, d)) (Luật quyết định Bayes) (4.31) 25
  118. nghĩa là, R(q) = {d| P(R|(q, d)) P(I|(q, d))} (4.32) Chính xác hơn, P(R|(q, d)) và P(I|(q, d)) là xác suất liên đới tới d khi nó được xét có liên quan và không liên quan tới q tương ứng. Đánh giá P(R|(q, d)) và P(I|(q, d)) dựa vào công thức Bayes. Cho D là một tập đối tượng, một đối tượng cố định bất kỳ q D và hai tiêu chuẩn ã1 và ã2 là liên quan và không liên quan tương ứng. Cho ãi(q, ), i = 1, 2 là mức độ mà một đối tượng bất kỳ d D thỏa mãn tiêu chuẩn ãi liên quan tới q. . Định nghĩa 4.7 (PIR): Mô hình tìm kiếm thông tin xác suất PIR là một MIR S = trong đó: (q) = {|ã1(q,) ã2(q, )}, ã1(q, ) > 1} (4.33) 26
  119. PIR là một trường hợp đặc biệt của MIR (ở định nghĩa 4.5, lấy i =1). S. Dominich đã chứng minh PIR ở định nghĩa 4.7 và mô hình tìm kiếm thông tin xác suất kinh điển ở định nghĩa 4.6 là tương đương. Bảng 4.4 – Các xác suất có điều kiện. Số tài liệu Có liên Không Tổng quan liên quan Thuật ngữ t có mặt Rt ft - Rt ft Thuật ngữ t R - Rt N - ft - (R - Rt) N - ft vắng mặt Tổng R N – R N 27
  120. Các xác suất có điều kiện có thể được đánh giá từ bảng 4.4. P [có liên quan | thuật ngữ t có mặt] = Rt / ft (4.34) và P [không liên quan | thuật ngữ t có mặt] = (ft – Rt) / ft Tương tự, P [thuật ngữ t có mặt | có liên quan] = Rt / R (4.35) và P [thuật ngữ t có mặt | không liên quan] = (ft – Rt) / (N – R)  trọng số wt đối với thuật ngữ t nhận được dùng công thức Bayes: R t /(R R t ) w t (f t R t ) /(N f t (R R t )) 28 (4.36)
  121. . SỰ PHẢN HỒI LIÊN QUAN Là quá trình sửa đổi truy vấn để nâng cao hiệu suất tìm kiếm Salton, Buckley và Harman đề xuất phương pháp lặp lại truy vấn. Tất cả sử dụng biểu diễn vectơ, trong đó tài liệu Dd và truy vấn Q đều được coi là n-vectơ trọng số, trong đó n là số thuật ngữ truy vấn riêng biệt. Chiến lược đơn giản nhất như sau: Qi 1 Qi Dn  Dd d R (4.39) trong đó: + Dn là tài liệu xếp hạng cao nhất không liên quan; + R là tập tài liệu có liên quan. 29
  122. . Các biểu thức phản hồi tổng quát hơn cho phép một số lớn hơn trong những tài liệu không liên quan ảnh hưởng đến truy vấn mới và bao hàm dự trữ sẵn cho truy vấn ban đầu nhằm ảnh hưởng đến tất cả truy vấn tiếp theo: Qi 1 Q0 Qi Dd Dd d R d I (4.40) trong đó: , ,  và  là các hằng trọng số (với  0); R là tập con tài liệu có liên quan; I là một tập con tài liệu không liên quan bởi vì đáp ứng của NSD với các phép lặp truy vấn. 30
  123. 4.6 ĐÁNH GIÁ HIỆU SUẤT TÌM KIẾM 4.6.1 Độ chính xác và độ phục hồi Độ chính xác P của một phương pháp xếp hạng đối với điểm cắt nào đó r là một phần trong số tài liệu xếp hạng cao nhất r có liên quan đến truy vấn: so tai lieu tim kiem co lien quan P (4.41) tong so tai lieu tim kiem Độ phục hồi R của một phương pháp tại giá trị r nào đó là tỷ lệ của tổng số tài liệu có liên quan được tìm kiếm trong r cao nhất: so tai lieu co lien quan duoc tim kiem R tong so tai lieu co lien quan (4.42) 31
  124. . Độ chính xác P: N P R  (4.41’) . Độ phục hồi R: N R R NT (4.42’) trong đó: NT là tổng số tài liệu có liên quan tới một truy vấn q, NT 0; | (q) | =  là số tài liệu tìm kiếm được đáp ứng q,  0; NR là số tài liệu có liên quan tìm kiếm được. . Định đề: Tỉ số giữa độ phục hồi và độ chính xác R / P thay đổi tuyến tính đối với . Chứng minh: NR = R NT = P  R / P =  / NT (4.43) 32
  125. 4.6.2 Đường cong độ phục hồi-độ chính xác Hình 4.1 – Đường cong P-R đối với hạng của bảng 3.2 Đuong cong P-R doi voi hang 120 100 80 R (%) P 60 P (%) 40 20 0 R Do thi hieu suat tinh toan 200 150 do chinh xac P 100 do phuc hoi 50 0 R 33
  126.  TÀI LIỆU THAM KHẢO 1. Đỗ Quang Vinh (2009), Thư viện số - Chỉ mục và Tìm kiếm, Nxb Đại học Quốc gia Hà Nội. 2. Lourdes T.D. (2006), Thư viện số và truy cập mở tài liệu lưu trữ, Nguyễn Xuân Bình và nnk biên dịch, UNESCO, Hà Nội. 3. The 10th International Conference on Digital Libraries (2007), Asian Digital Libraries: Looking Back 10 years and Forging New Frontiers, Ha Noi 4. Tài liệu hướng dẫn cài đặt, sử dụng và phát triển của hệ phần mềm thư viện số Greenstone 5. Arms W.Y. (2003), Digital Libraries, MIT Press, Cambridge. 6. Fox E.A. (2000), Advanced Digital Libraries, Virginia Polytechnic Institue and State University. 7. Lesk M. (2005), Understanding Digital Libraries, 2nd Edition, Morgan Kaufmann, San Francisco. 8. Witten I.H., Bainbridge D. (2003), How to Build a Digital Library, Morgan Kaufmann, San Francisco. 34
  127. KẾT THÚC ! TRÂN TRỌNG CÁM ƠN ! 35
  128. PHD. DO QUANG VINH Email: dqvinh@live.com HANOI - 2013 1
  129. BÀI GIẢNG THƯ VIỆN SỐ TS. ĐỖ QUANG VINH Email: dqvinh@live.com HÀ NỘI - 2013 2
  130. NỘI DUNG I. TỔNG QUAN VỀ THƯ VIỆN SỐ DL II. MÔ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DL III. CHỈ MỤC TÀI LIỆU IV. TÌM KIẾM THÔNG TIN V. CÁC CHUẨN SỬ DỤNG TRONG THƯ VIỆN SỐ VI. THỰC HÀNH HỆ PHẦN MỀM THƯ VIỆN SỐ GREENSTONE 3
  131. V. CÁC CHUẨN SỬ DỤNG TRONG DL 5.1. Chuẩn trình bày ASCII, Unicode, SGML, HTML, XML, GIF, JPG, TIF, PNP a. ASCII American Standard Code for Information Exchange Tiêu chuẩn Việt Nam: TCVN 5712-1993 Văn bản chỉ có ký tự, không có lệnh trình bày (plain text file). Văn bản bằng ký tự ASCII không có khả năng trình bày các công thức toán học và hoá học. Thường phải được nhập thủ công vào CSDL 4
  132. Ưu điểm: + Tìm kiếm được theo toàn văn + Tìm kiếm nhanh + Dữ liệu có kích thước tệp nhỏ, dễ truyền trên mạng Nhược điểm: + Hình thức đơn giản + Không bảo toàn được nguyên dạng của trang. + Không hỗ trợ đa ngôn ngữ (255 ký tự) 5
  133. b. UNICODE Dùng cho văn bản Tiêu chuẩn Việt Nam: TCVN 6909-2001 Hỗ trợ đa ngôn ngữ: 16 triệu mã ký tự Vẫn còn ít chương trình hỗ trợ UNICODE 6
  134. c. NGÔN NGỮ ĐÁNH DẤU . Tài liệu số – Ngày càng nhiều – Chuẩn đa dạng:  Chuẩn độc quyền: DOC của MS; PDF của Adobe  Chuẩn mở: SGML . Chuẩn độc quyền – Phụ thuộc phần mềm – Phụ thuộc sự phát triển của công ty – Đòi hỏi bản quyền . Sự phát triển tài liệu số dẫn đến nhu cầu về chuẩn mở 7
  135. . Sự phát triển của tài liệu số đã đặt ra yêu cầu mới: chuẩn dữ liệu không độc quyền . Có tính mở . Không phụ thuộc phần mềm, nền tảng máy tính (Platform independent)  Ngôn ngữ đánh dấu (Markup Language) . Sử dụng các cặp thẻ đánh dấu: bao gồm thẻ mở và thẻ đóng: – và . Hiện nay: SGML, HTML và XML 8
  136.  Ngôn ngữ đánh dấu tổng quát chuẩn SGML Standard Generalized Markup Language . SGML là cách thức trình bày tài liệu số bằng các mã đánh dấu . Là tiêu chuẩn ISO 8879 (Information processing Text and office systems - Standard Generalized Markup Language) . Là một chuẩn không độc quyền để soạn thảo tài liệu số có cấu trúc . Sử dụng các nhãn (thẻ) để đánh dấu và gán ý nghĩa cho dữ liệu. Thí dụ: . Đây là nhan đề tài liệu . Có thể tự phát triển khổ mẫu riêng, chỉ cần tuân thủ nguyên tắc. 9
  137. . Cấu trúc tài liệu SGML Gồm 3 phần – Phần 1: Phần thông báo (Statement) – Phần 2: Định nghĩa phần tử tài liệu – DTD - Document Type Definition Thông báo mô hình logic của tài liệu (có các kiểu yếu tố nào, thẻ mô tả là gì, ) – Phần 3: Nội dung tài liệu . Định nghĩa phần tử dữ liệu (DTD) DTD Document Type Definition  DTD xác định các khối thông tin hợp lệ của một tài liệu SGML  DTD xác định cấu trúc của tài liệu thông qua một danh mục các yếu tố và thuộc tính 10
  138. . Ví dụ DTD Có 4 yếu tố: to, from, heading, body Những yếu tố này đều dạng dữ liệu Character (ký tự) ]> Tove Jani Nội dung của văn bản Reminder Don't forget me this weekend 11
  139. . #PCDATA CDATA: cho biết đây là dữ liệu dạng ký tự (character data), sử dụng trong ngôn ngữ đánh dấu SGML and XML. Dùng để phân biệt với dữ liệu không phải ký tự dùng cho các chức năng cấu trúc đặc thù 12
  140. . Ngôn ngữ SGML mạnh cho xây dựng tài liệu có cấu trúc . Phức tạp, phát triển ứng dụng tốn kém . Phải có trình duyệt riêng để đọc . Điều quan trọng để ứng dụng SGML là xây dựng DTD . Ví dụ về ứng dụng: TEI – Text Encoding Initiative 13
  141.  HTML HyperText Mark-up Language Là một ứng dụng của SGML dùng cho tài liệu WEB Đơn giản hoá SGML Thẻ HTML là một kiểu DTD nhưng được chấp nhận bởi cộng đồng sử dụng Web Các thẻ HTML được thống nhất toàn cầu (W3C – WWW Consortium) 14
  142. . Ưu nhược điểm của HTML  Ưu điểm – Đơn giản – Có định hướng đến trình bày – Được đọc bằng những trình duyệt (Browser) – Được các công ty hỗ trợ phát triển trình duyệt: Internet Explorer, Netscape Navigator, Mosaic,  Nhược điểm – Phải chờ thông qua cho thẻ mới – Số thẻ hạn chế 15
  143. . Cấu trúc của tài liệu HTML Dữ liệu Nhan đề trang Web không hiển thị Dữ liệu hiển thị Dữ liệu hiển thị trên màn hình 16
  144. . Thẻ trợ giúp mô tả tài liệu HTML  Thẻ trợ giúp mô tả (còn gọi là thẻ siêu dữ liệu) nằm trong phần của tài liệu  Hai loại thẻ chính: – –  Ví dụ:  Thẻ HTML phải được quy định thống nhất trên toàn mạng 17
  145. . Ví dụ đánh dấu HTML Giống lúa lai Trung Quốc và kỹ thuật gieo trồng 18
  146.  Ngôn ngữ đánh dấu mở rộng XML XML eXtensible Markup Language Là một dạng của SGML và được World Wide Web Consortium (W3C) đề xuất Đơn giản hơn SGML Linh hoạt hơn HTML Hiện được coi là một dạng ngôn ngữ được coi là chủ đạo trong tạo lập các tài nguyên điện tử 19
  147. . Đặc điểm của XML XML là ngôn ngữ đánh dấu tương tự HTML Được thiết kế để chứa/trao đổi dữ liệu nhưng không để trình bày dữ liệu Các thẻ XML không được xác định trước. Người dùng tự xác định các thẻ của mình XML được thiết kế để tự mô tả (self-descriptive) Tổ chức W3C gọi XML là: "một cú pháp thông dụng cho việc biểu thị cấu trúc trong dữ liệu" 20
  148. . Sự khác biệt giữa XML và HTML  XML không thay thế HTML  XML và HTML được thiết kế cho 2 mục đích khác nhau: – XML dùng để chứa và chuyển tải dữ liệu. XML định hướng dữ liệu – HTML được thiết kế để trình bày dữ liệu  XML không xử lý thông tin; chỉ chứa các thẻ và dữ liệu. Phải có phần mềm để xử lý.  XML là tệp văn bản không mã hóa  Người dùng tự quy định thẻ cho tài liệu (thí dụ and ).  Không có thẻ XML mặc định 21
  149.  XML được sử dụng để tạo ra nhiều ngôn ngữ mới cho Internet  XHTML: phiên bản mới nhất của HTML  RDF and OWL for describing resources and ontology RDF = Resource Description Format OWL = Ontology Web Language . Cấu trúc tài liệu XML  Tương tự như SGML  Gồm 3 phần – Phần 1: Phần thông báo – Phần 2: Định nghĩa phần tử tài liệu DTD - Document Type Definition Thông báo mô hình logic của tài liệu (có các kiểu yếu tố nào, thẻ mô tả là gì, ) – Phần 3: Nội dung tài liệu 22
  150. . Ví dụ về tài liệu XML Chào các bạn hoặc Tove Jani Reminder Don't forget me this weekend! 23
  151. . Định nghĩa phần tử dữ liệu XML DTD  Mục tiêu của DTD là xác định cấu trúc của một tài liệu XML  Thông báo các yếu tố hợp lệ trong tài liệu – – – ]> 24
  152. . Giải thích thí dụ XML DTD !DOCTYPE note: xác định yếu tố gốc của tài liệu là note. !ELEMENT note Xác định yếu tố Gốc có 4 thành phần "to,from,heading,body" !ELEMENT to: Xác định yếu tố to là dạng dữ liệu ký tự "#PCDATA". !ELEMENT from: Xác định yếu tố From là dạng dữ liệu ký tự "#PCDATA". !ELEMENT heading: Xác định yếu tố Heading là dạng dữ liệu ký tự "#PCDATA". !ELEMENT body: Xác định yếu tố body là dạng dữ liệu ký tự "#PCDATA". 25
  153. . Tại sao cần DTD  Dùng để tự xác định các thành phần của tài liệu XML.  Với DTD, những nhóm người sử dụng khác có thể hiểu và xử lý được tài liệu XML và trao đổi được DL  Dùng làm chuẩn để kiểm định tài liệu XML, kiểm định dữ liệu . Các khối chính của XML Yếu tố: Elements Thuộc tính: Attributes Ký hiệu đặc biệt: Entities PCDATA CDATA 26
  154. . Ký hiệu đặc biệt - Entities Một số ký tự có nghĩa với XML được định nghĩa sẵn trong XML Thực thể Ký tự < & & " “ ' ’ . Tài liệu XML có cấu trúc hình cây 27
  155. . Cú pháp XML  Mọi yếu tố XML phải có thẻ đóng (Closing Tag)  Thẻ XML phân biện chữ hoa-chữ thường (Case Sensitive) – Thẻ khác với . – Thẻ mở và thẻ đóng phải có cùng kiểu viết hoa/viết thường  Yếu tố XML phải được lồng ghép chính xác  Tài liệu XML phải có một yếu tố gốc (Root Element) Tài liệu XML phải chứa 1 yếu tố làm cao nhất cho mọi yếu tố khác  Các giá trị thuộc tính XML phải được đặt trong ngoặc kép Tove Jani 28
  156. . Yếu tố và thuộc tính  Sử dụng thuộc tính – Anna Smith –  Sử dụng yếu tố – – female – Anna – Smith – 29
  157. . Thẩm định XML XML Validation  Khái niệm Định dạng đúng "Well formed" XML có cú pháp đúng được gọi là "Well Formed" XML.  Khái niệm Hợp lệ "Valid XML" XML được thẩm định so với DTD là XML "Valid" (Hợp lệ) . Định dạng đúng (Well Formed XML) Có cú pháp đúng Có yếu tố gốc (root element) Mọi yếu tố phải có thẻ đóng Thẻ XML phân biệt chữ hoa/thường Yếu tố được lồng ghép chính xác Giá trị thuộc tính thẻ XML phải được đặt trong dấu ngoặc kép 30
  158. . MARC và XML  MARC – là ứng dụng cụ thể của ISO 2709 (tiêu chuẩn trao đổi dữ liệu thư mục) – Cụ thể hoá các nhãn trường (3 chữ số)  XML – tiêu chuẩn ISO 8879 (SGML): – để sử dụng được phải phát triển các DTD  Không phải XML thay thế MARC mà một sơ đồ siêu dữ liệu nào đó sử dụng XML sẽ được chấp nhận dùng chung cho thư viện 31
  159. . Ví dụ về lược đồ XML đơn giản 32
  160. . Một số loại siêu dữ liệu ứng dụng với XML  MARC với XML: MARCXML  METS - Metadata Encoding and Transformation Standards  MODS – Metadata Object Description Schema  Dublin Core Metadata Element  TEI – Text Encoding Initiatives  EAD – Encoded Archival Description  OAI – Open Archive Initiative 33
  161. . Mô hình truy vấn dữ liệu có hỗ trợ XML Kết quả trả về cho NSD NSD truy vấn Database 34
  162. d. Dữ liệu Ảnh . Tệp TIFF . Tệp JPEG . Tệp GIF . Tệp PNG  Tệp ảnh TIFF TIFF - Tagged Image File Format Phần mở rộng: *.TIF Là tệp đồ hoạ do Công ty Aldus và Microsoft phát triển để lưu trữ ảnh. Được chương trình máy quét sử dụng Mức độ nén thấp 35
  163.  Tệp ảnh GIF GIF: Graphic Interchange Format Phần mở rộng tên tệp: *.GIF Mầu sắc có thể đạt đến 256 màu (8 bit) Chuẩn riêng, là sở hữu trí tuệ của Công ty Compuserve Thường dùng cho biểu đồ, biểu tượng (icons)  Tệp ảnh PNG Portable Network Graphic Phần mở rộng: *.PNG là định đạng được phát triển năm 1995 và là sở hữu của Công ty Compuserve PNG được dự kiến sử dụng thay cho định dạng GIF. 36
  164.  Tệp ảnh JPEG Joint Photographic Experts Group Phần mở rộng tên tệp: *.JPEG, *.JPG Mầu sắc đẹp, đạt đến 24 bit, 16 triệu mầu Chuẩn mở 37
  165. 5.2. Chuẩn biên mục tự động 5.2.1. Khổ mẫu . MARC . UNIMARC . CCF . MARC XML 5.2.2 Siêu dữ liệu Metadata . TEI – Text Encoding Initiative . EAD – Encoded Archival Description . OAI – Open Archive Initiative . Dublin Core 38
  166. 5.2.1. Khổ mẫu MARC, UNIMARC, CCF . ISO 2709 chỉ đưa ra cấu trúc tổng quát . Không quy định cụ thể nhãn của trường (có thể là ký tự, là số) . Không quy định mã trường con. . Các nước và một số tổ chức quốc tế áp dụng ISO 2709 để đưa ra những khổ mẫu chuẩn . Một số khổ mẫu nổi tiếng: – USMARC  MARC21 – UNIMARC – CCF = Common Communication Format 39
  167. a. Khổ mẫu MARC Machine Readable Cataloguing Từ năm 1964, do Thư viện Quốc hội Mỹ xây dựng Nhiều hệ thống thư viện trên thế giới áp dụng => trở thành chuẩn De facto Theo MARC => UKMARC, CANMARC, AUSMARC, SINGMARC, THAIMARC MARC trở thành thuật ngữ chung, MARC của Mỹ được gọi là USMARC 40
  168. . MARC21 TVQH Mỹ và TVQG Canada phối hợp phát triển MARC 21. Hai nhóm chịu trách nhiệm chính về MARC 21: + Uỷ ban Thông tin thư mục đọc máy MARBI (Machine Readable Bibliographic Information Committee), của ALA + Uỷ ban Tư vấn về MARC: gồm các đại diện của các thư viện quốc gia, các tổ chức thư mục, các nhóm cung cấp dịch vụ sản phẩm (bán hàng) 41
  169. . Năm 1997, TVQH Mỹ ban hành tài liệu "MARC 21 - Những đặc tả cho cấu trúc biểu ghi, bộ mã kỹ tự, và phương tiện trao đổi" (MARC 21 - Specifications for Record Structure, Character sets, and Exchange Media) . Mục đích của MARC21 Khổ mẫu MARC 21 là chuẩn để trình bày và trao đổi thông tin thư mục và những thông tin liên quan dưới dạng máy tính đọc được (machine-readable). Được sử dụng để làm khổ mẫu biên mục cho các nước 42
  170. . Cấu trúc 3 thành phần: + cấu trúc biểu ghi (record structure); + định danh nội dung (content designation); + nội dung dữ liệu. Cấu trúc biểu ghi MARC 21 là một triển khai ứng dụng của chuẩn Mỹ ANSI Z39.2 (Information Exchange Format) Chuẩn ANSI39.2 tương đồng với chuẩn ISO 2709 43
  171. Biểu ghi MARC21 là tập hợp các mã và định danh nội dung được quy định thống nhất để mã hoá các biểu ghi trao đổi máy tính đọc được. Mọi thông tin lưu trữ trong biểu ghi MARC được lưu dưới dạng ký tự. Biểu ghi trao đổi được mã hoá theo ký tự trong Bảng mã ASCII mở rộng (extended ASCII). Sử dụng khổ mẫu Là khổ mẫu trao đổi; không áp đặt những chuẩn lưu trữ dữ liệu bên trong hệ thống và chuẩn trình bày dữ liệu (display format) của từng hệ thống riêng biệt. Khổ mẫu MARC 21 cố gắng tạo ra sự tương hợp với một số khổ quốc gia (như UKMARC) và quốc tế (như UNIMARC). 44
  172. . Cấu trúc biểu ghi Đầu biểu ghi (Leader): 24 ký tự Danh mục (Directory): danh mục về các trường có trong biểu ghi. Kết thúc bằng dấu kết thú trường Các trường dữ liệu (gồm hai nhóm là trường kiểm soát và trường dữ liệu): Mã kết thúc trường Mã kết thúc biểu ghi. 45
  173. . Cấu trúc tổng quát LEADER DIRECTORY KTT Trêng KS1 KTT Trêng KS2 KTT Trêng B§1 KTT Trêng B§ KTT Trêng B§n KTT KTBG KTT = Mã Kết thúc trường KTBG = Mã kết thúc biểu ghi 46
  174. . Đầu biểu ghi (LEADER) 24 ký tự Độ dài biểu ghi 00-04 Trạng thái biểu ghi 05 Loại biểu ghi 06 Cấp thư mục 07 Thông tin tự xác định 08 Bộ Mã ký tự 09 Số lượng chỉ thị 10 Độ dài mã trường con 11 Địa chỉ dữ liệu 12-16 Thông tin áp dụng 17-19 ánh xạ mục 20-23 47
  175. . Vị trí 06 - Loại biểu ghi Chứa 1 ký tự ASCII – a - Văn bản (bao gồm cả tài liệu in, vi phim, vi phiếu, điện tử đọc được ở dạng chữ chữ viết). – c - Bản nhạc in – d - Bản nhạc viết tay, bản thảo âm nhạc – e -Tư liệu bản đồ in – f - Tư liệu bản đồ vẽ tay – g - Tư liệu chiếu hình hay video (phim, hình ảnh động, phim cuộn, phim máy chiếu (slide), giấy chiếu trong, băng hoặc đĩa ghi hình, 48
  176. i - Băng hoặc đĩa ghi âm không phải nhạc (như ghi âm bài phát biểu, tiếng nói, ) j - Băng hoặc đĩa ghi âm là nhạc k - Tư liệu đồ hoạ hai chiều (ảnh, bản vễ thiết kế, ) l - Tư liệu điện tử, tư liệu trên nguồn điện tử m - Tư liệu đa phương tiện (multimedia) o - Bộ tư liệu (kit), chứa tập hợp chứa nhiều thành phần trên các dạng khác nhau p - Tư liệu hỗn hợp 49
  177. . Sơ đồ mục Thông tin ghi vào Vị trí Giá trị Độ dài của độ dài trường 20 4 Vị trí ký tự bắt đầu 21 5 Thông tin tự xác định 22 0 Dự trữ (không xác định) 23 0 Như vậy, nội dung sơ đồ mục có giá trị 4500. 50
  178. . Danh mục Danh mục bao gồm nhiều mục (entries) về các trường trong biểu ghi MARC 21 Mỗi mục này trong vùng danh mục của biểu ghi bao gồm một tập hợp 3 thành phần như sau: Nhãn trường Độ dài của trường Vị trí bắt đầu của trường. Vùng danh mục bắt đầu ở vị trí 24 của mỗi biểu ghi và kết thúc bằng một mã kết thúc trường. Mỗi mục có độ dài cố định là 12 ký tự. Thông tin Vị trí Nhãn trường (3 ký tự) 00-02 Độ dài trường (4 ký tự) 03-06 Vị trí ký tự bắt đầu (5 ký tự) 07-11 51
  179. . Các trường dữ liệu Các trường dữ liệu được đưa ra ngay sau phần Danh mục. Các trường này chia thành 2 nhóm: Trường kiểm soát không có chỉ thị; Trường dữ liệu có chỉ thị (có độ dài biến động) Chỉ chứa Dữ liệu và mã kết thức trường mà không có nhãn trường . Cấu trúc Trường có chỉ thị Bao gồm 4 phần: Các chỉ thị; Các mã trường con (gồm 2 thành phần: dấu phân cách và ký tự trường con); Dữ liệu thực của trường con đó; Mã kết thúc trường (KTT) 52
  180. . Cấu trúc tổng quát của trường Chỉ_thị_1 Chỉ_thị_2 Dấu_phân_cách Ký_tự_trường_con_1 Dữ_liệu_trường_con_1 Dấu_phân_cách Ký_tự_trường_con_n dữ_liệu_trường_con_n KTT 53
  181. . Các trường dữ liệu Nhãn trường MARC 21 là số có 3 chữ số (001, 010, 245, đến 999) Các trường mà MARC 21 quy định sử dụng chia thành các khối: 0XX. Khối trường kiểm soát, số và mã 1XX. Khối trường về tiêu đề chính 2XX. Khối trường Nhan đề và thông tin liên quan đến nhan đề 54
  182. . Khối trường 4XX. Khối trường về tùng thư 5XX. Khối trường phụ chú 6XX. Khối trường điểm truy cập chủ đề 7XX. Khối trường Tiêu đề bổ sung 8XX. Khối trường tiêu đề tùng thư bổ sung 9XX. Khối trường thông tin cục bộ 55
  183. . Hướng dẫn MARC21 Phiên bản đầy đủ (update 1): hơn 210 trường Phiên bản tóm tắt (Concise Version): trên Web Phiên bản MARC Lite: trên Web và trên giấy) 56
  184. . Nguyên tắc phát triển trường cục bộ MARC21 có thể áp dụng cho các nước hoặc thư viện Các nước hoặc thư viện có thể thêm vào các trường đặc thù (LOCAL FIELDS) Những trường này không dùng trao đổi Cập nhật vào các nhóm trường sau: + Khối 9XX: trường cục bộ + Nhóm trường X9X của từng khối. 57
  185. Số trường Nhãm tr•êng MARC 21 MARC Lite MARC ®Çy ®ñ ViÖt Nam 00X - Tr•êng kiÓm so¸t 6 4 4 01X-09X - Tr•ìng m·, sè 45 20 14 1XX - Tiªu ®Ò chÝnh 4 3 3 20X-24X - Nhan ®Ò 8 6 6 25X-29X - LÇn XB, §C XB 8 2 2 3XX - §Æc tr•ng vËt lý 13 3 4 4XX - Tïng th• 2 1 1 5XX - Phô chó 48 10 7 6XX - Truy cËp Chñ ®Ò 13 8 7 70X-75X - Tiªu ®Ò bæ sung 9 7 8 76X-78X - Tr•êng liªn kÕt 15 14 11 80X-8XX - Tïng th•, th«ng tin 9 6 6 kh¸c Tæng sè 201 84 73 58
  186. . UNIMARC 1977, IFLA phát triển UNIMARC (UNIversal Marc format) Tổ chức duy trì phát triển UNIMARRC: + Uỷ ban thường trực UNIMARC của IFLA (Permanent UNIMARC Committee (PUC)), + Ban thư ký của Uỷ ban này là: Chương trình Kiểm soát thư mục toàn cầu và MARC cốt lõi quốc tế của IFLA (IFLA Universal Bibliographic Control and International MARC Core Programme (UBCIM) + UNIMARC không được thay đổi để bao quát biên mục không tuân thủ ISBD hoặc mâu thuẫn với chuẩn này Phiên bản mới nhất: 1994 (trên Website IFLA) 59
  187. . Mục đích và phạm vi của UNIMARC Mục đích: + Mục đích chính: hỗ trợ trao đổi thông tin thư mục quốc tế dưới dạng máy tính đọc được giữa các cơ quan biên mục quốc gia + UNIMARC sử dụng là mô hình để phát triển các khổ mẫu thư mục đọc máy mới Phạm vi: + Xác định các định danh nội dung (nhãn trường, chỉ thị và mã trường con) cho các biểu ghi thư mục máy tính đọc được + Xác định cấu trúc lôgic và vật lý của biểu ghi + Sử dụng cho: chuyên khảo, xuất bản phẩm nhiều kỳ, tài liệu bản đồ, âm nhạc, ghi âm, đồ hoạ, tài liệu chiếu hình, sách hiếm, nguồn tin điện tử 60
  188. . Cấu trúc UNIMARC Không khác biệt về nguyên tắc với MARC 21 Áp dụng tiêu chuẩn ISO 2709 về cấu trúc biểu ghi trao đổi thông tin Chỉ khác nhau về quy định nhãn trường, trường con . Đặc trưng của UNIMARC Tuân thủ nguyên tắc mô tả của ISBD Không chú trọng đến tiêu đề mô tả mà chỉ chú trọng điểm truy cập Có sự liên kết giữ các trường (Linking Fields) Cách sắp xếp trường không theo trình tự xuất hiện trên phiếu thư mục (MARC - theo trình tự xuất hiện trên phiếu thư mục) 61
  189. . Các trường của UNIMARC Chia thành các khối sau: 1. 0XX- Khối nhận dạng (Identification block) - 7 trường 2. 1XX- Khối thông tin mã hoá (Coded Information block) - 9 trường 3. 2XX - Khối thông tin mô tả (Descriptive Block) - 8 trường 4. 3XX - Khối phụ chú (Notes) 5. 4XX - Khối trường liên kết (Linking Entry block): 29 trường 6. 5XX- Khối Nhan đề liên quan (Related title block): 16 trường 7. 6XX - Khối phân tích chủ đề (Subject analysis block): 12 trường 8. 7XX - Khối trách nhiệm trí tuệ (Intellectial responsibility block) - 9 trường 9. 8XX - Khối trường sử dụng quốc tế 10. 9XX - Khối trường quốc gia 62
  190. . Các trường bắt buộc có trong biểu ghi UNIMARC 001* Mã số biểu ghi (RECORD IDENTIFIER) 100* Dữ liệu xử lý chung (GENERAL PROCESSING DATA) 101 Ngôn ngữ (LANGUAGE OF THE WORK (when applicable)) 120 Dữ liệu mã hoá - Tài liệu bản đồ CODED DATA FIELD: CARTOGRAPHIC MATERIALS GENERAL (Chỉ đối với tài liệu bản đồ) 123 Dữ liệu mã hoá Tỷ lệ và toạ độ bản đồ (chỉ đối với tài liệu bản đò) 200* Nhan đề và thông tin trách nhiệm (TITLE AND STATEMENT OF RESPONSIBILITY (Trường con A) 206 Vùng dữ liệu toán học của bản đồ (CARTOGRAPHIC MATERIALS MATHEMATICAL DATA) 801* Nguồn tin gốc Những trường có dấu (*) phải có mặt trong tất cả các biểu ghi 63
  191. c. CCF - Common Communication Format Do UNESCO phát triển năm 1984. Đơn giản hơn Có hai khổ mẫu: + Cho dữ liệu thư mục - CCF/B + Cho dữ kiện - CCF/F 64
  192. . Mục đích của CCF Cho phép trao đổi biểu ghi giữa các cơ quan thông tin, kể cả thư viện Cho phép sử dụng một bộ phần mềm để xử lý biểu ghi nhận được từ các tổ chức khác nhau không phụ cthuộc vào các quy định riêng cảu từng tổ chức Sử dụng làm cơ sở để có thể phát triển CSDL riêng cho từng cơ quan 65
  193. . Đặc điểm sử dụng CCF Chỉ có một tập hợp tối thiểu trường bắt buộc có để đảm bảo cung cấp thông tin về tài liệu thư mục Cung cấp cấp một số yếu tố bắt buộc và lựa chọn một cách mềm dẻo để thích hợp với các thực tiễn biên mục khác nhau Cho phép cơ quan sử dung CCF có thể đưa vào những yếu tố chưa chuẩn hoá Đưa thêm thông tin liên kết (linking) để có thể liên kết một nhóm biểu ghi mà không bắt buộc cơ quan biên mục phải thực hiện những xử lý phức tạp 66
  194. . Các trường của CCF Khoảng 73 trường Không chia thành các khối Có một số trường bắt buộc Những trường còn lại là tuỳ chọn . Nguyên tắc của CCF Cấu trúc biểu ghi tuân thủ ISO 2709 Biểu ghi cốt lõi chỉ chứa một số không nhiều trường bắt buộc. Có nhiều trường bổ sung để hỗ trợ các trường bắt buộc Sử dụng kỹ thuật chuẩn đề tạo sự liên kết giữa các biểu ghi 67
  195. d. MARC XML . Yêu cầu thiết kế 1. Đơn giản và linh hoạt 2. Chuyển đổi không mất dữ liệu giữa MARC21 sang XML 3. Chuyển đổi được từ XML sang MARC 4. Trình bày được dữ liệu 5. Chỉnh sửa dữ liệu theo MARC 6. Chuyển đổi dữ liệu 7. Duyệt dữ liệu MARC (Validation of MARC data) 8. Có khả năng mở rộng 68
  196. . Kiến trúc MARC XML Chuyển đổi được MARC 21 (2709) sang/từ các khổ mẫu MARC 21 (XML) và XML khác 69
  197. 5.2.2 Siêu dữ liệu Metadata Hiện nay có một số sơ đồ siêu dữ liệu đang được sử dụng . TEI – Text Encoding Initiative . EAD – Encoded Archival Description . OAI – Open Archive Initiative . Dublin Core 70
  198. a. Sáng kiến Mã hoá văn bản (TEI) TEI Text Encoding Initiative Bắt đầu từ năm 1987 Năm 1994: Hướng dẫn TEI với hơn 1400 trang. Mỗi đoạn văn bản TEI được bắt đầu bằng một tiêu đề TEI (TEI Header) . TEI Headers Là các Phần tử xác định cấu trúc tài liệu (DTD hay Document Type Definition) của SGML là tập hợp các nhãn và các quy tắc của SGML và cú pháp mô tả cấu trúc của tài liệu và các thành phần của tài liệu giúp cho các chương trình xử lý tự động nhận biết đâu là các yếu tố của văn bản, cách thức trình bày, v.v TEI tương hợp với tiêu chuẩn SGML quốc tế là chuẩn ISO 8897-1986. 71
  199. b. Mô tả Lưu trữ Mã hoá EAD EAD Encoded Archival Description Thư viện quốc hội Mỹ 1995: Hội Lưu trữ Mỹ tham gia phát triển 8/1998: phiên bản DTD EAD version 1.0 tương thích tốt hơn với XML 72
  200. c. Sáng kiến lưu trữ mở OAI OAI Open Archives Initiatives Công cụ để hỗ trợ những sưu tập lưu trữ tài liệu số với tính liên tác Giao thức OAI cho thu thập siêu dữ liệu (OAI-PMH, Open Archive Initiative Protocol for Metadata Harvesting) hoàn toàn độc lập với kiểu dữ liệu (nội dung) bên trong. 73
  201. d. KHỔ MẪU SIÊU DỮ LIỆU DUBLIN CORE Bộ yếu tố siêu dữ liệu Dublin Core Bao gồm 15 yếu tố . 15 yếu tố dựa trên "Bộ yếu tố siêu dữ liệu Dublin Core“ . Phạm vi Là một tiêu chuẩn mô tả tài nguyên thông tin. Tài nguyên thông tin được định nghĩa trong tiêu chuẩn này là bất cứ thực thể thể nào có định danh (có Uniform Resource Identifier - URI) 74
  202. . Lý do chọn Dublin Core Dublin Core là tiêu chuẩn quốc gia ANSI/NISO Z39.85-2001 Dublin Core đã được áp dụng trên 20 ngôn ngữ. Được Uỷ ban Châu Âu về tiêu chuẩn hoá/Hệ thống tiêu chuẩn hoá Xã hội thông tin (CEN/ISSS - European Committee for Standardization/Information Society Standardization System) công nhận làm tiêu chuẩn. Ôxtralia cũng đã sử dụng Dublin Core làm nền tảng cơ bản để xây dựng tiêu chuẩn siêu dữ liệu cho Dịch vụ thông tin chính phủ (AGLS - Australian Government Information Locator Service) AS-5044. Dublin Core đýợc đề xuất là một trong cơ sở để xây dựng RDA 75
  203. . Bộ yếu tố Mỗi yếu tố được đặt xác định bằng Mã yếu tố bằng một từ tiếng Anh (Creator, Subject, ) Định nghĩa cụ thể để làm rõ ngữ nghĩa, phạm vi giá trị của từng yếu tố Một số yếu tố có thêm những từ bổ ngữ để làm rõ hơn giá trị của yếu tố. Thông tin làm rõ mức độ bắt buộc hoặc lựa chọn của yếu tố. Thông tin bổ sung để làm rõ hơn ý nghĩa của yếu tố và/hoặc từ bổ ngữ, sơ đồ sử dụng cho thông tin bổ nghĩa. 76
  204. . Yếu tố bắt buộc  Creator (Tác giả);  Title (Nhan đề);  Date (Thời gian);  Subject (Chủ đề) hoặc Function (chức năng);  Identifier (Định danh) hoặc Availability (khả năng cung cấp) . Từ bổ ngữ - Qualifier Là những thông tin nhằm mở rộng hoặc làm chính xác hoá giá trị của yếu tố siêu dữ liệu. Nó cung cấp thông tin thêm về ngữ nghĩa (ý nghĩa) của yếu tố hoặc làm tõ giá trị của yếu tố phải được xử lý hoặc hiểu theo kiểu cụ thể nào. 77
  205. 2 loại từ bổ ngữ: 1. Từ chính xác hoá yếu tố ; Từ chính xác hoá yếu tố làm rõ hơn ngữ nghĩa (ý nghĩa) của yếu tố bằng cách đưa thêm các đặc tả chỉ rõ hơn quan hệ của giá trị của yếu tố đối với bản thân tài nguyên thông tin. Một yếu tố được chính xác hoá sẽ có phạm vi bao quát hạn chế hơn. 2. Sơ đồ mã hoá Sơ đồ mã hoá chỉ rõ giá trị của yếu tố được rút ra từ từ vựng có kiểm soát nào hoặc được mã hoá theo chuẩn bên ngoài nào nếu được áp dụng. 78
  206. 1. Creator dc.Creator . Tên yếu tố: Tác giả chính . Định nghĩa: Pháp nhân chịu trách nhiệm chính trong việc tạo ra nội dung của tài nguyên. . Tính bắt buộc: Bắt buộc nếu có dữ liệu  Chú ý: Pháp nhân trong Creator có thể là tên người (tác giả cá nhân) hoặc tên cơ quan, tổ chức hoặc dịch vụ là tác giả tập thể 2. Date . Tên yếu tố: Thời gian . Định nghĩa: Thời gian của sự kiện trong vòng đời của tài nguyên . Tính bắt buộc: Bắt buộc  Chú ý: Thời gian có thể là thời gian liên quan đến việc tạo ra, hiệu đính hoặc làm cho tài nguyên tiếp cận được. – Khuyến nghị sử dụng cách thức mã hoá thời gian theo tiêu chuẩn ISO 8601 và theo khổ mẫu: – 4 số năm - 2 số tháng - 2 số ngày (YYYY-MM-DD) 79
  207. 3. Title . Tên yếu tố: Nhan đề . Định nghĩa: Tên được gán cho tài nguyên . Tính bắt buộc: Bắt buộc phải có  Chú ý: Nhan đề của tài nguyên hoặc tên của dịch vụ. 4. Identifier . Tên yếu tố: Định danh của tài nguyên . Định nghĩa: Một tham chiếu không trùng lặp đến tài nguyên trong khung cảnh cụ thể . Tính bắt buộc: Bắt buộc đối với tài nguyên trực tuyến 80
  208.  Chú ý: Khuyến nghị sử dụng các định danh tài nguyên theo chuẩn được chấp nhận quy định cho những hệ thống định danh hình thức. . Thí dụ về hệ thống định danh bao gồm: – URL - Uniform Resource Locator – URN - Uniform Resource Name – PURL - Persistent URL – DOI - Digital Object Identifier – ISBN - International Standard Book Number 81
  209. 5. Publisher . Tên yếu tố: Cơ quan xuất bản . Định nghĩa: Thực thể chịu trách nhiệm làm cho tài nguyên có thể truy xuất được. . Tính bắt buộc: Bắt buộc đối với tài nguyên thông tin . Chú ý: Sử dụng để chỉ ra tên của thực thể (tổ chức, nhà xuất bản, cơ quan, ) mà họ sở hữu, kiểm soát quyền hoặc xuất bản tài nguyên. Không khuyến nghị sử dụng yếu tố này để chỉ thị tên của dịch vụ thuần tuý thực hiện chức năng duy trì website (dịch vụ Webhosting hoặc nhà cung cấp dịch vụ internet). 82
  210. 6. Subject . Tên yếu tố: Chủ đề và từ khoá . Định nghĩa: Chủ đề và/hoặc đề mục chính của nội dung của tài nguyên . Tính bắt buộc: Bắt buộc  Chú ý: Về cơ bản chủ đề của tài nguyên được thể hiện bằng từ khoá, cụm từ, ký hiệu phân loại, chỉ số đề mục, v.v để thể hiện chủ đề chính của tài nguyên. Khuyến nghị nên sử dụng từ vựng có kiểm soát (như từ điển từ chuẩn, đề mục chủ đề) hoặc bảng phân loại hình thức hoá 83
  211. 7. Contributor . Tên yếu tố: Tác giả bổ sung/đồng tác giả . Định nghĩa: Pháp nhân tham gia đóng góp vào việc tạo ra nội dung của tài nguyên. . Tính bắt buộc: Lựa chọn, không bắt buộc  Chú ý: Về cơ bản, pháp nhân trong Contributor có thể là tác giả cá nhân hoặc cơ quan, tổ chức, dịch vụ (là tác giả tập thể) có vai trò quan trọng, song là vai trò bậc hai trong việc tạo ra nội dung. Những pháp nhân không được lựa chọn đưa vào yếu tố Creator. 84
  212. 8. Coverage . Tên yếu tố: Phạm vi bao quát . Định nghĩa: Mô tả mức độ bao quát của nội dung của tài nguyên. . Tính bắt buộc: Chọn lựa, không bắt buộc  Chú ý: Phạm vi bao quát có thể là về phạm vi không gian (tên địa danh, toạ độ không gian, ), thời gian (giai đoạn, chuỗi ngày tháng, ), phạm vi về tàin phán (tên lãnh thổ, nước, ). Khuyến nghị sử dụng từ vựng có kiểm soát để chọn lựa thuật ngữ phù hợp. Thí dụ sử dụng Từ điển từ chuẩn về tên địa lý, tên địa danh, 85
  213. 9. Description . Tên yếu tố: Mô tả . Định nghĩa: Một mô tả là rõ nội dung của tài nguyên . Tính bắt buộc: Chọn lựa, không bắt buộc  Chú ý: Mô tả có thể bao gồm: tóm tắt, mục lục, thông tin tham chiếu về bảng biểu, về toàn văn (thí dụ hình thu nhỏ (thumbnail) của tài liệu hoặc bất cứ đoạn văn bản nào nhằm làm rõ hơn nội dung tài nguyên. Khuyến nghị áp dụng tiêu chuẩn Việt Nam TCVN 4524-1989 cho tóm tắt và chú thích. 86
  214. 10. Format . Tên yếu tố: Khổ mẫu dữ liệu . Định nghĩa: Mô tả loại hình vật lý hoặc số (điện tử) của tài nguyên. . Tính bắt buộc: Chọn lựa, không bắt buộc  Chú ý: Về cơ bản, Yếu tố khổ mẫu cung cấp thông tin về vật mang tin của tài nguyên nếu là không trực tuyến. Yếu tố còn cung cấp thông tin về kiểu dữ liệu hoặc độ lớn, quy mô của tài nguyên. Khổ mẫu có thể sử dụng để xác định phần mềm, phần cứng hoặc thiết bị khác cần thiết để hiển thị hoặc thao tác với tài nguyên. Khuyến nghị sử dụng từ vựng có kiểm soát để chọn lựa thuật ngữ phù hợp (thí dụ sử dụng danh mục từ chuẩn tên gọi loại hình dữ liệu Internet (MIME) để xác định khổ mẫy dữ liệu số). 87
  215. 11. Language . Tên yếu tố: Ngôn ngữ . Định nghĩa: Ngôn ngữ chính văn của nội dung của tài nguyên . Tính bắt buộc: Chọn lựa, không bắt buộc  Chú ý: Khuyến nghị sử dụng tiêu chuẩn mã ngôn ngữ hai ký tự theo chuẩn ISO 639 được sử dụng trong RFC 3066 [RFC 3066]. 12. Relation . Tên yếu tố: Quan hệ . Định nghĩa: Tham chiếu đến tài nguyên liên quan . Tính bắt buộc: Chọn lựa, không bắt buộc  Chú ý: Sử dụng để làm rõ quan hệ của tài nguyên đang được mô tả với những tài nguyên liên quan đến nó. Khuyến nghị sử dụng những phương thức tham chiếu nguồn được sử dụng phù hợp với hệ thống định danh. 88
  216. 13. Rights . Tên yếu tố: Quản trị quyền . Định nghĩa: Thông tin về các quyền được kèm theo tài nguyên hoặc đối với tài nguyên thông tin. . Tính bắt buộc: Chọn lựa,không bắt buộc  Chú ý: Yếu tố quản trị quyền chứa thông báo về các quyền liên quan đến tài nguyên thông tin hoặc chỉ dẫn đến một dịch vụ cung cấp thông báo như vậy về quyền. Thông tin về quyền có thể bao gồm thông tin về quyền sở hữu trí tuệ, bản quyền và các quyền liên quan khác. 89
  217. 14. Source . Tên yếu tố: Nguồn . Định nghĩa: Tham chiếu về tài nguyên mà từ đó tài nguyên hiện được mô tả được rút ra hoặc tạo ra từ đó. . Tính bắt buộc: Chọn lọc, không bắt buộc  Chú ý: Tài nguyên đang được mô tả có thể là được trích ra hoặc tạo ra từ tài nguyên khác. Khuyến nghị sử dụng cách tham chiếu đến tài nguyên bằng các thông tin phù hợp với các quy tắc của các hệ thống định danh hình thức. 90
  218. 15. Type . Tên yếu tố: Thể loại . Định nghĩa: Mô tả bản chất hoặc thể loại của nội dung của tài nguyên. . Tính bắt buộc: Chọn lọc, không bắt buộc  Chú ý: Thông tin về Thể loại bao gốm các thuật ngữ mô tả những hạng phân loại, thể loại hoặc mức độ tích hợp cho nội dung của tài nguyên. Khuyến nghị lựa chọn thuật ngữ từ Danh mục thuật ngữ từ từ vựng có kiểm soát (từ danh mục Kiểu dữ liệu Dublin Core [DCT1]. Để mô tả dạng thức vật lý hoặc kiểu dữ liệu số của tài nguyên, sử dụng yếu tố Khổ mẫu (Format). 91
  219. 5.3. Chuẩn mô tả siêu dữ liệu . Lược đồ mô tả đối tượng siêu dữ liệu MODS . Chuẩn mã hóa và truyền siêu dữ liệu METS a. Lược đồ mô tả đối tượng siêu dữ liệu MODS MODS Metadata Object Description Schema Khuôn khổ cho thao tác với dữ liệu theo khổ mẫu MARC trong môi trường XML Mục đích: tạo khổ mẫu để mang dữ liệu từ biểu ghi MARC21 và cho phép tạo biểu ghi mô tả gốc của tài liệu số ngay từ đầu theo SGML. 92
  220. . MODS: Một khổ mẫu MARC đơn giản hơn Trong môi trường kết nối mạng, siêu dữ liệu mô tả được chuyển tiếp qua nhiều hệ thống và có thể gắn liền vào trong hoặc với nhiều loại siêu dữ liệu khác thì biểu ghi MARC phù hợp. Tuy nhiên, vấn đề của MARC là việc nhúng dữ liệu nói chung đòi hỏi sử dụng một cấu trúc dữ liệu XML và MARC không phải một biểu ghi XML. Do đó, người ta cần một phiên bản MARC đơn giản hơn, có thể chấp nhận các phần tử dữ liệu chính từ một biểu ghi MARC và chuyển chúng vào một khổ mẫu XML dễ hiểu.  Lược đồ MODS ra đời. MODS sử dụng thẻ dễ hiểu để thay thế cho thẻ bằng 3 chữ số và mã trường con của MARC. Ví dụ: “Nhan đề” (“title”) thay thế cho “245”. 93
  221. MODS cung cấp 19 thành tố tố mức đỉnh cho mô tả đối tượng và hơn 64 thành tố con mức dưới. Chúng dựa trên các khía cạnh thư mục như tiêu đề, tên của người tạo và người xây dựng, số lượng phân loại và chủ đề, thành phần thuộc lĩnh vực mô tả vật lý, thông tin về sự giới hạn truy cập và thể loại. MODS bao gồm các cơ chế cho phép mở rộng tập các thành tố thông qua việc trao đổi thông tin với các tài liệu XML khác dựa trên cấu trúc của nó. Ngoài ra, MODS có khả năng điều khiển tính xác thực và mô tả chi tiết theo mức cung cấp. MODS được xây dựng khi các xu hướng khác nhau về mô tả metadata không thống nhất: tương thích các vấn đề của Dublin Core bằng cách cung cấp một tập thành tố đa dạng và cho phép mở rộng thêm khi cần. 94
  222. MODS được sử dụng cho một lượng lớn các dạng tài liệu khác nhau từ sách tới các tài liệu đa phương tiện và được lựa chọn trong phần lớn các dự án DL. MODS được sử dụng rộng rãi trong các phần chính trong thế giới DL. Khi sử dụng chung với các chuẩn khác như METS, MODS làm tăng khả năng liên kết đầy đủ và chiến lược tích hợp metadata làm tăng truy cập tài liệu số trên toàn cầu. Tuy nhiên, MODS đang trong quá trình phát triển và hoàn thiện, nên còn có những hạn chế. . Cách thức làm việc của MODS 95
  223. MODS nhằm giải quyết tính không tương thích của các yêu cầu mở rộng và tính đặc thù ảnh hưởng trong Dublin Core nói riêng và khả năng ứng dụng của nó cho metadata nói chung: gồm một cơ chế cho phép mở rộng, cung cấp một tập yếu tố chi tiết hơn Dublin Core, vì thế, cho phép số lượng lớn mục tin được mô tả mà không cần sắp xếp để sử dụng các yếu tố bên ngoài tập lõi. Do đó, khả năng trao đổi với các bản ghi MODS khác nhanh hơn và thông qua ánh xạ chi tiết có thể tới các lược đồ metadata khác. MODS được viết bằng XML, là thành phần độc lập với các gói phần mềm; dựa trên một tập con các trường của MARC nhưng không giống MARC sử dụng tên trường là ngôn ngữ tiếng Anh có số lượng tên trường nhiều hơn, người sử dụng MODS không cần phải biết về MARC và các quy tắc của nó. MODS dễ sử dụng hơn MARC, giảm bớt tập các yếu tố và tổ chức lại các trường, gom nhóm các thành phần logic hơn. 96
  224. Khi so sánh với Dublin Core, MODS cung cấp một tập các yếu tố rõ ràng và đầy đủ hơn, cho phép mô tả chi tiết các lớp tài liệu. Website về MODS cung cấp trên trang chủ của nó các file mẫu cho 9 lớp đối tượng bao gồm sách, serials, bản đồ, âm thanh, phim, đa phương tiện. mô tả đầy đủ một phạm vi rộng các đối tượng có thể được xử lý theo chuẩn. Bằng cách sử dụng XML, MODS định nghĩa các yếu tố chính, các yếu tố con và các thuộc tính của các yếu tố đó. Nội dung của các yếu tố nằm trong các yếu tố mức thấp nhất để tránh "nội dung bị trộn lẫn", khi một số yếu tố được đặt chung với các yếu tố con. Các thuộc tính có thể được liên kết với các yếu tố ở các mức khác nhau và được xác định theo các yếu tố ràng buộc. Các thuộc tính thông thường trong lược đồ là: type, encoding, and authority. 97
  225. Ví dụ: một file MODS cho một quyển sách ở Thư viện Quốc hội Mỹ: Sound and fury : the making of the punditocracy / Alterman, Eric creator text bibliography nyu Ithaca, N.Y Cornell University Press c1999 1999 monographic 98
  226. eng print vii, 322 p. ; 23 cm. Eric Alterman. Includes bibliographical references (p. 291-312) and index. Journalism Political aspects United States. United States Politics and government 20th century. Mass media Political aspects United States. 99