Báo cáo Sử dụng mẫu để trích lọc thông tin (Phần 1)

pdf 22 trang phuongnguyen 2980
Bạn đang xem 20 trang mẫu của tài liệu "Báo cáo Sử dụng mẫu để trích lọc thông tin (Phần 1)", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbao_cao_su_dung_mau_de_trich_loc_thong_tin_phan_1.pdf

Nội dung text: Báo cáo Sử dụng mẫu để trích lọc thông tin (Phần 1)

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CÔNG TRÌNH NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG SỬ DỤNG MẪU ÐỂ TRÍCH LỌC THÔNG TIN S K C 0 0 3 9 5 9 MÃ SỐ: T2013-40 S KC 0 0 5 4 2 8 Tp. Hồ Chí Minh, 2013
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG SỬ DỤNG MẪU ĐỂ TRÍCH LỌC THÔNG TIN Mã số: T2013-40 Chủ nhiệm đề tài: GV. ThS. Nguyễn Thanh Tuấn TP. HCM, 02/2014
  3. TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG SỬ DỤNG MẪU ĐỂ TRÍCH LỌC THÔNG TIN Mã số: T2013-40 Chủ nhiệm đề tài: Nguyễn Thanh Tuấn TP. HCM, 02/2014
  4. TÓM LƢỢC ĐỀ TÀI Khi trích lọc thông tin, các hệ thống thường cố gắn sử dụng công cụ phân tích câu, để tìm ra các đặt trưng (features) từ câu truy vấn thông tin. Sau đó tìm kiếm trong kho dữ liệu để tìm ra các tài liệu có độ tương đồng gần nhất với các đặt trưng. Công việc này thường tốn nhiều thời gian vì phải làm cả hai công việc là phân tích câu tuy vấn và phân tích các tài liệu cần rút trích trong kho dữ liệu. Trích lọc thông tin sử dụng mẫu trích lọc công việc cố gắng tìm ra các tài liệu có phù hợp với các tập mẫu rút trích hay không. Các tập mẫu này phải được tạo ra trước bằng cách huấn luyện tập mẫu với một tập dữ liệu cho trước. Vì các tập mẫu này được tạo ra trước khi sử dụng chúng để trích lọc thông tin nên các dữ liệu mới, chưa được huấn luyện sẽ không được xử lý tốt. Có thể không được trích ra vì nó không thỏa bất cứ mẫu trích lọc nào trong kho dữ liệu. Việc tạo ra tập mẫu rút trích sử dụng cho tất cả các dữ liệu nói chung, liên quan đến tất cả các lĩnh vực là không khả thi (trích dẫn). Và là công việc lãng phí thời gian (trích dẫn). Do đó, các mẫu trích lọc được huấn luyện thông thường liên quan đến một lĩnh vực nào đó. Ví dụ: y tế, địa lý Để sử dụng cho mục đích trích các thuật ngữ định nghĩa của các câu định nghĩa trong lĩnh vực y khoa. Đề tài đã sử dụng kho dữ liệu MEDLINE liên quan đến lĩnh vực y khoa và các câu có cấu trúc định nghĩa từ Google của các thuật ngữ y khoa để tạo tự động các tập mẫu trích lọc thông tin. Số lượng tập mẫu được tạo tự động là rất nhiều. Trong đó, có một số mẫu không phù hợp cho hệ thống trích lọc thuật ngữ định nghĩa trong y khoa. Tôi đã xác định 2 tiêu chí để trích lọc ra các tập mẫu định nghĩa. Và đã trích lọc được 348 mẫu trích lọc. 1
  5. Đề tài chưa sử dụng ngữ nghĩa trong quá trình tạo tự động các mẫu trích lọc. Do vậy, các mẫu trích lọc thông tin vẫn chưa được tốt. Theo nhận định của [10], [14]: khi tạo tập mẫu có quan tâm đến ngữ nghĩa sẽ cho tập mẫu tốt hơn. Đây là hướng nghiên cứu phát triển sau này của đề tài. 2
  6. MỤC LỤC TÓM LƢỢC ĐỀ TÀI 1 DANH MỤC CÁC BẢNG BIỂU 6 DANH MỤC CÁC HÌNH ẢNH 7 DANH MỤC CÁC TỪ VIẾT TẮT 8 MỞ ĐẦU 9 1. Tình hình nghiên cứu trong và ngoài nước 9 2. Tính cấp thiết của đề tài 9 3. Mục tiêu đề tài 10 4. Phương pháp nghiên cứu 10 5. Đối tượng và phạm vi nghiên cứu 10 6. Nội dung nghiên cứu 11 7. Phương pháp và quy trình thực hiện mục tiêu 11 8. Nội dung đề tài 12 CHƢƠNG 1 CÁC KIẾN THỨC CƠ SỞ 13 1.1 Sơ lược về hệ thống trích lọc thông tin sử dụng mẫu 13 1.1.1 Định nghĩa 13 1.1.2 Thành phần phân tích tài liệu 13 1.1.2.1 Tiền xử lý tách câu 13 1.1.2.2 Phân tích cú pháp câu 13 1.1.3 Thành phần so khớp mẫu 14 1.2 UMLS 15 3
  7. 1.2.1 Khái niệm 15 1.2.2 Metathesaurus 16 1.2.3 Semantic Network 16 1.2.4 SPECIALIST Lexicon & Lexical Tools 17 1.3 Kho dữ liệu MEDLINE 17 1.4 Kiến thức về các thuật giải xử lý của máy tính mà nghiên cứu sử dụng 18 1.4.1 AutoSlog 18 1.4.1.1 Mô hình 18 1.4.1.2 Kho dữ liệu 18 1.4.1.3 Bộ phân tích câu 18 1.4.1.4. Tập mẫu cú pháp 20 1.4.1.5 Danh sách các cụm danh từ 21 1.4.1.6 Nhận xét 21 1.4.2 AutoSlog-TS 22 1.4.2.1 Mô hình 22 1.4.2.2 Nguyên tắc hoạt động 23 1.4.2.3 Nhận xét 23 1.5 Sơ lược về hệ thống Sundance 23 1.5.1 Giới thiệu 23 1.5.2 Cấu trúc của một case frame 24 1.5.3 Giải thích các thành phần 24 1.5.4 Ví dụ về một case frame 26 1.5.5 Nhận xét 28 4
  8. CHƢƠNG 2 XÂY DỰNG CASE FRAME TỰ ĐỘNG 29 2.1 Mục tiêu 29 2.2 Mô hình xử lý 29 2.3 Dữ liệu huấn luyện 30 2.3.1 Relevant text 30 2.3.2 Irrelevant text 31 2.4 Xây dựng cấu trúc case frame định nghĩa 31 2.5 Trích lọc case frame định nghĩa 32 2.5.1 Đặc tả Slot 32 2.5.2 Các thông số chọn lọc 33 2.6 Thực nghiệm xây dựng case frame định nghĩa 33 2.7 Sử dụng case frame để xác định câu định nghĩa và trích thuật ngữ 35 2.8 Kết luận 36 KẾT LUẬN & KIẾN NGHỊ 38 1. Kết quả đạt được của đề tài 38 2. Hướng phát triển của đề tài 38 TÀI LIỆU THAM KHẢO 39 PHỤ LỤC 41 5
  9. DANH MỤC CÁC BẢNG BIỂU Bảng 1.1 Tập mẫu cú pháp 20 Bảng 2.1 Case frame không phù hợp với ngưỡng RelFreqi >=3 33 Bảng 2.2 Case frame định nghĩa bị bỏ qua với ngưỡng RelFreqi >=5 34 Bảng 2.3 Các thông số chọn lọc case frame 34 Bảng 2.4 Một số case frame được trích lọc theo điều kiện 35 Bảng 2.5 Bảng kết quả thực nghiệm sử dụng case frame 36 6
  10. DANH MỤC CÁC HÌNH ẢNH Hình 1.1 Mô hình tổng quan hệ thống trích lọc thông tin sử dụng mẫu 13 Hình 1.2 Kết quả phân tích câu 14 Hình 1.3 nguồn dữ liệu được tích hợp trong UMLS 15 Hình 1.4 Kiến trúc tổng quan của kho tri thức UMLS 16 Hình 1.5 Các lớp khái niệm của Semantic Network 17 Hình 1.6 Mô hình tạo mẫu tự động AutoSlog 18 Hình 1.7 Kết quả phân tích câu "Bacteriastrum is a genus of diatoms in family Chaetocerotaceae" 19 Hình 1.8 Mô hình tạo mẫu tự động AutoSlog-TS 22 Hình 1.9 Cấu trúc của một case frame 24 Hình 1.10 Thể hiện của một caseframe 26 Hình 1.11 Phân tích câu :"The plane crashed in Utah in January in a blaze of fire" 27 Hình 1.12 Case frame được matching với câu phân tích 28 Hình 2.1 Mô hình tạo case frame tự động 30 Hình 2.2 Mô hình tạo relevant text 31 Hình 2.3 Cấu trúc case frame định nghĩa 32 Hình 2.4 Biểu đồ số lượng case frame thỏa tiêu chí chọn lọc 34 Hình 2.5 Biểu đồ tỉ lệ các câu thỏa và không thỏa case frame 36 Hình 2.6 Hình thức lưu trữ tập câu định nghĩa 36 7
  11. DANH MỤC CÁC TỪ VIẾT TẮT Từ hoặc cụm từ Viết tắt AutoSlog - The Sequel AutoSlog-TS Information Retrieval IR Medical Subject Headings MeSH National Center for Biotechnology Information NCBI National Library of Medicine NLM Natural Language Processing NLP Noun Pharse NP Unified Medical Language System UMLS 8
  12. MỞ ĐẦU 1. Tình hình nghiên cứu trong và ngoài nƣớc Trước khi tiến hành nghiên cứu của mình, tôi đã tìm hiểu tổng quan về tình hình nghiên cứu chung về quá trình xây dựng tự động các mẫu trích lọc thông tin trong và ngoài nước. Quá trình xây dựng này được chia làm các hướng tiếp cận chính như sau: Các hệ thống trích lọc thông tin phần lớn đều sử dụng mẫu để xác định và trích lọc các thông tin có liên quan trong dữ liệu. Một số hệ thống sử dụng các mẫu đơn giản để trích lọc mà không dùng các xử lý về ngôn ngữ tự nhiên [2], [6]. Nhiều nghiên cứu sử dụng các mẫu có phân tích cú pháp của dữ liệu để xây dựng hệ thống trích lọc [3], [5], [11], [13]. Thông thường các mẫu này được xây dựng bằng phương pháp truyền thống (bằng tay). Điều này làm tốn thời gian và chi phí. Do đó, việc tạo các mẫu trích lọc tự động được nhiều nghiên cứu lựa chọn phát triển [10], [12]. Hiện nay, tình hình nghiên cứu trong nước, các nghiên cứu phân tích cú pháp của câu trong Tiếng Việt vẫn chưa được hoàn thiện. Do đó, vẫn chưa có nhiều nghiên cứu trích thông tin sử dụng mẫu; đặc biệt là trích lọc thông tin ngôn ngữ Tiếng Việt. 2. Tính cấp thiết của đề tài Thông tin phát sinh, được lưu trữ và xử lý ngày càng nhiều. Điều này làm nảy sinh vấn đề: dữ liệu nhiều nhưng thông tin hữu ích thì lại ít. Việc xác định và trích các thông tin có ích này từ một kho dữ liệu lớn là điều cấp thiết và có ý nghĩa làm cơ sở để hỗ trợ các doanh nghiệp, tổ chức ra quyết định. Giúp doanh nghiệp, tổ chức tiết kiệm được thời gian, công sức để có các quyết định tốt nhất trong các lĩnh vực cụ thể; góp phần nâng cao hiệu quả công việc. 9
  13. Việc xây dựng được hệ thống hỗ trợ tốt yêu cầu của tổ chức đang là một thử thách thực sự cho các nhà nghiên cứu. Một trong nhiều gói nghiên cứu để hỗ trợ hiện thực hóa hệ thống này là trích lọc thông tin sử dụng các mẫu. 3. Mục tiêu đề tài - Đề tài nghiên cứu và xây dựng hệ thống trích lọc các thông tin dựa trên một tập mẫu. Kết quả của đề tài làm cơ sở cho các nghiên cứu về hệ thống hỏi đáp cho các loại câu hỏi khác nhau. - Hỗ trợ, định hướng nghiên cứu khoa học cho Sinh viên. Trên cơ sở nghiên cứu và xây dựng hệ thống này, định hướng và bước đầu nghiên cứu, xây dựng các hệ thống trả lời tự động. 4. Phƣơng pháp nghiên cứu a. Cách tiếp cận - Đề tài dùng cách tiếp cận sử dụng mẫu để trích lọc thông tin. b. Phương pháp nghiên cứu - Khảo sát các hướng tiếp cận và các hệ thống trích lọc thông tin trước đó - Sử dụng các hướng tiếp cận, giải pháp, thuật giải có kết hợp với phương pháp so sánh. - Sử dụng phương tiện máy tính cá nhân, kết hợp với các hệ thống khác để thử nghiệm và hiện thực hóa hệ thống. - Sử dụng các bảng biểu để hiển thị kết quả thử nghiệm và các đối tượng đồ họa để vẽ đồ thị và trực quan hóa kết quả thực nghiệm. 5. Đối tƣợng và phạm vi nghiên cứu a. Đối tượng nghiên cứu - Các kho dữ liệu chuẩn: MEDLINE, UMLS - Các hướng tiếp cận và các thuật giải - Các bài báo khoa học tại các hội nghị khoa học 10
  14. - Luận văn, bài khảo sát của các công trình nghiên cứu liên quan - Bộ mã nguồn mở: Lucene, Lemur, Terrier, AutoSlog TS b. Phạm vi nghiên cứu - Đề tài đi sâu vào xây dựng các tập mẫu và hệ thống trích lọc thông tin. 6. Nội dung nghiên cứu - Nghiên cứu tổng quan - Tiền xử lý và phân tích cú pháp - Xây dựng các mẫu trích lọc thông tin - Xây dựng hệ thống trích lọc thông tin 7. Phƣơng pháp và quy trình thực hiện mục tiêu Các mục tiêu của đề tài cần phải làm rõ một số khái niệm, mô hình và sử dụng một số kỹ thuật, thuật giải cũng như các phần mềm chuyên dụng để giải quyết bài toán. Chi tiết các công việc được thực hiện như sau: - Tôi đề cập đến các khái niệm cơ bản về hệ thống trích lọc thông tin (xem mục 1.1); các thành phần xử lý trong quá trình xây dựng một hệ thống trích lọc: phân tích tài liệu (xem 1.1.2), so khớp mẫu (xem 1.1.3). - Kho dữ liệu MEDLINE (xem mục 1.3) được hệ thống sử dụng để trích lọc các câu định nghĩa và các thuật ngữ. MEDLINE chứa các tóm tắt (abstract) của các bài báo khoa học về y khoa. Hong Yu [14] nhận định: các thuật ngữ thường được định nghĩa trong phần Introduction và background của abstract. - Số lượng các câu trong thành phần Introduction và background là rất lớn (4,657,334 câu). Trong đó có nhiều câu không là loại câu định nghĩa. Do đó, tôi tạo tự động các case frame dựa trên tập mẫu cú pháp của AutoSlog [7], [8], [9] (xem chương 2) để rút trích các thông tin định nghĩa của các thuật ngữ trong tập dữ liệu đã được phân lớp. Cơ sở thuật toán tạo tự động các case frame (xem mục 1.4.1, 1.4.2) và hệ thống rút trích thông tin sử dụng case frame được trình bày trong mục 1.5. Cách thức xử lý được trình bày trong 11
  15. chương 2. Kết quả thực nghiệm tạo tự động được 348 case frame (xem mục 2.6). Sử dụng các case frame này loại trừ được 3,423,430 câu không phải là câu định nghĩa (76%) (xem mục 2.7). 8. Nội dung đề tài Nội dung của đề tài được trình bày dưới bố cục như sau: Chƣơng 1: Trình bày các kiến thức cơ sở về hệ thống trích lọc thông tin, kiến trúc của UMLS và các kiến thức về kỹ thuật, thuật giải xử lý của máy tính mà nghiên cứu sử dụng như: AutoSlog, AutoSlog-TS, Sharp NLP Chƣơng 2: Trình bày cấu trúc của case frame phù hợp với hệ thống hỏi đáp tự động và quy trình xây dựng tự động các case frame để rút trích các thông tin của các thuật ngữ và các câu định nghĩa kèm theo. Kết luận và kiến nghị: Tóm lược những nội dung chính đạt được của để tài và đưa ra định hướng nghiên cứu trong thời gian tới. Tài liệu tham khảo Phụ lục 12
  16. 1. CHƢƠNG 1 CÁC KIẾN THỨC CƠ SỞ 1.1 Sơ lƣợc về hệ thống trích lọc thông tin sử dụng mẫu 1.1.1 Định nghĩa Kho dữ liệu Phân tích tài liệu Thông tin So khớp mẫu Tập mẫu trích lọc trích lọc trích lọc Hình 1.1 Mô hình tổng quan hệ thống trích lọc thông tin sử dụng mẫu 1.1.2 Thành phần phân tích tài liệu Đây là phần xử lý đầu tiên của hệ thống. Thành phần này đảm nhiệm 02 tác vụ chính: 1.1.2.1 Tiền xử lý tách câu Trong phần xử lý này, hệ thống sẽ nhận diện các dấu hiệu kết thúc câu. Sau đó, xử lý tách thành các câu riêng biệt trong mỗi tài liệu. Các câu này sẽ được bộ phận phân tích câu phân tích cú pháp để thực hiện so khớp với các mẫu trích lọc. 1.1.2.2 Phân tích cú pháp câu Bộ phân tích cú pháp sẽ phân tích các câu và gán nhãn cú pháp cho các đặc trưng trong câu. Ví dụ: Câu: “The plane crashed in Utah in January in a blaze of fire” sẽ được gán nhãn như sau: 13
  17. - NP: The plane - VP: crashed - PP: in Utah - PP: in January - PP: in a blaze of fire S NP VP PP PP PP The plane crashed in Utah in January in a blaze of fire Hình 1.2 Kết quả phân tích câu Người sử dụng có thể đặt ra các loại câu truy vấn bằng ngôn ngữ tự nhiên và yêu cầu hệ thống trả lời các thông tin có liên quan. Quá trình phân tích câu truy vấn giúp cho hệ thống “hiểu” được câu truy vấn và trích thông tin trả lời phù hợp. Quá trình này đóng vai trò rất quan trọng trong toàn bộ tiến trình hoạt động của hệ thống. Nếu công đoạn này hoàn thành không tốt sẽ ảnh hưởng lớn đến chất lượng, sự thỏa mãn của người dùng về thông tin trả lời của hệ thống. 1.1.3 Thành phần so khớp mẫu Vai trò chính của thành phần này là sử dụng tập các mẫu trích lọc để so khớp mẫu với cấu trúc câu đã phân tích trước đó. Các cấu trúc câu lần lượt sẽ được so khớp với từng mẫu. Nếu câu nào phù hợp với một mẫu nào đó thì thông tin của câu đó được trích lọc tùy vào thành phần trích lọc mà mẫu đó quy định (xem mục 1.5) Bài báo [7], [8] cho rằng: các mẫu có độ do RlogF càng cao sẽ cho kết quả rút trích thông tin càng chính xác. Do vậy, Kết quả trích lọc thông tin cũng được sắp xếp theo độ đo RlogF giảm dần. 14
  18. 1.2 UMLS 1.2.1 Khái niệm UMLS (Unified Medical Language System) là kho tri thức về y khoa được thiết kế và quản lý bởi NLM. Nó được tạo thành từ nhiều nguồn dữ liệu khác nhau (hình 1.3). Mục đích thiết kế, xây dựng UMLS là để tìm kiếm và tích hợp nhiều thông tin y khoa từ nhiều nguồn dữ liệu khác nhau. Nó được tổ chức như là một ontology của các khái niệm và hỗ trợ, cung cấp dữ liệu cho quá trình xây dựng các hệ thống tin học ứng dụng trong y khoa. Hình 1.3 nguồn dữ liệu đƣợc tích hợp trong UMLS1 Kiến trúc của UMLS bao gồm: Metathesaurus, Semantic Network và SPECIALIST Lexicon & Lexical Tools (hình 1.4). 1 15
  19. Hình 1.4 Kiến trúc tổng quan của kho tri thức UMLS2 1.2.2 Metathesaurus Metathesaurus là CSDL các từ vựng (vocabulary database) đa ngôn ngữ chứa hơn 1 triệu khái niệm (concepts) và khoảng 5 triệu các thuật ngữ có liên quan biểu diễn các thông tin định nghĩa, các tên gọi khác nhau cũng như các mối liên hệ giữa các khái niệm, thuật ngữ trong lĩnh vực y khoa. 1.2.3 Semantic Network Các khái niệm trong Metathesaurus được gán một hay nhiều loại ngữ nghĩa (semantic types). Ứng với loại ngữ nghĩa, Semantic Network biểu diễn nhiều loại quan hệ ngữ nghĩa giữa lớp này với các loại ngữ nghĩa khác (hình 1.5). Có tất cả 135 loại ngữ nghĩa và 54 loại quan hệ khác nhau. Ví dụ, hai lớp được gán nhãn là Disease or Syndrome và Clinical Drug có quan hệ ngữ nghĩa là Clinical Drug [treats] Disease or Syndrome. 2 16
  20. Hình 1.5 Các lớp khái niệm của Semantic Network3 1.2.4 SPECIALIST Lexicon & Lexical Tools SPECIALIST Lexicon là một từ điển Anh ngữ bao gồm các từ thuộc lĩnh vực y sinh học. Phần lớn từ loại của các từ là danh từ và được trích từ nhiều nguồn khác nhau như: Các MEDLINE abstracts của các bài báo khoa học, từ điển Dorland's Illustrated Medical Mỗi một từ trong từ điển được biểu diễn cú pháp, hình thái từ và thông tin về chính tả (spelling). Lexical Tools là một tập các chương trình được viết bằng ngôn ngữ Java để hỗ trợ khai thác thông tin của UMLS và xây dựng, phát triển các chương trình NLP. 1.3 Kho dữ liệu MEDLINE MEDLINE, một phần của CSDL PubMed4 được quản lý và cung cấp bởi National Center for Biotechnology Information (NCBI), là một CSDL chứa trên 18 triệu các bài báo, và trên 55000 tạp chí của nhiều ngôn ngữ trên thế giới về nhiều lĩnh vực nghiên cứu thuộc y khoa, khoa học đời sống, sinh hóa phục vụ cho công tác nghiên cứu về sức khỏe cộng đồng, các chính sách về chăm sóc và bảo vệ sức khỏe, và các hoạt động nghiên cứu, giáo dục khác có liên quan. MEDLINE sử dụng 3 4 17
  21. MeSH (MeSH là một cấu trúc phân cấp các từ vựng về các chuyên đề khác nhau thuộc lĩnh vực liên quan đến y khoa) để đánh chỉ mục phân loại các phần tử dữ liệu. Hàng năm, các tạp chí, báo cáo khoa học tại các hội nghị được cập nhật đầy đủ bởi các chuyên gia giàu kinh nghiệm về các lĩnh vực có liên quan. 1.4 Kiến thức về các thuật giải xử lý của máy tính mà nghiên cứu sử dụng 1.4.1 AutoSlog 1.4.1.1 Mô hình AutoSlog được đề xuất bởi Riloff [9] là chương trình dùng để tạo tự động các mẫu rút trích thông tin từ một kho ngữ liệu của một lĩnh vực nào đó (hình 1.6). Hình 1.6 Mô hình tạo mẫu tự động AutoSlog 1.4.1.2 Kho dữ liệu Kho dữ liệu bao gồm các tài liệu sử dụng ngôn ngữ tiếng Anh và có nội dung thường liên quan đến một lĩnh vực nào đó. Ví dụ: biomedical, terrorist, gen 1.4.1.3 Bộ phân tích câu Bộ phân tích câu sẽ gán nhãn cho các từ, cụm từ trong câu. Kết quả của quá trình này: Câu được phân tách thành các cụm từ cú pháp. 18
  22. S K L 0 0 2 1 5 4