Chú giải ngữ nghĩa là gì?

Thứ năm - 13/04/2017 06:08

What is Semantic Annotation?

Theo: http://ontotext.com/knowledgehub/fundamentals/semantic-annotation/

Xem thêm: Dữ liệu Mở liên kết - Linked Open Data.


 

Chú giải ngữ nghĩa là quy trình gắn thông tin bổ sung vào các khái niệm khác nhau (như con người, đồ vật, địa điểm, tổ chức…) trong văn bản hoặc bất kỳ nội dung nào khác được đưa ra. Không giống như các chú giải văn bản để tham chiếu của các độc giả, các chú giải ngữ nghĩa được các máy tính sử dụng để tham chiếu.

Khi tài liệu (hoặc mẩu nội dung khác, như video chẳng hạn) được chú giải ngữ nghĩa thì nó trở thành nguồn thông tin dễ dàng để các máy tính giải thích, kết hợp và sử dụng lại.

Tạo nội dung thông minh với chú giải bên lề mà máy có khả năng xử lý được

Hãy nghĩ về các chú giải ngữ nghĩa như là dạng chú giải số bên lề có cấu trúc cao (highly structured digital marginalia), thường không nhìn thấy ở phần nội dung mà con người đọc được. Được viết trong ngôn ngữ dữ liệu chính thống tương hợp với máy tính, các chú giải đó giúp các máy tính thực hiện các hoạt động như phân loại, liên kết, suy diễn, tìm kiếm, lọc.

Ví dụ, để chú giải về ngữ nghĩa các khái niệm được chọn trong câu “Aristotle, tác giả của cuốn Politics, đã thành lập Lyceum” (Aristotle, the author of Politics, established the Lyceum) ngụ ý nhận diện Aristotle như là người và Politics như là tác phẩm được viết về triết học chính trị và để sau đó đánh chỉ số, phân loại và liên kết với các khái niệm được nhận diện trong cơ sở dữ liệu đồ họa ngữ nghĩa. Trong trường hợp này Aristotle có thể được liên kết với ngày sinh của ông, các giáo viên của ông, các tác phẩm của ông và Politics có thể được liên kết với chủ ngữ, tới ngày tạo ra nó… Đưa ra siêu dữ liệu ngữ nghĩa của câu ở trên và các liên kết của nó tới tri thức chính thống khác (bên trong hoặc bên ngoài), thì các thuật toán sẽ có khả năng tự động:

  • Tìm ra ai đã dạy kèm Alexander Đại đế.

  • Trả lời ai trong số các học trò của Plato đã thành lập Lyceum.

  • Trích xuất danh sách các nhà tư tưởng chính trị từng sống trong khoảng các năm 380 và 310 trước công nguyên.

  • Trả về trang các nhà triết học Hy Lạp và bao gồm cả Aristotle.

Chú giải ngữ nghĩa làm việc như thế nào?

Chú giải ngữ nghĩa làm giàu cho nội dung bằng thông tin máy xử lý được bằng cách liên kết thông tin nền tảng với các khái niệm được trích xuất. Các khái niệm đó, được thấy trong tài liệu hoặc mẩu nội dung khác, được xác định rõ ràng không mơ hồ và được liên kết với nhau bên trong và bên ngoài nội dung đó. Nó biến nội dung đó thành nguồn dữ liệu có khả năng quản lý được tốt hơn.

Quy trình điển hình làm giàu ngữ nghĩa (1 khái niệm khác cho chú giải ngữ nghĩa) gồm:

Nhận diện văn bản

text identification

Văn bản được trích xuất từ các nguồn không phải văn bản như các tệp PDF, các video, các tài liệu, các bản ghi âm…

Phân tích văn bản

text_analysis

Các thuật toán chia các câu và nhận diện các khái niệm, như con người, các đồ vật, các địa điểm, các sự kiện, các con số.

Trích xuất khái niệm

concept_extraction

Tất cả các khái niệm được thừa nhận sẽ được phân loại, đó là chúng được xác định như là con người, các tổ chức, các con số… Tiếp theo, chúng được làm sáng tỏ, đó là chúng được xác định một cách rõ ràng không mù mờ theo cơ sở tri thức đặc thù lĩnh vực. Ví dụ, Rome được phân loại như là thành phố và được làm sáng tỏ tiếp như là Rome, nước Ý chứ không phải Rome, Iowa.

Đây là giai đoạn quan trọng nhất của chú giải ngữ nghĩa. Nó rất giống với Nhận dạng Thực thể Được đặt tên - NER (Named Entity Recognition) nhưng là khác vì nó không chỉ thừa nhận các đoạn văn bản mà còn làm cho chúng trở thành các mẩu dữ liệu có thể hiểu được và máy tính có thể xử lý được bằng cách liên kết chúng với các tập hợp rộng lớn hơn các dữ liệu đang tồn tại rồi.

Trích xuất quan hệ

relationship_extraction

Các mối quan hệ giữa các khái niệm được trích xuất sẽ được nhận diện và được liên kết với tri thức theo lĩnh vực có liên quan cả bên trong và bên ngoài.

Đánh chỉ số và lưu trữ trong cơ sở dữ liệu đồ họa ngữ nghĩa