Chú giải ngữ nghĩa là gì?

Thứ năm - 13/04/2017 06:08

What is Semantic Annotation?

Theo: http://ontotext.com/knowledgehub/fundamentals/semantic-annotation/

Xem thêm: Dữ liệu Mở liên kết - Linked Open Data.

Chú giải ngữ nghĩa là quy trình gắn thông tin bổ sung vào các khái niệm khác nhau (như con người, đồ vật, địa điểm, tổ chức…) trong văn bản hoặc bất kỳ nội dung nào khác được đưa ra. Không giống như các chú giải văn bản để tham chiếu của các độc giả, các chú giải ngữ nghĩa được các máy tính sử dụng để tham chiếu.

Khi tài liệu (hoặc mẩu nội dung khác, như video chẳng hạn) được chú giải ngữ nghĩa thì nó trở thành nguồn thông tin dễ dàng để các máy tính giải thích, kết hợp và sử dụng lại.

Tạo nội dung thông minh với chú giải bên lề mà máy có khả năng xử lý được

Hãy nghĩ về các chú giải ngữ nghĩa như là dạng chú giải số bên lề có cấu trúc cao (highly structured digital marginalia), thường không nhìn thấy ở phần nội dung mà con người đọc được. Được viết trong ngôn ngữ dữ liệu chính thống tương hợp với máy tính, các chú giải đó giúp các máy tính thực hiện các hoạt động như phân loại, liên kết, suy diễn, tìm kiếm, lọc.

Ví dụ, để chú giải về ngữ nghĩa các khái niệm được chọn trong câu “Aristotle, tác giả của cuốn Politics, đã thành lập Lyceum” (Aristotle, the author of Politics, established the Lyceum) ngụ ý nhận diện Aristotle như là người và Politics như là tác phẩm được viết về triết học chính trị và để sau đó đánh chỉ số, phân loại và liên kết với các khái niệm được nhận diện trong cơ sở dữ liệu đồ họa ngữ nghĩa. Trong trường hợp này Aristotle có thể được liên kết với ngày sinh của ông, các giáo viên của ông, các tác phẩm của ông và Politics có thể được liên kết với chủ ngữ, tới ngày tạo ra nó… Đưa ra siêu dữ liệu ngữ nghĩa của câu ở trên và các liên kết của nó tới tri thức chính thống khác (bên trong hoặc bên ngoài), thì các thuật toán sẽ có khả năng tự động:

Tìm ra ai đã dạy kèm Alexander Đại đế.
Trả lời ai trong số các học trò của Plato đã thành lập Lyceum.
Trích xuất danh sách các nhà tư tưởng chính trị từng sống trong khoảng các năm 380 và 310 trước công nguyên.
Trả về trang các nhà triết học Hy Lạp và bao gồm cả Aristotle.

Chú giải ngữ nghĩa làm việc như thế nào?

Chú giải ngữ nghĩa làm giàu cho nội dung bằng thông tin máy xử lý được bằng cách liên kết thông tin nền tảng với các khái niệm được trích xuất. Các khái niệm đó, được thấy trong tài liệu hoặc mẩu nội dung khác, được xác định rõ ràng không mơ hồ và được liên kết với nhau bên trong và bên ngoài nội dung đó. Nó biến nội dung đó thành nguồn dữ liệu có khả năng quản lý được tốt hơn.

Quy trình điển hình làm giàu ngữ nghĩa (1 khái niệm khác cho chú giải ngữ nghĩa) gồm:

Nhận diện văn bản

text identification

Văn bản được trích xuất từ các nguồn không phải văn bản như các tệp PDF, các video, các tài liệu, các bản ghi âm…

Phân tích văn bản

text_analysis

Các thuật toán chia các câu và nhận diện các khái niệm, như con người, các đồ vật, các địa điểm, các sự kiện, các con số.

Trích xuất khái niệm

concept_extraction

Tất cả các khái niệm được thừa nhận sẽ được phân loại, đó là chúng được xác định như là con người, các tổ chức, các con số… Tiếp theo, chúng được làm sáng tỏ, đó là chúng được xác định một cách rõ ràng không mù mờ theo cơ sở tri thức đặc thù lĩnh vực. Ví dụ, Rome được phân loại như là thành phố và được làm sáng tỏ tiếp như là Rome, nước Ý chứ không phải Rome, Iowa.

Đây là giai đoạn quan trọng nhất của chú giải ngữ nghĩa. Nó rất giống với Nhận dạng Thực thể Được đặt tên - NER (Named Entity Recognition) nhưng là khác vì nó không chỉ thừa nhận các đoạn văn bản mà còn làm cho chúng trở thành các mẩu dữ liệu có thể hiểu được và máy tính có thể xử lý được bằng cách liên kết chúng với các tập hợp rộng lớn hơn các dữ liệu đang tồn tại rồi.

Trích xuất quan hệ

relationship_extraction

Các mối quan hệ giữa các khái niệm được trích xuất sẽ được nhận diện và được liên kết với tri thức theo lĩnh vực có liên quan cả bên trong và bên ngoài.

Đánh chỉ số và lưu trữ trong cơ sở dữ liệu đồ họa ngữ nghĩa

indexing_storing_graph_database

Tất cả các dữ liệu được thừa nhận và được làm giàu cùng với các dữ liệu máy tính đọc được đề cập tới con người, các đồ vật, các con số … và các mối quan hệ giữa chúng sẽ được đánh chỉ số và được lưu trữ trong cơ sở dữ liệu đồ họa ngữ nghĩa để tham chiếu và sử dụng sau đó.

Đâu là nơi chú giải ngữ nghĩa được sử dụng?

Những gì chú giải ngữ nghĩa mang tới là các mẩu dữ liệu thông minh chứa các chú giải có cấu trúc cao và có đầy đủ thông tin cho các máy tính để tham chiếu tới. Các giải pháp bao gồm chú giải ngữ nghĩa được sử dụng rộng rãi để phân tích rủi ro, khuyến cáo nội dung, phát hiện nội dung, dò tìm sự tuân thủ điều chỉnh pháp lý và hơn thế nữa.

Nội dung được chú giải có hệ thống mở ra các cơ hội có hiệu quả về chi phí:

Chú giải ngữ nghĩa làm cho dễ dàng để:

Tìm ra thông tin thích hợp giữa hàng núi các tài liệu với sự trợ giúp của máy tính để làm hộ các công việc phải đi đây đi đó
Trích xuất tri thức từ các nguồn rời rạc phân tán
Cung cấp nội dung được cá nhân hóa, dựa vào ngữ cảnh máy tính hiểu được
Tự động kết nối lẫn nhau các nội dung

Nếu bạn đang tìm cách cung cấp nội dung chất lượng cao với chi phí thấp thì bạn nên đọc sách trắng của chúng tôi về Xuất bản Ngữ ngữ Động (Dynamic Semantic Publishing).

Semantic annotation is the process of attaching additional information to various concepts (e.g. people, things, places, organizations etc) in a given text or any other content. Unlike classic text annotations for reader’s reference, semantic annotations are used by machines to refer to.

When a document (or another piece of content, e.g. video) is semantically annotated it becomes a source of information that is easy to interpret, combine and reuse by our computers.

Create Smart Content with Machine-Processable Marginalia

Think of semantic annotations as a sort of highly structured digital marginalia, usually invisible in the human-readable part of the content. Written in the machine-interpretable formal language of data, these notes serve computers to perform operations like classifying, linking, inferencing, searching, filtering.

For instance, to semantically annotate chosen concepts in the sentence “Aristotle, the author of Politics, established the Lyceum” means to identify Aristotle as person and Politics as a written work of political philosophy and to further index, classify and interlink the identified concepts in a semantic graph database. In this case Aristotle can be linked to his date of birth, his teachers, his works and Politics can be linked to its subject, to its date of creation etc. Given the semantic metadata about the above sentence and its links to other (external or internal) formal knowledge, algorithms will be able to automatically:

Find out who tutored Alexander the Great.
Answer which of Plato’s pupils established the Lyceum.
Retrieve a list of political thinkers who lived between 380 and 310 BC.
Render a page about Greek philosophers and include Aristotle.

How Does Semantic Annotation Work?

Semantic annotation enriches content with machine-processable information by linking background information to extracted concepts. These concepts, found in a document or another piece of content, are unambiguously defined and related to each other within and outside the content. It turns the content into better manageable data source.

A typical process of semantic enrichment (yet another term for semantic annotation) includes:

Text Identification

Text is extracted from non-textual sources such as PDF files, videos,documents, voice recordings etc.

Text Analysis

Algorithms split sentences and identify concepts, such as people, things, places, events, numbers.

Concept Extraction

All recognized concepts are classified, that is they are defined as people, organizations, numbers etc. Next, they are disambiguated, that is they are unambiguously defined according to a domain-specific knowledge base. For example, Rome is classified as a city and further disambiguated as Rome, Italy not Rome, Iowa.

This is the most important stage of semantic annotation. It very much resembles Named Entity Recognition but is different for it not only recognizes text chunks but also makes them machine-processable and understandable data pieces by linking them to a broader sets of already existing data.

Relationship Extraction

The relationships between the extracted concepts are identified and interlinked with related external or internal domain knowledge.

Indexing and storing in a semantic graph database

All the recognized and enriched with machine-readable data mentions of people, things, numbers etc and the relationships between them are indexed and stored in a semantic graph database for further reference and use.

Where is Semantic Annotation Used?

What semantic annotation brings to the table are smart data pieces containing highly-structured and informative notes for machines to refer to. Solutions that include semantic annotation are widely used for risk analysis, content recommendation, content discovery, detecting regulatory compliance and more.

Semantically Annotated Content Opens Up Cost-Effective Opportunities:

Semantic Annotation Makes it Easy to:

Find relevant information among heaps of documents with the help of machines doing the legwork
Extract knowledge from disparate sources
Provide personalized content, based on machine-understandable context
Automatically interconnect content