Theo: http://ontotext.com/knowledgehub/fundamentals/what-is-rdf-triplestore/
Xem thêm: Dữ liệu Mở liên kết - Linked Open Data.
RDF triplestore là dạng cơ sở dữ liệu đồ thị lưu trữ các sự việc theo ngữ nghĩa. RDF là viết tắt từ tiếng Anh cho Khung Mô tả Tài nguyên (Resource Description Framework), là mô hình để xuất bản và trao đổi dữ liệu trên Web được W3C tiêu chuẩn hóa.
Là cơ sở dữ liệu đồ thị, triplestore lưu trữ dữ liệu như là mạng các đối tượng với các đường liên kết được cụ thể hóa giữa chúng. Điều này làm cho RDF triplestore trở thành lựa chọn được ưu tiên để quản lý các dữ liệu được kết nối cao độ với nhau. Triplestore là mềm dẻo và ít tốn kém hơn so với cơ sở dữ liệu quan hệ, ví dụ thế.
Cơ sở dữ liệu RDF, thường được gọi là cơ sở dữ liệu đồ thị ngữ nghĩa, cũng có khả năng điều khiển các truy vấn ngữ nghĩa mạnh và sử dụng suy diễn để phát hiện ra thông tin mới vượt ra khỏi các mối quan hệ đang tồn tại.
Đối nghịch lại với các dạng cơ sở dữ liệu đồ thị khác, các động cơ RDF triplestore hỗ trợ các mô hình sơ đồ tùy chọn, được gọi là bản thể học (ontologies). Các bản thể học cho phép mô tả chính thức các dữ liệu.
Chúng chỉ định cả các lớp đối tượng và các thuộc tính quan hệ, và trật tự phân cấp của chúng.
Dữ liệu trong RDF triplestore được lưu trữ trong mối quan hệ được gọi là triple (bộ 3), vì thể có tên là triplestore. Bộ 3 đó cũng được tham chiếu tới như là ‘các câu lệnh’ và ‘các câu lệnh RDF’.
Định dạng chủ ngữ → vị ngữ → bổ ngữ (subject → predicate → object) có khả năng lấy bất kỳ chủ ngữ hoặc khái niệm nào và kết nối nó với bất kỳ bổ ngữ nào khác bằng việc sử dụng vị ngữ (động từ) để chỉ ra dạng của mối quan hệ đang tồn tại giữa chủ ngữ và bổ ngữ đó.
Ví dụ, ‘Joe bán các cuốn sách’ có thể được lưu trữ như một lệnh RDF trong triplestore và mô tả mối quan hệ giữa chủ ngữ của câu, Joe, và bổ ngữ, các cuốn sách. Vị ngữ “bán” chỉ ra cách mà chủ ngữ và bổ ngữ được kết nối.
Xem video: Video: https://www.youtube.com/embed/iuQrBf2Oq-E
Khái niệm cốt lõi của định dạng RDF triplestore cũng như trong các hệ biến hóa Dữ liệu Liên kết là Mã nhận diện Tài nguyên Vạn năng - URI (Universal Resource Identifier). URI là hệ thống nhận diện toàn cầu duy nhất được sử dụng trên Web, dạng mã ID duy nhất.
Các cơ sở dữ liệu RDF triplestore được sử dụng thành công cho việc quản lý các tập hợp dữ liệu của Dữ liệu Mở Liên kết (Linked Open Data), như DBPedia và GeoNames, chúng được xuất bản như là các RDF và được kết nối với nhau. Dữ liệu Mở Liên kết cho phép truy vấn và trả lời các truy vấn có tính liên đoàn nhanh hơn nhiều và để giành được các kết quả tìm kiếm thích hợp cao.
Triplestore làm cho những nỗ lực truy vấn dữ liệu đa dạng và đang tiến hóa từ các nguồn khác nhau hiệu quả hơn về chi phí và tốn ít thời gian hơn.
Vì các tiêu chuẩn vạn năng áp dụng cho RDF triplestore, chúng làm cho việc chuyển dữ liệu khỏi triplestore này tới triplestore khác là dễ dàng.
RDF triplestore điều khiển lượng dữ liệu khổng lồ, chúng cải thiện cho sức mạnh tìm kiếm và phân tích của các tổ chức. Điều quan trọng hơn là các triplestore có khả năng suy diễn ra các sự việc tiềm ẩn vượt ra khỏi các câu lệnh rõ ràng. Việc suy diễn ra các mối quan hệ nằm ngoài dữ liệu ban đầu, với sự trợ giúp của cơ sở dữ liệu đồ thị ngữ nghĩa, biến thông tin thành tri thức. Điều này cho phép các tổ chức phát hiện ra các mối quan hệ ẩn dấu trong khắp các dữ liệu của họ.
Giành được nhiều tri thức hơn các đối thủ cạnh tranh, các doanh nghiệp có thể dễ dàng hơn trong việc mở rộng phạm vi tri thức đó thành các giải pháp thông minh hơn và có được lợi thế lớn hơn trong cạnh tranh. Truyền thông & xuất bản, y tế và khoa học đời sống, nhân văn số và các lĩnh vực dịch vụ tài chính đang sử dụng rộng rãi rồi RDF triplestore để quản lý các dữ liệu có cấu trúc và phi cấu trúc.
Các triplestore cũng giúp trích xuất thông tin và làm giàu nội dung từ các dữ liệu phi cấu trúc bằng việc khai thác văn bản (text mining). Sau khi văn bản được trích xuất từ bất kỳ dạng dữ liệu phi cấu trúc nào, dù nó là các bài báo hay tài liệu, thì các câu được chia thành các phần bài nói chuyện. Các khái niệm và các thực thể quan trọng, như các danh từ riêng, được nhận diện bằng các danh sách từ trong từ điển.
Công nghệ ngữ nghĩa và các thuật toán máy học phân loại và làm sáng tỏ ngữ nghĩa giữa các thực thể. Bằng ‘việc học’ ngữ cảnh và ý nghĩa của các thực thể, các thuật toán có khả năng làm sáng tỏ ngữ nghĩa ‘Paris’, ví dụ, dù nó được tham chiếu tới Paris, nước Pháp, hay Paris, Texas, hoặc Paris Hilton, hay Paris, Chúa Trời trong thần thoại Hy Lạp.
Ngoài các mối quan hệ đang có, các bộ 3 cũng trình bày các liên kết giữa các cơ sở dữ liệu với các dữ liệu và tài liệu có cấu trúc mà chứa văn bản tuôn chảy tự do, phi cấu trúc. RDF triplestore, thường được tham chiếu tới như là cơ sở dữ liệu đồ thị và graph db, liên kết các thực thể từ đó chúng đã được trích xuất.
Các cơ sở dữ liệu đồ thị, và đặc biệt là RDF triplestore, có các ứng dụng thực tế đa dạng đối với các tổ chức có mục đích có ngữ cảnh cũng như nội dung. Một vài ứng dụng đó là tích hợp dữ liệu, tìm kiếm và phát hiện, các sản phẩm thông tin năng động, nội dung và các khuyến cáo được cá nhân hóa, và trực quan hóa dữ liệu. Các giải pháp đó, được kết hợp với phát hiện tri thức vượt ra ngoài thông tin từ các nguồn rời rạc phân tán, giúp cho các tổ chức giành được ưu thế cạnh tranh, tạo ra nhiều giá trị hơn, và tiếp cận được các nguồn doanh thu mới.
Nếu bạn từng biết các triplestores nhanh hơn thế nào so với các cơ sở dữ liệu quan hệ thì bạn có lẽ chỉ sử dụng các cơ sở dữ liệu no-SQL. Hãy thử GraphDB Free và tự thấy.
RDF triplestore is a type of graph database that stores semantic facts. RDF, which stands for Resource Description Framework, is a model for data publishing and interchange on the Web standartized by W3C.
Being a graph database, triplestore stores data as a network of objects with materialised links between them. This makes RDF triplestore a preferred choice for managing highly interconnected data. Triplestores are more flexible and less costly than a relational database, for example.
The RDF database, often called a semantic graph database, is also capable of handling powerful semantic queries and of using inference for uncovering new information out of the existing relations.
In contrast to other types of graph databases, RDF triplestore engines support optional schema models, called ontologies. Ontologies allow for formal description of the data. They specify both object classes and relationship properties, and their hierarchical order.
The data in RDF triplestore is stored in the relationship which is called a triple, hence the name triplestores. The triples are also referred to as ‘statements’ and ‘RDF statements’.
The subject->predicate->object format is able to take any subject or concept and connect it to any other object by using the predicate (verb) to show the type of relationship existing between the subject and the object.
For example, ‘Joe sells books’ can be stored as an RDF statement in a triplestore and describes the relationship between the subject of the sentence, Joe, and the object, books. The predicate “sells” shows how the subject and the object are connected.
Video: https://www.youtube.com/embed/iuQrBf2Oq-E
The core concept of the RDF triplestore format as well as in the Linked Data paradigm is the Universal Resources Identifier (URI). URI is a single global identification system used in the Web, a kind of unique ID.
RDF triplestore databases are successfully used for managing Linked Open Data datasets, such as DBPedia and GeoNames, which are published as RDFs and are interconnected with one another. Linked Open Data allows for querying and answering federated queries much faster and for obtaining highly relevant search results.
The triplestore makes the efforts to query diverse and evolving data from different sources more cost-efficient and less time-consuming.
Since universal standards apply to RDF triplestore, they make moving data from one triplestore to another trivial.
RDF triplestore handle huge amounts of data, which improves the search and analytics powers of organizations. What’s more important is that triplestores are able to infer implicit facts out of the explicit statements. Inferencing relationships out of the original data, with the help of a semantic graph database, turns information into knowledge. This allows organizations to uncover hidden relationships across all their data.
Having gained more knowledge than competitors, enterprises can more easily scale up that knowledge into smarter solutions and have the upper hand in competition. The media & publishing, healthcare and life sciences, digital humanities and financial services sectors are already widely using RDF triplestore to manage unstructured and structured data.
Triplestores also help extract information and enrich content from unstructured data by text mining. After a text is extracted from any form of unstructured data, be it articles or documents, sentences are broken down into parts of speech. The important concepts and entities, such as proper nouns, are identified with dictionary word lists.
Semantic technology and machine learning algorithms classify and disambiguate between entities. By ‘learning’ the context and meaning of entities, the algorithms are able to disambiguate ‘Paris’, for example, whether it is referred to Paris, France, or Paris, Texas, or Paris Hilton, or Paris, the God in Greek mythology.
Apart from containing relationships, triples also demonstrate links between databases with structured data and documents that contain unstructured, free-flowing text. RDF triplestore, often referred to as graph database and graph db, links entities from databases to documents which mention those entities by denoting relationships from which they were extracted.
Graph databases, and RDF triplestore in particular, have various practical usages for organizations that aim to have context as well as content. Some of the uses are data integration, search and discovery, dynamic information products, personalized content and recommendations, and data visualization. These solutions, combined with knowledge discovery out of information from disparate sources, help organizations gain a competitive edge, create more value, and tap into new sources of revenues.
Dịch: Lê Trung Nghĩa
Ý kiến bạn đọc
Những tin mới hơn
Những tin cũ hơn
Blog này được chuyển đổi từ http://blog.yahoo.com/letrungnghia trên Yahoo Blog sang sử dụng NukeViet sau khi Yahoo Blog đóng cửa tại Việt Nam ngày 17/01/2013.Kể từ ngày 07/02/2013, thông tin trên Blog được cập nhật tiếp tục trở lại với sự hỗ trợ kỹ thuật và đặt chỗ hosting của nhóm phát triển...
Các bài trình chiếu trong năm 2024
Tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ cho giáo viên phổ thông, bao gồm cả giáo viên tiểu học và mầm non tới hết năm 2024
Các lớp tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ tới hết năm 2024
Các tài liệu dịch sang tiếng Việt tới hết năm 2024
‘Digcomp 2.2: Khung năng lực số cho công dân - với các ví dụ mới về kiến thức, kỹ năng và thái độ’, EC xuất bản năm 2022
Tổng hợp các bài của Nhóm các Nhà cấp vốn Nghiên cứu Mở (ORFG) đã được dịch sang tiếng Việt
Tổng hợp các bài của Liên minh S (cOAlition S) đã được dịch sang tiếng Việt
Năm Khoa học Mở & Chuyển đổi sang Khoa học Mở - Tổng hợp các bài liên quan
Hội nghị Đối tác Dữ liệu Mở châu Á năm 2021 do Việt Nam lần đầu tiên chủ trì
Các khung năng lực trong hành động
Phong trào Bình dân học vụ số: Mục tiêu, đối tượng, nội dung, nguồn lực, phương thức tổ chức thực hiện
Lễ công bố công khai Trung tâm Năng lực Kim cương châu Âu và dự án ALMASI
Khung năng lực AI cho giáo viên
Sư phạm Mở là gì (Trang của Đại học British Columbia, Canada)
Ngày Phần mềm Tự do, Ngày Phần cứng tự do, Ngày Tài liệu Tự do
‘Khung năng lực AI cho giáo viên’ - bản dịch sang tiếng Việt
Bạn cần biết những gì về các khung năng lực AI mới của UNESCO cho học sinh và giáo viên
Bàn về 'Lợi thế của doanh nghiệp Việt là dữ liệu Việt, bài toán Việt' - bài phát biểu của Bộ trưởng Nguyễn Mạnh Hùng ngày 21/08/2025
Các bài trình chiếu trong năm 2024
Các tài liệu dịch sang tiếng Việt tới hết năm 2024
Triển khai Khuyến nghị Khoa học Mở của UNESCO, cập nhật 15/10/2024
‘Tài liệu quan điểm của KR21 về Giữ lại Quyền Tác giả: Giữ lại các quyền trong kết quả đầu ra nghiên cứu để cho phép phổ biến mở kiến thức’ - bản dịch sang tiếng Việt
‘KHUYẾN NGHỊ VÀ HƯỚNG DẪN TRUY CẬP MỞ KIM CƯƠNG cho các cơ sở, nhà cấp vốn, nhà bảo trợ, nhà tài trợ, và nhà hoạch định chính sách’ - bản dịch sang tiếng Việt
Tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ cho giáo viên phổ thông, bao gồm cả giáo viên tiểu học và mầm non tới hết năm 2024
DeepSeek đã gây ra sự hoảng loạn trên thị trường — nhưng một số người cho rằng việc bán tháo là quá mức
“Chúng tôi không có hào nước”: Sự đổi mới đột phá của AI nguồn mở
Dữ liệu để phân loại AI
Ứng dụng và phát triển Tài nguyên Giáo dục Mở (OER) tại Việt Nam
Nhà khoa học AI hàng đầu của Meta cho biết thành công của DeepSeek cho thấy 'các mô hình nguồn mở đang vượt trội hơn các mô hình độc quyền'
‘Tầm quan trọng của các kỹ năng tư duy phản biện và linh hoạt về năng lực AI của sinh viên TVET’ - bản dịch sang tiếng Việt