What is Five-Star Linked Open Data?
Theo: http://ontotext.com/knowledgehub/fundamentals/five-star-linked-open-data/
Xem thêm: Dữ liệu Mở liên kết - Linked Open Data.
Dữ liệu Liên kết (Linked Data) là tập hợp các nguyên tắc thiết kế cho việc chia sẻ các dữ liệu được liên kết với nhau mà máy đọc được trên Web. Mặt khác, Dữ liệu Mở (Open Data), là dữ liệu có thể được bất kỳ ai tự do sử dụng và phân phối, miễn là nhiều nhất chỉ tuân thủ yêu cầu ghi công và chia sẻ tương tự. Các tập hợp dữ liệu vừa mở và vừa có liên kết là Dữ liệu Mở Liên kết (Linked Open Data).
Tương tự như các nguyên tắc và các tiêu chuẩn định nghĩa những gì là dữ liệu liên kết hoặc dữ liệu mở, chúng ta cũng có thể đo đếm được một tập hợp dữ liệu liên kết và mở tới đâu.
Vào năm 2010, người phát minh ra World Wide Web, người tạo ra và bảo vệ Web Ngữ nghĩa (Semantic Web) và Dữ liệu Liên kết (Linked Data), Ngài Tim Berners-Lee, đã gợi ý sơ đồ phát triển 5 sao cho Dữ liệu Mở Liên kết (Linked Open Data).
Việc xếp hạng bắt đầu từ 1 sao và dữ liệu được gắn thêm các sao khi các định dạng sở hữu độc quyền được loại bỏ và các liên kết được thêm vào.
Hãy xem qua những gì sẽ ‘thưởng' từng trong số 5 sao và đâu là những lợi ích những người sử dụng các tập hợp dữ liệu đó được hưởng từ việc 'đếm sao' đó.
Dữ liệu Mở 1 Sao
Dữ liệu Mở 1 Sao được định nghĩa như là dữ liệu sẵn sàng trên web, ở bất kỳ định dạng nào, nhưng với một giấy phép mở, để trở thành Dữ liệu Mở (Open Data). Những người sử dụng có thể xem, tìm kiếm, lưu trữ, thay đổi dữ liệu và chia sẻ dữ liệu đó với bất kỳ ai họ thích. Như một nhà xuất bản dữ liệu, một tổ chức biết rằng là đơn giản để xuất bản và không cần lúc nào cũng phải giải thích cho những người khác rằng họ có thể sử dụng dữ liệu đó.
Dữ liệu Mở 2 Sao
Đề giành được 2 sao, dữ liệu mở cần phải là sẵn sàng như là dữ liệu có cấu trúc mà máy đọc được, ví dụ, một bảng tính excel thay vì hình ảnh quét của một bảng. Những người sử dụng dữ liệu mở 2 sao có thể làm bất kỳ điều gì họ muốn như với dữ liệu mở 1 sao cộng thêm việc xử lý nó trực tiếp bằng phần mềm sở hữu độc quyền và xuất khẩu nó sang định dạng có cấu trúc khác. Tuy nhiên, dạng dữ liệu đó vẫn còn bị khóa trói vì những người sử dụng phụ thuộc vào phần mềm sở hữu độc quyền để có khả năng lấy được dữ liệu ra khỏi tài liệu.
Dữ liệu Mở 3 Sao
Vì thế, 3 sao được thưởng cho dữ liệu theo đó những người sử dụng không đòi hỏi phải có gói phần mềm sở hữu độc quyền để phân tích nó. Một ví dụ của điều này là định dạng các giá trị phân cách nhau bằng dấu phẩy (CSV) mà lưu trữ các dữ liệu bảng theo văn bản thô (plain text).
Dữ liệu Mở 4 Sao
Một sao được thêm cho dữ liệu sử dụng các tiêu chuẩn mở từ W3C, như RDF và SPARQL, để xác định mọi điều. RDF, là Khung Mô tả Tài nguyên (Resource Description Framework), là tiêu chuẩn được sử dụng trong cơ sở dữ liệu đồ họa ngữ nghĩa (semantic graph database). Cơ sở dữ liệu này, còn được gọi là triplestore RDF, là dạng công nghệ theo ngữ nghĩa để lưu trữ và quản lý các dữ liệu được liên kết với nhau và tạo ra ý nghĩa của dữ liệu được kết nối với nhau. Không giống như cơ sở dữ liệu quan hệ, triplestore ánh xạ các mối quan hệ khác nhau giữa các thực thể trong các cơ sở dữ liệu đồ họa. SPARQL là ngôn ngữ truy vấn được W3C tiêu chuẩn hóa cho cơ sở dữ liệu RDF.
Khái niệm cốt lõi của triplestore và nguyên tắc của Dữ liệu Liên kết nằm bên dưới là Mã Tài nguyên Thống nhất - URI (Uniform Resource Indentifier), Mã ID duy nhất cho tất cả mọi điều được kết nối. Bằng việc thể hiện dữ liệu trong cơ sở dữ liệu đồ họa, người sử dụng có thể liên kết tới nó từ bất kỳ đâu khác hoặc sử dụng lại các phần của dữ liệu đó.
Dữ liệu Mở Liên kết 5 Sao
Với sự trợ giúp các tiêu chuẩn của W3C và các nguyên tắc của Dữ liệu Liên kết, các nhà xuất bản dữ liệu liên kết các dữ liệu của họ tới dữ liệu của những người khác để đưa ra ngữ cảnh. Điều này là tiên quyết cho việc có được 5 sao đối với Dữ liệu Mở Liên kết, theo Tim Berners-Lee.
Cơ sở dữ liệu đồ họa ngữ nghĩa có khả năng điều khiển các tập hợp dữ liệu khác nhau và ánh xạ các đường liên kết tới các nguồn dữ liệu mở liên kết như DBpedia hoặc GeoNames, ví dụ thế.
Những người sử dụng dữ liệu 5 sao có thể phát hiện ngày càng nhiều thông tin được liên kết với nhau trong khi sử dụng các dữ liệu đó. Vì cơ sở dữ liệu đồ họa ngữ nghĩa có khả năng suy luận ra các đường liên kết mới bên ngoài các sự kiện đang tồn tại, người sử dụng có thể phát hiện ra nhiều mối quan hệ hơn trong các dữ liệu liên kết của họ.
Nói đơn giản, Dữ liệu Mở Liên kết (Linked Open Data) 5 sao là dữ liệu mở sẵn sàng trên Web được kết nối với các dữ liệu khác, và hiệu ứng mạng của nó là vì lợi ích của cả những người tiêu dùng dữ liệu và những người xuất bản dữ liệu.
Linked Data is a set of design principles for sharing machine-readable interlinked data on the Web. Open Data, on the other hand, is data that can be freely used and distributed by anyone, subject just to the requirement to attribute and share-alike, at most. Datasets that are both open and linked are Linked Open Data.
Similarly to the principles and standards for defining what linked data or open data is, we can also measure how much linked and open a set of data is.
In 2010, the inventor of the World Wide Web and the creator and advocate of the Semantic Web and Linked Data, Sir Tim Berners-Lee, suggested a 5-star deployment scheme for Linked Open Data. The rating begins at one star and data gets stars when proprietary formats are removed and links are added.
Let’s take a look at what does it take to be ‘awarded’ each of the five stars and what benefits the users of those datasets draw from going up the ‘stars count’.
The one-star open data is defined as data available on the web, in whatever format, but with an open license, so as to be Open Data. Consumers can look, search, store, change data and share the data with anyone they like. As a data publisher, an organization knows that it’s simple to publish and does not need to constantly explain to others that they can use the data.
In order to win a second star, the open data needs to be available as machine-readable structured data, for example, an excel spreadsheet instead of an image scan of a table. The users of 2-star open data can do anything they do with a 1-star data plus directly processing it with proprietary software and exporting it into another structured format. However, that type of data is still locked up because users depend on proprietary software to be able to get the data out of a document.
Therefore, the third star is awarded to data for which users don’t require proprietary software package in order to analyze it. One example of this is the comma-separated values (CSV) format that stores tabular data in plain text.
Another star goes to data that uses open standards from W3C, such as RDF and SPARQL, to identify things. RDF, which stands for Resource Description Framework, is the standard used in a semantic graph database. This graph database, also called an RDF triplestore, is a type of semantic technology for storing and managing interlinked data and making sense of that interconnected data. Unlike the relational database, the triplestore maps the various relationships between entities in graph databases. SPARQL is the W3C-standardized query language for the RDF database.
The core concept of the triplestore and the underlying Linked Data principle is the Uniform Resource Identifier (URI), a unique ID for all things linked. By representing data in a graph database, the user can link to it from any other place or reuse parts of the data.
With the help of the W3C standards and Linked Data principles, data publishers link their data to other people’s data to provide context. This is the prerequisite for getting the fifth star for Linked Open Data, according to Sir Berners-Lee.
The semantic graph database is capable of handling various datasets and maps links to linked open data sources such as DBpedia or GeoNames, for example.
Users of five-star data can discover more and more interlinked information while using the data. As the semantic graph database is capable of inferring new links out of existing facts, users can discover more relationships within their linked data.
Simply put, the five-star Linked Open Data is open data available on the Web linked to other data, and its network effect is to the benefit of both data consumers and data publishers.
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com
Ý kiến bạn đọc
Những tin mới hơn
Những tin cũ hơn
Blog này được chuyển đổi từ http://blog.yahoo.com/letrungnghia trên Yahoo Blog sang sử dụng NukeViet sau khi Yahoo Blog đóng cửa tại Việt Nam ngày 17/01/2013.Kể từ ngày 07/02/2013, thông tin trên Blog được cập nhật tiếp tục trở lại với sự hỗ trợ kỹ thuật và đặt chỗ hosting của nhóm phát triển...
Các bài trình chiếu trong năm 2024
Tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ cho giáo viên phổ thông, bao gồm cả giáo viên tiểu học và mầm non tới hết năm 2024
Các lớp tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ tới hết năm 2024
Các tài liệu dịch sang tiếng Việt tới hết năm 2024
‘Digcomp 2.2: Khung năng lực số cho công dân - với các ví dụ mới về kiến thức, kỹ năng và thái độ’, EC xuất bản năm 2022
Tổng hợp các bài của Nhóm các Nhà cấp vốn Nghiên cứu Mở (ORFG) đã được dịch sang tiếng Việt
Tổng hợp các bài của Liên minh S (cOAlition S) đã được dịch sang tiếng Việt
Năm Khoa học Mở & Chuyển đổi sang Khoa học Mở - Tổng hợp các bài liên quan
Hội nghị Đối tác Dữ liệu Mở châu Á năm 2021 do Việt Nam lần đầu tiên chủ trì
Các khung năng lực trong hành động
Phong trào Bình dân học vụ số: Mục tiêu, đối tượng, nội dung, nguồn lực, phương thức tổ chức thực hiện
Lễ công bố công khai Trung tâm Năng lực Kim cương châu Âu và dự án ALMASI
Khung năng lực AI cho giáo viên
Sư phạm Mở là gì (Trang của Đại học British Columbia, Canada)
Ngày Phần mềm Tự do, Ngày Phần cứng tự do, Ngày Tài liệu Tự do
‘Khung năng lực AI cho giáo viên’ - bản dịch sang tiếng Việt
Bạn cần biết những gì về các khung năng lực AI mới của UNESCO cho học sinh và giáo viên
Bàn về 'Lợi thế của doanh nghiệp Việt là dữ liệu Việt, bài toán Việt' - bài phát biểu của Bộ trưởng Nguyễn Mạnh Hùng ngày 21/08/2025
Các bài trình chiếu trong năm 2024
Các tài liệu dịch sang tiếng Việt tới hết năm 2024
Triển khai Khuyến nghị Khoa học Mở của UNESCO, cập nhật 15/10/2024
‘Tài liệu quan điểm của KR21 về Giữ lại Quyền Tác giả: Giữ lại các quyền trong kết quả đầu ra nghiên cứu để cho phép phổ biến mở kiến thức’ - bản dịch sang tiếng Việt
‘KHUYẾN NGHỊ VÀ HƯỚNG DẪN TRUY CẬP MỞ KIM CƯƠNG cho các cơ sở, nhà cấp vốn, nhà bảo trợ, nhà tài trợ, và nhà hoạch định chính sách’ - bản dịch sang tiếng Việt
Tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ cho giáo viên phổ thông, bao gồm cả giáo viên tiểu học và mầm non tới hết năm 2024
DeepSeek đã gây ra sự hoảng loạn trên thị trường — nhưng một số người cho rằng việc bán tháo là quá mức
“Chúng tôi không có hào nước”: Sự đổi mới đột phá của AI nguồn mở
Dữ liệu để phân loại AI
Ứng dụng và phát triển Tài nguyên Giáo dục Mở (OER) tại Việt Nam
Nhà khoa học AI hàng đầu của Meta cho biết thành công của DeepSeek cho thấy 'các mô hình nguồn mở đang vượt trội hơn các mô hình độc quyền'
‘Tầm quan trọng của các kỹ năng tư duy phản biện và linh hoạt về năng lực AI của sinh viên TVET’ - bản dịch sang tiếng Việt