(Bài đăng trên tạp chí Tia Sáng số 16, ra ngày 20/08/2019, trang 14-17. Phiên bản điện tử của Tia Sáng trên trực tuyến đăng ngày 26/08/2019 tại địa chỉ: http://www.tiasang.com.vn/-doi-moi-sang-tao/Hai-dieu-kien-tien-quyet-cho-du-lieu-mo-20567).
Dữ liệu là nền tảng cơ bản và quan trọng cho hàng loạt các công nghệ đương thời dựa vào nó như trí tuệ nhân tạo (AI), Internet của Vạn vật (IoT), dữ liệu lớn (Big Data). Dữ liệu được hình thành từ số hóa và/hoặc chuyển đổi số. Để quản lý tốt và tin cậy, máy đọc được, sử dụng lại được, lần vết được, và tránh đúp bản, thì số hóa và/hoặc chuyển đổi số, bên cạnh các việc khác, phải đi với: (1) mã nhận diện thường trực duy nhất phù hợp với các tiêu chuẩn quốc tế; và (2) cấp phép mở, nhất là đối với các dữ liệu được tạo ra từ cấp vốn nhà nước.
Trong một thế giới ngày càng được số hóa, mở và dựa vào dữ liệu như hiện nay, để có thể quản lý và lần vết được các tài nguyên số ngày càng trở nên thừa thãi trên Internet, cùng với nhu cầu mới của thời đại CMCN4 với yếu tố chưa từng có trước đây là máy đọc được, thế giới đã và đang hướng với việc xây dựng hệ thống các mã nhận diện thường trực duy nhất cho các đối tượng số. Cùng với điều đó, để có thể tạo ra được tri thức mới trong khi ‘đứng trên vai những người khổng lồ’, các tài nguyên tri thức ngày càng được chia sẻ và truy cập mở nhiều hơn trên Internet một cách hợp pháp nhờ vào việc cấp phép mở cho chúng để bất kỳ ai cũng có khả năng sử dụng lại chúng một cách hợp pháp, trong nhiều trường hợp vì bất kỳ mục đích gì, kể cả thương mại hóa nhưng vẫn đảm bảo tôn trọng bản quyền và các quyền hợp pháp của tác giả, tránh mọi rào cản về tài chính, pháp lý và kỹ thuật, đặc biệt là các tài nguyên được tạo ra từ các nguồn vốn cấp của nhà nước.
A. Tiếp cận Dữ liệu Mở Liên kết - LOD (Linked Open Data) với quy tắc 4 điểm và lược đồ tiêu chuẩn 5 sao của Tim Berners-Lee
Vào ngày 27/07/2006, Tim Berners - Lee, nhà phát minh ra Web của các tài liệu siêu văn bản được kết nối với nhau những năm đầu thập niên 1990 với sự sử dụng các bộ định vị tài nguyên thống nhất - URL (Uniform Resource Locator), đã đề xuất một khái niệm mới, Web của dữ liệu (Web of Data) được kết nối với nhau với sự sử dụng các mã nhận diện tài nguyên thống nhất - URI (Uniform Resource Identifier). Cùng với nó, ông đã đưa ra đề xuất về Dữ liệu Liên kết (Linked Data) với quy tắc 4 điểm và lược đồ tiêu chuẩn 5 sao cho Dữ liệu Mở Liên kết - LOD (Linked Open Data)[1].
A.1 Mã nhận diện thường trực duy nhất trong tiếp cận Dữ liệu Mở Liên kết
Giải thích cho đề xuất này, Tim Berners-Lee nhấn mạnh tới khả năng sinh ra tri thức mới của LOD và khả năng máy đọc được, điều rất quan trọng trong CMCN4 với các công nghệ thời thượng như trí tuệ nhân tạo - AI (Artificial Intelligence), Internet của vạn vật - IoT (Internet of Things), hay Dữ liệu lớn (Big Data), và đặc biệt các mô hình kinh doanh mới dựa vào dữ liệu. Tương tự, ông cũng đưa ra giải thích về sự khác biệt giữa URI và URL, dù tranh luận về sự khác biệt giữa chúng và tên tài nguyên thống nhất – URN (Uniform Resource Name) tới nay vẫn chưa có hồi kết.
Hình 1. Khác biệt giữa các URI, URL và URN[2]
Đi theo tiếp cận LOD, nhiều quốc gia trên thế giới đã xây dựng cho mình các tài liệu URI cho mọi điều, từ hữu hình tới vô hình. Ví dụ, tại châu Âu, Eurovoc xây dựng tài liệu URI cho từng ngôn ngữ khác nhau của từng quốc gia châu Âu. Gần đây nhất, tài liệu Eurovoc, v4.9.1, 2019[3] đã được xuất bản ngày 17/04/2019 với các URI.
Hình 2. Trích từ tài liệu Eurovoc, v4.5, 2016, bản tiếng Anh[4] với các URI
Trên thực tế, URI và LOD không chỉ được sử dụng ở mức quốc gia, mà còn ở mức lĩnh vực và/hoặc ngành nghề. Ví dụ:
-
LandVoc[5] được sử dụng cho Dữ liệu Mở Liên kết (LOD) về đất đai
-
AgroVoc[6] được sử dụng cho Dữ liệu Mở liên kết (LOD) về nông nghiệp
A.2 Cấp phép mở trong tiếp cận Dữ liệu Mở Liên kết
Theo lược đồ tiêu chuẩn 5 sao cho Dữ liệu Mở Liên kết (LOD) trong đề xuất Web dữ liệu của Tim Berners-Lee như được minh họa trên Hình 3: (1) Để đạt được 1 sao, dữ liệu cần phải được cấp phép mở; (2) Để đạt được 2 sao, dữ liệu cần phải có 1 sao cộng thêm với máy đọc được; (3) Để đạt được 3 sao, dữ liệu cần phải có 2 sao cộng thêm với định dạng mở; (4) Để đạt được 4 sao, dữ liệu cần phải có 3 sao cộng thêm với URI; (5) Để có được 5 sao, dữ liệu cần phải có 4 sao cộng thêm với việc liên kết dữ liệu mức toàn cầu.
Hình 3. Lược đồ tiêu chuẩn 5 sao cho Dữ liệu Mở Liên kết (LOD)[7]
Tuân thủ với định nghĩa về Dữ liệu Mở, chỉ một số giấy phép mở có thể gắn cho dữ liệu để nó trở thành dữ liệu mở. Ngày nay, các giấy phép trong hệ thống giấy phép mở Creative Commons thường được sử dụng nhiều nhất khi cấp phép cho dữ liệu để nó trở thành dữ liệu mở, như các giấy phép CC BY, CC BY-SA và CC0.
Cũng có hệ thống giấy phép khác, như Open Data Commons License (Giấy phép Chung cho Dữ liệu Mở) được sử dụng để cấp phép cho dữ liệu; nó có các giấy phép tương tự như 3 giấy phép được nêu ở trên của Creative Commons, như trên Hình 4.
Hình 4. Các (hệ thống) giấy phép được sử dụng để cấp phép mở cho dữ liệu[8]
B. Tiếp cận theo nguyên tắc Dữ liệu Tìm thấy được, Truy cập được, Tương hợp được, Sử dụng lại được - FAIR (Findable, Accessible, Interoperable, Reusable)
Để hiểu chi tiết FAIR là gì và giải nghĩa từng ký tự của FAIR, có thể tham khảo phần ‘Định nghĩa FAIR[9]’ trong tài liệu EC xuất bản năm 2018 với tiêu đề ‘Biến FAIR thành hiện thực’.
Hình 5. Các nguyên tắc hướng dẫn FAIR
FAIR đã bắt đầu được Ủy ban châu Âu sử dụng trong dự án Thí điểm Dữ liệu Nghiên cứu Mở - ORD Pilot (Open Research Data Pilot)[10] trong chương trình Horizon 2020 giai đoạn 2014-2020 và hiện nay là cách tiếp cận chủ đạo của EC cho dữ liệu/siêu dữ liệu.
B.1 Mã nhận diện thường trực duy nhất trong tiếp cận Dữ liệu FAIR
Hình 6. Mô hình các đối tượng FAIR
Theo tiếp cận FAIR, để có nghĩa và để là FAIR, dữ liệu và các đối tượng số khác đều phải đi với các mã nhận diện thường trực - PID (Persistent Identifier) cùng với siêu dữ liệu và tài liệu liên quan. Các mã nhận diện đó không chỉ là thường trực đối với một đối tượng số, mà thường là duy nhất trên phạm vi toàn cầu. Ví dụ các mã nhận diện thường trực duy nhất như:
-
Mã nhận diện đối tượng số - DOI (Digital Object Identifier)
-
Mã nhận diện các nhà nghiên cứu / những người đóng góp sáng tạo – ORCID (Open Researcher and Contributor ID);
-
Mã nhận diện tài nguyên nghiên cứu - RRID (Research Resource Identifiers)
B.2 Cấp phép mở trong tiếp cận Dữ liệu FAIR
Ngay cả khi chọn tiếp cận FAIR, cấp phép mở cũng là một khía cạnh không thể thiếu. Trong chương trình Horizon 2020 giai đoạn 2014-2020, châu Âu đã có Thí điểm Dữ liệu Nghiên cứu Mở - ORD Pilot (Open Research Data Pilot) chọn đi theo tiếp cận FAIR và khuyến cáo cấp phép mở bằng các giấy phép CC BY và CC0 của hệ thống giấy phép Creative Commons cho dữ liệu và siêu dữ liệu[11].
Còn trong Kế hoạch S cho giai đoạn 2021-2027, việc chọn tiếp cận vừa FAIR vừa MỞ là rõ ràng hơn, các giấy phép CC BY, CC BY-SA và CC0 của hệ thống Creative Commons được chỉ ra rõ ràng để cấp phép cho cả các xuất bản phẩm nghiên cứu và các dữ liệu nghiên cứu cùng các siêu dữ liệu[12].
Điều này cho thấy, việc cấp phép mở trong tiếp cận Dữ liệu FAIR cũng không khác so với của tiếp cận Dữ liệu Mở Liên kết với lược đồ tiêu chuẩn 5 sao được Tim Berners-Lee đề xuất, như được minh họa trong Hình 4.
C. Mối quan hệ giữa 2 tiếp cận dữ liệu FAIR và MỞ
Để có chi tiết về mối quan hệ giữa FAIR và MỞ, xem phần ‘FAIR và dữ liệu Mở[13]’ trong tài liệu EC xuất bản năm 2018 với tiêu đề ‘Biến FAIR thành hiện thực’.
Dữ liệu FAIR được giải thích không nhất thiết phải là dữ liệu mở, kể cả trong ngữ cảnh của khoa học mở, vì có những lý do để các dữ liệu riêng tư của cá nhân và dữ liệu bí mật quốc gia không thể là mở được. Quan điểm của EC về dữ liệu là như sau:
Dữ liệu có thể là FAIR hoặc Mở, vừa là FAIR vừa là Mở, hoặc không là FAIR không là Mở. Các lợi ích lớn nhất tới khi dữ liệu vừa là FAIR vừa là Mở, vì khi không có các hạn chế sẽ hỗ trợ được rộng lớn nhất có thể cho sử dụng lại, và sử dụng lại ở phạm vi rộng. Để tối đa hóa những lợi ích của việc biến dữ liệu FAIR thành hiện thực, và trong ngữ cảnh của các sáng kiến Khoa học Mở, các nguyên tắc FAIR nên được triển khai kết hợp với yêu cầu chính sách rằng dữ liệu nghiên cứu nên là Mở mặc định - đó là, Mở trừ phi có lý do tốt để hạn chế truy cập hoặc sử dụng lại. Trong công thức của Ủy ban châu Âu gần đây, châm ngôn ‘càng mở càng tốt, đóng khi cần thiết’ (as open as possible, as closed as necessary) đã được giới thiệu, nó là sự khớp nối hữu ích các nguyên tắc đang được thi hành. Hơn nữa, các cố gắng nên được tiến hành để làm cho dữ liệu và siêu dữ liệu nghiên cứu truy cập được mà không lấy tiền của những người sử dụng đầu cuối. Bất kỳ việc lấy tiền nào hay chế độ phục hồi chi phí nào cũng nên là thích hợp và không ở mức làm hạn chế khả năng truy cập.
Từ quan điểm này, EC có khuyến cáo số 17 như sau:
Điều chỉnh phù hợp và hài hòa hóa chính sách dữ liệu FAIR và Mở. Các chính sách nên được điều chỉnh phù hợp và tăng cường để đảm bảo rằng dữ liệu nghiên cứu được nhà nước cấp vốn được làm thành FAIR và Mở, ngoại trừ các hạn chế hợp pháp. Châm ngôn ‘càng mở càng tốt, đóng khi có thể’ nên được áp dụng tương xứng với các nỗ lực thực sự tốt nhất để chia sẻ.
Nói một cách khác, mối quan hệ giữa FAIR và MỞ có thể được diễn giải là tính FAIR (FAIRness) càng cao thì càng nhanh tiệm cận tới tính MỞ (Openness), và ngược lại, tính mở càng cao thì càng nhanh tiệm cận tới tính FAIR.
Hình 7. Mối quan hệ giữa FAIR và MỞ
D. Gợi ý cho Việt Nam
Chuyển đổi số ở Việt Nam, dù là đi theo tiếp cận nào về dữ liệu, FAIR hay MỞ, hay vừa FAIR vừa MỞ, cũng đều cần thiết phải xây dựng hệ thống các mã nhận diện thường trực duy nhất cho các đối tượng số, phù hợp với các tiêu chuẩn quốc tế, cho cả các đối tượng hữu hình và vô hình, bao gồm các xuất bản phẩm và dữ liệu nghiên cứu, để có thể quản lý tốt và tin cậy, sử dụng lại được, lần vết được, tránh đúp bản (đúp bản càng nhiều, rác dữ liệu cũng sẽ càng nhiều), và quan trọng hơn, để dữ liệu máy đọc được - một trong những đặc tính quan trọng bậc nhất để tiếp cận tới CMCN4, điều còn chưa rõ (các) cơ quan hay tổ chức nào sẽ chịu trách nhiệm xây dựng chúng. Có lẽ, ngành thư viện Việt Nam sẽ có vai trò chủ đạo, khi kết hợp với ngành công nghệ thông tin và truyền thông và các ngành khác có thể xây dựng hệ thống các mã thường trực duy nhất cho các đối tượng số cho Việt Nam.
Mặt khác, vì tính FAIR càng cao thì càng nhanh tiệm cận tới tính MỞ, trong khi để bất kỳ đối tượng số nào là mở, điều kiện tiên quyết là đối tượng số đó phải được cấp phép mở, công việc hầu như cũng chưa có ở bất kỳ đâu, kể cả trong các cơ sở giáo dục mọi cấp ở Việt Nam, cũng chưa rõ (các) cơ quan nào sẽ chịu trách nhiệm phổ biến nó. Có lẽ là tốt nhất nếu cấp phép mở là môn học bắt buộc và được giảng dạy càng sớm càng tốt trong tất cả các cơ sở giáo dục ở tất cả các cấp, từ cấp tiểu học, đặc biệt trong toàn bộ hệ thống các trường sư phạm trên phạm vi toàn quốc ở Việt Nam.
Cuối cùng, mọi con đường đều dẫn tới giáo dục. Nó là đặc biệt đúng ở Việt Nam, khi gần 25 triệu người, khoảng 1/4 dân số Việt Nam, đang hàng ngày sống và làm việc trong khu vực giáo dục, nơi có ‘nguyên khí quốc gia’, nơi có lực lượng đông đảo nhất những người có khả năng giành được tri thức, đào sâu tri thức và tạo lập tri thức mới dựa vào tri thức sẵn có của thế giới, rất nhiều trong số chúng là các tri thức MỞ. Không có giáo dục đi cùng, CMCN4 - cách mạng của tri thức - khó có thể hiện thực hóa được trong thực tế, để tạo ra hàng loạt các sản phẩm và dịch vụ ‘Make in Vietnam’ trên diện rộng, theo đúng nghĩa của từ ‘Cách mạng’.
E. Các chú giải
[1] Tim Berners-Lee, 27/07/2006: Linked Data: https://www.w3.org/DesignIssues/LinkedData.html
[2] Daniel Miessler, May 4, 2019: The Difference Between URLs, URIs, and URNs: https://danielmiessler.com/study/url-uri/
[3] EU Vocabularies: Eurovoc v4.9.1: https://publications.europa.eu/en/web/eu-vocabularies/news/-/blogs/eurovoc-4-9-1
[4] Eurovoc v4.5, 2016, bản tiếng Anh: https://www.dropbox.com/s/4ikrbcm6vrbg9z3/EuroVoc45_ReleaseNote_en.pdf?dl=0
[5] LandPortal: LandVoc: https://landportal.org/voc/landvoc
[6] FAO, AIMS: AGROVOC Linked Open Data: http://aims.fao.org/standards/agrovoc/linked-data
[7] Tim Berners-Lee: 5 star Open Data: https://5stardata.info/en/
[8] Lê Trung Nghĩa biên dịch, 2018: Chỉ dẫn của nhà xuất bản về cấp phép dữ liệu mở: https://vnfoss.blogspot.com/2018/02/chi-dan-cua-nha-xuat-ban-ve-cap-phep-du.html
[9] Lê Trung Nghĩa biên dịch, 2019: Biến FAIR thành hiện thực: https://www.dropbox.com/s/wtiraui8svilgei/turning_fair_into_reality_1-Vi-30042019.pdf?dl=0, tr. 30-32
[10] Lê Trung Nghĩa biên dịch, 2019: Hướng dẫn của Hội đồng Nghiên cứu châu Âu về Triển khai Truy cập Mở tới các Xuất bản phẩm Khoa học và Dữ liệu Nghiên cứu trong các dự án được Hội đồng Nghiên cứu châu Âu hỗ trợ trong Horizon 2020: https://www.dropbox.com/s/lb0i9vr3t6cl1dt/h2020-hi-erc-oa-guide_en_Vi-06052019.pdf?dl=0, trang 8-9
[11] Lê Trung Nghĩa biên dịch, 2019: Hướng dẫn của Hội đồng Nghiên cứu châu Âu (ERC) về Triển khai Truy cập Mở tới các Xuất bản phẩm Khoa học và Dữ liệu Nghiên cứu trong các dự án được Hội đồng Nghiên cứu châu Âu hỗ trợ trong Horizon 2020: https://www.dropbox.com/s/lb0i9vr3t6cl1dt/h2020-hi-erc-oa-guide_en_Vi-06052019.pdf?dl=0, tr. 8, 10.
[12] Lê Trung Nghĩa biên dịch, 2019: Làm cho Truy cập Mở đầy đủ và tức thì thành hiện thực: https://www.dropbox.com/s/qv5adcecb47g65d/271118_cOAlitionS_Guidance-Vi-10042019.pdf?dl=0, phần ‘Cấp phép và các quyền’, tr. 7.
[13] Lê Trung Nghĩa biên dịch, 2019: Biến FAIR thành hiện thực: https://www.dropbox.com/s/wtiraui8svilgei/turning_fair_into_reality_1-Vi-30042019.pdf?dl=0, tr. 34-36
Giấy phép nội dung:
Lê Trung Nghĩa
PS: Tự do tải về bài viết ở định dạng PDF ở địa chỉ: