Tài nguyên Mở và vài khía cạnh liên quan tới dữ liệu mở

Thứ bảy - 21/11/2020 15:52
Tài nguyên Mở và vài khía cạnh liên quan tới dữ liệu mở
Lê Trung Nghĩa
Ban Tư vấn Phát triển Giáo dục Mở, Hiệp hội các trường đại học cao đẳng Việt Nam
Bài viết cho “Diễn đàn Giáo dục và Triển lãm học đường 4.0” (Edu4.0) được tổ chức ngày 21/11/2020 tại Hà Nội

Tài nguyên Mở là các tài nguyên được cấp phép mở, tôn trọng quyền sở hữu trí tuệ của người nắm giữ bản quyền, cho phép bất kỳ ai tự do không mất tiền để truy cập, sử dụng lại và phân phối lại. Tùy vào loại giấy phép được gắn với Tài nguyên Mở, nó có thể được phân thành các loại tài nguyên mở khác nhau, mỗi loại có định nghĩa riêng, như Tài nguyên Truy cập Mở, Tài nguyên Giáo dục Mở, Dữ liệu Mở hay Phần mềm Tự do Nguồn Mở; và cùng với các loại giấy phép đó, các quyền của người sử dụng đối với các Tài nguyên Mở đó cũng sẽ biến đổi nhiều hơn hoặc ít hơn khác nhau.
Nguồn gốc của tài nguyên mở là phần mềm tự do (bắt nguồn ở Mỹ những năm 1980), sau đó là phần mềm nguồn mở (cũng ở Mỹ, vào năm 1998) và sau đó lan sang các lĩnh vực khác kể từ đầu thế kỷ 21 tới nay, như truy cập mở, giáo dục mở, tài nguyên giáo dục mở, dữ liệu mở, dữ liệu mở liên kết, khoa học mở, .v.v.

A. Số lượng các tài nguyên mở
Hình 1. Số lượng các tệp mã nguồn được chia sẻ mở tới đầu tháng 9/2020
Hiện có hơn 9 tỷ tệp mã nguồn phần mềm được cấp phép mở được chia sẻ trên thế giới, có trong hơn 140 triệu dự án, theo thống kê của Software Heritage.
Tính tới hết năm 2017, theo thống kê của tổ chức Creative Commons, có hơn 1,4 tỷ tài nguyên mở, không phải phần mềm tự do nguồn mở, được chia sẻ trên thế giới cho bất kỳ ai tự do không mất tiền để sử dụng, 85% trong số đó là các tài nguyên giáo dục mở với đủ các dạng nội dung như văn bản (sách, sách giáo khoa, tạp chí, khóa học, bao gồm vô số các tập hợp dữ liệu mở .v.v.), hình ảnh, âm thanh, video.
 
Hình 2. Tới hết năm 2017, có hơn 1,4 tỷ tài nguyên được cấp phép mở CC

B. Hệ thống giấy phép của các tài nguyên mở
Bạn sẽ không thể làm việc với các tài nguyên mở nếu không biết về cơ sở pháp lý của chúng, thường được đưa ra qua các hệ thống giấy phép và/hoặc việc cấp phép mở.
Theo luật sở hữu trí tuệ, một tài nguyên - tác phẩm được (các) tác giả tạo ra sẽ tự động được luật sở hữu trí tuệ bảo vệ, bất kể (các) tác giả có đăng ký hay không. Vì vậy, nếu một tài nguyên không được cấp phép mở, không ai có tự do để sử dụng lại chúng. Do đó, để tài nguyên là mở, điều kiện tiên quyết là tài nguyên đó phải được cấp phép mở!
B1. Hệ thống giấy phép của phần mềm tự do nguồn mở
Một phần mềm được gọi là phần mềm tự do (PMTD), nếu người sử dụng có 4 quyền tự do: (1) sử dụng; (2) phân phối; (3) sửa đổi - muốn sửa đổi được thì phải có mã nguồn, vì vậy mã nguồn phần mềm phải sẵn sàng trên Internet để ai cũng lấy về được; (4) phân phối bản đã được sửa đổi. Đây chính là định nghĩa của phần mềm tự do. Định nghĩa của phần mềm nguồn mở (PMNM) cũng gần như tương tự. Ở Việt Nam vì thế mọi người quen gọi là phần mềm tự do nguồn mở. Nói cách khác: PMTDNM = PMTD + PMNM.
Trong thế giới PMTDNM có khoảng 70 loại giấy phép mở với các mức độ tự do khác nhau, chủ yếu nằm trong 2 họ các giấy phép như bảng bên dưới.
Bảng 1. Họ các giấy phép của phần mềm tự do nguồn mở

Một điều đáng chú ý nữa là khái niệm về tính tương thích giữa các giấy phép của các chương trình PMTDNM.
Trên Hình 3, theo chiều mũi tên là tương thích, ngược lại thì không.
Với 2 chương trình phần mềm mang 2 giấy phép không tương thích với nhau, thì bạn không thể sao chép một đoạn mã nguồn của chương trình này để dán vào kho mã nguồn của chương trình kia vì khi đó bạn sẽ vi phạm bản quyền của ít nhất một giấy phép mở đó.
 
Hình 3. Tính tương thích của các giấy phép PMTDNM

B2. Hệ thống giấy phép của tài liệu mở
Đối với tài nguyên mở không phải phần mềm, hay tài liệu mở, có vài hệ thống giấy phép mở, đáng chú ý nhất và được nhiều người sử dụng nhất cho tới nay là Creative Commons (CC), với 4 yếu tố tự chọn, 6 giấy phép tiêu chuẩn, và các công cụ cho phạm vi công cộng, có thể được chia thành 3 mức khác nhau theo mức độ tự do của các giấy phép, tương ứng với các dạng tài nguyên mở khác nhau, như trên Hình 4.
 
Hình 4. Hệ thống giấy phép mở Creative Commons

Bốn yếu tố tự chọn là: (1) Ghi công – Attribution; (2) Chia sẻ tương tự - Share Alike; (3) Phi thương mại - Non Commercial; (4) Không có tác phẩm phái sinh - No Derivatives.
Sáu giấy phép tiêu chuẩn gồm: (1) CC BY; (2) CC BY-SA; (3) CC BY-NC; (4) CC BY-NC-SA; (5) CC BY-ND; (6) CC BY-NC-ND.
Công cụ (giấy phép) đặc biệt CC Zero (CC0) khi (các) tác giả của tác phẩm khước từ tất cả các quyền và hiến tặng tác phẩm của mình vào phạm vi công cộng. Ngoài ra, còn có công cụ gọi là “Dấu phạm vi công cộng” thường dành cho các tài nguyên nằm trong phạm vi công cộng khi hết thời hạn bảo hộ của luật sở hữu trí tuệ hoặc của luật bằng sáng chế (dễ tưởng tượng nhất là các tác phẩm là kết quả của việc số hóa các hiện vật trong các viện bảo tàng đã hết thời hạn bảo hộ của luật sở hữu trí tuệ).
Khi sử dụng các giấy phép CC tiêu chuẩn, người sử dụng có bổn phận bắt buộc phải thừa nhận ghi công (các) tác giả, nếu không làm thì gọi là ăn cắp.
Với các giấy phép tài nguyên mở không phải là phần mềm, cũng có khái niệm về tính tương thích giữa các giấy phép.
 
Hình 5. Kết hợp các giấy phép Creative Commons.

Nếu 2 tài nguyên mang 2 giấy phép không tương thích với nhau, thì chúng không thể kết hợp được với nhau để tạo ra tác phẩm phái sinh có giấy phép hợp lệ, hay nói cách khác, chúng không thể kết hợp được với nhau.
Ví dụ giấy phép CC BY-SA không tương thích với giấy phép CC BY-NC vì CC BY-SA cho phép sử dụng cho các mục đích thương mại, trong khi CC BY-NC thì không.
B3. Giấy phép cho dữ liệu mở và các ví dụ
 
Hình 6. Các giấy phép thường thấy gắn với dữ liệu mở
Hệ thống giấy phép mở Creative Commons không là duy nhất. Hình 6 là các giấy phép thường được gắn cho các dữ liệu mở.

C. Mã nhận diện các tài nguyên số
C1. Các loại và dạng tài nguyên số
  1. Các tài nguyên số thường được chia thành các dạng như: văn bản, hình ảnh, âm thanh, video. Trong loai văn bản lại có thể có sách, sách giáo khoa, tạp chí, khóa học, thậm chí các mã phần mềm.
  2. Trong thực tế, một số cổng điện tử có thể chia các tệp tài nguyên số thành các dạng thường được tải lên như: xuất bản phẩm, tập hợp dữ liệu, phần mềm, bài trình chiếu, bài giảng , hình ảnh, video, .v.v.
C2. Mã nhận diện các tài nguyên số các loại khác nhau
Các tài nguyên dạng giấy theo truyền thống, như sách hoặc tạp chí, được quản lý để nhận diện chúng bằng các số sách tiêu chuẩn quốc tế – ISBN (International Standard Book Number) hoặc số serie tiêu chuẩn quốc tế - ISSN (International Standard Serial Number), một cách tương ứng. Tương tự như vậy, các tài nguyên số cũng được quản lý để nhận diện chúng bằng rất nhiều kiểu mã nhận diện khác nhau. Quan trọng nhất khi sử dụng các mã nhận diện tài nguyên số là để máy đọc được. Bản thân việc sử dụng hệ thống các giấy phép Creative Commons cũng là một cách thức để máy đọc được.
Một số mã nhận diện như:
  • DOI - Mã nhận diện đối tượng số (Digital Object Identifier): cùng với việc quản lý các phiên bản DOI, nó được sử dụng để nhận diện các tài nguyên số như các dạng được nêu ở phần C1.b) ở trên.
  • ORCID - Mã nhận diện các Nhà nghiên cứu và những Người đóng góp Mở (Open Researcher and Contributor ID) hoặc ResearchcherID: để nhận diện các nhà nghiên cứu
  • DataCite: Mã nhận diện các trích dẫn
  • RRID - Mã nhận diện Tài nguyên Nghiên cứu (Research Resource Identifiers)
  • URI - Mã nhận diện Tài nguyên Thống nhất (Uniform Resource Identifier): mã nhận diện bất kỳ đối tượng hay khái niệm nào được số hóa. Ví dụ, mỗi quốc gia của Liên minh châu Âu đều có tài liệu URI dành riêng cho quốc gia mình. Ví dụ: đây là tài liệu URI của Vương quốc Anh phiên bản 4.5 năm 2016.
D. Tim Berners – Lee: Lược đồ tiêu chuẩn 5 sao cho dữ liệu mở liên kết
Vào những năm cuối 1980, đầu 1990, Tim Berners - Lee đã phát minh ra web của các tài liệu được kết nối với nhau, sử dụng bộ định vị tài nguyên thống nhất - URL (Uniform Resource Locator);
Vào đầu thế kỷ 21, cũng Tim Berners - Lee đã gợi ý cho thế giới web của các dữ liệu được kết nối với nhau, sử dụng mã nhận diện tài nguyên thống nhất - URI (Uniform Resource Identifier) để không chỉ người hiểu được, mà máy cũng hiểu được.
 
Hình 7. URI nhận diện bất kỳ đối tượng/khái niệm nào được số hóa để máy hiểu được
 
Hình 8. Lược đồ tiêu chuẩn 5 sao cho dữ liệu mở liên kết của Tim Berners - Lee


E. Ví dụ điển hình các thuộc tính của tài nguyên số trên cổng điện tử
Khi mới bắt đầu xây dựng cổng cho các tài nguyên số, đặc biệt là các tài nguyên số mở, bạn có thể còn chưa rõ, những thuộc tính nào nên được gắn với từng bản ghi, từng tài nguyên số đó. Phần này nêu một ví dụ cụ thể các thuộc tính đó trên trang Zenodo, một trang chuyên đặt chỗ cho các tài nguyên mở (và cả không mở) của Liên minh châu Âu.
 
Hình 9. Màn hình trang tìm kiếm của Zenodo

Trên màn hình trang tìm kiếm của Zenodo, bạn có thể chọn quyền truy cập và truy cập mở (Access Right - Open) và dạng nội dung là các tập hợp dữ liệu (Dataset) để tìm kiếm tất cả các tập hợp dữ liệu mở (trên Hình 9, có 55960 bản ghi như vậy).
Giả sử, bạn nhấn vào đường link của tài nguyên đầu tiên trên Hình 9, bạn sẽ đi tới trang mô tả tất cả các thuộc tính của tập hợp dữ liệu mở đó, với các thuộc tính không thể thiếu như mã nhận diện và giấy phép mở, như trên
Hình 10 và được liệt kê lần lượt theo các số thứ tự trên hình như sau:
  1. Các thuộc tính cơ bản:
    1. Ngày xuất bản
    2. DOI - mã nhận diện đối tượng số (mã này cho phiên bản v2, có mã cho phiên bản v1 và mã chung cho tất cả các phiên bản).
    3. Các từ khóa
    4. Các chủ đề
    5. Các mã nhận diện có liên quan: (1) trên tạp chí; và (2) trong báo cáo
    6. Các cộng đồng
    7. Giấy phép mở, cụ thể ở đây là Creative Commons Attribution 4.0 (CC BY 4.0)
Hình 10. Các thuộc tính chính của một bản ghi trong cơ sở dữ liệu các tài nguyên
  1. Số lượng các lượt xem và tải về cho từng phiên bản.
  2. Các phiên bản khác nhau với các DOI khác nhau với các đường liên kết đi kèm; Cách trích dẫn tất cả các phiên bản.
  3. Có khả năng chia sẻ trên nhiều mạng xã hội; Cách để trích dẫn tài nguyên;
  4. Xuất khẩu: tập hợp dữ liệu mở này có thể xuất theo hàng loạt các tiêu chuẩn mở khác nhau.
  5. Có thể xem và tải về cả tập hợp dữ liệu và phụ lục của nó.
  6. Có thể theo dõi các trích dẫn đối với tập hợp dữ liệu này.

F. Yêu cầu về nền tảng hạ tầng cho các tài nguyên số mở
Để các tài nguyên số mở không bị nhốt trong các hệ thống đóng, chúng thường được đặt trong các hệ thống được xây dựng lên từ các phần mềm tự do nguồn mở. Đối với các dữ liệu mở, một nền tảng hạ tầng phù hợp, ví dụ như, Mạng Lưu trữ Tri thức Toàn diện - CKAN (Comprehensive Knowledge Archive Network) với giấy phép mở AGPL v3.0. Đây là hệ thống hạ tầng cổng dữ liệu của hàng loạt quốc gia và tổ chức trên thế giới, như của Chính phủ Mỹ, Canada, Liên minh châu Âu, Úc, Đối tác Dữ liệu Mở châu Á - AODP (Asian Open Data Partnership) .v.v.

G. Kết luận và gợi ý
Bài viết này đưa ra tóm tắt ngắn gọn khái niệm cơ bản, phân loại, số lượng khổng lồ và vài điều kiện tiên quyết cho các tài nguyên mở ở dạng số, là kết quả của việc chuyển đổi số và/hoặc số hóa, như cấp phép mở và sử dụng các mã nhận diện các tài nguyên số. Bài viết cũng đưa ra ví dụ về các thuộc tính nên có với một bản ghi tài nguyên số trên một hệ thống cổng điện tử quản lý dữ liệu ngày nay, đặc biệt với các tài nguyên mở dạng kỹ thuật số, bao gồm cả dữ liệu mở, để có thể thỏa mãn cùng một lúc nhiều nhu cầu sử dụng dữ liệu khác nhau của người sử dụng, nhấn mạnh tới nhu cầu sử dụng các phần mềm tự do nguồn mở để xây dựng các hệ thống cổng điện tử đó để đảm bảo các tài nguyên mở không bị nhốt trong các hệ thống đóng, phụ thuộc vào một nhà cung cấp độc quyền duy nhất.
Dữ liệu nói chung, dữ liệu mở nói riêng, cùng chất lượng và các tiêu chuẩn của nó, là nguyên liệu không thể thiếu cho các công nghệ như trí tuệ nhân tạo (AI), Internet của vạn vật (IoT), hay Dữ liệu lớn (Big Data) để phát triển. Một trong những con đường để phát triển dữ liệu mở là tuân theo các gợi ý của Tim Berners - Lee về web dữ liệu với sự tuân thủ lược đồ tiêu chuẩn 5 sao cho dữ liệu mở liên kết, điều có lẽ là rất không dễ đối với Việt Nam hiện nay để tuân thủ, nếu không có những thay đổi quyết liệt và liên tục trong tương lai để các tài nguyên số và dữ liệu số có thể đạt được tiêu chuẩn 5 sao đó.
Một gợi ý quan trọng cho Việt Nam là chính phủ cần có chính sách về truy cập mở càng sớm càng tốt. Từ góc độ của cấp phép mở, dữ liệu mở và tài nguyên giáo dục mở là các trường hợp đặc biệt của tài nguyên truy cập mở. Việc không có chính sách truy cập mở chắc chắn sẽ cản trở phát triển của các loại tài nguyên mở đó.


Giấy phép nội dung: CC BY 4.0 Quốc tế: https://creativecommons.org/licenses/by/4.0/
Tải về bài trình chiếu tại diễn đàn: https://www.dropbox.com/s/3b2rc30alr1nlfj/Open_Resources_Edu4.0_21112020_Presentation.pdf?dl=0


Tweet: https://twitter.com/nghiafoss/status/1330411274778206208

Tổng số điểm của bài viết là: 0 trong 0 đánh giá

Click để đánh giá bài viết

  Ý kiến bạn đọc

Những tin mới hơn

Những tin cũ hơn

Về Blog này

Blog này được chuyển đổi từ http://blog.yahoo.com/letrungnghia trên Yahoo Blog sang sử dụng NukeViet sau khi Yahoo Blog đóng cửa tại Việt Nam ngày 17/01/2013.Kể từ ngày 07/02/2013, thông tin trên Blog được cập nhật tiếp tục trở lại với sự hỗ trợ kỹ thuật và đặt chỗ hosting của nhóm phát triển...

Bài đọc nhiều nhất trong năm
Thăm dò ý kiến

Bạn quan tâm gì nhất ở mã nguồn mở?

Thống kê truy cập
  • Đang truy cập41
  • Máy chủ tìm kiếm6
  • Khách viếng thăm35
  • Hôm nay56
  • Tháng hiện tại235,096
  • Tổng lượt truy cập35,416,891
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây