Vì sao Hàng hóa Công cộng Kỹ thuật số, bao gồm cả AI, nên dựa vào Dữ liệu Mở

Thứ năm - 03/04/2025 05:38
Dữ liệu Mở của Auregann được cấp phép mở CC BY-SA 3.0.
Dữ liệu Mở của Auregann được cấp phép mở CC BY-SA 3.0.

Why Digital Public Goods, including AI, Should Depend on Open Data

by Cable Green, Creative Commons

Posted 27 January 2025

Theo: https://creativecommons.org/2025/01/27/why-digital-public-goods-including-ai-should-depend-on-open-data/

Bài được đưa lên Internet ngày: 27/01/2025

Thừa nhận rằng một số dữ liệu không nên được chia sẻ (vì lý do luân lý, đạo đức và/hoặc quyền riêng tư) và một số không thể được chia sẻ (vì lý do pháp lý hoặc lý do khác), Creative Commons (CC) cho rằng có giá trị trong việc khuyến khích việc tạo lập, chia sẻ và sử dụng dữ liệu mở để thúc đẩy sản xuất kiến thức. Khi các cộng đồng mở tiếp tục tưởng tượng, thiết kế và xây dựng các hàng hóa công cộng kỹ thuật số và dịch vụ cơ sở hạ tầng công cộng cho giáo dục, khoa học và văn hóa, các hàng hóa và dịch vụ này - bất cứ khi nào có thể và phù hợp - nên sản xuất, chia sẻ và/hoặc xây dựng dựa trên dữ liệu mở.

Dữ liệu Mở và Hàng hóa Công cộng Kỹ thuật số - DPG (Digital Public Goods)

CC là thành viên của Liên minh Hàng hóa Công cộng Kỹ thuật số - DPGA (Digital Public Goods Alliance) và các công cụ pháp lý của CC đã được công nhận là hàng hóa công cộng kỹ thuật số (DPG). CÁc DPG là “phần mềm nguồn mở, các tiêu chuẩn mở, dữ liệu mở, các hệ thống AI mở, và các bộ sưu tập nội dung mở mà gắn với quyền riêng tư và các thông lệ tốt nhất áp dụng được khác, không gây hại, và có liên quan cao độ cho việc đạt được các Mục tiêu Phát triển Bền vững (SDGs) 2030 của Liên hiệp quốc”. Nếu chúng ta muốn giải quyết các thách thức lớn nhất toàn cầu, các chính phủ và các nhà cấp vốn khác sẽ cần phải đầu tư, phát triển, cấp phép mở, chia sẻ, và sử dụng các DPG.

Dữ liệu mở rất quan trọng đối với DPG vì dữ liệu là động lực chính thúc đẩy sức sống kinh tế với tiềm năng đã được chứng minh là phục vụ lợi ích công cộng. Trong khu vực công, dữ liệu cung cấp thông tin cho việc hoạch định chính sách và cung cấp dịch vụ công bằng cách giúp chuyển hướng các nguồn lực khan hiếm đến những người cần nhất; cung cấp phương tiện để yêu cầu chính phủ chịu trách nhiệm và thúc đẩy đổi mới xã hội. Tóm lại, dữ liệu có tiềm năng cải thiện cuộc sống của mọi người. Khi dữ liệu bị đóng hoặc không khả dụng, công chúng sẽ không nhận được những lợi ích này.

CC gần đây là một phần của một tiểu ban DPGA làm việc để bảo vệ tính toàn vẹn của dữ liệu mở như một phần của Tiêu chuẩn DPG. Bản cập nhật quan trọng (bản dịch sang tiếng Việt) này đối với Tiêu chuẩn DPG được giới thiệu để đảm bảo chỉ các tập dữ liệu mở và bộ sưu tập nội dung có các giấy phép mở mới đủ điều kiện được công nhận là DPG. Yêu cầu mới này có nghĩa là các tập dữ liệu mở và bộ sưu tập nội dung phải đáp ứng các tiêu chí sau để được công nhận là hàng hóa công cộng kỹ thuật số.

  1. Cấp phép mở toàn diện:

    1. Toàn bộ tập dữ liệu /bộ sưu tập nội dung phải có một giấy phép mở được chấp nhận. Các bộ sưu tập được cấp phép hỗn hợp sẽ không được chấp nhận

  2. Có khả năng truy cập được và phát hiện được:

    1. Tất cả các tập dữ liệu và bộ sưu tập nội dung DPG phải được cấp phép mở và dễ dàng truy cập được từ một vị trí riêng biệt, duy nhất, chẳng hạn như một URL duy nhất.

  3. Các hạn chế quyền truy cập được phép:

    1. Một số hạn chế quyền truy cập nhất định – chẳng hạn như đăng nhập, đăng ký, khóa API và điều tiết – được phép miễn là chúng không phân biệt đối xử với người dùng hoặc hạn chế việc sử dụng dựa trên địa lý hoặc bất kỳ yếu tố nào khác.

DPGA viết: “Yêu cầu mới này được thiết kế để tăng cường sự tin tưởng và tự tin vào tất cả các DPG bằng cách đảm bảo rằng người dùng có thể tham gia đầy đủ vào các giải pháp mà không lo ngại về vi phạm quyền sở hữu trí tuệ. Việc đơn giản hóa quyền truy cập và sử dụng phù hợp với mục tiêu của DPGA là làm cho DPG thực sự mở và dễ tiếp cận để áp dụng rộng rãi… điều này giúp thúc đẩy một môi trường và hệ sinh thái nơi sự đổi mới có thể phát triển mà không có bất kỳ sự không chắc chắn nào về mặt pháp lý”.

AI và Dữ liệu mở

Khi CC xem xét AI và tiềm năng của nó để trở thành một hàng hóa công cộng giúp giải quyết các thách thức toàn cầu, chúng tôi tin rằng dữ liệu mở sẽ đóng một vai trò quan trọng tương tự.

CC nhận thấy AI là một không gian phát triển nhanh chóng và chúng tôi đánh giá cao công sức cần cù của mọi người trong việc tạo ra các định nghĩa, khuyến nghị, hướng dẫn và cảnh báo về AI. Sau hai năm tham vấn cộng đồng, Sáng kiến Nguồn Mở – OSI (Open Source Initiative) đã phát hành phiên bản 1.0 của Định nghĩa AI Nguồn Mở (OSAID) (bản dịch sang tiếng Việt) vào ngày 28/10/2024. Định nghĩa này là một bước quan trọng để bắt đầu cuộc thảo luận về ý nghĩa của mở đối với các hệ thống AI. Tuy nhiên, các yêu cầu chia sẻ dữ liệu của OSAID vẫn còn gây tranh cãi, đặc biệt là xung quanh việc có nên chia sẻ dữ liệu đào tạo cho các mô hình AI hay không và chia sẻ như thế nào.

CC cho rằng chỉ vì khó xây dựng và phát hành các tập dữ liệu mở, điều đó không có nghĩa là chúng ta không nên khuyến khích điều đó. Trong trường hợp dữ liệu đào tạo không được hoặc không thể chia sẻ, chúng tôi khuyến khích tóm tắt chi tiết giải thích nội dung của tập dữ liệu và đưa ra hướng dẫn về khả năng tái tạo, nhưng dù sao thì dữ liệu cũng phải được định nghĩa là đóng. Khi dữ liệu có thể được mở và chia sẻ, thì nên như vậy.

Chúng tôi đồng ý với Liv Marte Nordhaug, Tổng giám đốc điều hành, Liên minh hàng hóa công cộng kỹ thuật số, người đã nói trong một bài đăng gần đây: “Liên quan đến các hệ thống AI, cần phải đảm bảo rằng chúng ta không vô tình làm suy yếu phong trào dữ liệu mở và dữ liệu mở như một loại DPG bằng cách thúc đẩy một cách tiếp cận đối với các hệ thống AI dễ dãi hơn so với các loại DPG khác. Việc duy trì một rào cản cao đối với dữ liệu đào tạo có khả năng dẫn đến ít hệ thống AI đáp ứng các tiêu chí của Tiêu chuẩn DPG hơn. Tuy nhiên, tính liên quan đến SDG, tính độc lập của nền tảng và không gây hại theo thiết kế là những tính năng giúp DPG khác biệt với các giải pháp nguồn mở khác—và vì những lý do đó, cần phải đưa dữ liệu đào tạo [AI] vào”.

Các bước tiếp theo

CC sẽ tiếp tục làm việc với DPGA và các đối tác khác khi xây dựng một tiêu chuẩn về những gì đủ điều kiện để một mô hình AI trở thành một hàng hóa công cộng kỹ thuật số. Trong lĩnh vực đó, chúng tôi sẽ ủng hộ các tập dữ liệu mở và xem xét phương pháp tiếp cận theo từng cấp độ, để các thành phần của mô hình AI có thể được coi là hàng hóa công cộng kỹ thuật số, mà không cần toàn bộ mô hình phải chia sẻ công khai mọi thành phần. Các khuyến nghị và hướng dẫn được cập nhật công nhận giá trị của các hệ thống AI hoàn toàn mở sử dụng và chia sẻ các tập dữ liệu mở sẽ là một phần quan trọng để đảm bảo AI phục vụ cho lợi ích công cộng.

-------------------------------------------

¹Digital Public Goods Standard (Tiêu chuẩn Hàng hóa Công cộng Kỹ thuật số)

²Data for Better Lives. World Bank (2021). (Dữ liệu để cuộc sống tốt hơn. Ngân hàng Thế giới) CC BY 3.0 IGO

Acknowledging that some data should not be shared (for moral, ethical and/or privacy reasons) and some cannot be shared (for legal or other reasons), Creative Commons (CC) thinks there is value in incentivizing the creation, sharing, and use of open data to advance knowledge production. As open communities continue to imagine, design, and build digital public goods and public infrastructure services for education, science, and culture, these goods and services – whenever possible and appropriate – should produce, share, and/or build upon open data.

Open Data by Auregann is licensed under CC BY-SA 3.0.

Open Data and Digital Public Goods (DPGs)

CC is a member of the Digital Public Goods Alliance (DPGA) and CC’s legal tools have been recognized as digital public goods (DPGs). DPGs areopen-source software, open standards, open data, open AI systems, and open content collections that adhere to privacy and other applicable best practices, do no harm, and are of high relevance for attainment of the United Nations 2030 Sustainable Development Goals (SDGs).” If we want to solve the world’s greatest challenges, governments and other funders will need to invest in, develop, openly license, share, and use DPGs.

Open data is important to DPGs because data is a key driver of economic vitality with demonstrated potential to serve the public good. In the public sector, data informs policy making and public services delivery by helping to channel scarce resources to those most in need; providing the means to hold governments accountable and foster social innovation. In short, data has the potential to improve people’s lives. When data is closed or otherwise unavailable, the public does not accrue these benefits.
CC was recently part of a DPGA sub-committee working to preserve the integrity of open data as part of the DPG Standard. This important update to the DPG Standard was introduced to ensure only open datasets and content collections with open licenses are eligible for recognition as DPGs. This new requirement means open data sets and content collections must meet the following criteria to be recognised as a digital public good.

  1. Comprehensive Open Licensing:

    1. The entire data set/content collection must be under an acceptable open licence. Mixed-licensed collections will no longer be accepted.

  2. Accessible and Discoverable:

    1. All data sets and content collection DPGs must be openly licensed and easily accessible from a distinct, single location, such as a unique URL.

  3. Permitted Access Restrictions:

    1. Certain access restrictions – such as logins, registrations, API keys, and throttling – are permitted as long as they do not discriminate against users or restrict usage based on geography or any other factors.

The DPGA writes: “This new requirement is designed to increase trust and confidence in all DPGs by ensuring that users can fully engage with solutions without concerns over intellectual property infringement. Simplifying access and usage aligns with the DPGA’s goal of making DPGs truly open and accessible for widespread adoption… it helps foster an environment and ecosystem where innovation can thrive without legal uncertainties.”

AI and Open Data

As CC examines AI and its potential to be a public good that helps solve global challenges, we believe open data will play a similarly important role.

CC recognizes AI is a rapidly developing space, and we appreciate everyone’s diligent work to create definitions, recommendations, and guidance for and warnings about AI. After two years of community consultation, the Open Source Initiative released version 1.0 of the Open Source AI Definition (OSAID) on October 28, 2024. This definition is an important step in starting the conversation about what open means for AI systems. However, the OSAID’s data sharing requirements remain contentious, particularly around whether and how training data for AI models should be shared.

CC is of the opinion that just because it is difficult to build and release open datasets, that does not mean we should not encourage it. In cases where training data should not or cannot be shared, we encourage detailed summaries that explain the contents of the dataset and give instructions for reproducibility, but nonetheless that data should be defined as closed. When data can be made open and shared, it should be.

We agree with Liv Marte Nordhaug, CEO, Digital Public Goods Alliance who said in a recent post: “With regards to AI systems, there is a need to ensure that we don’t inadvertently undermine the open data movement and open data as a category of DPGs by advancing an approach to AI systems that is more permissive than for other categories of DPGs. Maintaining a high bar on training data could potentially result in fewer AI systems meeting the DPG Standard criteria. However, SDG relevance, platform independence, and do-no-harm by design are features that set DPGs apart from other open source solutions—and for those reasons, the inclusion of [AI] training data is needed.”

Next Steps

CC will continue to work with the DPGA, and other partners, as it develops a standard as to what qualifies an AI model to be a digital public good. In that arena we will advocate for open datasets, and consideration of a tiered approach, so that components of an AI model can be considered digital public goods, without the entire model needing to have every component openly shared. Updated recommendations and guidelines that recognize the value of fully open AI systems that use and share open datasets will be an important part of ensuring AI serves the public good.

-------------------------------------------

¹Digital Public Goods Standard

²Data for Better Lives. World Bank (2021). CC BY 3.0 IGO

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Tác giả: Nghĩa Lê Trung

Tổng số điểm của bài viết là: 0 trong 0 đánh giá

Click để đánh giá bài viết

  Ý kiến bạn đọc

Về Blog này

Blog này được chuyển đổi từ http://blog.yahoo.com/letrungnghia trên Yahoo Blog sang sử dụng NukeViet sau khi Yahoo Blog đóng cửa tại Việt Nam ngày 17/01/2013.Kể từ ngày 07/02/2013, thông tin trên Blog được cập nhật tiếp tục trở lại với sự hỗ trợ kỹ thuật và đặt chỗ hosting của nhóm phát triển...

Bài đọc nhiều nhất trong năm
Thăm dò ý kiến

Bạn quan tâm gì nhất ở mã nguồn mở?

Thống kê truy cập
  • Đang truy cập49
  • Máy chủ tìm kiếm10
  • Khách viếng thăm39
  • Hôm nay1,363
  • Tháng hiện tại49,323
  • Tổng lượt truy cập40,293,646
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây