Định nghĩa AI nguồn mở V1.0

Thứ sáu - 24/01/2025 05:02
Định nghĩa AI nguồn mở V1.0

The Open Source AI Definition – 1.0

Theo: https://opensource.org/ai/open-source-ai-definition

Lời nói đầu

Vì sao chúng ta cần Trí tuệ Nhân tạo (AI) Nguồn Mở

Nguồn Mở đã chứng minh rằng mọi người đều hưởng lợi lớn sau khi loại bỏ các rào cản đối với việc học tập, sử dụng, chia sẻ và cải tiến các hệ thống phần mềm. Những lợi ích đó là kết quả của việc sử dụng các giấy phép gắn với Định nghĩa Nguồn Mở. Đối với AI, xã hội cần ít nhất các quyền tự do thiết yếu y hệt của Nguồn Mở để cho phép các nhà phát triển, các nhà triển khai và người dùng đầu cuối của AI hưởng thụ những lợi ích y hệt đó: quyền tự quyết, minh bạch, sử dụng lại và cải tiến cộng tác một cách trơn tru.

AI Nguồn Mở là gì

Khi chúng ta tham chiếu tới một “hệ thống”, chúng ta đang nói một cách rộng rãi về một cấu trúc đầy đủ chức năng và các yếu tố cấu thành riêng biệt của nó. Để được coi là Nguồn Mở, các yêu cầu là y hệt nhau, dù được áp dụng cho một hệ thống, mô hình, trọng sốtham số, hay các yếu tố cấu thành khác.

AI Nguồn Mở (Open Source AI) là một hệ thống AI được làm cho sẵn sàng theo các điều khoản và theo một cách thức trao các quyền tự do1 để:

  • Sử dụng hệ thống đó vì bất kỳ mục đích gì và không phải hỏi sự cho phép.

  • Nghiên cứu cách hệ thống đó làm việc và kiểm tra các cấu thành của nó.

  • Sửa đổi hệ thống đó vì bất kỳ mục đích gì, bao gồm thay đổi đầu ra của nó.

  • Chia sẻ hệ thống đó với người khác để sử dụng với hoặc không với những sửa đổi, vì bất kỳ mục đích gì.

Các quyền tự do đó áp dụng cả cho một hệ thống đầy đủ chức năng và cho các cấu thành riêng biệt của một hệ thống. Điều kiện tiên quyết để thực thi các quyền tự do đó là phải có quyền truy cập tới hình thức được ưa thích để tiến hành các sửa đổi đối với hệ thống đó.

Hình thức được ưa thích để tiến hành các sửa đổi đối với các hệ thống máy học

Hình thức được ưa thích cho việc thực hiện các sửa đổi đối với một hệ thống máy học phải bao gồm tất cả các yếu tố sau đây:

  • Thông tin dữ liệu: Thông tin đủ chi tiết về dữ liệu được sử dụng để đào tạo hệ thống sao cho một người có kỹ năng có thể xây dựng một hệ thống tương tự về cơ bản.

    • Đặc biệt, điều này phải bao gồm: (1) mô tả hoàn chỉnh tất cả dữ liệu được sử dụng để đào tạo, bao gồm (nếu được sử dụng) dữ liệu không thể chia sẻ, tiết lộ nguồn gốc của dữ liệu đó, mức độ phạm vi và các đặc tính của nó, cách dữ liệu đó đã được thu thập và có được, các thủ tục gắn nhãn, và các phương pháp xử lý và lọc dữ liệu; (2) liệt kê tất cả các dữ liệu đào tạo có sẵn công khai và nơi để có được nó; và (3) liệt kê tất cả dữ liệu đào tạo có được từ các bên thứ 3 và nơi để có được nó, bao gồm dữ liệu phải trả phí.

  • Mã (Code): Mã nguồn đầy đủ được sử dụng để đào tạo và chạy hệ thống. Mã đó sẽ thể hiện đầy đủ thông số kỹ thuật về cách thức xử lý và lọc dữ liệu cũng như cách thức đào tạo được thực hiện. Mã đó sẽ được làm cho sẵn sàng theo các giấy phép được Sáng kiến Nguồn Mở - OSI (Open Source Initiative) phê duyệt.

    • Ví dụ, nếu được sử dụng, điều này phải bao gồm mã được sử dụng để xử lý và lọc dữ liệu, mã được sử dụng để đào tạo bao gồm các tham số và các thiết lập được sử dụng, thẩm định và kiểm thử, các thư viện hỗ trợ tương tự như các thẻ token và mã tìm kiếm siêu tham số (hyperparameters), mã suy luận, và kiến trúc của mô hình.

  • Các tham số: Các tham số của mô hình, chẳng hạn như các trọng số hoặc các thiết lập cấu hình khác. Các tham số sẽ được làm cho sẵn sàng theo các điều khoản được OSI phê chuẩn.

    • Ví dụ, điều này có thể bao gồm các điểm kiểm tra từ các giai đoạn trung gian chủ chốt của việc đào tạo cũng như tình trạng của trình tối ưu hóa cuối cùng.

Việc cấp phép hoặc các điều khoản khác được áp dụng cho các yếu tố đó và cho bất kỳ sự kết hợp nào của chúng có thể có các điều kiện yêu cầu bất kỳ phiên bản sửa đổi nào cũng phải được phát hành theo các điều khoản y hệt như của bản gốc.

Các mô hình Nguồn Mở và các trọng số Nguồn Mở

Đối với các hệ thống máy học,

  • Mô hình AI (AI Model) gồm cấu trúc mô hình, các tham số mô hình (bao gồm các trọng số) và mã suy luận để chạy mô hình đó.

  • Các trọng số AI (AI Weights) là tập hợp các tham số học được bao trùm kiến trúc mô hình để tạo ra đầu ra từ đầu vào nhất định.

Hình thức được ưu tiên để thực hiện các sửa đổi cho các hệ thống máy học cũng áp dụng cho các thành phần riêng rẽ đó. “Các mô hình Nguồn Mở” và “các trọng số Nguồn Mở” phải bao gồm thông tin dữ liệu và mã được sử dụng để dẫn xuất các tham số đó.

Định nghĩa AI Nguồn Mở không yêu cầu một cơ chế pháp lý cụ đặc thù để đảm bảo rằng các tham số mô hình là sẵn sàng miễn phí cho tất cả mọi người. Chúng có thể có phí theo bản chất tự nhiên của chúng hoặc một giấy phép hoặc một công cụ pháp lý khác có thể được yêu cầu để đảm bảo quyền tự do của chúng. Chúng tôi kỳ vọng điều này sẽ trở nên rõ ràng hơn qua thời gian, một khi hệ thống pháp lý đã có nhiều cơ hội hơn để đề cập tới các hệ thống AI Nguồn Mở.

Các định nghĩa

  • Hệ thống AI2: Hệ thống AI là hệ thống dựa trên máy móc mà, vì các mục đích rõ ràng hoặc ngầm định, suy diễn, từ đầu rào nó nhận được, cách để sinh ra các kết quả đầu ra chẳng hạn như các cảnh báo, nội dung, khuyến nghị, hoặc quyết định có thể ảnh hưởng đến các môi trường vật lý hoặc ảo. Các hệ thống AI khác nhau là khác nhau về các mức độ tự quản và khả tính tùy biến thích nghi của chúng sau khi triển khai.

  • Máy học3: là một tập hợp các kỹ thuật cho phép các máy móc cải thiện hiệu suất của chúng và thường sinh ra các mô hình theo cách được tự động hóa thông qua việc tiếp xúc với dữ liệu đào tạo, có thể giúp xác định các mẫu và quy luật thay vì thông qua các lệnh rõ ràng từ con người. Quá trình cải thiện hiệu năng của hệ thống bằng cách sử dụng các kỹ thuật máy học được gọi là “việc đào tạo”.

  1. Các quyền tự do này bắt nguồn từ Định nghĩa Phần mềm Tự do.

  2. Khuyến nghị của Hội đồng về Trí tuệ Nhân tạo OECD/LEGAL/0449, Tổ chức Phát triển Kinh tế và Hợp tác (OECD), 2024

  3. Biên bản giải trình về định nghĩa hệ thống AI được OECD cập nhật, Tài liệu về Trí tuệ Nhân tạo của OECD, No. 8, OECD Xuất bản, Paris 

Xem các câu Hỏi - Đáp thường gặp

Xem danh sách các bên phê chuẩn

Phê chuẩn Định nghĩa AI Nguồn Mở

Cảm ơn bạn về sự quan tâm của bạn trong việc phê chuẩn Định nghĩa AI Nguồn Mở (OSAID). Là một người phê chuẩn ngụ ý tân và mối liên kết với tổ chức của bạn sẽ được thêm vào danh sách những người ủng hộ Định nghĩa AI Nguồn Mở phiên bản 1.0.

Tên của bạn

Thư điện tử của bạn

Tổ chức của bạn

Vai trò của bạn

Dạng phê chuẩn:

Cá nhân ○; Tổ chức ○; Cả hai ○.

Ý kiến của bạn (tùy chọn)

Gửi đi

Preamble

Why we need Open Source Artificial Intelligence (AI)

Open Source has demonstrated that massive benefits accrue to everyone after removing the barriers to learning, using, sharing and improving software systems. These benefits are the result of using licenses that adhere to the Open Source Definition. For AI, society needs at least the same essential freedoms of Open Source to enable AI developers, deployers and end users to enjoy those same benefits: autonomy, transparency, frictionless reuse and collaborative improvement.

What is Open Source AI

When we refer to a “system,” we are speaking both broadly about a fully functional structure and its discrete structural elements. To be considered Open Source, the requirements are the same, whether applied to a system, a model, weights and parameters, or other structural elements.

An Open Source AI is an AI system made available under terms and in a way that grant the freedoms1 to:

  • Use the system for any purpose and without having to ask for permission.

  • Study how the system works and inspect its components.

  • Modify the system for any purpose, including to change its output.

  • Share the system for others to use with or without modifications, for any purpose.

These freedoms apply both to a fully functional system and to discrete elements of a system. A precondition to exercising these freedoms is to have access to the preferred form to make modifications to the system.

Preferred form to make modifications to machine-learning systems

The preferred form of making modifications to a machine-learning system must include all the elements below:

  • Data Information: Sufficiently detailed information about the data used to train the system so that a skilled person can build a substantially equivalent system. Data Information shall be made available under OSI-approved terms.

    • In particular, this must include: (1) the complete description of all data used for training, including (if used) of unshareable data, disclosing the provenance of the data, its scope and characteristics, how the data was obtained and selected, the labeling procedures, and data processing and filtering methodologies; (2) a listing of all publicly available training data and where to obtain it; and (3) a listing of all training data obtainable from third parties and where to obtain it, including for fee.

  • Code: The complete source code used to train and run the system. The Code shall represent the full specification of how the was processed and filtered, and how the training was done. Code shall be made available under OSI-approved licenses.

    • For example, if used, this must include code used for processing and filtering data, code used for training including arguments and settings used, validation and testing, supporting libraries like tokenizers and hyperparameters search code, inference code, and model architecture.

  • Parameters: The model parameters, such as weights or other configuration settings. Parameters shall be made available under OSI-approved terms.

    • For example, this might include checkpoints from key intermediate stages of training as well as the final optimizer state.

The licensing or other terms applied to these elements and to any combination thereof may contain conditions that require any modified version to be released under the same terms as the original.

Open Source models and Open Source weights

For machine learning systems,

  • An AI model consists of the model architecture, model parameters (including weights) and inference code for running the model.

  • AI weights are the set of learned parameters that overlay the model architecture to produce an output from a given input.

The preferred form to make modifications to machine learning systems also applies to these individual components. “Open Source models” and “Open Source weights” must include the data information and code used to derive those parameters.

The Open Source AI Definition does not require a specific legal mechanism for assuring that the model parameters are freely available to all. They may be free by their nature or a license or other legal instrument may be required to ensure their freedom. We expect this will become clearer over time, once the legal system has had more opportunity to address Open Source AI systems.

Definitions

  • AI system2: An AI system is a machine-based system that, for explicit or implicit objectives, infers, from the input it receives, how to generate outputs such as predictions, content, recommendations, or decisions that can influence physical or virtual environments. Different AI systems vary in their levels of autonomy and adaptiveness after deployment.

  • Machine learning3: is a set of techniques that allows machines to improve their performance and usually generate models in an automated manner through exposure to training data, which can help identify patterns and regularities rather than through explicit instructions from a human. The process of improving a system’s performance using machine learning techniques is known as “training”.

  1. These freedoms are derived from the Free Software Definition

  2. Recommendation of the Council on Artificial Intelligence OECD/LEGAL/0449, Organization for Economic and Co-operation Development (OECD), 2024 

  3. Explanatory memorandum on the updated OECD definition of an AI system, OECD Artificial Intelligence Papers, No. 8, OECD Publishing, Paris 

See FAQs

See list of endorsements

Endorse the Open Source AI Definition

Thank you for your interest in endorsing the OSAID. Being an endorser means your name and organizational affiliation will be appended to list of supporters of Version 1.0 of the Open Source AI Definition.

Your name

Your email

Your institution

Your role

Endorsement type:

Individual Institutional Both

Your message (optional)

Submit

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Tác giả: Nghĩa Lê Trung

Tổng số điểm của bài viết là: 0 trong 0 đánh giá

Click để đánh giá bài viết

  Ý kiến bạn đọc

Những tin mới hơn

Những tin cũ hơn

Về Blog này

Blog này được chuyển đổi từ http://blog.yahoo.com/letrungnghia trên Yahoo Blog sang sử dụng NukeViet sau khi Yahoo Blog đóng cửa tại Việt Nam ngày 17/01/2013.Kể từ ngày 07/02/2013, thông tin trên Blog được cập nhật tiếp tục trở lại với sự hỗ trợ kỹ thuật và đặt chỗ hosting của nhóm phát triển...

Bài đọc nhiều nhất trong năm
Thăm dò ý kiến

Bạn quan tâm gì nhất ở mã nguồn mở?

Thống kê truy cập
  • Đang truy cập132
  • Máy chủ tìm kiếm17
  • Khách viếng thăm115
  • Hôm nay17,227
  • Tháng hiện tại829,945
  • Tổng lượt truy cập38,356,769
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây