Vượt ra ngoài ranh giới mở và đóng: Hiểu về phổ minh bạch của AI

Thứ hai - 28/07/2025 06:47

Beyond open vs. closed: Understanding the spectrum of AI transparency

March 20, 2025 By Aaron Linskens

Theo: https://www.sonatype.com/blog/beyond-open-vs.-closed-understanding-the-spectrum-of-ai-transparency

Bài được đưa lên Internet ngày: 20/03/2025

Trí tuệ nhân tạo (AI) đang biến đổi các ngành công nghiệp, từ phát triển phần mềm đến an ninh mạng. Tuy nhiên, khi việc áp dụng AI ngày càng tăng, các cuộc thảo luận xung quanh khả năng tiếp cận và tính minh bạch của nó cũng tăng theo. Không giống như phần mềm truyền thống, nơi khái niệm nguồn mở được định nghĩa rõ ràng, AI lại mang đến những phức tạp bổ sung - đặc biệt là xung quanh dữ liệu đào tạo, các tham số mô hình và tính mở của kiến trúc.

AI nguồn mở là gì?

Sáng kiến Nguồn Mở - OSI (Open Source Initiative) đã đưa ra một định nghĩa chính thức về AI nguồn mở (bản dịch sang tiếng Việt), không yêu cầu dữ liệu đào tạo hoặc tham số mô hình phải được công khai. Tuy nhiên, nhiều người trong cộng đồng AI và nguồn mở cho rằng tính minh bạch thực sự đòi hỏi quyền truy cập đầy đủ vào các thành phần này.

Thay vì tranh luận nhị phân về việc AI là mở hay đóng, cuộc thảo luận có liên quan hơn là về mức độ minh bạch của các mô hình AI trên các khía cạnh khác nhau - mã nguồn, tham số mô hình và dữ liệu đào tạo.

Hãy cùng khám phá những sắc thái của tính minh bạch AI, sự khác biệt về tính mở của các mô hình khác nhau và tại sao những khác biệt này lại quan trọng.

Định nghĩa toàn bộ phạm vi minh bạch của AI

Thay vì ép AI vào sự phân đôi nguồn mở và nguồn đóng nghiêm ngặt, việc đánh giá mức độ minh bạch của một hệ thống AI sẽ hữu ích hơn.

Một mô hình AI thực sự mở sẽ cung cấp quyền truy cập đầy đủ vào:

Mã nguồn – Kiến trúc và triển khai của mô hình AI.
Tham số mô hình – Các trọng số và thiết lập đã học được xác định cách AI hoạt động.
Dữ liệu đào tạo – Các tập dữ liệu được sử dụng để đào tạo và tinh chỉnh mô hình.

Nhiều dự án AI tự nhận là nguồn mở chỉ cung cấp một số thành phần này. Điều này dẫn đến một phạm vi mở rộng, thay vì phân loại có/không nghiêm ngặt.

Các khía cạnh chính của tính minh bạch của AI

Mã và mô hình có sẵn công khai: Kiến trúc, quy trình đào tạo và tập dữ liệu của mô hình AI có thể được các nhà phát triển và nhà nghiên cứu truy cập.
Khả năng sửa đổi: Người dùng có thể điều chỉnh và cải thiện hệ thống AI dựa trên nhu cầu của họ.
Tính khả dụng của dữ liệu đào tạo: Nhiều mô hình AI không tiết lộ dữ liệu đào tạo do các vấn đề về quyền riêng tư, cấp phép hoặc cạnh tranh.
Tính minh bạch và tin cậy: Việc tiếp cận mở các thành phần AI thúc đẩy sự giám sát chặt chẽ hơn và phát triển AI có đạo đức, nhưng không có định nghĩa duy nhất nào về điều gì làm nên một mô hình AI "mở".

Tính minh bạch của AI và mã nguồn mở truyền thống

Vì tính minh bạch của AI tồn tại trên một phổ, nên việc so sánh mở và đóng đơn giản sẽ không thể hiện được thực tế về khả năng tiếp cận mô hình AI.

Dưới đây là so sánh các chiều minh bạch AI khác nhau:

Tính năng	Minh bạch đầy đủ	Minh bạch một phần	Nguồn đóng
Mã nguồn	Mở	Mở một phần	Độc quyền
Tham số mô hình	Mở	Truy cập hạn chế	Độc quyền
Dữ liệu đào tạo	Mở	Không tiết lộ	Độc quyền

Nhiều mô hình AI được sử dụng rộng rãi, chẳng hạn như GPT-4 của OpenAI và Gemini của Google, thuộc loại minh bạch một phần, trong đó một số yếu tố được mở trong khi một số khác vẫn độc quyền. Ngược lại, các mô hình như Llama và DeepSeek của Meta mang lại tính minh bạch cao hơn nhưng vẫn giữ lại các khía cạnh quan trọng như dữ liệu đào tạo.

Những cái tên lớn trong lĩnh vực minh bạch AI

Một số tổ chức và dự án đang đi đầu trong việc minh bạch AI, mỗi tổ chức cung cấp các mức độ minh bạch khác nhau.

Meta (loạt Llama)

Meta đã có những đóng góp đáng kể cho AI với loạt Llama (Meta AI Mô hình Ngôn ngữ Lớn). Tuy nhiên, trong khi Llama 2 được phát hành với giấy phép và trọng số mô hình tương đối dễ dãi, Meta lại không công khai dữ liệu đào tạo, điều mà một số người cho rằng có nghĩa là nó không đáp ứng đầy đủ định nghĩa về AI nguồn mở.

DeepSeek AI

DeepSeek AI là một sáng kiến nguồn mở đang phát triển, tập trung vào việc phát triển các mô hình AI chất lượng cao. Mặc dù các mô hình và mã của sáng kiến này được công khai, nhưng vẫn chưa rõ liệu các tập dữ liệu đào tạo của DeepSeek có hoàn toàn mở hay không, khiến nó được xếp vào loại minh bạch một phần.

Hugging Face

Là một trung tâm AI nguồn mở, Hugging Face cung cấp một hệ sinh thái rộng lớn để chia sẻ, đào tạo và tinh chỉnh các mô hình AI. Nhiều mô hình được lưu trữ trên Hugging Face có mức độ minh bạch khác nhau, củng cố thêm cuộc thảo luận rộng rãi hơn về cách các dự án AI khác nhau định nghĩa tính minh bạch.

Mistral AI

Mistral AI phát triển các mô hình AI cạnh tranh, sánh ngang với các giải pháp thay thế nguồn đóng. Tuy nhiên, tương tự như Llama, các mô hình của Mistral có tính mở về trọng số mô hình và mã nguồn nhưng lại thiếu bộ dữ liệu huấn luyện hoàn toàn mở, làm gia tăng thêm cuộc tranh luận đang diễn ra về việc thế nào là một mô hình AI minh bạch.

Tại sao tính minh bạch của AI lại quan trọng?

Thay vì tập trung vào việc AI là mở hay đóng, các tổ chức nên đánh giá mức độ minh bạch của một mô hình AI dựa trên các tiêu chí khác nhau.

Đây là lý do tại sao điều này quan trọng:

Bảo mật và tuân thủ: Các tổ chức cần hiểu cách các mô hình AI được xây dựng và đào tạo để đảm bảo bảo mật và tuân thủ quy định.
Tăng tốc đổi mới: Minh bạch hơn sẽ thúc đẩy đổi mới bằng cách cho phép các nhà phát triển xây dựng dựa trên các mô hình hiện có.
Các mối quan ngại về quy định và đạo đức: Tính minh bạch giúp giảm thiểu những lo ngại về định kiến, lạm dụng đạo đức và giải thích.
Áp dụng trong doanh nghiệp: Các doanh nghiệp đang đánh giá các giải pháp AI cần có tầm nhìn rõ ràng về các thành phần nào là mở, mở một phần hoặc độc quyền để đưa ra quyết định sáng suốt.

Tương lai của tính minh bạch của AI

Khi AI tiếp tục phát triển, cuộc thảo luận đang chuyển từ cuộc tranh luận nhị phân "mở so với đóng" sang tập trung vào tính minh bạch trên nhiều khía cạnh khác nhau. Các cơ quan quản lý và các nhà lãnh đạo ngành đã và đang thảo luận về quản trị AI và triển khai có trách nhiệm, điều này sẽ tác động đến cách các tổ chức công bố các thành phần AI.

Cho dù các công ty lựa chọn mô hình AI hoàn toàn mở, mở một phần hay độc quyền, thì có một điều rõ ràng: nhu cầu về tính minh bạch trong phát triển AI và hơn thế nữa sẽ tiếp tục tăng lên.

Tại Sonatype, chúng tôi đang theo dõi sát sao các xu hướng AI này, đặc biệt liên quan đến bảo mật chuỗi cung ứng phần mềm. Để tìm hiểu thêm về AI trong phát triển phần mềm, hãy xem qua những thông tin chuyên sâu của chúng tôi.

Bài viết của Aaron Linskens

Aaron là một biên tập viên kỹ thuật thuộc nhóm Tiếp thị của Sonatype. Anh ấy làm việc ở nhiều lĩnh vực, từ biên tập kỹ thuật, vận động nhà phát triển, phát triển phần mềm đến mã nguồn mở. Anh ấy mong muốn giúp các nhà phát triển và cộng tác viên không chuyên về kỹ thuật làm việc hiệu quả với nhau thông qua thử nghiệm, phản hồi và lặp lại để họ...

Khám phá tất cả các bài viết của Aaron Linskens

Artificial intelligence (AI) is transforming industries, from software development to cybersecurity. But as AI adoption grows, so does the discussion around its accessibility and transparency. Unlike traditional software, where the concept of open source is well-defined, AI introduces additional complexities — particularly around training data, model parameters, and architecture openness.

What is open source AI?

The Open Source Initiative (OSI) has put forth an official definition of open source AI, which does not require training data or model parameters to be openly available. However, many in the AI and open source communities argue that true transparency requires full access to these components.

Rather than a binary debate over whether AI is open or closed, the more relevant discussion is about how transparent AI models are across different dimensions — source code, model parameters, and training data.

Let's explore the nuances of AI transparency, how different models compare in openness, and why these distinctions matter.

Defining the full spectrum of AI transparency

Rather than forcing AI into a strict open source vs. closed source dichotomy, it's more useful to assess how transparent an AI system is.

A truly open AI model would provide full access to:

Source code – The AI model's architecture and implementation.
Model parameters – The learned weights and settings that define how the AI behaves.
Training data – The datasets used to train and refine the model.

Many AI projects that claim to be open source make only some of these components available. This leads to a spectrum of openness, rather than a strict yes/no classification.

Key aspects of AI transparency

Publicly available code and models: The AI model's architecture, training processes, and datasets are accessible to developers and researchers.
Modifiability: Users can tweak and improve the AI system based on their needs.
Training data availability: Many AI models do not disclose training data due to privacy, licensing, or competitive concerns.
Transparency and trust: Open access to AI components fosters greater scrutiny and ethical AI development, but there is no single definition of what makes an AI model "open."

AI transparency and traditional open source

Since AI transparency exists along a spectrum, a simple open vs. closed comparison doesn't capture the reality of AI model accessibility.

Below is a comparison of different AI transparency dimensions:

Feature	Fully transparent	Partially transparent	Closed source
Source code	Open	Partially open	Proprietary
Model parameters	Open	Restricted access	Proprietary
Training data	Open	Not disclosed	Proprietary

Many widely used AI models, such as OpenAI's GPT-4 and Google's Gemini, fall into the partially transparent category, where some elements are open while others remain proprietary. By contrast, models like Meta's Llama and DeepSeek offer more openness but still withhold key aspects like training data.

Major players in AI transparency

Several organizations and projects are at the forefront of AI transparency, each offering different levels of openness.

Meta (Llama series)

Meta has made significant contributions to AI with its Llama (Large Language Model Meta AI) series. However, while Llama 2 was released with relatively permissive licensing and model weights, Meta has not made the training data open, which some argue means it does not fully meet the definition of open source AI.

DeepSeek AI

DeepSeek AI is a growing open source initiative that focuses on developing high-quality AI models. While its models and code are publicly available, it is unclear if DeepSeek's training datasets are fully open, placing it in the partially transparent category.

Hugging Face

A central hub for open source AI, Hugging Face provides a vast ecosystem for sharing, training, and fine-tuning AI models. Many of the models hosted on Hugging Face vary in openness, reinforcing the broader discussion around how different AI projects define transparency.

Mistral AI

Mistral AI develops competitive AI models that rival closed-source alternatives. However, similar to Llama, Mistral's models are open in terms of model weights and code but lack fully open training datasets, adding to the ongoing debate about what qualifies as a transparent AI model.

Why AI transparency matters

Instead of focusing on whether AI is strictly open or closed, organizations should assess how transparent an AI model is based on different criteria.

Here's why it matters:

Security and compliance: Organizations need to understand how AI models are built and trained to ensure security and regulatory compliance.
Innovation acceleration: More transparency fosters innovation by allowing developers to build upon existing models.
Regulatory and ethical concerns: Transparency helps mitigate concerns over bias, ethical misuse, and explanation.
Enterprise adoption: Businesses evaluating AI solutions need visibility into what components are open, partially open, or proprietary to make informed decisions.

The future of AI transparency

As AI continues to evolve, the conversation is shifting from a binary "open vs. closed" debate to one focused on transparency across different dimensions. Regulatory bodies and industry leaders are already discussing AI governance and responsible deployment, which will impact how organizations disclose AI components.

Whether companies choose fully open, partially open, or proprietary AI models, one thing is clear: the need for transparency in AI development and beyond will only continue to grow.

At Sonatype, we are closely monitoring these AI trends, particularly in relation to software supply chain security. To learn more about AI in software development, check out our insights.

Written by Aaron Linskens

Aaron is a technical writer on Sonatype's Marketing team. He works at a crossroads of technical writing, developer advocacy, software development, and open source. He aims to get developers and non-technical collaborators to work well together via experimentation, feedback, and iteration so they ...

Explore all posts by Aaron Lins kens

Blogger: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Tác giả: Nghĩa Lê Trung