Beyond open vs. closed: Understanding the spectrum of AI transparency
March 20, 2025 By Aaron Linskens
Theo: https://www.sonatype.com/blog/beyond-open-vs.-closed-understanding-the-spectrum-of-ai-transparency
Bài được đưa lên Internet ngày: 20/03/2025
Trí tuệ nhân tạo (AI) đang biến đổi các ngành công nghiệp, từ phát triển phần mềm đến an ninh mạng. Tuy nhiên, khi việc áp dụng AI ngày càng tăng, các cuộc thảo luận xung quanh khả năng tiếp cận và tính minh bạch của nó cũng tăng theo. Không giống như phần mềm truyền thống, nơi khái niệm nguồn mở được định nghĩa rõ ràng, AI lại mang đến những phức tạp bổ sung - đặc biệt là xung quanh dữ liệu đào tạo, các tham số mô hình và tính mở của kiến trúc.
AI nguồn mở là gì?
Sáng kiến Nguồn Mở - OSI (Open Source Initiative) đã đưa ra một định nghĩa chính thức về AI nguồn mở (bản dịch sang tiếng Việt), không yêu cầu dữ liệu đào tạo hoặc tham số mô hình phải được công khai. Tuy nhiên, nhiều người trong cộng đồng AI và nguồn mở cho rằng tính minh bạch thực sự đòi hỏi quyền truy cập đầy đủ vào các thành phần này.
Thay vì tranh luận nhị phân về việc AI là mở hay đóng, cuộc thảo luận có liên quan hơn là về mức độ minh bạch của các mô hình AI trên các khía cạnh khác nhau - mã nguồn, tham số mô hình và dữ liệu đào tạo.
Hãy cùng khám phá những sắc thái của tính minh bạch AI, sự khác biệt về tính mở của các mô hình khác nhau và tại sao những khác biệt này lại quan trọng.
Định nghĩa toàn bộ phạm vi minh bạch của AI
Thay vì ép AI vào sự phân đôi nguồn mở và nguồn đóng nghiêm ngặt, việc đánh giá mức độ minh bạch của một hệ thống AI sẽ hữu ích hơn.
Một mô hình AI thực sự mở sẽ cung cấp quyền truy cập đầy đủ vào:
Mã nguồn – Kiến trúc và triển khai của mô hình AI.
Tham số mô hình – Các trọng số và thiết lập đã học được xác định cách AI hoạt động.
Dữ liệu đào tạo – Các tập dữ liệu được sử dụng để đào tạo và tinh chỉnh mô hình.
Nhiều dự án AI tự nhận là nguồn mở chỉ cung cấp một số thành phần này. Điều này dẫn đến một phạm vi mở rộng, thay vì phân loại có/không nghiêm ngặt.
Các khía cạnh chính của tính minh bạch của AI
Mã và mô hình có sẵn công khai: Kiến trúc, quy trình đào tạo và tập dữ liệu của mô hình AI có thể được các nhà phát triển và nhà nghiên cứu truy cập.
Khả năng sửa đổi: Người dùng có thể điều chỉnh và cải thiện hệ thống AI dựa trên nhu cầu của họ.
Tính khả dụng của dữ liệu đào tạo: Nhiều mô hình AI không tiết lộ dữ liệu đào tạo do các vấn đề về quyền riêng tư, cấp phép hoặc cạnh tranh.
Tính minh bạch và tin cậy: Việc tiếp cận mở các thành phần AI thúc đẩy sự giám sát chặt chẽ hơn và phát triển AI có đạo đức, nhưng không có định nghĩa duy nhất nào về điều gì làm nên một mô hình AI "mở".
Tính minh bạch của AI và mã nguồn mở truyền thống
Vì tính minh bạch của AI tồn tại trên một phổ, nên việc so sánh mở và đóng đơn giản sẽ không thể hiện được thực tế về khả năng tiếp cận mô hình AI.
Dưới đây là so sánh các chiều minh bạch AI khác nhau:
|
Tính năng |
Minh bạch đầy đủ |
Minh bạch một phần |
Nguồn đóng |
|
Mã nguồn |
Mở |
Mở một phần |
Độc quyền |
|
Tham số mô hình |
Mở |
Truy cập hạn chế |
Độc quyền |
|
Dữ liệu đào tạo |
Mở |
Không tiết lộ |
Độc quyền |
Nhiều mô hình AI được sử dụng rộng rãi, chẳng hạn như GPT-4 của OpenAI và Gemini của Google, thuộc loại minh bạch một phần, trong đó một số yếu tố được mở trong khi một số khác vẫn độc quyền. Ngược lại, các mô hình như Llama và DeepSeek của Meta mang lại tính minh bạch cao hơn nhưng vẫn giữ lại các khía cạnh quan trọng như dữ liệu đào tạo.
Những cái tên lớn trong lĩnh vực minh bạch AI
Một số tổ chức và dự án đang đi đầu trong việc minh bạch AI, mỗi tổ chức cung cấp các mức độ minh bạch khác nhau.
Meta (loạt Llama)
Meta đã có những đóng góp đáng kể cho AI với loạt Llama (Meta AI Mô hình Ngôn ngữ Lớn). Tuy nhiên, trong khi Llama 2 được phát hành với giấy phép và trọng số mô hình tương đối dễ dãi, Meta lại không công khai dữ liệu đào tạo, điều mà một số người cho rằng có nghĩa là nó không đáp ứng đầy đủ định nghĩa về AI nguồn mở.
DeepSeek AI
DeepSeek AI là một sáng kiến nguồn mở đang phát triển, tập trung vào việc phát triển các mô hình AI chất lượng cao. Mặc dù các mô hình và mã của sáng kiến này được công khai, nhưng vẫn chưa rõ liệu các tập dữ liệu đào tạo của DeepSeek có hoàn toàn mở hay không, khiến nó được xếp vào loại minh bạch một phần.
Hugging Face
Là một trung tâm AI nguồn mở, Hugging Face cung cấp một hệ sinh thái rộng lớn để chia sẻ, đào tạo và tinh chỉnh các mô hình AI. Nhiều mô hình được lưu trữ trên Hugging Face có mức độ minh bạch khác nhau, củng cố thêm cuộc thảo luận rộng rãi hơn về cách các dự án AI khác nhau định nghĩa tính minh bạch.
Mistral AI
Mistral AI phát triển các mô hình AI cạnh tranh, sánh ngang với các giải pháp thay thế nguồn đóng. Tuy nhiên, tương tự như Llama, các mô hình của Mistral có tính mở về trọng số mô hình và mã nguồn nhưng lại thiếu bộ dữ liệu huấn luyện hoàn toàn mở, làm gia tăng thêm cuộc tranh luận đang diễn ra về việc thế nào là một mô hình AI minh bạch.
Tại sao tính minh bạch của AI lại quan trọng?
Thay vì tập trung vào việc AI là mở hay đóng, các tổ chức nên đánh giá mức độ minh bạch của một mô hình AI dựa trên các tiêu chí khác nhau.
Đây là lý do tại sao điều này quan trọng:
Bảo mật và tuân thủ: Các tổ chức cần hiểu cách các mô hình AI được xây dựng và đào tạo để đảm bảo bảo mật và tuân thủ quy định.
Tăng tốc đổi mới: Minh bạch hơn sẽ thúc đẩy đổi mới bằng cách cho phép các nhà phát triển xây dựng dựa trên các mô hình hiện có.
Các mối quan ngại về quy định và đạo đức: Tính minh bạch giúp giảm thiểu những lo ngại về định kiến, lạm dụng đạo đức và giải thích.
Áp dụng trong doanh nghiệp: Các doanh nghiệp đang đánh giá các giải pháp AI cần có tầm nhìn rõ ràng về các thành phần nào là mở, mở một phần hoặc độc quyền để đưa ra quyết định sáng suốt.
Tương lai của tính minh bạch của AI
Khi AI tiếp tục phát triển, cuộc thảo luận đang chuyển từ cuộc tranh luận nhị phân "mở so với đóng" sang tập trung vào tính minh bạch trên nhiều khía cạnh khác nhau. Các cơ quan quản lý và các nhà lãnh đạo ngành đã và đang thảo luận về quản trị AI và triển khai có trách nhiệm, điều này sẽ tác động đến cách các tổ chức công bố các thành phần AI.
Cho dù các công ty lựa chọn mô hình AI hoàn toàn mở, mở một phần hay độc quyền, thì có một điều rõ ràng: nhu cầu về tính minh bạch trong phát triển AI và hơn thế nữa sẽ tiếp tục tăng lên.
Tại Sonatype, chúng tôi đang theo dõi sát sao các xu hướng AI này, đặc biệt liên quan đến bảo mật chuỗi cung ứng phần mềm. Để tìm hiểu thêm về AI trong phát triển phần mềm, hãy xem qua những thông tin chuyên sâu của chúng tôi.
Bài viết của Aaron Linskens
Aaron là một biên tập viên kỹ thuật thuộc nhóm Tiếp thị của Sonatype. Anh ấy làm việc ở nhiều lĩnh vực, từ biên tập kỹ thuật, vận động nhà phát triển, phát triển phần mềm đến mã nguồn mở. Anh ấy mong muốn giúp các nhà phát triển và cộng tác viên không chuyên về kỹ thuật làm việc hiệu quả với nhau thông qua thử nghiệm, phản hồi và lặp lại để họ...
Khám phá tất cả các bài viết của Aaron Linskens
Artificial intelligence (AI) is transforming industries, from software development to cybersecurity. But as AI adoption grows, so does the discussion around its accessibility and transparency. Unlike traditional software, where the concept of open source is well-defined, AI introduces additional complexities — particularly around training data, model parameters, and architecture openness.
What is open source AI?
The Open Source Initiative (OSI) has put forth an official definition of open source AI, which does not require training data or model parameters to be openly available. However, many in the AI and open source communities argue that true transparency requires full access to these components.
Rather than a binary debate over whether AI is open or closed, the more relevant discussion is about how transparent AI models are across different dimensions — source code, model parameters, and training data.
Let's explore the nuances of AI transparency, how different models compare in openness, and why these distinctions matter.
Defining the full spectrum of AI transparency
Rather than forcing AI into a strict open source vs. closed source dichotomy, it's more useful to assess how transparent an AI system is.
A truly open AI model would provide full access to:
Source code – The AI model's architecture and implementation.
Model parameters – The learned weights and settings that define how the AI behaves.
Training data – The datasets used to train and refine the model.
Many AI projects that claim to be open source make only some of these components available. This leads to a spectrum of openness, rather than a strict yes/no classification.
Key aspects of AI transparency
Publicly available code and models: The AI model's architecture, training processes, and datasets are accessible to developers and researchers.
Modifiability: Users can tweak and improve the AI system based on their needs.
Training data availability: Many AI models do not disclose training data due to privacy, licensing, or competitive concerns.
Transparency and trust: Open access to AI components fosters greater scrutiny and ethical AI development, but there is no single definition of what makes an AI model "open."
AI transparency and traditional open source
Since AI transparency exists along a spectrum, a simple open vs. closed comparison doesn't capture the reality of AI model accessibility.
Below is a comparison of different AI transparency dimensions:
|
Feature |
Fully transparent |
Partially transparent |
Closed source |
|
Source code |
Open |
Partially open |
Proprietary |
|
Model parameters |
Open |
Restricted access |
Proprietary |
|
Training data |
Open |
Not disclosed |
Proprietary |
Many widely used AI models, such as OpenAI's GPT-4 and Google's Gemini, fall into the partially transparent category, where some elements are open while others remain proprietary. By contrast, models like Meta's Llama and DeepSeek offer more openness but still withhold key aspects like training data.
Major players in AI transparency
Several organizations and projects are at the forefront of AI transparency, each offering different levels of openness.
Meta (Llama series)
Meta has made significant contributions to AI with its Llama (Large Language Model Meta AI) series. However, while Llama 2 was released with relatively permissive licensing and model weights, Meta has not made the training data open, which some argue means it does not fully meet the definition of open source AI.
DeepSeek AI
DeepSeek AI is a growing open source initiative that focuses on developing high-quality AI models. While its models and code are publicly available, it is unclear if DeepSeek's training datasets are fully open, placing it in the partially transparent category.
Hugging Face
A central hub for open source AI, Hugging Face provides a vast ecosystem for sharing, training, and fine-tuning AI models. Many of the models hosted on Hugging Face vary in openness, reinforcing the broader discussion around how different AI projects define transparency.
Mistral AI
Mistral AI develops competitive AI models that rival closed-source alternatives. However, similar to Llama, Mistral's models are open in terms of model weights and code but lack fully open training datasets, adding to the ongoing debate about what qualifies as a transparent AI model.
Why AI transparency matters
Instead of focusing on whether AI is strictly open or closed, organizations should assess how transparent an AI model is based on different criteria.
Here's why it matters:
Security and compliance: Organizations need to understand how AI models are built and trained to ensure security and regulatory compliance.
Innovation acceleration: More transparency fosters innovation by allowing developers to build upon existing models.
Regulatory and ethical concerns: Transparency helps mitigate concerns over bias, ethical misuse, and explanation.
Enterprise adoption: Businesses evaluating AI solutions need visibility into what components are open, partially open, or proprietary to make informed decisions.
The future of AI transparency
As AI continues to evolve, the conversation is shifting from a binary "open vs. closed" debate to one focused on transparency across different dimensions. Regulatory bodies and industry leaders are already discussing AI governance and responsible deployment, which will impact how organizations disclose AI components.
Whether companies choose fully open, partially open, or proprietary AI models, one thing is clear: the need for transparency in AI development and beyond will only continue to grow.
At Sonatype, we are closely monitoring these AI trends, particularly in relation to software supply chain security. To learn more about AI in software development, check out our insights.
Written by Aaron Linskens
Aaron is a technical writer on Sonatype's Marketing team. He works at a crossroads of technical writing, developer advocacy, software development, and open source. He aims to get developers and non-technical collaborators to work well together via experimentation, feedback, and iteration so they ...
Explore all posts by Aaron Linskens
Blogger: Lê Trung Nghĩa
letrungnghia.foss@gmail.com
Tác giả: Nghĩa Lê Trung
Ý kiến bạn đọc
Những tin mới hơn
Những tin cũ hơn
Blog này được chuyển đổi từ http://blog.yahoo.com/letrungnghia trên Yahoo Blog sang sử dụng NukeViet sau khi Yahoo Blog đóng cửa tại Việt Nam ngày 17/01/2013.Kể từ ngày 07/02/2013, thông tin trên Blog được cập nhật tiếp tục trở lại với sự hỗ trợ kỹ thuật và đặt chỗ hosting của nhóm phát triển...
Các bài trình chiếu trong năm 2024
Tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ cho giáo viên phổ thông, bao gồm cả giáo viên tiểu học và mầm non tới hết năm 2024
Các lớp tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ tới hết năm 2024
Các tài liệu dịch sang tiếng Việt tới hết năm 2024
‘Digcomp 2.2: Khung năng lực số cho công dân - với các ví dụ mới về kiến thức, kỹ năng và thái độ’, EC xuất bản năm 2022
Tổng hợp các bài của Nhóm các Nhà cấp vốn Nghiên cứu Mở (ORFG) đã được dịch sang tiếng Việt
Tổng hợp các bài của Liên minh S (cOAlition S) đã được dịch sang tiếng Việt
Năm Khoa học Mở & Chuyển đổi sang Khoa học Mở - Tổng hợp các bài liên quan
Hội nghị Đối tác Dữ liệu Mở châu Á năm 2021 do Việt Nam lần đầu tiên chủ trì
Các khung năng lực trong hành động
Phong trào Bình dân học vụ số: Mục tiêu, đối tượng, nội dung, nguồn lực, phương thức tổ chức thực hiện
Lễ công bố công khai Trung tâm Năng lực Kim cương châu Âu và dự án ALMASI
Khung năng lực AI cho giáo viên
Sư phạm Mở là gì (Trang của Đại học British Columbia, Canada)
Ngày Phần mềm Tự do, Ngày Phần cứng tự do, Ngày Tài liệu Tự do
‘Khung năng lực AI cho giáo viên’ - bản dịch sang tiếng Việt
Bạn cần biết những gì về các khung năng lực AI mới của UNESCO cho học sinh và giáo viên
Bàn về 'Lợi thế của doanh nghiệp Việt là dữ liệu Việt, bài toán Việt' - bài phát biểu của Bộ trưởng Nguyễn Mạnh Hùng ngày 21/08/2025
Các bài trình chiếu trong năm 2024
Triển khai Khuyến nghị Khoa học Mở của UNESCO, cập nhật 15/10/2024
Các tài liệu dịch sang tiếng Việt tới hết năm 2024
‘Tài liệu quan điểm của KR21 về Giữ lại Quyền Tác giả: Giữ lại các quyền trong kết quả đầu ra nghiên cứu để cho phép phổ biến mở kiến thức’ - bản dịch sang tiếng Việt
‘LƯU Ý KHÁI NIỆM: Hội nghị Tài nguyên Giáo dục Mở Thế giới lần 3 năm 2024 của UNESCO “Tài sản Công cộng Kỹ thuật số: Giải pháp Mở và AI vì Quyền truy cập Toàn diện tới Tri thức”’ - bản dịch sang tiếng Việt
Tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ cho giáo viên phổ thông, bao gồm cả giáo viên tiểu học và mầm non tới hết năm 2024
‘KHUYẾN NGHỊ VÀ HƯỚNG DẪN TRUY CẬP MỞ KIM CƯƠNG cho các cơ sở, nhà cấp vốn, nhà bảo trợ, nhà tài trợ, và nhà hoạch định chính sách’ - bản dịch sang tiếng Việt
DeepSeek đã gây ra sự hoảng loạn trên thị trường — nhưng một số người cho rằng việc bán tháo là quá mức
Dữ liệu để phân loại AI
“Chúng tôi không có hào nước”: Sự đổi mới đột phá của AI nguồn mở
Ứng dụng và phát triển Tài nguyên Giáo dục Mở (OER) tại Việt Nam
Nhà khoa học AI hàng đầu của Meta cho biết thành công của DeepSeek cho thấy 'các mô hình nguồn mở đang vượt trội hơn các mô hình độc quyền'