A data for AI taxonomy
Tue Oct 15, 2024
Theo: https://theodi.org/news-and-events/blog/a-data-for-ai-taxonomy/
Bài được đưa lên Internet ngày: 15/10/2024
Chúng tôi đã phát triển sự phân loại dữ liệu có liên quan đến việc phát triển, sử dụng và giám sát các mô hình và hệ thống AI nền tảng.
Các hệ thống trí tuệ nhân tạo (AI) hiện đại được đặc trưng bởi các mô hình phạm vi rộng và tính linh hoạt cao, có khả năng sản sinh ra các kết quả đầu ra phong phú.
Nhận biết cả tiềm năng và rủi ro của các mô hình mới đó, Viện Dữ liệu Mở - ODI (Open Data Institute) đã bắt tay vào một chương trình công việc về AI lấy dữ liệu làm trung tâm (Data-centric AI), được thiết kế để mang lại một hệ sinh thái AI dựa trên các thực hành dữ liệu có trách nhiệm.
Như một phần của công việc này, chúng tôi đã bắt đầu phát triển sự phân loại dữ liệu có liên quan đến việc phát triển, sử dụng và giám sát các mô hình và hệ thống AI nền tảng. Đây là phản hồi cho cách dữ liệu được sử dụng để đào tạo các mô hình thường được mô tả như là một khối tĩnh, đơn lẻ và để chứng minh nhiều loại dữ liệu cần thiết để xây dựng, sử dụng và giám sát các hệ thống AI một cách an toàn và hiệu quả.
Cũng như việc sử dụng nó trong công việc của riêng chúng tôi, chúng tôi hy vọng phân loại này sẽ được những người khác sử dụng - đặc biệt các nhà nghiên cứu và các nhà hoạch định chính sách. Chúng tôi nghĩ nó sẽ bổ sung thêm sắc thái trong các cuộc tranh luận về dữ liệu cho AI, bao gồm ở những nơi quyền truy cập công bằng tới dữ liệu là rất cần thiết trong tương lai, liệu các nhà phát triển có thực sự sắp "hết dữ liệu" hay không và tập dữ liệu AI nào rất quan trọng đối với hệ sinh thái AI và do đó đòi hỏi sự quản lý đặc biệt chu đáo.
Dù được thiết kế để phản ánh dữ liệu có liên quan trong các mô hình lớn, nền tảng, chúng tôi nghi ngờ rằng phần lớn phân loại này cũng có thể áp dụng cho các mô hình nhỏ hơn và hẹp hơn.
Tải về phân loại (bản dịch sang tiếng Việt)
We've developed a taxonomy of the data involved in developing, using and monitoring foundation AI models and systems.
Modern artificial intelligence (AI) systems are characterised by models of large scale and high flexibility, capable of producing rich outputs.
Recognising both the potential and the risks of these new models, the Open Data Institute has embarked on a programme of work on data-centric AI, designed to bring about an AI ecosystem grounded in responsible data practices.
As part of this work, we set out to develop a taxonomy of the data involved in developing, using and monitoring foundation AI models and systems. It is a response to the way that the data used to train models is often described as if a static, singular blob, and to demonstrate the many types of data needed to build, use and monitor AI systems safely and effectively.
As well as using it in our own work, we hope for this taxonomy to be used by others - especially researchers and policymakers. We think it will add nuance in ongoing debates in data for AI, including where equitable access to data is badly needed going forward, whether developers are really about to ‘run out of data’, and which AI datasets are critical to the AI ecosystem and therefore require particularly thoughtful stewardship.
Although designed to reflect the data involved in large, foundation models, we suspect much of the taxonomy will also apply to smaller, narrower models too.
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com
Tác giả: Nghĩa Lê Trung
Ý kiến bạn đọc
Những tin mới hơn
Những tin cũ hơn
Blog này được chuyển đổi từ http://blog.yahoo.com/letrungnghia trên Yahoo Blog sang sử dụng NukeViet sau khi Yahoo Blog đóng cửa tại Việt Nam ngày 17/01/2013.Kể từ ngày 07/02/2013, thông tin trên Blog được cập nhật tiếp tục trở lại với sự hỗ trợ kỹ thuật và đặt chỗ hosting của nhóm phát triển...
Các bài trình chiếu trong năm 2024
Tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ cho giáo viên phổ thông, bao gồm cả giáo viên tiểu học và mầm non tới hết năm 2024
Các lớp tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ tới hết năm 2024
Các tài liệu dịch sang tiếng Việt tới hết năm 2024
‘Digcomp 2.2: Khung năng lực số cho công dân - với các ví dụ mới về kiến thức, kỹ năng và thái độ’, EC xuất bản năm 2022
Tổng hợp các bài của Nhóm các Nhà cấp vốn Nghiên cứu Mở (ORFG) đã được dịch sang tiếng Việt
Tổng hợp các bài của Liên minh S (cOAlition S) đã được dịch sang tiếng Việt
Năm Khoa học Mở & Chuyển đổi sang Khoa học Mở - Tổng hợp các bài liên quan
Hội nghị Đối tác Dữ liệu Mở châu Á năm 2021 do Việt Nam lần đầu tiên chủ trì
Các khung năng lực trong hành động
Phong trào Bình dân học vụ số: Mục tiêu, đối tượng, nội dung, nguồn lực, phương thức tổ chức thực hiện
Lễ công bố công khai Trung tâm Năng lực Kim cương châu Âu và dự án ALMASI
Khung năng lực AI cho giáo viên
Ngày Phần mềm Tự do, Ngày Phần cứng tự do, Ngày Tài liệu Tự do
‘Khung năng lực AI cho giáo viên’ - bản dịch sang tiếng Việt
Bạn cần biết những gì về các khung năng lực AI mới của UNESCO cho học sinh và giáo viên
Bàn về 'Lợi thế của doanh nghiệp Việt là dữ liệu Việt, bài toán Việt' - bài phát biểu của Bộ trưởng Nguyễn Mạnh Hùng ngày 21/08/2025
Các tài liệu dịch sang tiếng Việt tới hết năm 2024
Các bài trình chiếu trong năm 2024
‘Tài liệu quan điểm của KR21 về Giữ lại Quyền Tác giả: Giữ lại các quyền trong kết quả đầu ra nghiên cứu để cho phép phổ biến mở kiến thức’ - bản dịch sang tiếng Việt
DeepSeek đã gây ra sự hoảng loạn trên thị trường — nhưng một số người cho rằng việc bán tháo là quá mức
‘KHUYẾN NGHỊ VÀ HƯỚNG DẪN TRUY CẬP MỞ KIM CƯƠNG cho các cơ sở, nhà cấp vốn, nhà bảo trợ, nhà tài trợ, và nhà hoạch định chính sách’ - bản dịch sang tiếng Việt
“Chúng tôi không có hào nước”: Sự đổi mới đột phá của AI nguồn mở
Tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ cho giáo viên phổ thông, bao gồm cả giáo viên tiểu học và mầm non tới hết năm 2024
Dữ liệu để phân loại AI
Ứng dụng và phát triển Tài nguyên Giáo dục Mở (OER) tại Việt Nam
Nhà khoa học AI hàng đầu của Meta cho biết thành công của DeepSeek cho thấy 'các mô hình nguồn mở đang vượt trội hơn các mô hình độc quyền'
Mark Zuckerberg: DeepSeek cho thấy vì sao nước Mỹ phải là ‘tiêu chuẩn nguồn mở toàn cầu’ của AI; không có lý do gì để suy nghĩ lại về việc chi tiêu
‘Tầm quan trọng của các kỹ năng tư duy phản biện và linh hoạt về năng lực AI của sinh viên TVET’ - bản dịch sang tiếng Việt
50 công cụ AI tốt nhất cho năm 2025 (Đã thử và kiểm nghiệm)