Dữ liệu để phân loại AI

Thứ tư - 19/02/2025 06:50
Dữ liệu để phân loại AI

A data for AI taxonomy

Tue Oct 15, 2024

Theo: https://theodi.org/news-and-events/blog/a-data-for-ai-taxonomy/

Bài được đưa lên Internet ngày: 15/10/2024

Chúng tôi đã phát triển sự phân loại dữ liệu có liên quan đến việc phát triển, sử dụng và giám sát các mô hình và hệ thống AI nền tảng.

Các hệ thống trí tuệ nhân tạo (AI) hiện đại được đặc trưng bởi các mô hình phạm vi rộng và tính linh hoạt cao, có khả năng sản sinh ra các kết quả đầu ra phong phú.

Nhận biết cả tiềm năng và rủi ro của các mô hình mới đó, Viện Dữ liệu Mở - ODI (Open Data Institute) đã bắt tay vào một chương trình công việc về AI lấy dữ liệu làm trung tâm (Data-centric AI), được thiết kế để mang lại một hệ sinh thái AI dựa trên các thực hành dữ liệu có trách nhiệm.

Như một phần của công việc này, chúng tôi đã bắt đầu phát triển sự phân loại dữ liệu có liên quan đến việc phát triển, sử dụng và giám sát các mô hình và hệ thống AI nền tảng. Đây là phản hồi cho cách dữ liệu được sử dụng để đào tạo các mô hình thường được mô tả như là một khối tĩnh, đơn lẻ và để chứng minh nhiều loại dữ liệu cần thiết để xây dựng, sử dụng và giám sát các hệ thống AI một cách an toàn và hiệu quả.

Cũng như việc sử dụng nó trong công việc của riêng chúng tôi, chúng tôi hy vọng phân loại này sẽ được những người khác sử dụng - đặc biệt các nhà nghiên cứu và các nhà hoạch định chính sách. Chúng tôi nghĩ nó sẽ bổ sung thêm sắc thái trong các cuộc tranh luận về dữ liệu cho AI, bao gồm ở những nơi quyền truy cập công bằng tới dữ liệu là rất cần thiết trong tương lai, liệu các nhà phát triển có thực sự sắp "hết dữ liệu" hay không và tập dữ liệu AI nào rất quan trọng đối với hệ sinh thái AI và do đó đòi hỏi sự quản lý đặc biệt chu đáo.

Dù được thiết kế để phản ánh dữ liệu có liên quan trong các mô hình lớn, nền tảng, chúng tôi nghi ngờ rằng phần lớn phân loại này cũng có thể áp dụng cho các mô hình nhỏ hơn và hẹp hơn.

Tải về phân loại (bản dịch sang tiếng Việt)

We've developed a taxonomy of the data involved in developing, using and monitoring foundation AI models and systems.

Modern artificial intelligence (AI) systems are characterised by models of large scale and high flexibility, capable of producing rich outputs.

Recognising both the potential and the risks of these new models, the Open Data Institute has embarked on a programme of work on data-centric AI, designed to bring about an AI ecosystem grounded in responsible data practices.

As part of this work, we set out to develop a taxonomy of the data involved in developing, using and monitoring foundation AI models and systems. It is a response to the way that the data used to train models is often described as if a static, singular blob, and to demonstrate the many types of data needed to build, use and monitor AI systems safely and effectively.

As well as using it in our own work, we hope for this taxonomy to be used by others - especially researchers and policymakers. We think it will add nuance in ongoing debates in data for AI, including where equitable access to data is badly needed going forward, whether developers are really about to ‘run out of data’, and which AI datasets are critical to the AI ecosystem and therefore require particularly thoughtful stewardship.

Although designed to reflect the data involved in large, foundation models, we suspect much of the taxonomy will also apply to smaller, narrower models too.

Download the taxonomy

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Tác giả: Nghĩa Lê Trung

Tổng số điểm của bài viết là: 0 trong 0 đánh giá

Click để đánh giá bài viết

  Ý kiến bạn đọc

Những tin mới hơn

Những tin cũ hơn

Về Blog này

Blog này được chuyển đổi từ http://blog.yahoo.com/letrungnghia trên Yahoo Blog sang sử dụng NukeViet sau khi Yahoo Blog đóng cửa tại Việt Nam ngày 17/01/2013.Kể từ ngày 07/02/2013, thông tin trên Blog được cập nhật tiếp tục trở lại với sự hỗ trợ kỹ thuật và đặt chỗ hosting của nhóm phát triển...

Bài đọc nhiều nhất trong năm
Thăm dò ý kiến

Bạn quan tâm gì nhất ở mã nguồn mở?

Thống kê truy cập
  • Đang truy cập233
  • Máy chủ tìm kiếm8
  • Khách viếng thăm225
  • Hôm nay3,240
  • Tháng hiện tại555,124
  • Tổng lượt truy cập39,043,118
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây