Là bản dịch sang tiếng Việt tài liệu tóm tắt của Ben Snaith - Nghiên cứu viên cao cấp, Viện Dữ liệu Mở, xuất bản ngày 21/12/2023.
“Giới thiệu
“Không có dữ liệu, không có AI” đã trở thành câu thần chú đối với Viện Dữ liệu Mở - ODI (Open Data Institute), được nêu bật trong quá trình chuẩn bị cho sự kiện Hội nghị thượng đỉnh ODI vào tháng 11 năm 2023. Tuy nhiên, đây là khái niệm được lưu thông từ lâu trong lãnh địa trí tuệ nhân tạo - AI (Artificial Intelligence). Đối với chúng tôi, nó tham chiếu tới cơ sở hạ tầng dữ liệu của AI - bao gồm các tập dữ liệu, các công cụ, tiêu chuẩn, thực hành, và cộng đồng. Đây là lời kêu gọi nhìn vào dữ liệu và nền tảng xã hội - kỹ thuật khác của AI để hiểu tốt hơn thiết kế, kết quả và ý nghĩa của chúng.
Tài liệu tóm tắt này được thiết kế để mở ra cụm từ này và câu trả lời cho câu hỏi có liên quan về làm thế nào và vì sao nhóm nghiên cứu của ODI sẽ nghiên cứu AI lấy dữ liệu làm trung tâm (Data-centric AI) trong một chương trình công việc mới.
Dữ liệu và vòng đời AI
Nếu chúng ta nhìn vào vòng đời AI - ngay cả trong sơ đồ trừu tượng dưới đây - nhiều phần tập trung vào dữ liệu! Dữ liệu là nền tảng cho các mô hình AI. Dữ liệu cung cấp thông tin mà một mô hình máy học được đào tạo và học từ đó. Dữ liệu được thu thập, xử lý, giám tuyển, tổng hợp và sau đó được sử dụng trong mô hình. Dữ liệu được sử dụng để kiểm thử và kiểm chuẩn sự thành công của mô hình. Và dữ liệu được nhập vào để sử dụng sau khi mô hình đi vào hoạt động.
Việc xây dựng một hệ thống AI thường liên quan đến việc xác định nguồn cho lượng lớn dữ liệu và việc tạo lập các tập dữ liệu cho đào tạo, kiểm thử, thẩm định, và triển khai. Quá trình này là lặp đi lặp lại theo đó nó có thể đòi hỏi vài vòng đào tạo, kiểm thử và đánh giá cho tới khi kết quả mong muốn đạt được và dữ liệu đóng vai trò quan trọng trong từng bước.

Hình 1. Vòng đời trí tuệ nhân tạo: Từ khái niệm hóa tới sản xuất – ScienceDirect”
Tự do tải về bản dịch sang tiếng Việt của tài liệu có 11 trang tại địa chỉ: https://www.dropbox.com/scl/fi/4un643ygfuksd28fm2v1c/20231221_-_Data-centric_AI_Short_Paper_-_What_do_we_mean_by_without_data_there_3AEHdDW_Vi-08082024.pdf?rlkey=bgkh73tdcn26d3cak5sw8pcbl&st=4v3edaqe&dl=0
Xem thêm:
Blogger: Lê Trung Nghĩa
letrungnghia.foss@gmail.com
Tác giả: Nghĩa Lê Trung
Ý kiến bạn đọc
Những tin mới hơn
Những tin cũ hơn
Blog này được chuyển đổi từ http://blog.yahoo.com/letrungnghia trên Yahoo Blog sang sử dụng NukeViet sau khi Yahoo Blog đóng cửa tại Việt Nam ngày 17/01/2013.Kể từ ngày 07/02/2013, thông tin trên Blog được cập nhật tiếp tục trở lại với sự hỗ trợ kỹ thuật và đặt chỗ hosting của nhóm phát triển...
DigComp 3.0: Khung năng lực số châu Âu
Các bài toàn văn trong năm 2025
Các bài trình chiếu trong năm 2025
Các lớp tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ tới hết năm 2025
Tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ cho giáo viên phổ thông, bao gồm cả giáo viên tiểu học và mầm non tới hết năm 2025
Các tài liệu dịch sang tiếng Việt tới hết năm 2025
Loạt bài về AI và AI Nguồn Mở: Công cụ AI; Dự án AI Nguồn Mở; LLM Nguồn Mở; Kỹ thuật lời nhắc;
Tổng hợp các bài của Nhóm các Nhà cấp vốn Nghiên cứu Mở (ORFG) đã được dịch sang tiếng Việt
Tổng hợp các bài của Liên minh S (cOAlition S) đã được dịch sang tiếng Việt
Năm Khoa học Mở & Chuyển đổi sang Khoa học Mở - Tổng hợp các bài liên quan
Bạn cần biết những gì về các khung năng lực AI mới của UNESCO cho học sinh và giáo viên
Bàn về 'Lợi thế của doanh nghiệp Việt là dữ liệu Việt, bài toán Việt' - bài phát biểu của Bộ trưởng Nguyễn Mạnh Hùng ngày 21/08/2025
Khung năng lực AI cho giáo viên
‘Khung năng lực AI cho giáo viên’ - bản dịch sang tiếng Việt
‘KHUYẾN NGHỊ VÀ HƯỚNG DẪN TRUY CẬP MỞ KIM CƯƠNG cho các cơ sở, nhà cấp vốn, nhà bảo trợ, nhà tài trợ, và nhà hoạch định chính sách’ - bản dịch sang tiếng Việt
Mark Zuckerberg: DeepSeek cho thấy vì sao nước Mỹ phải là ‘tiêu chuẩn nguồn mở toàn cầu’ của AI; không có lý do gì để suy nghĩ lại về việc chi tiêu
DeepSeek đã gây ra sự hoảng loạn trên thị trường — nhưng một số người cho rằng việc bán tháo là quá mức
50 công cụ AI tốt nhất cho năm 2025 (Đã thử và kiểm nghiệm)
Nhà khoa học AI hàng đầu của Meta cho biết thành công của DeepSeek cho thấy 'các mô hình nguồn mở đang vượt trội hơn các mô hình độc quyền'
“Chúng tôi không có hào nước”: Sự đổi mới đột phá của AI nguồn mở
‘Đặc tả Khung Tính mở Mô hình (MOF)’ của LF AI & Data - Tài sản chung của AI Tạo sinh - bản dịch sang tiếng Việt
‘LỘ TRÌNH CỦA TỔNG THƯ KÝ LIÊN HIỆP QUỐC VỀ HỢP TÁC KỸ THUẬT SỐ THÚC ĐẨY HÀNG HÓA CÔNG CỘNG KỸ THUẬT SỐ’ - bản dịch sang tiếng Việt
AI trong TVET - Một vài gợi ý triển khai trong thực tế
Dữ liệu để phân loại AI
Tài sản chung kỹ thuật số và Hàng hóa Công cộng Kỹ thuật số - Tìm thấy nền tảng chung cho các nhà hoạch định chính sách
Khung năng lực AI cho học sinh
Nếu DeepSeek muốn trở thành một người phá vỡ thực sự, nó phải tiến xa hơn nữa về tính minh bạch của dữ liệu
Mark Zuckerberg nói Meta có kế hoạch chi hơn 60 tỷ USD khi Thung lũng silicon hoảng loạn về sự cạnh tranh của AI Trung Quốc
Tọa đàm ‘Vai trò của Tài nguyên Giáo dục Mở trong chuyển đổi số giáo dục đại học’ tại Viện Chuyển đổi số và Học liệu - Đại học Huế, ngày 12/09/2025
‘Xây dựng cách tiếp cận minh bạch dữ liệu AI lấy người dùng làm trung tâm’ - bản dịch sang tiếng Việt