Can thiệp chính sách 4: Đảm bảo quyền truy cập rộng tới dữ liệu để đào tạo các mô hình AI

Thứ năm - 22/08/2024 06:05

Policy intervention 4: Ensuring broad access to data for training AI models

Thúc đẩy quyền truy cập tới dữ liệu công và tư để nuôi dưỡng hệ sinh thái đa dạng và cạnh tranh của phát triển AI.

Fri Jun 28, 2024

Theo: https://theodi.org/news-and-events/blog/policy-intervention-4-ensuring-broad-access-to-data-for-training-ai-models/

Bài được đưa lên Internet ngày: 28/06/2024

Thời đại của AI nền tảng được đặc trưng bởi các mô hình có quy mô lớn và tính linh hoạt cao, có khả năng tạo ra đầu ra phong phú. Nhận thức được cả tiềm năng và rủi ro của các mô hình mới này, ODI đã bắt tay vào một chương trình làm việc về AI lấy dữ liệu làm trung tâm, được thiết kế để tạo ra một hệ sinh thái AI dựa trên các hoạt động dữ liệu có trách nhiệm. Chúng tôi đang khám phá những can thiệp chính sách nào có thể được thực hiện để đảm bảo các công nghệ này được phát triển và triển khai theo cách có lợi cho tất cả mọi người - con người, các cộng đồng và các doanh nghiệp. Đây là bài thứ tư trong loạt năm bài khám phá các can thiệp này.

Dữ liệu dùng để đào tạo các mô tảng AI nền tảng đến từ đâu?

Dữ liệu là nền tảng của các hệ thống AI. Trong suốt vòng đời của AI, dữ liệu được thu thập, xử lý, giám tuyển, tổng hợp và sau đó được sử dụng trong các mô hình. Dữ liệu cũng rất cần thiết để thử nghiệm và đánh giá hiệu suất của mô hình, cũng như để nhập dữ liệu sau khi mô hình được sử dụng.

AI nền tảng được đào tạo bằng nhiều loại dữ liệu phong phú (ví dụ: bảng, hình ảnh, giọng nói) từ nhiều nguồn khác nhau (thu thập từ khắp web hoặc từ dịch vụ mà mọi người tương tác). Các nguồn dữ liệu cho AI rất đa dạng, đặc biệt là đối với các mô hình nền tảng yêu cầu khối lượng lớn. Các nguồn này có thể bao gồm dữ liệu được thu thập từ web, dữ liệu doanh nghiệp hoặc kết hợp cả hai và bao gồm khối lượng lớn dữ liệu văn bản và hình ảnh từ các trang web, bộ sưu tập sách, số liệu thống kê, bản đồ và hình ảnh. Chất lượng là điều cần thiết, vì các mô hình cũng tốt như các tập dữ liệu.

Ở đây, chúng tôi tập trung vào các mô hình nền tảng, nhưng phần lớn cuộc thảo luận này và hành động được chúng tôi đề xuất cũng sẽ áp dụng cho AI hẹp hơn, dự đoán hoặc phân tích. Bất kỳ tập dữ liệu quy mô AI lớn nào cũng phải được xây dựng theo cách tôn trọng quyền của mọi người. Chúng tôi giải quyết cách Chính phủ Anh sắp tới nên bảo vệ Quyền sở hữu trí tuệ, quyền bảo vệ dữ liệu và quyền lao động.

Vì sao quyền truy cập rộng tới dữ liệu lại quan trọng trong bối cảnh AI nền tảng?

Theo truyền thống, máy học dựa vào các tập dữ liệu được tạo thủ công, thường là kịp thời để tạo hoặc khi khó tìm nguồn. Khi quy mô và nhu cầu về dữ liệu tăng lên, đã có sự chuyển dịch sang thu thập lượng lớn dữ liệu từ web và dựa nhiều hơn vào những người làm việc trong cộng đồng để tinh chỉnh và nhắc. Đối với thời đại hiện tại của các mô hình nền tảng - các tập dữ liệu được thu thập từ web như CommonCrawl và LAION cùng với quyền truy cập vào dữ liệu nền tảng công khai từ Wikipedia, Reddit và StackOverflow đã đóng vai trò trung tâm. Quyền truy cập mở và rộng rãi vào dữ liệu có thể được sử dụng cho AI là điều quan trọng nhằm đảm bảo một hệ sinh thái đa dạng và cạnh tranh của các nhà phát triển AI. Andrew Ng nhấn mạnh rằng việc bảo vệ nguồn mở là rất quan trọng đối với hệ sinh thái AI để cho phép các công ty khởi nghiệp sáng tạo tham gia thị trường.

Tuy nhiên, đối với AI nền tảng, ngày càng có nhiều rào cản về quyền truy cập mở và rộng rãi tới dữ liệu công khai.

Việc truy cập vào các tập dữ liệu quy mô lớn đang ngày càng trở nên đắt đỏ, với chi phí dự kiến sẽ tăng vọt khi nhu cầu tiếp tục tăng. Một phần là do tính hữu ích của các tập dữ liệu liên quan nhiều hơn đến chất lượng, thay vì số lượng/quy mô và do đó phụ thuộc rất nhiều vào sự giám tuyển của con người. Một số nhà xuất bản web cũng bắt đầu hạn chế quyền truy cập tới dữ liệu, với gần 14% các trang web phổ biến nhất chặn bot của Common Crawl - thường là để bảo vệ sở hữu trí tuệ và có khả năng là để đạt được các thỏa thuận riêng tư sinh lợi trực tiếp với các công ty AI. Việc đóng dữ liệu này có lợi cho các tổ chức lớn vốn đã có kho dữ liệu, có đủ khả năng tài chính để ra tòa và có thể tham gia vào các thỏa thuận song phương để cấp phép dữ liệu. Các đối thủ cạnh tranh nhỏ và học giả không thể tiếp cận các chiến lược này. Do đó, làn sóng Mô hình Ngôn ngữ Lớn - LLM (Large Language Models) tiếp theo có nguy cơ được các công ty tư nhân xây dựng dựa trên các tập dữ liệu đóng. Ngoài ra, việc theo dõi hiệu suất của các mô hình nền tảng vẫn còn nhiều thách thức do thiếu dữ liệu và chuẩn mực có thể truy cập công khai.

Có những lo ngại đáng kể rằng kỷ nguyên của các tập dữ liệu truy cập mở có thể sắp kết thúc và chúng ta đang tiến gần đến cái gọi là 'mùa đông dữ liệu'. Nếu 'mùa đông dữ liệu' này đến và quyền truy cập mở vào dữ liệu suy giảm, Creative Commons đã bày tỏ lo ngại rằng có thể có 'một khoản lỗ ròng cho tài sản chung... hạn chế quá mức đối với việc thể hiện'. Ví dụ, dựa trên xu hướng hiện tại về quyền truy cập tới dữ liệu nền tảng truyền thông xã hội, việc đóng lại quyền truy cập công khai vào dữ liệu có thể buộc những người phát triển các mô hình AI phải cấp phép dữ liệu với chi phí cao trực tiếp từ những người nắm giữ dữ liệu hoặc mua dữ liệu từ các nhà môi giới dữ liệu đắt tiền.

Ngoài việc ảnh hưởng đến quá trình phát triển AI, việc đóng lại các tập dữ liệu mở trong lịch sử còn có tác động lan tỏa hơn nữa đến việc nghiên cứu các tài sản chung (Commons). Trong nhiều trường hợp, không có giải pháp thay thế nào cho một số tập dữ liệu này - chẳng hạn như CommonCrawl và Wikipedia - nghĩa là sẽ có thêm nhiều hạn chế hơn đối với nghiên cứu về việc sử dụng dữ liệu công khai lớn: giải quyết kiểm duyệt web, lịch sử nghiên cứu khoa học hoặc vận động chính trị và công chúng.

Các tổ chức nguồn mở đóng vai trò quan trọng trong việc hỗ trợ hệ sinh thái chống lại việc đóng lại dữ liệu. Ví dụ, Clement Delangue, CEO của Hugging Face, đã làm chứng trước Quốc hội Hoa Kỳ về nhu cầu "tính mở về mặt đạo đức" trong phát triển AI, điều này sẽ cho phép các nhà nghiên cứu ngoài một vài công ty công nghệ lớn tiếp cận công nghệ. Việc sử dụng lại dữ liệu là rất quan trọng để bảo tồn các tập dữ liệu được truy cập rộng rãi, vì "việc làm cho một tập dữ liệu sẵn sàng cho hoạt động nghiên cứu và phát triển hơn nữa có thể giúp cập nhật dữ liệu vì các nhà nghiên cứu/nhà phát triển khác có thể đóng góp dữ liệu mới".

Tình hình chính sách hiện tại ở Vương quốc Anh và những nơi khác

Vào tháng 9 năm 2023, Cơ quan Cạnh tranh và Thị trường của Vương quốc Anh đã công bố một bộ nguyên tắc cho các mô hình AI nền tảng, bao gồm cả việc nêu rõ sự cần thiết của 'quyền truy cập vào dữ liệu, tính toán, chuyên môn và vốn mà không có hạn chế không đáng có'.

Chính phủ Vương quốc Anh có thành tích trong việc đầu tư vào cơ sở hạ tầng dữ liệu cho phép sử dụng và chia sẻ rộng rãi dữ liệu, bao gồm cả dữ liệu mà chính phủ nắm giữ. Ví dụ, Dịch vụ dữ liệu Vương quốc Anh là cơ sở hạ tầng nghiên cứu quốc gia cung cấp quyền truy cập và đào tạo đáng tin cậy để sử dụng bộ sưu tập lớn dữ liệu nghiên cứu kinh tế, dân số và xã hội - được tài trợ bởi Hội đồng nghiên cứu kinh tế và xã hội. Có một số khoản đầu tư khác vào việc xây dựng cơ sở hạ tầng dữ liệu do (Nghiên cứu và Đổi mới của Vương quốc Anh) UKRI và các hội đồng nghiên cứu khác của Vương quốc Anh thực hiện, cùng với Smart Data Research UK (Nghiên cứu Dữ liệu Thông minh UK).

Trong lĩnh vực y tế, Health Data Research UK thúc đẩy một số sáng kiến nhằm tăng cường chia sẻ và sử dụng dữ liệu. Ví dụ, INSIGHT được HDR UK hỗ trợ và hiện là cơ sở dữ liệu nhãn khoa lớn nhất thế giới với hơn 25 triệu hình ảnh võng mạc và đang thúc đẩy đổi mới bằng cách sử dụng AI để chẩn đoán bệnh thoái hóa. Trong một không gian tương tự, chín AI Hubs for Real Data do EPSRC tài trợ chứng minh tầm quan trọng của nguồn tài trợ công đối với cơ sở hạ tầng AI lấy dữ liệu làm trung tâm.

Ra mắt vào tháng 6 năm 2024, Tuyên ngôn của Đảng Lao động bao gồm đề xuất về Thư viện dữ liệu quốc gia để tập trung các chương trình nghiên cứu hiện có và hỗ trợ phát triển lĩnh vực trí tuệ nhân tạo. Đề xuất này dựa trên tình trạng năng suất thấp của Vương quốc Anh – Anh có kho dữ liệu lớn thứ ba, nhưng tốc độ tăng trưởng chỉ bằng gần một nửa so với Đức và Pháp.

Một số sáng kiến đã được các công ty và cộng đồng nhà phát triển AI khởi xướng để xây dựng các tập dữ liệu mới, sẵn sàng cho AI. Vào tháng 3 năm 2024, các nhà nghiên cứu đã ra mắt Common Corpus, tuyên bố đây là 'tập dữ liệu AI lớn nhất hiện có dành cho LLM chỉ bao gồm nội dung thuộc phạm vi công cộng'. Common Voice là một tập dữ liệu giọng nói có sẵn công khai do hàng nghìn người đóng góp tình nguyện xây dựng với niềm tin rằng "các bộ dữ liệu giọng nói lớn, có sẵn công khai sẽ thúc đẩy sự đổi mới và cạnh tranh thương mại lành mạnh trong công nghệ giọng nói dựa trên máy học". Quỹ Lacuna đã hỗ trợ xây dựng các tập dữ liệu cho nông nghiệp và xử lý ngôn ngữ tự nhiên, và gần đây đã công bố một làn sóng dự án mới liên quan đến biến đổi khí hậu. Nhóm Công tác về Tập dữ liệu MLCommons tạo và lưu trữ các tập dữ liệu công khai "lớn, được duy trì tích cực và được cấp phép dễ dãi - đặc biệt là cho sử dụng thương mại".

Hugging Face hiện lưu trữ hơn 80.000 tập dữ liệu và bao gồm quyền truy cập hạn chế vào 'Tập dữ liệu có cổng'. Nó đã được mô tả cùng với Kaggle và OpenML như một ví dụ về làn sóng mới của 'trung tâm dữ liệu cộng đồng' và 'cơ sở hạ tầng tải dữ liệu được chuẩn hóa' đang được xây dựng để phục vụ ngành công nghiệp AI. Các cơ chế như dữ liệu tổng hợp – dữ liệu được tạo tự động, sử dụng AI và các công cụ khác – cũng có thể được sử dụng khi dữ liệu gốc không mang tính đại diện và cần được cân bằng lại, hoặc khi dữ liệu nhạy cảm và không thể chia sẻ, hoặc khi việc thu thập dữ liệu quá tốn kém.

Viện AI Now và các nhóm nghiên cứu châu Âu khác đã công bố một bức thư ngỏ gửi Ủy ban châu Âu, lập luận rằng "các công ty có quyền truy cập vào các tập dữ liệu độc quyền và được giám tuyển sẽ có lợi thế cạnh tranh", gây ra sự tập trung và hạn chế cạnh tranh trên thị trường AI.

Những người khác đã đề xuất những cách mới để mở ra quyền truy cập vào dữ liệu do các công ty tư nhân nắm giữ. Saffron Huang và Divya Siddarth gợi ý rằng "các công ty [AI] có thể tạo ra, như một chuẩn mực hoặc quy tắc, các tập dữ liệu tiêu chuẩn vàng mà các thực thể khác có thể sử dụng". Viện Ada Lovelace đã thảo luận về tiềm năng "yêu cầu quyền truy cập nghiên cứu vào các kho dữ liệu của các công ty công nghệ lớn (Big Tech), để khuyến khích một hệ sinh thái phát triển AI đa dạng hơn". OpenFuture đã phát triển một bản thiết kế cho Public Data Commons (Tài sản Dữ liệu Công cộng), sẽ hoạt động như những trung gian đáng tin cậy để làm cho dữ liệu của khu vực tư nhân sẵn sàng để chia sẻ vì lợi ích công cộng và cho phép tạo ra giá trị công cộng. Một số sáng kiến dữ liệu mở trong lĩnh vực khoa học chứng minh tác động của các kho lưu trữ mở tuân theo các nguyên tắc FAIR với danh mục dữ liệu có cấu trúc và các định dạng dữ liệu được tiêu chuẩn hóa.

Ngoài ra còn có những đề xuất mới xung quanh vai trò của chính phủ với tư cách là nhà cung cấp dữ liệu cho AI. Stability AI đã lập luận rằng các quốc gia cần có trình tạo hình ảnh quốc gia riêng mình, trình tạo này phản ánh các giá trị quốc gia, với các tập dữ liệu do chính phủ và các tổ chức công cung cấp. Viện Bennett đã đề xuất một 'quỹ dữ liệu quốc gia', trong đó 'dữ liệu từ các nguồn quốc gia, chẳng hạn như BBC và Thư viện Anh, sẽ được giao phó. Viện Tony Blair cũng đã và đang nói về các quỹ dữ liệu, như một hình thức tổ chức mới để tăng cường quyền truy cập tới dữ liệu của NHS cho mục đích nghiên cứu và đổi mới.

Các bước cần thực hiện

Để bảo vệ quyền truy cập rộng rãi vào dữ liệu cho nghiên cứu và đổi mới AI, chúng tôi khuyến nghị Chính phủ mới của Anh:

Hỗ trợ việc tạo lập và cải thiện các tập dữ liệu quy mô AI. Như đã nêu trong tuyên ngôn chính sách của mình, chúng tôi ủng hộ việc cải thiện cơ sở hạ tầng dữ liệu cho AI và chuẩn bị dữ liệu sẵn sàng cho AI. Điều này bao gồm các hành động của chính phủ nhằm tạo lập và quản lý các tập dữ liệu chất lượng cao, đảm bảo rằng các tập dữ liệu này có thể truy cập được, đáng tin cậy và có thể sử dụng được, đồng thời được công bố theo các tiêu chuẩn cao và đã được thống nhất. Chính phủ Anh nên hỗ trợ và bảo vệ cơ sở hạ tầng dữ liệu để đảm bảo tính bền vững về mặt tài chính, với việc cấp vốn được ưu tiên cho các tổ chức và cộng đồng tạo lập và đánh giá các tập dữ liệu được giám tuyển tốt trong khi tìm hiểu các cách thức để ngăn chặn việc các tập dữ liệu mở trước đây bị hạn chế. Ngoài ra, chúng tôi kêu gọi cơ sở hạ tầng mạnh mẽ để cho phép các hệ thống AI sử dụng dữ liệu một cách có trách nhiệm, bao gồm các cơ chế đảm bảo và đánh giá chất lượng.
Khám phá các cách tiếp cận mới để mở rộng quyền truy cập vào dữ liệu của khu vực công. Khối lượng lớn dữ liệu mở, được chia sẻ và đóng của Vương quốc Anh cần được tận dụng tốt hơn, sử dụng các nguyên tắc Tìm thấy được, Truy cập được, Tương hợp được, Sử dụng lại được - FAIR (Findability, Accessibility, Interoperability, and Reusability) để định hình quyền truy cập rộng rãi vào dữ liệu có giá trị cao. Các tổ chức dữ liệu để quản lý dữ liệu công này một cách có trách nhiệm cũng cần được hỗ trợ bền vững thông qua việc cấp vốn và cơ sở hạ tầng.
Mở ra quyền truy cập vào dữ liệu của khu vực tư nhân. Chính phủ Vương quốc Anh nên khám phá các phương pháp tiếp cận liên ngành để mở ra quyền truy cập vào dữ liệu của khu vực tư nhân cho AI - xây dựng dựa trên tiến trình của các sáng kiến như dữ liệu SMART để tận dụng tiềm năng của các ngành công nghệ Vương quốc Anh. Chính phủ cũng nên hỗ trợ nghiên cứu về các phương pháp tiếp cận pháp lý kỹ thuật, chẳng hạn như xem xét lại việc cấp phép như một phần cốt lõi của chương trình nghị sự nghiên cứu AI nền tảng. Những tiến bộ hơn nữa trong dữ liệu tổng hợp, nếu được sử dụng một cách có trách nhiệm, có thể lấp đầy những khoảng trống mà dữ liệu thường không thể truy cập được.

Tại ODI, chúng tôi mong muốn cung cấp thông tin chi tiết và nguồn lực cho các nhà hoạch định chính sách đang nỗ lực tạo ra một chế độ sở hữu trí tuệ công bằng để ứng phó với AI nền tảng. Chúng tôi sẽ sớm công bố đề xuất can thiệp cuối cùng tập trung vào việc trao quyền cho cá nhân trong dữ liệu và AI.

Promote access to public and private data to cultivate a diverse and competitive ecosystem of AI development.

The age of foundation AI is characterised by models of large scale and high flexibility, capable of producing rich outputs. Recognising both the potential and the risks of these new models, the ODI has embarked on a programme of work on data-centric AI, designed to bring about an AI ecosystem grounded in responsible data practices. We’re exploring what policy interventions could be made to ensure these technologies are developed and deployed in ways that benefit everyone – people, communities and businesses. This is the fourth in a series of five pieces exploring these interventions.

Where does the data used to train foundation AI models come from?

Data is the foundation of AI systems. Across the AI lifecycle, data is collected, processed, curated, aggregated, and subsequently used in the models. Data is also essential for testing and benchmarking a model's performance, as well as for input once a model is in use.

Foundation AI is trained using a rich variety of types of data (eg tabular, images, voice) from varying sources (scraped from across the web, or from the service people interact with). The sources of data for AI are diverse, particularly for foundation models that require vast amounts. These sources can include data collected from the web, enterprise data, or a combination of both, and include vast amounts of text and image data from websites, collections of books, statistics, maps and images. Quality is essential, as models are as good as the datasets.

We're focusing here on foundation models, but much of this discussion and our recommended course of action will also apply to narrower, predictive or analytical AI. Any large AI scale datasets must be constructed in ways that respect people's rights. We address how the incoming UK Government should protect Intellectual Property and data protection and labour rights.

Why is broad access to data important in the context of foundation AI?

Traditionally, machine learning relied on manually crafted datasets, which are often timely to create or challenging to source. As the scale and demand for data have grown, there has been a shift toward collecting vast amounts of data from the web and relying more on crowdworkers for fine-tuning and prompting. To the current age of foundation models – web-scraped datasets such as CommonCrawl and LAION alongside access to public platform data from Wikipedia, Reddit and StackOverflow have been central. Open and broad access to data that can be used to AI is important to ensure a diverse, competitive ecosystem of AI developers. Andrew Ng emphasised that protecting open source is vital for the AI ecosystem to allow innovative startups to enter the market.

However, in the face of foundation AI, there are a growing number of barriers to broad and open access to public data.

Access to large-scale datasets are becoming increasingly expensive, with costs expected to explode as demand continues to increase. This is partly because the usefulness of datasets is more to do with quality, rather than size and hence heavily reliant on expert human-curation. Some web publishers are also starting to restrict access to data, with nearly 14% of the most popular websites blocking Common Crawl’s bot – often to protect intellectual property, and potentially in order to strike lucrative private deals directly with AI companies. This closing of data favours large organisations who already have stockpiles of data, have the financial means to go to court and can enter into bilateral agreements to licence data. These strategies are inaccessible to small competitors and academics. As such, the next wave of LLMs risks being built by private companies on closed datasets. Also, monitoring the performance of foundation models remains challenging due to the shortage of publicly accessible data and benchmarks.

There are significant concerns that the era of open-access datasets might be ending and we are approaching a so-called ‘data winter’.If this ‘data winter’ comes, and open access to data declineS, Creative Commons has expressed concern that there could be ‘a net loss for the commons... overly limiting to expression’. For instance, based on current trends in access to social media platform data, closing down public access to data could force those developing AI models to licence data at a high cost directly from data holders or purchase it from expensive data brokers.

As well as affecting AI development, the closing of historically open datasets has further knock-on effects to researching the commons. In many cases, there is no alternative for some of these datasets – such as CommonCrawl and Wikipedia – meaning further limits on research on uses of large public data: tackling web censorship, history of science research or public and political advocacy.

Open source organisations are vital in supporting the ecosystem to resist the closing of data. For example, Clement Delangue, CEO of Hugging Face, testified before US Congress on the need for ‘ethical openness’ in AI development which would allow researchers beyond a few large tech companies to access the technology. Reuse of data is vital to preserving broadly-accessed datasets, as ‘making a data set available for further research and development activity may help keep it up to date as other researchers/developers are likely to contribute with new data’.

Current policy status in the UK and elsewhere

In September 2023, the UK’s Competition & Markets Authority published a set of principles for foundation AI models, including calling out a necessity for 'access to data, compute, expertise and capital without undue restriction'.

The UK Government has a track record in investing in data infrastructure that enables wide use and sharing of data, including that it holds itself. The UK Data Service, for example, is a national research infrastructure that provides trusted access and training to use a large collection of economic, population and social research data – funded by the Economic and Social Research Council. There are a number of other investments in building data infrastructure made by UKRI and the other UK research councils, alongside Smart Data Research UK.

In the health sector, Health Data Research UK drives a number of initiatives to increase the sharing and use of data. INSIGHT, for example, was supported by HDR UK, and is now the world’s largest ophthalmic database of more than 25m retinal images, and is driving innovation using AI to diagnose degenerative disease. In a similar space, the nine EPSRC-funded AI Hubs for Real Data demonstrate the importance of public funding to data-centric AI infrastructure.

Launched in June 2024, the Labour Party’s Manifesto included a proposal for a National Data Library to centralise existing research programmes and support the development of the artificial intelligence sector. It is based on UK under-productivity – Britain has the third largest data pool, but it is growing at nearly half the speed of Germany and France.

The European Commission EC) has long driven access to public data through its Public Sector Information Directive (now called the Open Data Directive). It has also led on identifying high-value datasets that governments should focus on enabling access to, and maintains an official portal for European data. The EC has also created a rich ecosystem of initiatives to stimulate the sharing of private sector data, for example the Common European Data Spaces, Data Spaces Support Centre and the European Data Innovation Board. The EC is currently consulting on competition and generative AI, which includes an interest in the availability of data. The EU’s proposed Artificial Intelligence Act (AIA) is slated to bring more clarity to the use of text data for AI, while the Digital Services Act (DSA) would bring researchers increased access to social media data.

In the US, the FTC has expressed concern that ‘companies’ control over data may create barriers to entry or expansion that prevent fair competition from fully flourishing'. The US Department of Commerce has launched a new AI and Open Government Data Assets Working Group, which will modernise public data to be AI-ready. The French AI commission has recommended the creation of an International Fund for Public Interest AI with an annual budget of €500m to finance open and public interest AI. Presumably this would include provisions for making data available.

Proposals from civil society, industry and other non-government actors

A number of initiatives have been started by AI firms and developer communities to build new, AI-ready datasets.In March 2024, researchers launched Common Corpus, claiming it to be 'the largest available AI dataset for LLMs composed purely of public domain content'. Common Voice is a publicly available voice dataset built by thousands of volunteer contributors on the belief that “that large, publicly available voice datasets will foster innovation and healthy commercial competition in machine-learning based speech technology”. The Lacuna Fund has already supported the construction of datasets for agriculture and natural language processing, and has recently announced a new wave of projects related to climate change. The MLCommons Datasets Working Group creates and hosts public datasets that are “large, actively maintained, and permissively licensed - especially for commercial use”.

Hugging Face now hosts over 80,000 datasets and includes restricted access to ‘Gated Datasets’. It has been described alongside Kaggle and OpenML as an example of the new wave of ‘community data hubs’ and ‘standardised data loading infrastructure’ being built to serve the AI industry. Mechanisms such as synthetic data – data created automatically, using AI and other tools– can also be used when the original data is not representative and needs to be rebalanced, or when it's sensitive and can't be shared, or when it's too costly to collect.

The AI Now Institute and other European think tanks have published an open letter to the European Commission, arguing that 'firms with access to proprietary and curated datasets enjoy a competitive edge', causing concentration and limiting competition in the AI market.

Others have proposed new ways to open up access to data held by private firms. Saffron Huang and Divya Siddarth suggest that '[AI] companies could create, as a norm or a rule, gold standard datasets usable by other entities'. The Ada Lovelace Institute has discussed the potential to 'mandate research access to Big Tech data stores, to encourage a more diverse AI development ecosystem'. OpenFuture has developed a blueprint for Public Data Commons, which would act as trusted intermediaries to make private sector data available for public interest sharing and enable public value to be generated. Several open data initiatives in the scientific field demonstrate the impact of open repositories which follow FAIR principles with structured catalogues of data and standardised data formats.

There are also new proposals around governments’ role as a provider of data for AI. Stability AI has argued for nation states to have its own national image generator, one that reflects national values, with datasets provided by the government and public institutions. The Bennett Institute has proposed a ‘national data trust’ where 'data from national sources, such as the BBC and the British Library, would be entrusted. The Tony Blair Institute has been talking about data trusts too, as a form of new institution to increase access to NHS data for research and innovation.

Steps to take

In order to protect the broad access to data for AI research and innovation, we recommend that the incoming UK Government:

Support the creation and improvement of AI-scale datasets. As outlined in our policy manifesto, we advocate for improved data infrastructure for AI and the preparation of AI-ready data. This includes government actions to create and regulate high-quality datasets, ensuring that these datasets are accessible, reliable, and usable, and published according to high and agreed-upon standards. The UK government should support and protect data infrastructure to ensure financial sustainability, with funding prioritised for organisations and communities that create and evaluate well-curated datasets while exploring ways to prevent previously open datasets from becoming restricted. Additionally, we call for robust infrastructure to enable AI systems to use data responsibly, including mechanisms for assurance and quality assessment.
Explore new approaches to opening up access to public sector data. The UK’s vast body of open, shared and closed data needs to be better capitalised on, using FAIR (findability, accessibility, interoperability, and reusability) principles to shape broad access to high-value data. Data institutions to responsibly steward this public data should also be sustainably supported through funding and infrastructure.
Open up access to private sector data. The UK government should explore cross-sector approaches to opening up access to private sector data for AI – building on the progress of initiatives such as SMART data to capitalise on the UK tech sectors potential. The government should also be supporting research into techno-legal approaches, such as revisiting licensing as a core part of the foundation AI research agenda. Further advancements in synthetic data, if used responsibly, can fill gaps where data cannot typically be accessed.

At the ODI, we’re keen to provide insights and resources to policymakers working towards creating a fair intellectual property regime in response to foundation AI. We will publish our final proposed intervention focused on empowering individuals in data and AI shortly.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Tác giả: Nghĩa Lê Trung