Can thiệp chính sách 1: Tăng cường minh bạch xung quanh dữ liệu được sử dụng để đào tạo các mô hình AI

Thứ hai - 19/08/2024 06:03

Policy intervention 1: Increase transparency around the data used to train AI models

Cho dù các công ty có vào cuộc hay chính phủ can thiệp, chúng ta phải đảm bảo dữ liệu được sử dụng để đào tạo hệ thống AI không bị giữ bí mật.

Tue Jun 11, 2024

Theo: https://theodi.org/news-and-events/blog/policy-intervention-1-increase-transparency-around-the-data-used-to-train-ai-models/

Bài được đưa lên Internet ngày: 11/07/2024

Trong 18 tháng qua, Vương quốc Anh – cùng với nhiều quốc gia khác – đã phải vật lộn để hiểu được luật pháp và quy định nào là cần thiết để quản lý AI tạo sinh (Generative AI) và các công nghệ phát triển nhanh chóng khác. Thời đại của AI nền tảng được đặc trưng bởi các mô hình có quy mô lớn và tính linh hoạt cao, hỗ trợ các hệ thống có khả năng tương tác phức tạp và tạo ra đầu ra phong phú. Cũng có những rủi ro, như đã được phản ánh trong Hội nghị thượng đỉnh về an toàn AI do Vương quốc Anh tổ chức tại Bletchley Park và việc thành lập Viện an toàn AI. Nhận thức được cả tiềm năng và rủi ro, ODI đã bắt tay vào chương trình làm việc về AI lấy dữ liệu làm trung tâm (Data-centric AI ), được thiết kế để tạo ra một hệ sinh thái AI dựa trên các hoạt động dữ liệu có trách nhiệm.

Các chính phủ có vai trò đáng kể ở đây, từ việc giới thiệu các luật mới cho tới quản trị sử dụng dữ liệu để đào tạo AI, cho tới việc khuyến khích đầu tư và đổi mới trong đảm bảo và chia sẻ dữ liệu, tới sử dụng dữ liệu và bản thân AI - theo một cách thức minh bạch - để cung cấp các dịch vụ công. Như một phần công việc của chúng tôi, chúng tôi đã khám phá những can thiệp chính sách nào cần phải được làm để đảm bảo rằng các công nghệ mới đó được phát triển và triển khai theo cách làm lợi cho tất cả mọi người - con người, các cộng đồng và các doanh nghiệp.

Đây là bài đầu tiên trong loạt 5 bài khám phá các can thiệp chính sách đó, và cách chúng có thể giúp định hình tích cực bối cảnh này.

Minh bạch cho việc đào tạo dữ liệu là gì?

Dữ liệu đào tạo là dữ liệu được sử dụng để đào tạo một mô hình trí tuệ nhân tạo - AI (Artificial Intelligence). Theo các đánh giá của Chỉ số Minh bạch Mô hình của Quỹ Stanford (Stanford Foundation Model Transparency Index), minh bạch cho dữ liệu đào tạo liên quan đến việc mở ra những điều như sau:

Kích cỡ tập dữ liệu
Nguồn dữ liệu
Ai đã tạo ra dữ liệu đó
Dữ liệu đó đã được tạo ra như thế nào
Tập dữ liệu đã được tăng cường thế nào - và vì mục đích gì
Tập dữ liệu đã được lọc như thế nào (ví dụ, cho nội dung có hại)
Tập dữ liệu đó có bao gồm dữ liệu có bản quyền hay không
Dữ liệu đó có thể được sử dụng theo giấy phép nào
Bất kỳ thông tin cá nhân nào có trong dữ liệu đó

Ở đây, chúng ta chủ yếu nói về dữ liệu đào tạo, dữ liệu tinh chỉnh và dữ liệu ưu tiên, cũng như các chế tác dữ liệu khác – chúng ta sẽ tập trung vào tính sẵn sàng của dữ liệu đào tạo theo nguyên tắc chính sách sau.

Vì sao minh bạch dữ liệu đào tạo là quan trọng?

Hầu hết các hãng AI hàng đầu đã từ chối mở ra các chi tiết về dữ liệu họ đã sử dụng để đào tạo và kiểm thử các mô hình AI. Chỉ số Minh bạch Mô hình của Quỹ Stanford (Stanford Foundation Model Transparency index) đánh giá các mô hình nền tảng chủ chốt cung cấp xương sống của nhiều công cụ và dịch vụ AI, đã chứng minh rằng minh bạch liên quan đến dữ liệu được sử dụng là rất thấp so với các khía cạnh minh bạch khác. Trong tài liệu được xuất bản khi khởi xướng mô hình GPT-4 của nó, OpenAI đã nêu rằng nó sẽ không chia sẻ thông tin chi tiết về ‘việc xây dựng tập dữ liệu’ và các khía cạnh khác của sự phát triển mô hình đó vì ‘bối cảnh cạnh tranh và ý nghĩa an toàn của các mô hình phạm vi rộng’ - một quyết định đã bị chỉ trích dữ dội bởi một số nhà nghiên cứu hàng đầu.

Dữ liệu nào được sử dụng để xây dựng các hệ thống AI là quan trọng; nhưng mức độ hiểu biết của những người phát triển, triển khai và sử dụng hệ thống AI về các thành kiến, hạn chế và nghĩa vụ pháp lý liên quan đến việc sử dụng dữ liệu này cũng quan trọng không kém để đảm bảo hệ thống được triển khai một cách có trách nhiệm. Xa hơn nữa, người dùng hệ thống AI và những người bị ảnh hưởng bởi việc sử dụng chúng có nhiều khả năng tin tưởng chúng hơn nếu họ hiểu cách chúng được phát triển. Về lý thuyết, nếu hệ thống được giải thích đúng, 'người dùng sẽ biết khi nào nên tin tưởng vào dự đoán của hệ thống và khi nào nên áp dụng phán đoán của riêng họ'.

Tuy nhiên, trong phân tích của họ, một cuộc điều tra của Washington Post đã kết luận rằng 'nhiều công ty không ghi lại thành tài liệu nội dung dữ liệu đào tạo của họ - ngay cả trong nội bộ - vì sợ tìm thấy thông tin cá nhân về các cá nhân có thể nhận dạng được, tài liệu có bản quyền và dữ liệu khác bị lấy mà không có sự đồng ý'. Do đó, khi Scarlett Johannson công khai chỉ trích OpenAI vì bị cáo buộc sử dụng giọng nói của cô trong một chatbot mới - cô ấy đặc biệt kêu gọi 'giải quyết dưới hình thức minh bạch'. Data Provenance Explorer khám phá cách hầu hết quá trình phát triển AI diễn ra thông qua việc tinh chỉnh và một số ít lần học các mô hình đã được đào tạo trước. Trên thực tế, tại Vương quốc Anh, hầu hết các nhà cung cấp công nghệ và công ty sử dụng AI có thể sẽ tinh chỉnh - thay vì đào tạo. Tính minh bạch của dữ liệu tinh chỉnh là chìa khóa, nhưng nó thường cũng mù mờ không minh bạch như dữ liệu đào tạo.

Các nhà lập pháp và cơ quan quản lý cần có khả năng đánh giá dữ liệu mà dựa vào đó các mô hình này được xây dựng để đảm bảo chúng tuân thủ luật pháp. Theo Eryk Salvaggio, 'điều khiển một máy bay thương mại chở đầy nhiên liệu thí điểm chưa được thử nghiệm là hành vi cẩu thả. Các quy tắc yêu cầu các hãng hàng không cho chúng ta biết những gì có trong bình nhiên liệu không cản trở sự đổi mới. Việc triển khai các mô hình trong phạm vi công cộng mà không có sự giám sát cũng là hành vi cẩu thả'.

Tình trạng chính sách hiện tại ở Vương quốc Anh và những nơi khác

Vương quốc Anh hiện đang nhấn mạnh vào cách tiếp cận linh hoạt, theo từng lĩnh vực cụ thể đối với quy định về AI thay vì một khung chung, đơn lẻ như Đạo luật AI của EU. Điều này phản ánh cách tiếp cận lịch sử của Vương quốc Anh đối với việc quản lý các công nghệ mới nổi. Tuy nhiên, lập trường này có thể thay đổi dưới một chính phủ mới. Vào năm 2023, Chính phủ Vương quốc Anh đã thành lập Viện An toàn AI để tập trung vào 'an toàn AI tiên tiến vì lợi ích công cộng'. Một trong những vai trò chính của viện là tạo điều kiện trao đổi thông tin với các tổ chức quốc gia và quốc tế, tuân thủ các quy định hiện hành về quyền riêng tư và dữ liệu. Điều này bao gồm chia sẻ dữ liệu về đào tạo và tinh chỉnh các hệ thống AI, điều này rất quan trọng đối với chức năng tiến hành đánh giá hệ thống AI của Viện.

Vào tháng 3 năm 2024, một dự luật của các thành viên tư nhân đã được đưa ra tại Viện Quý tộc yêu cầu các nhà cung cấp AI phải chia sẻ thông tin về dữ liệu đào tạo của họ với 'Cơ quan AI' trung ương, đảm bảo sự đồng ý có thông tin khi thu thập dữ liệu đào tạo và trải qua các cuộc kiểm toán bắt buộc. Tuy nhiên, dự luật đã không được thông qua sau khi Quốc hội hoãn phiên họp vào tháng 5 năm 2024. AI có thể sẽ là chủ đề được bàn tán trong cuộc Tổng tuyển cử năm 2024, khi Đảng Lao động trước đó đã ám chỉ rằng họ sẽ yêu cầu các công ty AI chia sẻ dữ liệu thử nghiệm của họ với chính phủ Anh nếu đảng này lên nắm quyền.

Trong khi Vương quốc Anh đã áp dụng cách tiếp cận linh hoạt, các khu vực pháp lý khác như Hoa Kỳ, EU và Nhật Bản lại có lập trường khác nhau. Tại Hoa Kỳ, Ủy ban Thương mại Liên bang – FTC (Federal Trade Commission) năm 2023 đã ra lệnh cho OpenAI phải ghi lại thành tài liệu tất cả các nguồn dữ liệu được sử dụng để đào tạo các mô hình của mình. Đạo luật Minh bạch Mô hình của AI Foundation được đề xuất kêu gọi FTC thiết lập các tiêu chuẩn để công khai thông tin dữ liệu đào tạo. Đạo luật AI của EU yêu cầu tóm tắt chi tiết nội dung dữ liệu đào tạo để đảm bảo tính minh bạch và bảo vệ người nắm giữ quyền. Dự thảo nguyên tắc AI của Nhật Bản kêu gọi tính minh bạch của phương pháp thu thập dữ liệu và khả năng truy xuất nguồn dữ liệu.

Đề xuất từ xã hội dân sự, ngành công nghiệp và các tác nhân phi chính phủ khác

Các bên trong giới công nghiệp đang giải quyết các vấn đề về tính minh bạch độc lập với các phương pháp tiếp cận theo quy định. Các khung quản trị dữ liệu đang nổi lên, bao gồm kiểm toán công bằng và tính minh bạch của tập dữ liệu. Các nhà phát triển đang tạo ra các công cụ ghi lại thành tài liệu dữ liệu đào tạo như Thẻ mô hình và Thẻ tập dữ liệu của Hugging Face, Nhãn dinh dưỡng tập dữ liệu và Sáng kiến về nguồn gốc dữ liệu. Các giải pháp theo định hướng thị trường cũng đang được phát triển, chẳng hạn như tính minh bạch của Adobe về nội dung đào tạo AI của mình và các Tiêu chuẩn về nguồn gốc dữ liệu của Liên minh Dữ liệu & Tin cậy. Các tổ chức xã hội dân sự, như Mozilla Foundation và Fairly Trained, đang vận động thay đổi quy định để đảm bảo tính minh bạch và công bằng trong việc sử dụng dữ liệu đào tạo AI. Trong 'Safe before Sale' (An toàn trước khi bán), Viện Ada Lovelace đã lập luận rằng 'các cơ quan quản lý nên bắt buộc phải ghi lại thành tài liệu và công bố mô hình và tập dữ liệu bắt buộc cho quá trình đào tạo trước và tinh chỉnh các mô hình nền tảng'.

Các bước cần thực hiện

Trong bản tuyên ngôn chính sách mới ra mắt của chúng tôi - đã nhận được sự ủng hộ của nhiều đảng phái -, ODI đã kêu gọi Chính phủ Anh xem xét cụ thể và rõ ràng dữ liệu trong các nguyên tắc của họ đối với quy định về AI.

Các đạo luật như Dự luật Thành viên Tư nhân được đề xuất, trong đó đặt ra nghĩa vụ cho các nhà phát triển AI phải minh bạch về dữ liệu của họ và cung cấp cho các cơ quan quản lý các quyền hạn cần thiết để yêu cầu họ chịu trách nhiệm (như một phần của 'Cơ quan AI' hoặc như một phần của các cơ quan và cơ quan quản lý hiện có), sẽ là một mục tiêu đầy tham vọng nhưng đáng giá đối với chính phủ Anh mới sắp nhậm chức. Chúng tôi khuyến nghị rằng Chính phủ Anh sắp nhậm chức:

Khuyến khích áp dụng các công cụ và khung minh bạch tập dữ liệu đang nổi lên từ cộng đồng AI. Công việc hiện tại về Fairly Trained, Dataset Cards và Nutrition label nên được áp dụng rộng rãi hơn trong các tổ chức xây dựng dịch vụ AI - và chính phủ nên làm gương trong việc áp dụng các công cụ và khung minh bạch này. Việc hỗ trợ thêm cho quá trình phát triển tiêu chuẩn Croissant, trong đó ODI đồng chủ trì nhóm, cũng rất quan trọng. Cũng cần cân nhắc cách thức các hoạt động ghi lại thành tài liệu này - chủ yếu nhắm vào cộng đồng nhà phát triển - cũng có thể được áp dụng và trao quyền cho các chuyên gia, tổ chức và cộng đồng không chuyên về kỹ thuật.
Thúc đẩy Sáng kiến An toàn AI (AI Safety) để thiết kế các yêu cầu và tiêu chuẩn báo cáo bắt buộc mới. Mặc dù các phát triển từ cộng đồng nhà phát triển được hoan nghênh, nhưng điều quan trọng là thông tin về dữ liệu đào tạo, thử nghiệm và tinh chỉnh này phải được các nhà phát triển mô hình cung cấp theo những cách nhất quán, được chuẩn hóa, để các cơ quan quản lý và những bên khác có thể dễ dàng diễn giải và so sánh cách các mô hình khác nhau đã được đào tạo. Các học giả Saffron Huang và Divya Siddarth đã mô tả nhu cầu về việc các cơ quan thiết lập tiêu chuẩn mới sẽ 'xác định địa điểm và hình thức phù hợp phát hành thông tin'. Bất kỳ chính phủ mới nào cũng nên tận dụng sự hợp tác quốc tế được thúc đẩy bởi Hội nghị thượng đỉnh về an toàn AI và đảm bảo rằng chế độ của Vương quốc Anh kết nối với thông lệ tốt nhất từ khắp nơi trên thế giới.
Không coi dữ liệu đào tạo là một chế tác tĩnh, đơn lẻ. Như nhà nghiên cứu Margaret Mitchell đã chỉ ra, ngay cả khi các công ty đã công bố thông tin về dữ liệu đào tạo mà họ đã sử dụng, họ vẫn có xu hướng chỉ tập trung vào dữ liệu "tinh chỉnh". Điều này rất quan trọng vì các tập dữ liệu "tiền đào tạo" lớn hơn, lộn xộn hơn có nhiều khả năng bao gồm nội dung có hại hoặc tài liệu có bản quyền. Chúng ta cần các công ty công bố thông tin chi tiết về thành phần và nguồn gốc của cả hai. Trong tương lai, chúng ta cũng nên mong đợi quyền tiếp cận tới thông tin về các loại dữ liệu khác nhau được sử dụng để đào tạo và áp dụng các hệ thống AI, bao gồm dữ liệu sở hữu độc quyền hoặc cục bộ địa phương được sử dụng trong quá trình học tăng cường, tăng cường cho việc học tập, truy xuất và triển khai các mô hình.

Tại ODI, chúng tôi mong muốn cung cấp thông tin chi tiết và tài nguyên cho các nhà hoạch định chính sách đang làm việc hướng đến việc tăng cường tính minh bạch xung quanh dữ liệu được sử dụng để đào tạo các mô hình AI, đặc biệt là để phát triển các tiêu chuẩn mở mới hoặc khám phá các cách để ghi lại thành tài liệu việc sử dụng dữ liệu sở hữu độc quyền hoặc cục bộ địa phương. Chúng tôi sẽ công bố thêm các biện pháp can thiệp được đề xuất trong những tuần tới, tập trung vào sở hữu trí tuệ, bảo vệ dữ liệu, tính sẵn sàng của dữ liệu và các hoạt động dữ liệu có sự tham gia.

Whether companies step up or our governments intervene, we must ensure the data used to train AI systems is not shrouded in secrecy.

Over the past 18 months, the UK – along with many other countries – has been wrestling to understand what legislation and regulation are needed to govern generative AI and other rapidly evolving technologies. The age of foundation AI is characterised by models of large scale and high flexibility, underpinning systems capable of having complex interactions and producing rich outputs. There are risks, too, as have been reflected in the UK-hosted AI Safety Summit at Bletchley Park, and the establishment of the AI Safety Institute. Recognising both the potential and the risks, the ODI has embarked on a programme of work on Data-centric AI designed to bring about an AI ecosystem grounded in responsible data practices.

Governments have a significant role to play here, from introducing new laws to govern the use of data to train AI, to stimulating investment and innovation in data assurance and sharing, to using data and AI themselves - in a transparent manner - to deliver public services. As part of our work, we have explored what policy interventions need to be made to ensure that these new technologies are developed and deployed in a way that benefits everyone - people, communities and businesses.

This is the first in a series of five pieces exploring these policy interventions, and how they can help to positively shape the landscape.

What is transparency for training data?

Training data is the data used to train an artificial intelligence (AI) model. According to the assessments of the Stanford Foundation Model Transparency Index, transparency for training data involves disclosing things such as:

The size of the dataset
The source of the data
Who created the data
How the data was created
How the dataset has been augmented - and for what purpose
How the dataset has been filtered (e.g. for harmful content)
Whether the dataset includes copyrighted data
What licence the data can be used under
Any personal information included in the data

We’re talking primarily here about training data, fine-tuning and preference data, as well as other data artefacts – we’ll focus on the availability of training data itself in a later policy principle.

Why is training data transparency important?

Most leading AI firms have refused to disclose details about the data they’ve used to train and test AI models. The Stanford Foundation Model Transparency index, which assesses the major foundational models that provide the backbone of many AI tools and services, demonstrated that transparency regarding the data used was very low compared to other aspects of transparency. In documentation published at the launch of its GPT-4 model, OpenAI stated that it wouldn’t share detailed information about ‘dataset construction’ and other aspects of the model’s development due to 'the competitive landscape and the safety implications of large-scale models' – a decision that was roundly criticised by a number of leading researchers.

Which data is used to build AI systems is important; but how well those developing, deploying and using AI systems understand biases, limitations, and legal obligations associated with the use of this data is equally crucial to ensure systems are implemented responsibly. Further downstream, the users of AI systems and those impacted by their use are far more likely to trust them if they understand how they’ve been developed. In theory, should the system be explained correctly, ‘the user should know when to trust the system’s predictions and when to apply their own judgement’.

However, in their analysis, a Washington Post investigation concluded that ‘many companies do not document the contents of their training data – even internally - for fear of finding personal information about identifiable individuals, copyrighted material and other data grabbed without consent’. Hence, when Scarlett Johannson publicly called out OpenAI for allegedly using her voice in a new chatbot – she specifically called for ‘resolution in the form of transparency’. The Data Provenance Explorer explores how most AI development happens through fine-tuning and few shot learning of pre-trained models. In fact, in the UK, most tech providers and companies using AI will be mostly probably fine-tuning – rather than training. Transparency of fine-tuning data is key, yet it is often just as opaque as training data.

Lawmakers and regulators need to be able to assess the data upon which these models are built to ensure they comply with legislation. As put by Eryk Salvaggio, ‘flying a commercial airliner full of untested experimental fuel is negligence. Rules asking airlines to tell us what’s in the fuel tank do not hamper innovation. Deploying models in the public sphere without oversight is negligence too’.

Current policy status in the UK and elsewhere

The UK currently emphasises a flexible, sector-specific approach to AI regulation rather than a singular, overarching framework like the EU AI Act. This reflects the UK's historical approach to regulating emerging technologies. However, this stance could change under a new government. In 2023, the UK Government established the AI Safety Institute to focus on ‘advanced AI safety for the public interest’. One of its key roles is facilitating information exchange with national and international entities, adhering to existing privacy and data regulations. This includes sharing data on training and fine-tuning AI systems, which is crucial for the Institute's function of conducting AI system evaluations.

In March 2024, a private members' bill was introduced in the House of Lords requiring AI providers to share information about their training data with a central 'AI Authority,' ensure informed consent when gathering training data, and undergo mandatory audits. However, the bill did not progress after Parliament was prorogued in May 2024. AI is likely to be a talking point in the 2024 General Election, with the Labour Party signalling previously that it would mandate AI firms to share their test data with the UK government if it comes to power.

While the UK has taken a flexible approach, other jurisdictions like the US, EU, and Japan have different stances. In the US, the 2023 Federal Trade Commission ordered OpenAI to document all data sources used for training its models. The proposed AI Foundation Model Transparency Act calls for the FTC to establish standards for publicising training data information. The EU AI Act mandates detailed summaries of training data content to ensure transparency and protect rights holders. Japan's draft AI principle calls for data collection method transparency and data source traceability.

Proposals from civil society, industry and other non-government actors

Industry players are addressing transparency issues independently of regulatory approaches. Data governance frameworks are emerging, including fairness audits and dataset transparency. Developers are creating training data documentation tools like Hugging Face's Model Cards and Dataset Cards, Dataset Nutrition Labels, and the Data Provenance Initiative. Market-oriented solutions are also being developed, such as Adobe's transparency about its AI training content and the Data & Trust Alliance's Data Provenance Standards. Civil society organisations, like the Mozilla Foundation and Fairly Trained, are campaigning for regulatory changes to ensure transparency and fairness in AI training data use. In ‘Safe before Sale’, the Ada Lovelace Institute has argued that ‘regulators should compel mandatory model and dataset documentation and disclosure for the pre-training and fine-tuning of foundation models’.

Steps to take

In our recently launched policy manifesto - that received cross party support -, the ODI called on the UK Government to specifically and explicitly consider data in their principles for AI regulation.

Legislation like the proposed Private Members Bill, which puts obligations on AI developers to be transparent about their data, and provides regulators with the necessary powers to hold them to account (as part of an ‘AI Authority’, or as part of existing bodies and regulator), would be an ambitious but worthwhile goal for the new, incoming UK government. We recommend that the incoming UK Government:

Encourages the adoption of dataset transparency tools and frameworks that are emerging from the AI community. Existing work on Fairly Trained, Dataset Cards and Nutrition labels should be more widely adopted in organisations building AI services - and the government should lead by example in adopting these transparency tools and frameworks. Further supporting the Croissant standard development, of which the ODI co-chairs the group, is also vital. There also needs to be consideration as to how these documentation practices – that are primarily aimed at the developer community – can also be adopted and empower non-technical specialists, organisations and communities.
Bolsters the AI Safety Initiative to design new mandatory reporting requirements and standards. While developments from the developer community are welcome, it is important that this information about training, testing and fine-tuning data is made available by model developers in consistent, standardised ways, so that regulators and others can easily interpret it and compare the way different models have been trained. Academics Saffron Huang and Divya Siddarth have described the need for new standards-setting bodies to 'determine appropriate venues and forms of information release'. Any incoming government should capitalise on the international cooperation fostered by the AI Safety Summits and ensure that the UK regime connects with best practice from around the world.
Doesn’t see training data as a singular, static artefact. As the researcher Margaret Mitchell has pointed out, even when companies have published information on the training data they’ve used, they’ve tended only to focus on ‘fine tuning’ data. This is important, as it’s the larger, messier ‘pre-training’ datasets that are most likely to include harmful content or copyrighted material. We need companies to publish detailed information on the composition and provenance of both. Going forward, we should also expect access to information about various types of data used to train and apply AI systems, including proprietary or local data used in the process of reinforcement learning, retrieval augmentation and deploying models.

At the ODI, we’re keen to provide insights and resources to policymakers working towards increasing transparency around the data used to train AI models, particularly to develop new, open standards or exploring ways to document the use of proprietary or local data. We will publish further proposed interventions in the coming weeks, focusing on intellectual property, data protection, the availability of data and participatory data practices.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Tác giả: Nghĩa Lê Trung