Can thiệp chính sách 3: Thực thi quyền của mọi người trong chuỗi cung ứng dữ liệu

Thứ tư - 21/08/2024 05:59

Policy intervention 3: Enforcing people’s rights in the data supply chain

Chúng ta phải tránh khoảng trống thực thi trong quy trình đào tạo, tinh chỉnh và kiểm thử các mô hình AI nền tảng.

Wed Jun 26, 2024

Theo: https://theodi.org/news-and-events/blog/policy-intervention-3-enforcing-peoples-rights-in-the-data-supply-chain/

Bài được đưa lên Internet ngày: 26/06/2024

Thời đại của AI nền tảng được đặc trưng bởi các mô hình có quy mô lớn và tính linh hoạt cao, có khả năng tạo ra đầu ra phong phú. Nhận thức được cả tiềm năng và rủi ro của các mô hình mới này, ODI đã bắt tay vào một chương trình làm việc về AI lấy dữ liệu làm trung tâm, được thiết kế để tạo ra một hệ sinh thái AI dựa trên các hoạt động dữ liệu có trách nhiệm. Chúng tôi đang khám phá những can thiệp chính sách nào có thể được thực hiện để đảm bảo các công nghệ này được phát triển và triển khai theo cách có lợi cho tất cả mọi người - con người, các cộng đồng và các doanh nghiệp. Đây là bài thứ ba trong loạt năm bài khám phá các can thiệp này.

Mọi người tham gia trong chuỗi cung ứng dữ liệu như thế nào?

Có sự tham gia đáng kể của con người đằng sau dữ liệu được sử dụng để đào tạo các mô hình AI nền tảng. Con người thực hiện các nhiệm vụ mà các mô hình máy tính khó có thể sao chép, chẳng hạn như thu thập dữ liệu, lọc và kiểm duyệt dữ liệu và dán nhãn dữ liệu.

Thị trường toàn cầu cho loại công việc dữ liệu này được định giá 2 tỷ đô la vào năm 2022 và dự kiến sẽ tăng lên 17 tỷ đô la vào năm 2030. Hầu hết công việc này ở dạng 'nhiệm vụ nhỏ', được thực hiện ở các quốc gia có thu nhập thấp và trung bình. Theo The Washington Post, chỉ riêng ở Philippines đã có hơn hai triệu người thực hiện loại công việc này, bao gồm dán nhãn người đi bộ cho các thuật toán lái xe tự động, dán nhãn ảnh của người nổi tiếng và chỉnh sửa các đoạn văn bản để 'đảm bảo các mô hình ngôn ngữ như ChatGPT không tạo ra thứ vô nghĩa'.

Nhiều tập dữ liệu AI cũng sẽ bao gồm dữ liệu về con người, bao gồm tên, hình ảnh và thông tin vị trí. Dữ liệu này có thể đã được thu thập từ các nguồn công khai trên web hoặc được các dịch vụ mà chúng tôi tham gia thu thập và sử dụng - cho dù chúng tôi sử dụng chúng cho mục đích giải trí hay công việc. Mặc dù các định nghĩa khác nhau tùy theo quyền tài phán, dữ liệu về người được luật pháp công nhận là 'dữ liệu cá nhân'.

Mặc dù bảo vệ dữ liệu và quyền lao động đại diện cho các quan điểm và lợi ích khác nhau, chúng tôi sẽ giải quyết chúng cùng nhau trong bài viết này. Cuối cùng, cả hai đều liên quan đến việc bảo vệ các quyền và quyền tự do cơ bản, và chúng tôi thấy một rủi ro tương tự trong cả hai lĩnh vực, theo đó sự gia tăng của AI nền tảng đe dọa đến việc thực thi các biện pháp bảo vệ hiện có. Như chúng tôi sẽ thảo luận, cũng có một sự hợp lưu hữu ích giữa hai lĩnh vực này đang nổi lên.

Có một số chủ đề mà chúng tôi sẽ không đề cập ở đây. Quan điểm mở rộng về quyền lao động và chuỗi cung ứng AI cũng sẽ bao gồm những người lao động không liên quan đến dữ liệu, chẳng hạn như những người khai thác khoáng sản được sử dụng trong các thành phần máy tính, nhưng chúng tôi nhận thức được rằng chuyên môn của mình trong lĩnh vực này có hạn. Và chúng tôi sẽ giải quyết vấn đề sở hữu trí tuệ trong bối cảnh đào tạo các mô hình AI trong một bài đăng riêng trong loạt bài này.

Vì sao quyền lao động và bảo vệ dữ liệu lại quan trọng trong bối cảnh AI nền tảng?

Có một số rủi ro đối với điều kiện lao động và quyền trong chuỗi cung ứng dữ liệu.

Đầu tiên, những người lao động dữ liệu có thể tiếp xúc với những hình ảnh gây khó chịu và ngôn ngữ bạo lực. Một người lao động có hơn bảy năm làm việc trong nhóm cộng đồng đã mô tả rằng, mặc dù họ đã tiếp xúc với nội dung tự tử có hình ảnh, nhưng không nhận được cảnh báo về nội dung, không được tư vấn và không có đường dây nóng về tự tử.

Người lao động cũng có quyền được hưởng mức sống và an sinh xã hội. Tuy nhiên, một cuộc điều tra của tạp chí Time năm 2023 phát hiện ra rằng những người lao động AI ở Kenya được trả lương chưa đến 2 đô la một giờ và được phân loại là nhà thầu độc lập, không có các biện pháp bảo vệ an sinh xã hội như bảo hiểm y tế, đóng góp lương hưu và nghỉ phép có lương. Cũng có những cáo buộc về việc phá vỡ công đoàn và sa thải hàng loạt sau cuộc đình công năm 2019. Tình trạng bấp bênh này - kết hợp với việc kiểm duyệt nội dung một cách cực đoan - đã dẫn đến một cuộc khủng hoảng sức khỏe t inh thần trong số một số nhân viên dữ liệu Kenya. Một cuộc điều tra khác về các công ty làm chú thích dữ liệu đã mô tả một hệ thống mà biên lợi nhuận cao được ưu tiên hơn quyền và sự an toàn của người lao động. Các cuộc điều tra khác đã phát hiện ra rằng công việc dán nhãn dữ liệu được thực hiện bởi những người chưa thành niên.

Những người lao động làm việc với dữ liệu có xu hướng có quyền truy cập hạn chế tới các biện pháp khắc phục và giải quyết khiếu nại hiệu quả. Trong một số trường hợp, các công ty vẫn ẩn danh, biến mất và xuất hiện trở lại thường xuyên, khiến việc theo dõi và ngăn chặn những kẻ xấu trở nên vô cùng khó khăn. Một báo cáo của Aapti cho UNDP đã mô tả cách người lao động có thể bị phạt và bị loại khỏi hệ thống sau khi xếp hạng thấp hơn.

Những rủi ro này đối với quyền lao động có liên quan đến bất kỳ tổ chức nào của Anh sử dụng các mô hình AI đã được đào tạo ở nơi khác. Nhưng do thiếu minh bạch xung quanh dữ liệu được sử dụng để đào tạo nhiều mô hình AI phổ biến, các tổ chức thậm chí có thể không nhận thức được mức độ phụ thuộc của họ vào lực lượng lao động này.

Theo quan điểm bảo vệ dữ liệu, các mô hình AI nền tảng có nguy cơ mở rộng Khoảng trống thực thi bảo vệ dữ liệu, theo đó, tính nghiêm ngặt của các quy định xung quanh dữ liệu cá nhân, trên giấy tờ, không phù hợp với hoạt động của các tổ chức trong thế giới thực. Ví dụ, các mô hình AI nền tảng được đào tạo bằng cách sử dụng lượng lớn dữ liệu được thu thập từ khắp web, với nhiều nhà phát triển mô hình dường như nghĩ rằng bất kỳ dữ liệu công khai nào cũng là trò chơi công bằng. Kết quả là, mười hai cơ quan bảo vệ dữ liệu quốc gia, bao gồm Văn phòng Ủy viên thông tin của Vương quốc Anh, đã xuất bản một tuyên bố chung để làm rõ rằng việc thu thập hàng loạt thông tin cá nhân từ web để đào tạo AI có thể cấu thành hành vi vi phạm dữ liệu có thể báo cáo ở nhiều quyền tài phán.

Nhiều công ty hiện cũng đang thay đổi các điều khoản dịch vụ của họ để cho phép họ sử dụng dữ liệu do người dùng tạo ra để đào tạo các mô hình AI mới. Meta gần đây đã công bố những thay đổi đối với chính sách về quyền riêng tư của mình, tin rằng họ có lợi ích hợp pháp để phủ nhận quyền bảo vệ dữ liệu của người dùng để phát triển 'công nghệ trí tuệ nhân tạo'. Max Schrems, một nhà hoạt động bảo vệ dữ liệu và luật sư đã chỉ trích những thay đổi này vì sự mơ hồ của chúng và cho biết rằng 'điều này rõ ràng là trái ngược với việc tuân thủ [bảo vệ dữ liệu]'.

Và trong khi trọng tâm chủ yếu là đưa dữ liệu cá nhân vào đào tạo AI nền tảng, có thể có thêm những thách thức về bảo vệ dữ liệu ở hạ nguồn. Các nhà nghiên cứu đã chỉ ra rằng ChatGPT có thể "rò rỉ" dữ liệu dựa trên đó mô hình cơ bản của nó được đào tạo.

Tình trạng chính sách hiện tại ở Vương quốc Anh và những nơi khác

Vào tháng 3 năm 2023, cơ quan bảo vệ dữ liệu của Ý đã tạm thời đình chỉ việc sử dụng ChatGPT vì lo ngại về việc xử lý dữ liệu cá nhân để đào tạo hệ thống. Lệnh cấm này đã được dỡ bỏ trước khi các nhà chức trách Ý phát hiện thêm các hành vi vi phạm quyền riêng tư dữ liệu vào tháng 1 năm 2024. Tại Hoa Kỳ, một vụ kiện ở California đã tuyên bố rằng các mô hình nền tảng của OpenAI đã được đào tạo bất hợp pháp dựa trên các cuộc trò chuyện riêng tư, dữ liệu và thông tin y tế về trẻ em.

Thông báo về cuộc Tổng tuyển cử năm 2024 đã cắt giảm bớt việc thông qua Dự luật Bảo vệ dữ liệu và Thông tin kỹ thuật số (DPDI) mới của Vương quốc Anh thông qua quá trình lập pháp. ODI trước đó đã chia sẻ sự thất vọng của chúng tôi rằng Dự luật được đề xuất sẽ làm suy yếu tính minh bạch, quyền và biện pháp bảo vệ.

Chính phủ Anh ít đề cập đến chuỗi cung ứng dữ liệu cho các mô hình AI hoặc ngành công nghiệp dán nhãn dữ liệu của riêng quốc gia này. Mặc dù các thị trường lớn nhất nằm ở các nền kinh tế có mức lương thấp, nhưng vẫn có một số công ty có trụ sở tại Anh - chẳng hạn như Prolific và Snorkel AI.

Các tổ chức của Anh ở cả khu vực công và tư hiện đang sử dụng các mô hình được đào tạo trước, trong đó công việc dữ liệu, chẳng hạn như dán nhãn, đào tạo và thử nghiệm, đã hoàn tấ t rồi. Tuy nhiên, các chuỗi cung ứng phức tạp liên quan đến việc dán nhãn dữ liệu và kiểm thử an toàn cho các mô hình có sẵn này có thể không minh bạch đối với các tổ chức này.

Vào tháng 5 năm 2024, 97 người dán nhãn dữ liệu, người kiểm duyệt nội dung và những người làm việc về dữ liệu khác ở Kenya đã viết thư cho Tổng thống Biden để lập luận rằng 'Các công ty công nghệ lớn của Hoa Kỳ đang lạm dụng và bóc lột người lao động châu Phi một cách có hệ thống… [bằng cách] phá hoại luật lao động địa phương, hệ thống tư pháp của đất nước và vi phạm các tiêu chuẩn lao động quốc tế'. Bức thư nêu rõ rằng Kenya cần những công việc này, nhưng không phải bằng bất cứ giá nào.

Vào tháng 4 năm 2024, Nghị viện Châu Âu đã thông qua một chỉ thị mới nhằm cải thiện điều kiện làm việc của những người làm việc trên nền tảng (bao gồm cả các công nhân dữ liệu). Chỉ thị này đưa ra những quyền mới cho người lao động, bao gồm cả việc được cho là có việc làm, ngăn chặn các quyết định quản lý thuật toán (như tuyển dụng và sa thải), và tăng cường tính minh bạch và bảo vệ dữ liệu cá nhân.

Các đề xuất từ xã hội dân sự, ngành công nghiệp và các bên phi chính phủ khác

Chúng tôi bắt đầu thấy một số công ty dán nhãn dữ liệu tạo sự khác biệt thông qua các cam kết về quyền lao động và tiêu chuẩn đạo đức. Ví dụ, Karya là một tổ chức phi lợi nhuận hợp tác với các tổ chức phi chính phủ địa phương để đảm bảo quyền tiếp cận công việc của mình được ưu tiên cho những cộng đồng có nhu cầu cao nhất hoặc bị thiệt thòi trong lịch sử và trả cho người lao động một khoản tiền thu được từ việc bán công việc chú thích ngoài mức lương cơ bản của họ. Cũng như mức lương công bằng hơn, những người làm việc về dữ liệu cũng mong muốn được hưởng nhiều lợi ích công cộng hơn từ công việc đại trà của họ và được trao quyền nhiều hơn trong các mối liên hệ giữa công việc của họ và việc sử dụng hạ nguồn.

Tuy nhiên, thực tế là công việc này thường không được nhìn thấy - như 'công việc ma' - khiến cho các lực lượng thị trường không thể đảm bảo rằng những người làm việc về dữ liệu trong chuỗi cung ứng của AI nền tảng được đối xử công bằng. Các tổ chức như Turkopticon, Fairwork và Dự án Kinh tế Gig tiếp tục công việc khó khăn là vận động cho người lao động và đã chuyển sự chú ý của họ sang chuỗi cung ứng dữ liệu thông qua việc đánh giá các tiêu chuẩn lao động và đưa ra các yêu cầu tập thể để cải thiện. Một trong những bên tham gia vào mạng lưới học tập ngang hàng về dữ liệu vì quyền của người lao động do Humanity United tài trợ của ODI, CNV International đã phát triển một Fair Work Monitor (Giám sát Công việc Công bằng) để tăng cường tiếng nói của người lao động thông qua việc thu thập dữ liệu kỹ thuật số. Vào năm 2021, những người lao động tại Appen, một công ty dữ liệu cộng đồng, đã bắt đầu tổ chức với một công đoàn công nghệ, cho thấy rằng sức mạnh thương lượng theo ngành và theo công ty cũng có thể là chìa khóa để đảm bảo quyền của người lao động trong chuỗi cung ứng dữ liệu.

Có một số lĩnh vực mà quyền lao động và bảo vệ dữ liệu hội tụ. Quyền bảo vệ dữ liệu có thể được sử dụng trong bối cảnh công việc và các tổ chức như Workers Info Exchange và AWO đang sử dụng luật bảo vệ dữ liệu để trao quyền cho người lao động tự do với dữ liệu về lịch sử công việc, mức lương và hạng mức của họ. Một số luật cũng trao cho người lao động quyền được giải thích về cách dữ liệu của họ được sử dụng để đưa ra quyết định tự động và khiếu nại các quyết định không công bằng gây ra bất lợi. Mặc dù những điều này chủ yếu được sử dụng bởi những người lao động nền tảng trong các lĩnh vực như gọi xe và giao hàng, nhưng chúng có thể trở thành công cụ quan trọng cho người lao động trong chuỗi cung ứng dữ liệu để giải quyết các vấn đề như ra quyết định không minh bạch, phân bổ công việc và sa thải không công bằng.

Các bước cần thực hiện

Để tránh khoảng trống thực thi quyền lao động và bảo vệ dữ liệu khi nói đến chuỗi cung ứng dữ liệu của AI nền tảng, chúng tôi khuyến nghị rằng Chính phủ Vương quốc Anh sắp tới:

Đảm bảo rằng bất kỳ quy định dữ liệu nào trong tương lai đều phù hợp để giải quyết AI nền tảng. Như chúng tôi đã nói trong Bản tuyên ngôn chính sách gần đây của mình, 'chúng tôi tin rằng Dự luật Bảo vệ dữ liệu và Thông tin số (DPDI) là một cơ hội bị bỏ lỡ để củng cố hệ sinh thái dữ liệu.' Quy định bảo vệ dữ liệu trong tương lai phải đảm bảo rằng Ủy viên thông tin vẫn độc lập, các biện pháp bảo vệ xử lý dữ liệu được duy trì hoặc tăng cường, và Yêu cầu Truy cập của Chủ thể không trở thành tùy chọn. Tất cả những điều này sẽ giúp đảm bảo rằng dữ liệu cá nhân được bảo vệ trong chuỗi cung ứng dữ liệu đằng sau AI nền tảng.

Nhận diện chuỗi cung ứng dữ liệu và bảo vệ toàn bộ phạm vi quyền của mọi người trong đó. Chính phủ Anh mới nên đảm bảo rằng các quy định hiện hành đang được tuân thủ và các hoạt động kém hiệu quả sẽ bị ngăn chặn trong thị trường dán nhãn dữ liệu của Anh. Quyền lao động và bảo vệ dữ liệu cũng nên là trọng tâm trong chương trình nghị sự về an toàn AI của Anh. Các chuỗi cung ứng này mang tính toàn cầu và do đó, Chính phủ Anh mới nên hợp tác quốc tế và sử dụng ảnh hưởng của mình để hỗ trợ cải thiện toàn cầu về quyền lao động và bảo vệ dữ liệu, đặc biệt là đối với người dán nhãn dữ liệu và kiểm duyệt nội dung.
Hỗ trợ phát triển các tiêu chuẩn đạo đức trong chuỗi cung ứng dữ liệu của Anh. Hỗ trợ, củng cố và tài trợ cho các tổ chức đang thiết lập các tiêu chuẩn thực hành làm việc công bằng trong chuỗi cung ứng dữ liệu. Chính phủ Anh mới nên hỗ trợ các tổ chức Anh để bảo vệ rằng chuỗi cung ứng của họ đáp ứng các tiêu chuẩn đạo đức cao vượt ra ngoài việc tuân thủ luật bảo vệ dữ liệu và quyền lao động.

Tại ODI, chúng tôi mong muốn cung cấp thông tin chi tiết và nguồn lực cho các nhà hoạch định chính sách đang nỗ lực tạo ra một hệ thống bảo vệ dữ liệu và quyền lao động để ứng phó với AI nền tảng. Chúng tôi sẽ công bố các biện pháp can thiệp liên quan được đề xuất trong những tuần tới, tập trung vào tính khả dụng của dữ liệu và các hoạt động dữ liệu có sự tham gia.

We must avoid an enforcement gap in the process of training, fine-tuning and testing foundation AI models.

The age of foundation AI is characterised by models of large scale and high flexibility, capable of producing rich outputs. Recognising both the potential and the risks of these new models, the ODI has embarked on a programme of work on data-centric AI, designed to bring about an AI ecosystem grounded in responsible data practices. We’re exploring what policy interventions could be made to ensure these technologies are developed and deployed in ways that benefit everyone - people, communities and businesses. This is the third in a series of five pieces exploring these interventions.

How are people involved in the data supply chain?

There is significant human involvement behind the data used to train foundation AI models. People carry out tasks that computer models find it hard to replicate, such as collecting data, filtering and moderating it, and labelling it.

The global market for this type of data work was valued at $2bn in 2022 and is forecast to grow to $17bn by 2030. Most of this labour takes the form of ‘microtasks’, undertaken in low and middle-income countries. According to The Washington Post, more than two million people in the Philippines alone perform this type of work, including labelling pedestrians for automated driving algorithms, labelling photos of celebrities, and editing chunks of text to ‘ensure language models like ChatGPT don’t churn out gibberish’.

Many AI datasets will also include data about people, including names, pictures and location information. This data might have been scraped from public sources on the web, or collected and used by services we engage with – whether we use them for leisure or for work. Although definitions vary by jurisdiction, data about people is recognised in law as ‘personal data’.

While data protection and labour rights represent different perspectives and interests, we’re addressing them together in this piece. Ultimately, both involve the protection of fundamental rights and freedoms, and we see a similar risk across both areas, whereby the acceleration of foundation AI threatens the enforcement of existing protections. As we’ll discuss, there is also a useful confluence between the two emerging.

There are some topics we’re not going to address here. An expanded view of labour rights and AI supply chains would also include non-data workers, such as those mining for minerals used in computer components, but we’re conscious of our limited expertise in this area. And we address intellectual property in the context of training AI models in a separate post in this series.

Why are labour rights and data protection important in the context of foundation AI?

There are a number of risks to labour conditions and rights in the data supply chain.

First, data workers can be exposed to disturbing images and violent language. A worker with more than seven years in crowdwork described how, despite their exposure to graphic suicide content, received no content warnings, no counselling and no suicide hotline.

Workers also have a right to a standard of living and social security. However, a Time magazine investigation in 2023 found that AI workers in Kenya had been paid less than $2 per hour, and, being classified as independent contractors, lack social security protections like health insurance, pension contributions, and paid leave. There have also been accusations of union busting and mass layoffs following a 2019 strike. This precarity – combined with exposure to extreme content for moderation – has led to a mental health crisis amongst some Kenyan data workers. Another investigation of data annotation companies described a system where high-profit margins were prioritised over workers rights and safety. Other investigations have found data labelling work being carried out by minors.

Data workers tend to have limited access to effective remedy and grievance redressal. In some cases, firms remain anonymous, disappear and reappear frequently, making it incredibly hard to monitor and block bad actors. An Aapti report for the UNDP has described how workers can be penalised and locked out of systems following lower ratings.

These risks to labour rights are relevant to any UK organisation that uses AI models that have been trained elsewhere. But given the lack of transparency around the data used to train many of the popular AI models, organisations may not even be aware of how reliant on this labour they are.

From a data protection perspective, foundation AI models risk widening The Data Protection Enforcement Gap, whereby the stringency of regulations around personal data, on paper, is not matched by the practices of organisations in the real world. For example, foundation AI models are trained using vast amounts of data scraped from across the web, with many model developers appearing to think that any public data is fair game. As a result, twelve national data protection agencies, including the UK’s Information Commissioner's Office, published a joint statement to clarify that the mass scraping of personal information from the web to train AI can constitute a reportable data breach in many jurisdictions.

Many firms are now also changing their terms of service to enable them to use data generated by users to train new AI models. Meta has recently announced changes to its privacy policy, believing that it has a legitimate interest to override users' data protection rights in order to develop ‘artificial intelligence technology’. Max Schrems, a data protection activist and lawyer has criticised these changes for their vagueness and said that 'this is clearly the opposite of [data protection] compliance’.

And while the focus is largely on the inclusion of personal data in training foundation AI, there may be further data protection challenges downstream. Researchers have shown that it’s possible to cause ChatGPT to ‘leak’ data that its underlying model has been trained on.

Current policy status in the UK and elsewhere

In March 2023, the Italian data protection authority temporarily suspended the use of ChatGPT over concerns about the processing of personal data to train the system. This ban was lifted, before the Italian authorities found further data privacy violations in January 2024. In the US, a Californian lawsuit has claimed that OpenAI’s foundational models have been illegally trained on private conversations, medical data and information about children.

The announcement of the 2024 General Election curtailed the passing of the UK’s new Data Protection and Digital Information (DPDI) Bill through the legislative process. The ODI previously shared our disappointment that the proposed Bill would weaken transparency, rights, and protections.

There has been little said by the UK Government about the data supply chain for AI models, or about the country’s own data labelling industry. Although the largest markets are located in low-wage economies, there are some firms based in the UK – such as Prolific and Snorkel AI.

UK organisations in both the public and private sectors are now using pre-trained models, where data work, such as labelling, training, and testing, has already been completed. However, the complex supply chains involved in data labelling and safety testing for these off-the-shelf models can be far from transparent to these organisations.

In May 2024, 97 data labellers, content moderators and other data workers in Kenya wrote to President Biden to argue that 'US Big Tech companies are systematically abusing and exploiting African workers… [by] undermining the local labor laws, the country’s justice system and violating international labor standards'. The letter says that Kenya needs these jobs, but not at any cost.

In April 2024, the European Parliament adopted a new directive to improve the working conditions of platform workers (including data workers). The Directive brings in new rights for workers, including a presumption of employment, the prevention of algorithmic management decisions (such as hiring and firing), and greater transparency and personal data protections.

Proposals from civil society, industry and other non-government actors

We’re beginning to see some data labelling firms differentiate themselves through commitments to labour rights and ethical standards. Karya, for example, is a non-profit that partners with local NGOs to ensure access to its jobs goes first to the most in need or historically marginalised communities, and pays workers a proceeds of the sales of annotation work on top of their basic wages. As well as fairer compensation, data workers also desire more public benefit from their crowd work, and a greater empowerment in the connections between their work and downstream use.

However, the fact that this labour is so often unseen – as ‘ghost work’ – makes it unlikely that market forces alone will ensure that data workers in the supply chain of foundation AI are treated fairly. Organisations like Turkopticon, Fairwork and the Gig Economy Project continue the hard work of advocating for workers, and have turned their attention to the data supply chain through assessing labour standards and making collective demands for improvements. One of the participants in the ODI’s Humanity United-funded data for workers’ rights peer-learning network, CNV International has developed a Fair Work Monitor to strengthen the voice of workers through digital data collection. In 2021, workers at Appen, a crowdsourced data firm, began to organise with a technology union, showing that sectoral and company-based bargaining power could also be key to securing worker’s rights in the data supply chain.

There are some areas where labour rights and data protection converge. Data protection rights can be used in a work context, and organisations like Workers Info Exchange and AWO are using data protection laws to empower gig workers with data about their job histories, pay and rankings. Some laws also give workers a right to an explanation of how their data is used for automated decision making and to challenge unfair decisions that have caused detriment. While these are primarily being used by platform workers in sectors such as ride hailing and delivery, they could become important tools for workers in the data supply chain to address issues like opaque decision making, unfair work allocation and dismissals.

Steps to take

To avoid a labour rights and data protection enforcement gap when it comes to the data supply chain of foundation AI, we recommend that the incoming UK Government:

Ensure that any future data regulation is fit to address foundation AI. As we said in our recent Policy Manifesto, ‘we believe the Data Protection and Digital Information (DPDI) Bill is a missed opportunity to strengthen the data ecosystem.’ Future data protection regulation should ensure that the Information Commissioner remains independent, data processing safeguards are maintained or enhanced, and Subject Access Requests do not become optional. These will all help to ensure that personal data is protected in the data supply chains behind foundation AI.
Recognise data supply chains and protect the full scope of people’s rights within them. The incoming UK Government should ensure that existing regulations are being followed and poor practices are stopped within the UK’s data labelling market. Labour rights and data protection should also be central to the UK's AI safety agenda. These supply chains are global, and thus the incoming UK Government should cooperate internationally and use its influence to support global improvements in labour rights and data protection, particularly for data labelling and content moderation workers.
Support the development of ethical standards in the UK's data supply chains. Support, strengthen and fund organisations who are setting just standards working practices within data supply chains. The incoming UK Government should support UK organisations to safeguard that their supply chains meet high ethical standards that stretch beyond compliance with data protection and labour rights laws.

At the ODI, we’re keen to provide insights and resources to policymakers working towards creating a system that protects data and labour rights in response to foundation AI. We will publish related proposed interventions in the coming weeks, focusing on the availability of data and participatory data practices.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Tác giả: Nghĩa Lê Trung