Policy intervention 5: Empowering people to have more of a say in the sharing and use of data for AI
Nếu chúng ta muốn mọi người tin tưởng và các hệ thống Ai và các kết quả đầu ra của chúng, chúng ta cần cho họ biết cách các hệ thống này được đào tạo và sử dụng.
Fri Jul 5, 2024
Bài được đưa lên Internet ngày: 05/07/2024
Thời đại của AI nền tảng được đặc trưng bởi các mô hình có quy mô lớn và tính linh hoạt cao, có khả năng tạo ra đầu ra phong phú. Nhận thức được cả tiềm năng và rủi ro của các mô hình mới này, ODI đã bắt tay vào một chương trình làm việc về AI lấy dữ liệu làm trung tâm, được thiết kế để tạo ra một hệ sinh thái AI dựa trên các hoạt động dữ liệu có trách nhiệm. Chúng tôi đang khám phá những can thiệp chính sách nào có thể được thực hiện để đảm bảo các công nghệ này được phát triển và triển khai theo cách có lợi cho tất cả mọi người - con người, các cộng đồng và các doanh nghiệp. Đây là phần kết luận của loạt bài gồm năm phần khám phá các biện pháp can thiệp chính sách này và cách chúng có thể giúp định hình tích cực bối cảnh.
Vì sao trao quyền là quan trọng trong bối cảnh AI lấy dữ liệu làm trung tâm?
Việc đạt được các lợi ích kinh tế và xã hội của AI phụ thuộc rất nhiều vào việc tin tưởng vào công nghệ. Đã có nhiều lời kêu gọi rộng rãi về việc tham gia nhiều hơn vào AI như một phương tiện để xây dựng các giải pháp đáng tin cậy bằng thiết kế thay vì cố gắng giành được lòng tin đó sau đó. Các mô hình nền tảng là một bước thay đổi so với các loại AI trước đó về hiệu suất, rủi ro và tác động - do đó, các cuộc thảo luận về thời điểm khi nào và cách sử dụng AI như thế nào cần phải tận dụng chuyên môn và ý kiến của nhiều người và cộng đồng hơn.
Những thập kỷ qua đã nhiều lần cho thấy rằng việc không trao quyền cho mọi người để định hình và tham gia vào các hệ thống thu thập, chia sẻ và sử dụng dữ liệu sẽ tạo ra sự ngờ vực. Như chúng tôi mô tả trong Lý thuyết thay đổi của mình, có một rủi ro là việc không giải quyết được nỗi sợ hãi và mối quan tâm chính đáng của mọi người - chẳng hạn như về việc ai có quyền truy cập vào dữ liệu và dữ liệu này có thể được sử dụng như thế nào - sẽ ngăn cản chúng ta nhận ra tiềm năng của các công nghệ lấy dữ liệu làm trung tâm, bao gồm cả AI.
AI và dữ liệu có mối liên hệ chặt chẽ với nhau – không có dữ liệu thì không có AI. Việc tiếp cận lượng lớn dữ liệu đã trở nên vô cùng quan trọng đối với sự phát triển của AI - phần lớn dữ liệu này do công chúng tạo ra và bao gồm nội dung do người dùng tạo ra được thu thập từ Internet. Hơn nữa, các hệ thống AI tạo ra tương tác với người tiêu dùng ở quy mô mà AI dự đoán hoặc phân tích không có - mỗi khi chúng ta yêu cầu một công cụ như ChatGPT hoặc Midjourney tạo nội dung cho chúng ta, chúng ta cung cấp hướng dẫn dưới dạng lời nhắc. Những lời nhắc đó và phản hồi mà chúng ta cung cấp cho các công cụ sẽ nắm bắt được những gì chúng ta quan tâm, những gì chúng ta đang làm và những gì chúng ta dự định làm. Chúng giúp cải thiện cách thức hoạt động của các mô hình nền tảng, vì vậy chúng ta cần đảm bảo rằng những lợi ích của những cải tiến này được phân bổ công bằng.
Để trao cho mọi người quyền tự chủ đối với cách sử dụng lời nhắc và sở thích của họ, một số chatbot đã giới thiệu các biện pháp kiểm soát của người dùng, chẳng hạn như khả năng tắt lịch sử 'cuộc trò chuyện' và xuất dữ liệu ra khỏi hệ thống của họ. Tuy nhiên, những lỗi của cơ chế thông báo và đồng ý đã được ghi chép lại đầy đủ. Các yêu cầu liên tục để đồng ý thu thập và xử lý dữ liệu đã tạo ra sự mệt mỏi khi đồng ý. Khi người dùng đồng ý, họ không được thông báo đầy đủ, cũng không biết họ đang đồng ý với điều gì. Lựa chọn giữa việc chọn tham gia/không tham gia thường không đủ để trao quyền thực sự vì nó không cung cấp cơ hội cho mọi người định hình hoặc kiểm soát hệ thống.
Dữ liệu được tạo ra thông qua việc sử dụng nền tảng AI chỉ là một nguồn dữ liệu cho AI nền tảng. Hiện tại, các công ty AI đang tìm cách tiếp cận các tập dữ liệu lớn - đặc biệt có giá trị là dữ liệu từ các cộng đồng trực tuyến vì chúng được giám tuyển chặt chẽ và do đó có chất lượng tốt hơn hầu hết nội dung trên Internet. Một số công ty đang cấp phép và cung cấp dữ liệu này để tạo doanh thu, nhưng đã gặp phải sự phản đối từ những người đóng góp. Ví dụ, cộng đồng Reddit đã tham gia vào các cuộc đình công và sau đó đóng cửa các subreddit trên nền tảng mà đang bán dữ liệu của họ cho các công ty AI. Reddit sau đó đã tiếp quản một số subreddit và ký kết các thỏa thuận với Google và OpenAI. DeviantArt đã phải đảo ngược quyết định của nó sử dụng tác phẩm của các nghệ sĩ để đào tạo các mô hình AI theo mặc định; thay vào đó, người dùng hiện có thể chủ động đồng ý với việc sử dụng như vậy. StackOverflow đã đi xa đến mức chặn những người dùng đã xóa các đóng góp của họ để phản đối việc bán dữ liệu của họ cho OpenAI. Rõ ràng, việc xóa dữ liệu này có thể gây ra tác động dây chuyền đến các công ty AI cần dữ liệu đó.
Chúng ta cần vượt ra ngoài sự minh bạch và trách nhiệm giải trình để hướng đến một thế giới mà mọi người có thể tham gia một cách có ý nghĩa vào cách làm thế nào để dữ liệu được chính phủ, ngành công nghiệp và nhiều bên khác sử dụng. Việc trao quyền cho mọi người và các cộng đồng trong bối cảnh AI có nghĩa là cho phép họ định hình cách các thuật toán và dữ liệu cơ bản được thiết kế, triển khai và sử dụng như thế nào để mang lại lợi ích cho xã hội, môi trường và nền kinh tế.
Việc trao quyền thực sự sẽ có nhiều hình thức và bao trùm toàn bộ vòng đời của AI. Từ các quyết định về việc có nên sử dụng AI hay không, đến các công đoàn lao động cho những người làm việc về dữ liệu, từ những người tạo ra dữ liệu công khai cho đến việc bảo vệ những người đảm bảo tính an toàn của dữ liệu. Do đó, bài viết này nên được đọc cùng với các can thiệp trước đây của chúng tôi về bảo vệ dữ liệu và quyền lao động, cũng như quyền truy cập rộng rãi vào dữ liệu, cả hai đều bao gồm các khuyến nghị hơn nữa về AI, dữ liệu và trao quyền thông qua các quyền.
Trong phần còn lại của bài đăng này, chúng ta sẽ tập trung vào một phần của công việc này – cách các cá nhân và cộng đồng có thể được trao quyền để tích cực đóng góp và định hình các mô hình AI, và cách dữ liệu mà họ có cổ phần được sử dụng.
Làm thế nào mọi người có thể được trao quyền để tác động đến dữ liệu AI?
Sự tham gia có thể là đòn bẩy để cân bằng lại nền kinh tế dữ liệu. Nó có thể trao quyền cho các cá nhân và cộng đồng bằng cách tăng quyền kiểm soát của mọi người đối với dữ liệu liên quan đến họ, cải thiện chất lượng dữ liệu và việc ra quyết định bằng cách kết hợp các quan điểm, kiến thức và kinh nghiệm đa dạng, đồng thời xây dựng lòng tin và sự cộng tác.
Viện Ada Lovelace đã điều chỉnh 'thang tham gia' của Arnstein để quản lý dữ liệu, trong đó nêu chi tiết các mức độ tham gia khác nhau, từ việc được thông báo hoặc tham khảo ý kiến về cách sử dụng dữ liệu cho đến việc được trao quyền để đưa ra quyết định về việc sử dụng dữ liệu. Trong công việc của chúng tôi về dữ liệu có sự tham gia, chúng tôi thấy sự tham gia diễn ra ở các cấp độ khác nhau của hệ sinh thái dữ liệu:
cấp độ dữ liệu (ví dụ: tạo hoặc đóng góp vào các tập dữ liệu trong khoa học công dân hoặc thu hồi sự đồng ý hoặc chặn quyền truy cập dữ liệu)
cấp độ tổ chức (ví dụ: đưa ra quyết định về cách dữ liệu được quản trị thông qua hợp tác xã dữ liệu),
lớp chính sách (ví dụ: tương tác với các nhà hoạch định chính sách về việc sử dụng dữ liệu thông qua sự tham gia của công dân).
Cũng giống như AI tạo sinh đã thay đổi cách chúng ta suy nghĩ về dữ liệu và công nghệ, việc trao quyền trong bối cảnh dữ liệu và AI có thể khác nhau. Ví dụ, một nghiên cứu gần đây cho thấy rằng việc tham gia trực tiếp vào các mô hình nền tảng rất khó tạo thuận lợi, do sự bất cân xứng về quyền lực trong quá trình phát triển của chúng (tức là các công ty lớn so với các cộng đồng nhỏ đang cố gắng đóng góp); tuy nhiên, việc tham gia vào cơ sở hạ tầng kỹ thuật và quản trị cụ thể theo từng lĩnh vực cho thấy triển vọng.
Dự án Trí tuệ Tập thể đã phác thảo những cách khác nhau mà mọi người có thể tham gia vào quá trình phát triển AI, tương ứng với các bậc khác nhau của 'thang tham gia':
Làm cho AI dễ tiếp cận hơn và cho phép xã hội được hưởng lợi từ AI rộng rãi hơn, ví dụ như thu hẹp khoảng trống kỹ thuật số bằng các công cụ AI tạo sinh.
Đồng thiết kế các hệ thống AI bằng cách tạo điều kiện cho sự tham gia trong quá trình phát triển, ví dụ như Wikibench cho phép mọi người và cộng đồng thiết kế các tập dữ liệu đánh giá để đảm bảo là nó được đánh giá theo nhu cầu của họ.
Mở rộng hệ sinh thái AI thông qua nguồn vốn cấp và dữ liệu dễ tiếp cận hơn, bao gồm các sáng kiến như Aya, nơi huy động cộng đồng để xây dựng các tập dữ liệu mới nhằm hỗ trợ các ngôn ngữ chưa được đại diện đầy đủ.
Trực tiếp thu hút công chúng vào quá trình quản trị AI, ví dụ như thông qua các tổ chức dữ liệu như quỹ tín thác dữ liệu (data trusts) hoặc thông qua các hội đồng công dân (citizen panels).
Tình hình chính sách hiện tại ở Vương quốc Anh và những nơi khác
Sự tham gia có lịch sử lâu đời ở Vương quốc Anh, có nghĩa là nó có vị thế tốt để trở thành người dẫn đầu về dữ liệu có sự tham gia và AI với một khu vực xã hội dân sự mạnh mẽ coi trọng nó, các tổ chức mà tạo thuận lợi cho sự tham gia của công dân, và lịch sử các dự án liên ngành xem xét quyền của người dùng.
Một số sửa đổi đối với Dự luật Bảo vệ Dữ liệu và Thông tin Kỹ thuật số (DPDI) - không được thông qua vì cuộc bầu cử năm 2024 - đã định nghĩa 'cộng đồng dữ liệu' dưới hình thức các bên trung gian có thể được chỉ định quyền của chủ thể dữ liệu và có thể thực hiện các quyền đó thay mặt cho họ, bao gồm đàm phán quyền truy cập vào dữ liệu của họ đối với các nhà phát triển AI. Tuy nhiên, đã có những chỉ trích rằng nó được 'đồng thiết kế với giới công nghiệp, vì giới công nghiệp, nhằm tối đa hóa lợi ích kinh tế', với cái giá phải trả là sự tham gia của xã hội dân sự và lợi ích công cộng rộng rãi hơn.
AI Fringe 2023: Ban Công chúng về AI đã tập hợp một nhóm đại diện gồm các thành viên của công chúng để tham dự, quan sát và thảo luận về các sự kiện quan trọng từ Fringe. Một đề xuất chính từ ban công chúng là một hình thức thu hút sự tham gia của công dân, tương tự như dịch vụ bồi thẩm đoàn, có thể cung cấp 'hướng dẫn, khuyến nghị hoặc phán quyết về AI' cho giới công nghiệp và chính phủ.
Sự kiện dẫn đến cuộc Tổng tuyển cử Vương quốc Anh năm 2024 đã thu hút sự chú ý lớn hơn đến sự tham gia của công chúng, sau các đề xuất của Đảng Lao động, Đảng Dân chủ Tự do và Đảng Xanh nhằm xem xét việc sử dụng các hội đồng công dân để tham vấn về các vấn đề chính sách quan trọng, bao gồm cả AI.
Ngoài Vương quốc Anh, Ủy ban Châu Âu tiếp tục thúc đẩy chương trình nghị sự dữ liệu 'lấy con người làm trung tâm', xuyên khắp công việc chính sách dữ liệu rộng lớn của mình, đã được thảo luận trong các phần trước của loạt bài này. Đạo luật Quản trị Dữ liệu tìm cách cho phép các cá nhân chia sẻ dữ liệu của họ một cách tự nguyện vì lợi ích của xã hội thông qua các tổ chức đáng tin cậy tuân thủ các giá trị và nguyên tắc của EU. Đạo luật này gọi đây là 'các tổ chức vị tha dữ liệu'. Mức độ thành công của những nỗ lực này hiện vẫn chưa thể xác định, nhưng tất cả đều hướng đến mục tiêu xây dựng các môi trường được kiểm soát, trong đó dữ liệu để phát triển AI có thể được chia sẻ.
Chính phủ Canada đã tiến hành tham vấn công khai về AI, bị chỉ trích là 'không hoàn thành các mục đích chính của cuộc tham vấn, chẳng hạn như tính minh bạch, sự tham gia dân chủ và giáo dục công chúng' và do đó không trao quyền cho công dân. Năm 2023, Brazil đã đưa ra dự thảo luật AI mới, trong đó có 'Quyền tham gia của con người vào các quyết định về hệ thống AI'. Năm 2023, Đại hội AI Công cộng Hoa Kỳ đã nghiên cứu thái độ của công chúng liên quan đến rủi ro và việc sử dụng AI trên nhiều lĩnh vực bao gồm hồ sơ hành chính, hồ sơ sức khỏe, lịch sử trình duyệt và nhận dạng khuôn mặt. Thành phố Amsterdam đã sử dụng cả đối thoại với người dân về tương lai của AI tại Amsterdam cũng như hội đồng công dân để cung cấp ý kiến đóng góp vào việc thiết kế và sử dụng thuật toán cho chương trình hỗ trợ xã hội.
Có vẻ như sự tham gia do chính sách dẫn dắt xung quanh dữ liệu và AI vẫn chưa được phát triển tốt. Nơi nào có sự tham gia, thì thường là ở mức thấp hơn trong thang Arnstein. Các cấp độ trao quyền cao hơn liên quan đến việc chia sẻ quyền lực để định hình hoặc đóng góp vào các quyết định, điều này có thể khó khăn trong bối cảnh chính phủ. Nhưng có những sáng kiến đang nổi lên từ xã hội dân sự, giới công nghiệp và hơn thế nữa mà các nhà hoạch định chính sách có thể học hỏi.
Đề xuất từ xã hội dân sự, giới công nghiệp và các tác nhân phi chính phủ khác
Ngoài hành động của chính phủ, đã có nhiều hoạt động từ giới công nghiệp, khu vực thứ ba và hơn thế nữa. Những đề xuất này nhằm trao quyền cho mọi người trong bối cảnh dữ liệu và AI có ba mục tiêu khác nhau: cho phép kiểm soát, nhúng quá trình ra quyết định của công chúng vào các mô hình AI và đóng góp dữ liệu vào các mô hình AI.
Cho phép kiểm soát
Cũng như hệ sinh thái lâu đời của các phương pháp tiếp cận kỹ thuật đối với việc trao quyền của dữ liệu, cũng có một số phương pháp tiếp cận mới hơn đang nổi lên để trao quyền cho mọi người kiểm soát cách dữ liệu được sử dụng để đào tạo AI (đôi khi được gọi là 'lớp đồng ý cho AI' hoặc 'đánh tín hiệu ưu tiên').
Những cách tiếp cận mới này cho thấy phạm vi trao quyền có ý nghĩa như thế nào đối với những người và cộng đồng khác nhau trong thực tế. Ví dụ, một số cách tiếp cận này được thiết kế để minh bạch và tạo điều kiện cho cá nhân đóng góp dữ liệu, trong khi những cách khác hỗ trợ các cá nhân từ chối. Một số ví dụ bao gồm:
Giao thức xuất bản web mới, chẳng hạn như ai.txt, NoML, Giao thức đặt chỗ TDM của W3C, thẻ siêu dữ liệu Không đào tạo (Do Not Train) của Adobe.
Các công cụ kỹ thuật mới, chẳng hạn như Nightshade, Glaze và Data Levers cùng các phương pháp khác để hạn chế việc thu thập dữ liệu web hoặc chặn trình thu thập thông tin.
Các dịch vụ minh bạch mới như 'Tôi đã được đào tạo chưa' và 'Tiết lộ AI' giúp những người đồng sáng tạo hiểu được liệu dữ liệu về họ hoặc nội dung của họ có được sử dụng để đào tạo các mô hình AI hay không.
Các loại giấy phép dữ liệu mới, chẳng hạn như RAIL và giấy phép không khai thác của Phòng thí nghiệm Luật Khoa học Dữ liệu. Te Hiku Media đã phát triển Giấy phép Kaitiakitanga cho 'quyền giữ lại mana của người bản địa đối với dữ liệu và tài sản trí tuệ khác trong một cấu trúc phương Tây'.
Các nền tảng và thị trường mới cho dữ liệu/nội dung, chẳng hạn như MetaLabel và UbuntuAI.
Nhúng việc ra quyết định của công chúng vào các mô hình AI
Hầu hết công việc đều nhằm mục đích cho phép công chúng đóng góp vào quá trình phát triển các mô hình AI trong lĩnh vực liên kết AI.
OpenAI đã điều hành một chương trình trợ cấp về 'đầu vào dân chủ cho AI', dẫn đến việc họ thành lập một nhóm 'Liên kết tập thể' (Collective Alignment), bao gồm các nhà nghiên cứu và kỹ sư. Nhóm này sẽ 'triển khai một hệ thống để thu thập và mã hóa đầu vào của công chúng về hành vi của mô hình vào hệ thống của chúng tôi'.
Vào tháng 10 năm 2023, Anthropic đã công bố kết quả công việc liên kết của riêng mình với Collective Intelligence và Polis để 'soạn thảo một hiến pháp AI' dựa trên ý kiến của 1000 người Mỹ. Hiến pháp cuối cùng tập trung nhiều hơn vào tính khách quan, công bằng và khả năng tiếp cận và khi được sử dụng để đào tạo một mô hình AI, nó 'ít thiên vị hơn một chút và có khả năng ngang bằng với mô hình Anthropic tiêu chuẩn'. Recursive Public là một thử nghiệm nhằm xác định các lĩnh vực đồng thuận và bất đồng giữa cộng đồng AI quốc tế, các nhà hoạch định chính sách và công chúng nói chung.
Các thí điểm của WeBuildAI, một khung tham gia tập thể, nhận thấy rằng việc sử dụng khung này dẫn đến những cải thiện về tính công bằng được nhận thức trong quá trình ra quyết định, nhận thức của công chúng về công nghệ thuật toán đang được sử dụng cũng như nhận thức của tổ chức về tác động của thuật toán.
Đóng góp dữ liệu cho các mô hình AI
Một cách khác mà chúng tôi thấy các cá nhân và cộng đồng tham gia là thông qua đóng góp vào các tập dữ liệu. Những đóng góp này có thể có nhiều hình thức và phục vụ nhiều mục đích, ví dụ, phản ánh những trải nghiệm thực tế của cộng đồng, giúp các nhà khoa học và nhà hoạch định chính sách hoặc cùng nhau quyết định phạm vi các phân tích dữ liệu mới. Một ví dụ là khoa học công dân - các dự án như FoldIt hoặc bất kỳ dự án nào của Zooniverse đều được thiết kế ngay từ đầu để tạo ra các tập dữ liệu tốt hơn cho việc đào tạo AI, ví dụ như chú thích hình ảnh, âm thanh hoặc nội dung video mà các thuật toán thấy khó xử lý.
Mặc dù sự tham gia không được lan truyền rộng rãi, nhưng những câu chuyện thành công hiện có cho thấy con đường phía trước.
Các cộng đồng xung quanh các nền tảng như Wikipedia có hàng trăm nghìn người đóng góp từ khắp nơi trên thế giới. Dữ liệu từ các nền tảng này có sẵn theo giấy phép mở cho nhiều mục đích, bao gồm phát triển AI. Các giải pháp như Wikibench cho phép cộng đồng tham gia trực tiếp vào việc định hình dữ liệu đưa vào các mô hình AI mà Wikipedia sử dụng, ví dụ, để xác định các biên tập viên độc hại.
Các dự án như BLOOM và BigCode đang khám phá các phương pháp cộng tác để phát triển dữ liệu và AI. Có những phương pháp thu thập dữ liệu và đào tạo mô hình mới mang tính tham gia tập trung cụ thể vào dữ liệu ngôn ngữ, chẳng hạn như CommonVoice, Aya và FLAIR. Trong khi Karya điều hành một nền tảng chú thích dữ liệu trả lương công bằng cho những người đóng góp. Những sáng kiến này nhằm mục đích tạo ra các tập dữ liệu về các ngôn ngữ chưa được đại diện đầy đủ, để cuối cùng trao quyền cho các cộng đồng trên toàn thế giới nhận ra giá trị của AI.
Các bước cần thực hiện
Tuyên ngôn Chính sách mới ra mắt của chúng tôi, đã nhận được sự ủng hộ của nhiều đảng phái tại Anh, lập luận rằng "trao quyền cho mọi người và cộng đồng để giúp định hình cách dữ liệu được sử dụng cho xã hội, môi trường, nền kinh tế và lợi ích công cộng".
Chúng tôi hy vọng rằng chính phủ Anh mới sẽ tiếp tục thực hiện các kế hoạch trao quyền cho nghiên cứu, đổi mới và nền công nghiệp bằng dữ liệu cho AI và thực hiện theo cách có trách nhiệm. Chúng tôi khuyến nghị rằng chính phủ mới của Anh:
Tăng cường kiểm soát cá nhân đối với dữ liệu, xây dựng dựa trên thành công của tín khả chuyển dữ liệu trong lĩnh vực ngân hàng, Chính phủ phải khám phá những thay đổi về quy định hỗ trợ mọi người kiểm soát dữ liệu nhiều hơn. Điều này có thể bao gồm việc xây dựng dựa trên GDPR của Anh để cung cấp quyền kiểm soát dữ liệu cá nhân nhiều hơn trong kỷ nguyên AI. Quy định này phải liên quan đến các đặc điểm về cách dữ liệu được sử dụng cho AI để đảm bảo dữ liệu hoạt động vì lợi ích của mọi người và cộng đồng cũng như ngành công nghiệp và phải vượt ra ngoài dữ liệu đào tạo để bao gồm các lời nhắc và nhiều hình thức phản hồi khác nhau.
Sử dụng có ý nghĩa các phương pháp có sự tham gia để thu hút công chúng vào việc định hình tương lai của dữ liệu và AI tại Vương quốc Anh, đặc biệt là khi nói đến các điều khoản sử dụng tài sản dữ liệu quốc gia quan trọng và dữ liệu nhạy cảm khác. Thu hút mọi người thông qua đối thoại và tham gia để quyết định cách AI được các cơ quan công quyền tại Vương quốc Anh quản lý và sử dụng là một khởi đầu tốt. Chính phủ có thể học hỏi từ các ví dụ hiện tại về các diễn đàn và hội đồng công dân để khám phá tính khả thi của việc phân quyền và kiểm soát thực sự đối với việc ra quyết định.
Hỗ trợ hệ sinh thái tham gia phát triển mạnh mẽ tại Vương quốc Anh và hợp tác với họ để cải thiện hoạt động hiện tại. Có rất nhiều chuyên môn và đổi mới đang diễn ra tại Vương quốc Anh. Bối cảnh này có thể hỗ trợ các nỗ lực cải thiện sự tham gia của công chúng đối với dữ liệu mới và quy định về AI, bao gồm cả việc đóng góp vào các quyết định về AI cũng như tạo ra các tập dữ liệu mới cần thiết cho đổi mới AI. Điều này cũng đòi hỏi phải hiểu được phương pháp có sự tham gia trong vòng đời AI hiệu quả nhất ở đâu và như thế nào, điều này cần được nghiên cứu thông qua việc cấp vốn nhất quán cho các sáng kiến có sự tham gia và nghiên cứu có sự tham gia được công nhận.
Tại ODI, chúng tôi mong muốn cung cấp thông tin chi tiết và nguồn lực cho các nhà hoạch định chính sách đang nỗ lực tạo ra các mô hình cấp phép dữ liệu và khung quản trị công bằng và toàn diện. Blog này là một phần của loạt các can thiệp chính sách mà bạn có thể khám phá tại đây.
Nếu chúng tôi bỏ lỡ bất kỳ ví dụ nào về trao quyền dữ liệu hoặc bạn muốn trò chuyện với chúng tôi về công việc của chúng tôi về AI lấy dữ liệu làm trung tâm, vui lòng liên hệ theo địa chỉ research@theodi.org.
If we want people to trust AI systems and their outputs, we need to give them a stake in how these systems are trained and used.
The age of foundation AI is characterised by models of large scale and high flexibility, capable of producing rich outputs. Recognising both the potential and the risks of these new models, the ODI has embarked on a programme of work on data-centric AI, designed to bring about an AI ecosystem grounded in responsible data practices. We’re exploring what policy interventions could be made to ensure these technologies are developed and deployed in ways that benefit everyone – people, communities and businesses. This is the conclusion of our five-part series exploring these policy interventions, and how they can help to positively shape the landscape.
Why is empowerment important in the context of data centric AI?
Achieving the economic and societal benefits of AI critically depends on having trust in the technology. There have been widespread calls for more participation in AI as a means to build trustworthy solutions by design rather than trying to gain that trust afterwards. Foundational models are a step change from earlier types of AI in terms of performance, risks and impacts - as such, conversations around when and how AI should be used need to leverage the expertise and opinions of a broader range of people and communities.
The last decades have shown time and time again that not empowering people to shape and participate in systems of collecting, sharing and using data will create mistrust. As we describe in our Theory of Change, there is a risk that failing to address people’s fears and legitimate concerns – such as about who has access to data and how this data might be used – will prevent us from realising the potential of data-centric technologies, including AI.
AI and data are intrinsically linked – without data there is no AI. Access to large amounts of data has become crucial for the development of AI - much of this data is created by the public and includes user-generated content scraped from the internet. Moreover, generative AI systems interact with consumers at a scale that predictive or analytical AI haven’t - every time we ask a tool like ChatGPT or Midjourney to generate content for us, we provide instructions in the form of prompts. Those prompts and the feedback we provide to the tools capture what we're interested in, what we work on, and what we plan to do. They help improve how foundational models work, so we need to make sure that the benefits of these improvements are spread equitably.
To give people some autonomy over how their prompts and preferences are used, some chatbots have introduced user controls, such as the ability to turn off ‘conversation’ history and export data out of their system. However, the failures of the notice and consent mechanism are well documented. Constant requests to consent to data collection and processing has created consent fatigue. When users do consent they are not fully informed, nor aware of what they are consenting to. A choice between opt-in/opt-out is often insufficient for genuine empowerment as it doesn’t provide the opportunity for people to shape or control systems.
Data generated through the use of AI platforms is only one source of data for foundational AI. Right now, AI companies are looking to get access to large datasets –particularly valuable is data from online communities because it is highly curated and as such better quality than most Internet content. Some companies are licensing and supplying this data to generate revenue, but have met resistance from contributors. For example, the Reddit community has engaged in blackouts and subsequent closure of subreddits over the platform selling their data to AI firms. Reddit has subsequently taken over several subreddits and signed deals with Google and OpenAI. DeviantArt had to reverse its decision to use artists’ work to train AI models by default; instead, users can now actively consent to such use. StackOverflow has gone as far as blocking users who deleted their contributions in protest over the sale of their data to OpenAI. Clearly, the withdrawal of this data can have knock-on effects to AI companies who need it.
We need to move beyond transparency and accountability to a world where people can meaningfully participate in how data is used by the government, industry and beyond. Empowering people and communities in the context of AI means enabling them to shape how algorithms and the underlying data are designed, deployed and used for societal, environmental, and economic benefit.
Genuine empowerment will take many forms and cover the entire AI lifecycle. From decisions about whether AI should be used, to labour unions for data workers, from those generating public data to protecting those ensuring its safety. This piece, therefore, should be read in conjunction with our previous interventions in data protection and labour rights, and broad access to data, which both include further recommendations on AI, data and empowerment through rights.
In the remainder of this post, we will focus on a slice of this work – how individuals and communities can be empowered to actively contribute to and shape AI models, and how data they have a stake in is used.
How can people be empowered to affect AI data?
Participation can be a lever to rebalance the data economy. It can empower individuals and communities by increasing people’s control over the data that relates to them, improving data quality and decision making by incorporating diverse perspectives, knowledge and experiences, and building trust and collaboration.
The Ada Lovelace Institute has adapted Arnstein's ‘ladder of participation’ for data stewardship, which details the different degrees of participation, from being informed or consulted about how data is used through to empowered to make decisions about data use. In our work on participatory data, we see participation happening at different levels of the data ecosystem:
the data level (e.g. creating or contributing to datasets in citizen science, or withdrawing consent or blocking data access)
the organisational level (e.g. making decisions about how data is governed through data cooperatives),
the policy layer (e.g. engage with policy makers about data use through citizen engagement).
Just as generative AI has changed how we think about data and technology, empowerment in the context of data and AI can be different. For example, a recent study suggests that direct engagement in foundation models is hard to facilitate, given the power asymmetries in their development (i.e. big companies vs small communities trying to contribute); however, engagement in domain-specific technical infrastructure and governance shows promise.
The Collective Intelligence Project have outlined the different ways that people can be engaged in AI development, corresponding to the different rungs of the ‘ladder of participation’:
Making AI more accessible and enabling society more broadly to benefit from it, for example by bridging the digital divide with generative AI tools.
Co-designing AI systems by facilitating engagement during development, for example Wikibench enables people and communities to design evaluation datasets to ensure it is assessed on their needs.
Expanding the AI ecosystem through more accessible funding and data, including initiatives like Aya, which crowdsource new datasets to support underrepresented languages.
Directly involving the public in the governance of AI, for example through data institutions like data trusts or via citizen panels.
Current policy status in the UK and elsewhere
Participation has a long history in the UK, meaning that it is well-placed to become a leader on participatory data and AI with a strong civil society sector who value it, organisations who facilitate citizen involvement, and a history of cross-sector projects looking at user rights.
Several amendments to the Data Protection and Digital Information (DPDI) Bill – which was not passed because of the 2024 election – defined ‘data communities’ in the form of intermediaries that could be assigned data subject's rights and be able to exercise them on their behalf, including negotiating access to their data for AI developers. However there has been criticism that it was 'co-designed with industry, for industry, in order to maximise the economic benefits', at the cost of the involvement of civil society and wider public benefit.
The 2023 AI Fringe: People’s Panel on AI brought together a representative group of members of the public to attend, observe and discuss key events from the Fringe. One key suggestion from the panel was a form of citizen engagement, similar to jury service, which could provide 'guidance, recommendations or judgements about AI' to industry and government.
The lead to the 2024 UK General Election has brought greater attention to public participation, following proposals by Labour, the Liberal Democrats and the Greens to explore the use of citizen assemblies to consult on significant policy issues, including AI.
Beyond the UK, the European Commission continues to drive a ’human-centric’ data agenda that cuts across its broad data policy work, discussed in prior parts of this series. The Data Governance Act seeks to enable individuals to share their data voluntarily for the benefit of society through trusted organisations adhering to EU values and principles. It calls these ‘data altruism organisations’. To which degree these efforts will be successful cannot yet be determined, but they all aim to build controlled environments under which data for AI development could be shared.
The Canadian Government ran a public consultation on AI, which was criticised for ‘not fulfilling key purposes of a consultation, such as transparency, democratic engagement and public education' and therefore falling short on citizen empowerment. In 2023, Brazil introduced new draft AI legislation which would include the ‘The right to human participation in decisions about AI systems’. In 2023, US Public AI Assembly explored public attitudes regarding risk and uses of AI across multiple domains including administrative records, health records, browser history, and facial recognition. The City of Amsterdam has used both citizen dialogues on the future of AI in Amsterdam as well as citizen council providing input into the design and use of an algorithm for a social assistance programme.
It seems policy-led participation around data and AI is not yet well developed. Where participation does exist, it is usually towards the lower end of Arnstein's ladder. Higher levels of empowerment involve sharing power to shape or contribute to decisions, which can be difficult in a government context. But there are initiatives emerging from civil society, industry and beyond that policy-makers can learn from.
Proposals from civil society, industry and other non-government actors
Beyond government action, there has been a wide range of activity from industry, the third sector and beyond. These proposals to empower people in the context of data and AI have broadly three different aims: enabling control, embedding the public decision making in AI models, and contributing data to AI models.
Enabling control
As well as long standing ecosystem of technical approaches to data empowerment, there are also some newer approaches emerging to empower people to control how data is used to train AI (sometimes referred to as ‘consent layers for AI’ or ‘preference signalling’).
These new approaches show the range of what empowerment means to different people and communities in practice. For example, some of these approaches are designed for transparency and to facilitate individuals’ contribution of data, while others support individuals in refusal. Some examples include:
New web publishing protocols, such as ai.txt, NoML, W3C’s TDM Reservation Protocol, Adobe’s Do Not Train metadata tag.
New technical tools, such as Nightshade, Glaze and Data Levers and other methods to limit web scraping or block crawlers.
New transparency services like ‘Have I been trained’ and ‘Exposing AI’ that help co-generators to understand if data about them, or their content, has been used to train AI models.
New types of data licences, such as RAILs and the Data Science Law Lab’s non-extractive licence. Te Hiku Media has developed the Kaitiakitanga Licence for 'indigenous people's retention of mana over data and other intellectual property in a Western construct'.
New platforms and marketplaces for data/content, such as MetaLabel and UbuntuAI.
Embedding the public decision making in AI models
Most work on enabling the public to contribute towards the development of AI models in the area of AI alignment.
OpenAI has run a grant programme on ‘democratic inputs to AI’, which led to them forming a ‘Collective Alignment’ team, consisting of researchers and engineers. This team will 'implement a system for collecting and encoding public input on model behaviour into our systems'.
In October 2023, Anthropic published the results of its own alignment work with Collective Intelligence and Polis to 'curate an AI constitution' based on the opinions of 1000 Americans. The final constitution focused more on objectivity, impartiality, and accessibility and when used to train an AI model, it was ‘slightly less biased and equally as capable as the standard Anthropic model'. Recursive Public is an experiment to identify areas of consensus and disagreement among the international AI community, policymakers and the general public.
Pilots of WeBuildAI, a collective participatory framework, found that using the framework led to improvements in the perceived fairness of decision making, public awareness of the algorithmic technology in use, as well as the organisation’s awareness of the algorithm’s impact.
Contributing data to AI models
Another way that we have seen individuals and communities engaged is through contributions to datasets. These contributions can take many forms and serve many purposes, for instance, reflecting communities' lived experiences, helping scientists and policy makers, or collectively deciding on the scope of new data analyses. An example is citizen science - projects such as FoldIt or any of the Zooniverse projects are designed from the outset to create better datasets for AI training, for instance by annotating images, audio or video content that algorithms find hard to process.
While participation is not widely spread, existing success stories show the way forward.
Communities around platforms like Wikipedia have hundreds of thousands of contributors from around the world. Data from these platforms is available under open licences for many purposes, including AI development. Solutions like Wikibench allow the community to participate directly in shaping the data that goes into AI models that Wikipedia uses, for instance, to identify malicious editors.
Projects such as BLOOM and BigCode are exploring collaborative methods for data and AI development. There are new participatory methods of data collection and model training specifically focused on language data, such as CommonVoice, Aya and FLAIR. While Karya runs a data annotation platform which pays a fair wage to its contributors. These initiatives seek to create datasets of underrepresented languages, to ultimately empower communities around the world to realise the value of AI.
Steps to take
Our recently launched Policy Manifesto, which received UK cross-party support, argued for 'empowering people and communities to help shape how data is used for society, the environment, the economy and the public good'.
We expect that the new UK government will continue to work on plans to empower research, innovation and industry with data for AI, and do so in a responsible way. We recommend that the incoming UK government:
Strengthens individual controls over data, building on the success of data portability in the banking sector, the Government must explore regulatory changes which support people to have more control over data. This could include building on the UK GDPR to provide more individualised control over data in the era of AI. This regulation must engage with the characteristics of how data is used for AI to ensure it functions in the interests of people and communities as well as industry, and should go beyond training data to include prompts and various forms of feedback.
Meaningfully utilises participatory methods to involve the public in shaping the future of data and AI in the UK, especially when it comes to the terms of use of critical national data assets and other sensitive data. Involving people through dialogue and engagement to decide how AI is regulated and used by public bodies in the UK is a good place to start. The Government can learn from current examples of citizen assemblies and forums to explore the viability of genuine delegation and control over decision making.
Supports the thriving ecosystem of participation in the UK, and works with them to improve current practice. There is a lot of expertise and innovation happening in the UK. This landscape can support efforts to improve public engagement for new data and AI regulation, including by contributing to decisions about AI as well as generating new datasets needed for AI innovation. This will also require understanding where and how engagement methods in AI lifecycles are most effective, which should be investigated through consistent funding for participatory initiatives and recognised participatory research.
At the ODI, we’re keen to provide insights and resources to policymakers working towards creating fair and inclusive data licensing models and governance frameworks. This blog is part of a series of policy interventions, which you can explore here.
If we’ve missed any examples of data empowerment or you’d like to chat with us about our work on data-centric AI please get in touch at research@theodi.org.
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com
Tác giả: Nghĩa Lê Trung
Ý kiến bạn đọc
Những tin mới hơn
Những tin cũ hơn
Blog này được chuyển đổi từ http://blog.yahoo.com/letrungnghia trên Yahoo Blog sang sử dụng NukeViet sau khi Yahoo Blog đóng cửa tại Việt Nam ngày 17/01/2013.Kể từ ngày 07/02/2013, thông tin trên Blog được cập nhật tiếp tục trở lại với sự hỗ trợ kỹ thuật và đặt chỗ hosting của nhóm phát triển...