Sáu hiểu biết sâu sắc về tín hiệu ưu tiên cho đào tạo AI

Thứ hai - 14/07/2025 05:38

“Eagle Traffic Signals – 1970s” của RS 1990 được cấp giấy phép CC BY-NC-SA 2.0.

Six Insights on Preference Signals for AI Training

Posted 23 August 2024 by Rebecca Ross

Theo: https://creativecommons.org/2024/08/23/six-insights-on-preference-signals-for-ai-training/

Bài được đưa lên Internet ngày: 23/08/2024

Trong thời buổi bất ổn này, có một điều rõ ràng: cần phải phát triển các phương pháp tiếp cận mới, tinh tế hơn đối với việc chia sẻ kỹ thuật số. Đây là chuyên môn của Creative Commons và chúng tôi sẵn sàng thực hiện thử thách này bằng cách khám phá một biện pháp can thiệp khả thi trong không gian AI: tín hiệu ưu tiên.

Tại giao điểm của những tiến bộ nhanh chóng trong AI tạo sinh và quá trình làm mới chiến lược đang diễn ra của chúng tôi, chúng tôi đã tham gia sâu vào nghiên cứu, phân tích và thúc đẩy các cuộc thảo luận về AI và sự liên kết giá trị. Mục tiêu của chúng tôi là đảm bảo rằng cơ sở hạ tầng pháp lý và kỹ thuật của chúng tôi vẫn mạnh mẽ và phù hợp trong bối cảnh đang thay đổi nhanh chóng này.

Trong thời điểm bất ổn này, có một điều rõ ràng: có một nhu cầu cấp thiết là phải phát triển các phương pháp tiếp cận mới, tinh tế đối với việc chia sẻ kỹ thuật số. Đây là chuyên môn của Creative Commons và chúng tôi đã sẵn sàng thực hiện thử thách này bằng cách khám phá một biện pháp can thiệp khả thi trong không gian AI: tín hiệu ưu tiên.

Hiểu về tín hiệu ưu tiên

Chúng tôi đã thảo luận trước đây về tín hiệu ưu tiên, nhưng hãy xem lại khái niệm này. Tín hiệu ưu tiên sẽ trao quyền cho người sáng tạo để chỉ ra các điều khoản mà tác phẩm của họ có thể hoặc không thể được sử dụng để đào tạo AI. Tín hiệu ưu tiên sẽ đại diện cho một loạt các ưu tiên của người sáng tạo, tất cả đều bắt nguồn từ các giá trị chung đã truyền cảm hứng cho các giấy phép Creative Commons (CC). Hiện tại, tín hiệu ưu tiên không có nghĩa là có thể thực thi về mặt pháp lý. Thay vào đó, chúng nhằm mục đích xác định một vốn từ vựng mới và thiết lập các chuẩn mực mới để chia sẻ và tái sử dụng trong thế giới AI tạo sinh.

Ví dụ, tín hiệu ưu tiên có thể là "Không đào tạo", "Đào tạo, nhưng tiết lộ rằng bạn đã đào tạo về nội dung của tôi" hoặc thậm chí là "Chỉ đào tạo nếu sử dụng nguồn năng lượng tái tạo".

Tại sao chúng ta cần các công cụ mới để thể hiện ưu tiên của người sáng tạo?

Việc trao quyền cho người sáng tạo có thể báo hiệu cách họ muốn nội dung của mình được sử dụng để đào tạo các mô hình AI tạo sinh là rất quan trọng vì một số lý do:

Việc sử dụng nội dung có sẵn công khai trong các mô hình AI tạo sinh có thể không nhất thiết phải phù hợp với ý định chia sẻ công khai của người sáng tạo, đặc biệt là khi việc chia sẻ đó diễn ra trước khi ra mắt và phổ biến công khai AI tạo sinh.
Với AI tạo sinh, việc sử dụng nội dung của người sáng tạo không lường trước được đang diễn ra ở quy mô lớn, bởi một số ít các công ty thương mại mạnh mẽ tập trung ở một phần rất nhỏ trên thế giới.

Bản quyền có thể không phải là khuôn khổ phù hợp để xác định các quy tắc của hệ sinh thái mới hình thành này. Vì các giấy phép CC tồn tại trong khuôn khổ bản quyền, chúng cũng không phải là công cụ phù hợp để ngăn chặn hoặc hạn chế việc sử dụng nội dung để đào tạo AI tạo sinh. Chúng tôi cũng tin rằng hệ thống nhị phân lựa chọn tham gia hoặc không tham gia để đóng góp nội dung cho các mô hình AI không đủ sắc thái để đại diện cho phổ lựa chọn mà người sáng tạo có thể muốn thực hiện.

Chúng tôi đang trong giai đoạn nghiên cứu để khám phá hệ thống tín hiệu ưu tiên có thể trông như thế nào và trong vài tháng tới, chúng tôi sẽ tổ chức nhiều cuộc họp bàn tròn và hội thảo hơn để thảo luận và nhận phản hồi từ nhiều bên liên quan. Vào tháng 6, chúng tôi đã tiến một bước dài khi tổ chức cuộc trò chuyện tập trung và tận tâm nhất của mình về tín hiệu ưu tiên tại Thành phố New York, do Trung tâm Engelberg tại NYU tổ chức.

Sáu điểm nổi bật từ Hội thảo về tín hiệu ưu tiên tại Thành phố New York

Creative Commons như một phong trào

Creative Commons là một phong trào toàn cầu, giúp chúng tôi có vị thế độc đáo để giải quyết ý nghĩa của việc chia sẻ trong bối cảnh AI tạo ra. Chúng tôi hiểu tầm quan trọng của việc quản lý tài sản chung và sự cân bằng giữa sáng tạo của con người và chia sẻ công khai.

Xác định một Hợp đồng xã hội mới

Thiết kế các công cụ chia sẻ trong kỷ nguyên AI bao gồm việc cùng nhau xác định một hợp đồng xã hội mới cho các tài sản chung kỹ thuật số. Quá trình này rất cần thiết để duy trì một cộng đồng lành mạnh và hợp tác. Cũng giống như giấy phép CC cung cấp cho người sáng tạo các tùy chọn vượt ra ngoài việc không giữ lại quyền gì (no rights reserved) và tất cả các quyền được giữ lại (all rights reserved), các tín hiệu ưu tiên có khả năng xác định một phổ các tùy chọn chia sẻ trong bối cảnh AI đi vượt ra ngoài các tùy chọn nhị phân là chọn tham gia hoặc chọn không tham gia.

Truyền đạt các giá trị và sự đồng ý

Các tín hiệu ưu tiên có nên truyền đạt các giá trị và nguyên tắc riêng lẻ như công bằng và bình đẳng không? Việc thêm nội dung vào tài sản chung bằng giấy phép CC là một hành động truyền đạt các giá trị; các tín hiệu ưu tiên có nên làm như vậy không? Những người tham gia hội thảo nhấn mạnh đến nhu cầu về các cơ chế hỗ trợ sự đồng ý có thông tin của cả người sáng tạo và người dùng.

Hỗ trợ người sáng tạo và củng cố tài sản chung

Trường hợp sử dụng phổ biến và rõ ràng nhất đối với tín hiệu ưu tiên là hạn chế sử dụng nội dung trong các mô hình AI tạo sinh để bảo vệ nghệ sĩ và người sáng tạo. Ngoài ra còn có nghịch lý là người dùng có thể muốn hưởng lợi từ ưu tiên thoải mái hơn của người sáng tạo so với ưu tiên mà họ sẵn sàng trao cho những người dùng khác khi nói đến nội dung của họ. Chúng tôi tin rằng các tín hiệu ưu tiên đáp ứng nhu cầu cụ thể của từng lĩnh vực của người sáng tạo và người dùng, cũng như các chuẩn mực do cộng đồng và xã hội thúc đẩy tiếp tục củng cố tài sản chung, không loại trừ lẫn nhau.

Gắn thẻ nội dung do AI tạo ra so với nội dung do con người tạo ra

Trong khi các thẻ cho nội dung do AI tạo ra đang trở nên phổ biến, thì các thẻ cho nội dung do con người tạo ra thì sao? Mục tiêu chung của các tín hiệu ưu tiên là thúc đẩy tài sản chung và khuyến khích sự sáng tạo và chia sẻ của con người nhiều hơn. Đối với nhiều người, các cuộc thảo luận về AI về bản chất là các cuộc thảo luận về các vấn đề lao động và nguy cơ bị bóc lột. Hiện tại, luật pháp không có khái niệm "yêu thương con người", vì tính nhân văn đã được coi là điều hiển nhiên cho đến tận bây giờ. "Yêu thương con người" có phải là "phi thương mại" mới không? Các mô hình AI tạo sinh cũng buộc chúng ta phải cân nhắc ý nghĩa của việc trở thành người sáng tạo, đặc biệt là khi hầu hết các công cụ sáng tạo kỹ thuật số sẽ sớm được AI điều khiển. Có một tập hợp các hoạt động cụ thể nào cần được bảo vệ trong quá trình sáng tạo và chia sẻ không? Làm thế nào để chúng ta giải quyết các đầu vào và đầu ra của sự hợp tác giữa con người và AI tạo sinh?

Ưu tiên AI vì lợi ích công cộng

Chúng ta phải đảm bảo rằng AI mang lại lợi ích cho tất cả mọi người. Việc tăng cường đầu tư công và quản trị AI có sự tham gia là rất quan trọng. Các thực thể thương mại lớn nên cung cấp lợi ích công cộng để đổi lấy việc sử dụng nội dung của người sáng tạo cho mục đích đào tạo. Chúng ta không thể dựa vào các bên thương mại để đưa ra các chuẩn mực của ngành ảnh hưởng đến tương lai của các tài sản chung mở.

Các bước tiếp theo

Tiến về phía trước, thành công của chúng ta sẽ phụ thuộc vào các cuộc tham vấn cộng đồng được mở rộng và mang tính đại diện. Trong những tháng tới, chúng tôi sẽ:

Tiếp tục triệu tập các thành viên cộng đồng của chúng tôi trên toàn cầu để thu thập ý kiến đóng góp trong lĩnh vực đang phát triển nhanh chóng này;
Tiếp tục tham khảo ý kiến của các chuyên gia pháp lý và kỹ thuật để xem xét các phương pháp khả thi;

Tích cực tham gia vào các sáng kiến có sự kết nối của các tổ chức xã hội dân sự khác có các ưu tiên phù hợp với chúng ta;
Xác định các trường hợp sử dụng mà khuôn khổ tín hiệu ưu tiên sẽ hiệu quả nhất;
Nguyên mẫu một cách công khai và minh bạch, tìm kiếm phản hồi và ý kiến đóng góp trong suốt quá trình để định hình khuôn khổ có thể trông như thế nào;
Xây dựng và củng cố các quan hệ đối tác phù hợp nhất để giúp chúng ta thực hiện công việc này.

Những bước tiến cấp cao này chỉ là khởi đầu. Chúng tôi hy vọng sẽ thử nghiệm một khuôn khổ trong năm tới. Hãy theo dõi không gian này khi chúng tôi khám phá và chia sẻ thêm thông tin chi tiết và kế hoạch. Chúng tôi biết ơn Morrison Foerster đã hỗ trợ cho hội thảo tại New York.

Hãy tham gia cùng chúng tôi bằng cách hỗ trợ công việc đang diễn ra này

Bạn có khả năng tạo ra sự khác biệt theo cách phù hợp nhất với bạn. Bằng cách quyên góp cho CC, bạn không chỉ giúp chúng tôi tiếp tục công việc quan trọng của mình mà còn được hưởng lợi từ các khoản đóng góp được khấu trừ thuế. Việc tặng quà của bạn rất đơn giản – chỉ cần nhấp vào đây. Cảm ơn sự ủng hộ của bạn.

“Eagle Traffic Signals – 1970s” by RS 1990 is licensed via CC BY-NC-SA 2.0..

In these uncertain times, one thing is clear: there is an urgent need to develop new, nuanced approaches to digital sharing. This is Creative Commons’ speciality and we’re ready to take on this challenge by exploring a possible intervention in the AI space: preference signals.

At the intersection of rapid advancements in generative AI and our ongoing strategy refresh, we’ve been deeply engaged in researching, analyzing, and fostering conversations about AI and value alignment. Our goal is to ensure that our legal and technical infrastructure remains robust and suitable in this rapidly evolving landscape.

Understanding Preference Signals

We’ve previously discussed preference signals, but let’s revisit this concept. Preference signals would empower creators to indicate the terms by which their work can or cannot be used for AI training. Preference signals would represent a range of creator preferences, all rooted in the shared values that inspired the Creative Commons (CC) licenses. At the moment, preference signals are not meant to be legally enforceable. Instead, they aim to define a new vocabulary and establish new norms for sharing and reuse in the world of generative AI.

For instance, a preference signal might be “Don’t train,” “Train, but disclose that you trained on my content,” or even “Train, only if using renewable energy sources.”

Why Do We Need New Tools for Expressing Creator Preferences?

Empowering creators to be able to signal how they wish their content to be used to train generative AI models is crucial for several reasons:

The use of openly available content within generative AI models may not necessarily be consistent with creators’ intention in openly sharing, especially when that sharing took place before the public launch and proliferation of generative AI.
With generative AI, unanticipated uses of creator content are happening at scale, by a handful of powerful commercial players concentrated in a very small part of the world.
Copyright is likely not the right framework for defining the rules of this newly formed ecosystem. As the CC licenses exist within the framework of copyright, they are also not the correct tools to prevent or limit uses of content to train generative AI. We also believe that a binary opt-in or opt-out system of contributing content to AI models is not nuanced enough to represent the spectrum of choice a creator may wish to exercise.

We’re in the research phase of exploring what a system of preference signals could look like and over the next several months, we’ll be hosting more roundtables and workshops to discuss and get feedback from a range of stakeholders. In June, we took a big step forward by organizing our most focused and dedicated conversation about preference signals in New York City, hosted by the Engelberg Center at NYU.

Six Highlights from Our NYC Workshop on Preference Signals

Creative Commons as a Movement

Creative Commons is a global movement, making us uniquely positioned to tackle what sharing means in the context of generative AI. We understand the importance of stewarding the commons and the balance between human creation and public sharing.

Defining a New Social Contract

Designing tools for sharing in an AI-driven era involves collectively defining a new social contract for the digital commons. This process is essential for maintaining a healthy and collaborative community. Just as the CC licenses gave options for creators beyond no rights reserved and all rights reserved, preference signals have the potential to define a spectrum of sharing preferences in the context of AI that goes beyond the binary options of opt-in or opt-out.

Communicating Values and Consent

Should preference signals communicate individual values and principles such as equity and fairness? Adding content to the commons with a CC license is an act of communicating values; should preference signals do the same? Workshop participants emphasized the need for mechanisms that support informed consent by both the creator and user.

Supporting Creators and Strengthening the Commons

The most obvious and prevalent use case for preference signals is to limit use of content within generative AI models to protect artists and creators. There is also the paradox that users may want to benefit from more relaxed creator preferences than they are willing to grant to other users when it comes to their content. We believe that preference signals that meet the sector-specific needs of creators and users, as well as social and community-driven norms that continue to strengthen the commons, are not mutually exclusive.

Tagging AI-Generated vs. Human-Created Content

While tags for AI-generated content are becoming common, what about tags for human-created content? The general goal of preference signals should be to foster the commons and encourage more human creativity and sharing. For many, discussions about AI are inherently discussions about labor issues and a risk of exploitation. At this time, the law has no concept of “lovingly human”, since humanness has been taken for granted until now. Is “lovingly human” the new “non-commercial”? Generative AI models also force us to consider what it means to be a creator, especially as most digital creative tools will soon be driven by AI. Is there a specific set of activities that need to be protected in the process of creating and sharing? How do we address human and generative AI collaboration inputs and outputs?

Prioritizing AI for the Public Good

We must ensure that AI benefits everyone. Increased public investment and participatory governance of AI are vital. Large commercial entities should provide a public benefit in exchange for using creator content for training purposes. We cannot rely on commercial players to set forth industry norms that influence the future of the open commons.

Next Steps

Moving forward, our success will depend on expanded and representative community consultations. Over the coming months, we will:

Continue to convene our community members globally to gather input in this rapidly developing area;
Continue to consult with legal and technical experts to consider feasible approaches;
Actively engage with the interconnected initiatives of other civil society organizations whose priorities are aligned with ours;
Define the use cases for which a preference signals framework would be most effective;
Prototype openly and transparently, seeking feedback and input along the way to shape what the framework could look like;
Build and strengthen the partnerships best suited to help us carry this work forward.

These high-level steps are just the beginning. Our hope is to be piloting a framework within the next year. Watch this space as we explore and share more details and plans. We’re grateful to Morrison Foerster for providing support for the workshop in New York.

Join us by supporting this ongoing work

You have the power to make a difference in a way that suits you best. By donating to CC, you are not only helping us continue our vital work, but you also benefit from tax-deductible contributions. Making your gift is simple – just click here. Thank you for your support.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Tác giả: Nghĩa Lê Trung