Creators Will Soon Be Able to Demand Payment for AI Training Use
Written by Fiona Jackson , Jun 27, 2025
Theo: https://www.eweek.com/news/creative-commons-signals/
Bài được đưa lên Internet ngày: 27/06/2025

Image: iStock/stefanamer
Creative Commons, tổ chức phi lợi nhuận đứng sau các giấy phép mở được sử dụng rộng rãi nhất thế giới, đã phát triển một khuôn khổ mới cho phép người sáng tạo bày tỏ rõ ràng rằng họ không đồng ý cho tác phẩm của mình được sử dụng để đào tạo các mô hình trí tuệ nhân tạo.
Được gọi là tín hiệu CC (CC Signals), hệ thống này cho phép chủ sở hữu nội dung đính kèm siêu dữ liệu có thể đọc được bằng máy đối với các tác phẩm kỹ thuật số của họ, thể hiện mong muốn của họ cho việc sử dụng lại của AI. Họ có thể chọn "Có", tức là họ đồng ý cho phép sử dụng tác phẩm trong đào tạo, hoặc "Không", tức là họ không đồng ý, và sau đó thêm một trong bốn điều kiện để sử dụng:
Công trạng (Credit): Phải ghi nhận công lao phù hợp.
Đóng góp trực tiếp (Direct Contribution): Phải cung cấp hỗ trợ tài chính cho chủ sở hữu tác phẩm.
Đóng góp cho hệ sinh thái (Ecosystem Contribution): Phải cung cấp hỗ trợ tài chính cho hệ sinh thái mà AI đang được hưởng lợi thông qua việc sử dụng tác phẩm làm dữ liệu đào tạo.
Mở (Open): Hệ thống AI được sử dụng phải là hệ thống mở.
Phải cung cấp sự ghi nhận công trạng cho chủ sở hữu tác phẩm với cả bốn tín hiệu. Tín hiệu này cũng có thể chỉ ra phạm vi sử dụng AI mà nhãn áp dụng, chẳng hạn như khai thác văn bản và dữ liệu, đào tạo AI tạo sinh hoặc suy luận AI.
Các nhà phát triển AI, người thu thập dữ liệu (scraper) hoặc người tổng hợp dữ liệu có thể quét nội dung để tìm tín hiệu CC bằng các phương pháp được chuẩn hóa, chẳng hạn như tiêu đề HTTP và siêu dữ liệu. Những phương pháp này không thay thế các giấy phép bản quyền như CC-BY hoặc CC0 mà được thêm vào.
Các tín hiệu CC hiện không có hiệu lực thi hành mà hoạt động như các dấu hiệu xã hội và đạo đức, tương tự như giấy phép CC. Creative Commons cho biết trong một bài đăng trên blog rằng khuôn khổ này cung cấp một giải pháp thay thế cho sự bùng nổ đào tạo AI, ngoài việc "trích xuất dữ liệu và làm xói mòn tính mở" hoặc "một mạng Internet bị ngăn cách bởi các bức tường phí".
"Nếu chúng ta cam kết hướng tới một tương lai nơi kiến thức vẫn mở, chúng ta cần cùng nhau kiên trì với một hình thức cho và nhận mới", Sarah Hinchliff Pearson, cố vấn chung của Creative Commons, cho biết trong blog. "Một sở thích riêng lẻ, được thể hiện một cách độc đáo, sẽ không quan trọng trong thời đại máy móc. Nhưng cùng nhau, chúng ta có thể yêu cầu một cách khác."
Creative Commons cho biết các tín hiệu CC là kết quả của "nhiều năm tham vấn và phân tích", nhưng vẫn đang tìm kiếm phản hồi từ công chúng trong vài tháng tới. Hy vọng có thể chính thức ra mắt khuôn khổ này vào tháng 11.
Các nhà sáng tạo và các công ty AI đang tranh cãi về cách tiếp cận dữ liệu đào tạo
Sự xuất hiện của AI trong vài năm qua đã chứng kiến sự đối đầu giữa ngành công nghệ và sáng tạo. Các công ty công nghệ muốn các mô hình AI của họ hữu ích nhất có thể, điều này đồng nghĩa với việc cung cấp cho chúng một lượng lớn dữ liệu mới do con người tạo ra. Họ cũng đang chạy đua để đổi mới và vượt qua các đối thủ cạnh tranh, dù biết là việc xin phép hoặc trả tiền cho người sáng tạo có thể làm chậm họ lại và làm giảm lợi nhuận.
Trong khi đó, những người sáng tạo, vốn e ngại việc cung cấp các công cụ có thể cạnh tranh với họ, vẫn nhìn thấy tiềm năng được đền bù xứng đáng và đóng góp vào các mô hình có thể thúc đẩy tiến bộ có ý nghĩa trong các lĩnh vực như y tế và giáo dục.
Các cuộc chiến pháp lý và tranh luận về bản quyền đang diễn ra trên khắp trên thế giới khi tòa án và các nhà lập pháp vật lộn để tìm cách giải quyết mâu thuẫn cơ bản này giữa đổi mới và quyền sáng tạo. Anthropic, Meta, Perplexity, Stability AI, Midjourney, và OpenAI (rất, rất, rất nhiều lần) nằm trong số các nhà phát triển AI đã phải đối mặt với các hành động pháp lý từ các nghệ sĩ, hãng tin và nhạc sĩ vì sử dụng tác phẩm của họ mà không có sự đồng ý. Công ty khởi nghiệp của Sam Altman đã ký một số thỏa thuận cấp phép với các nhà xuất bản để tránh rắc rối thêm.
Các nền tảng trực tuyến đang cố gắng kiểm soát ở cấp độ cá nhân
Một số nền tảng đã thực hiện các thay đổi đối với cơ sở hạ tầng kỹ thuật và chính sách của họ để kiểm soát chặt chẽ hơn việc thu thập dữ liệu AI từ nội dung của người dùng. X đã thay đổi chính sách bảo mật vào đầu tháng này để không cho phép sử dụng nội dung X để "tinh chỉnh hoặc đào tạo một mô hình nền tảng hoặc mô hình cận biên".
Reddit đã cập nhật các tệp robots.txt của mình vào năm ngoái để chặn các bot và trình thu thập dữ liệu AI trái phép, đồng thời vẫn tiếp tục cho phép các tác nhân có thiện chí như các nhà nghiên cứu và Internet Archive truy cập. Tháng này, Reddit đã kiện Anthropic vì liên tục thu thập dữ liệu diễn đàn của mình mà không được phép.
Công ty an ninh mạng Cloudflare đã ra mắt các công cụ được thiết kế để phá vỡ trình thu thập dữ liệu web AI và cho phép chủ sở hữu trang web xem và kiểm soát tần suất các mô hình AI sử dụng nội dung trang web của họ. Giám đốc điều hành Matthew Prince đã chỉ trích tình trạng hiện tại của Internet, nơi người đọc phải đối mặt với các bức tường phí và quảng cáo xâm nhập, trong khi các trình thu thập dữ liệu AI được sử dụng nội dung miễn phí. Ông hy vọng sẽ đảo ngược mô hình này bằng cách ra mắt một thị trường Cloudflare, nơi chủ sở hữu trang web có thể bán quyền truy cập vào nội dung của họ để đào tạo AI. Bạn muốn biết các trang web đang phản đối việc thu thập dữ liệu AI như thế nào? Đọc thêm trên eWeek về phong trào ngày càng phát triển nhằm ngăn chặn các bot đào tạo.
Fiona Jackson là một cây bút tin tức, bắt đầu sự nghiệp báo chí tại hãng thông tấn SWNS, sau đó làm việc tại MailOnline, một công ty quảng cáo, và TechnologyAdvice. Công việc của cô trải dài từ mảng quan tâm đến con người đến đưa tin về công nghệ tiêu dùng, và xuất hiện trên các phương tiện truyền thông nổi tiếng như TechHQ, The Independent, Daily Mail và The Sun.
Creative Commons, the nonprofit behind the world’s most widely used open licenses, has developed a new framework that allows creators to clearly express that they do not consent to their work being used to train artificial intelligence models.
Known as CC signals, the system enables content owners to attach machine-readable metadata to their digital works, signalling their preferences for AI reuse. They can either indicate “Yes,” they are happy for it to be used in training, or “No,” they are not, and then add one of four conditions for use:
Credit: Appropriate credit must be given.
Direct Contribution: Monetary support must be provided to the work owner.
Ecosystem Contribution: Monetary support must be provided to the ecosystem that the AI is benefiting from through the use of the work as training data.
Open: The AI system used must be open.
Credit must be provided to the work owner with all four signals. The signal can also indicate the scope of AI usage the labels apply to, such as text and data mining, generative AI training, or AI inference.
AI developers, scrapers, or dataset aggregators can scan content for CC signals using standardised methods, like HTTP headers and metadata. These do not replace copyright licenses such as CC-BY or CC0 but are layered on top.
The CC signals are not currently enforceable but act more as social and ethical markers, similar to CC licenses. Creative Commons said in a blog post that the framework provides an alternative response to the proliferation of AI training other than “data extraction and the erosion of openness” or “a walled-off internet guarded by paywalls.”
“If we are committed to a future where knowledge remains open, we need to collectively insist on a new kind of give-and-take,” Sarah Hinchliff Pearson, general counsel, Creative Commons, said in the blog. “A single preference, uniquely expressed, is inconsequential in the machine age. But together, we can demand a different way.”
Creative Commons said that CC signals are the result of “years of consultation and analysis,” but it is still seeking public feedback over the next few months. It hopes to formally launch the framework in November.
Creators and AI companies at war over training data approaches
The emergence of AI over the past few years has seen the tech and creative industries butt heads. Tech companies want their AI models to be as useful as possible, which means feeding them vast amounts of fresh, human-created data. They’re also racing to innovate and outpace competitors, knowing that asking permission or paying creators could slow them down and cut into profits.
Meanwhile, creators, wary of powering tools that may eventually compete with them, still see potential in being fairly compensated and in contributing to models that could drive meaningful progress in fields like medicine and education.
Legal battles and copyright debates are unfolding around the world as courts and lawmakers grapple with how to resolve this fundamental tension between innovation and creative rights. Anthropic, Meta, Perplexity, Stability AI, Midjourney, and OpenAI (many, many, many times) are among the AI developers that have faced legal action from the likes of artists, news outlets, and musicians for using their work without consent. Sam Altman’s startup has signed a number of licensing deals with publishers to avoid further trouble.
Online platforms are trying to take control at an individual level
A number of platforms have made changes to their technical infrastructure and policies to gain more control over AI data scraping of their users’ content. X changed its privacy policy earlier this month to disallow the use of X content to “fine-tune or train a foundation or frontier model.”
Reddit updated its robots.txt files last year to block unauthorised AI bots and crawlers, while continuing to allow access for good-faith actors like researchers and the Internet Archive. It sued Anthropic this month for repeatedly crawling its forums without permission.
Cybersecurity company Cloudflare has launched tools designed to disrupt AI web crawlers and let website owners see and control how often AI models use their site’s content. CEO Matthew Prince has criticised the current state of the internet, where human readers face paywalls and intrusive ads, while AI scrapers get to consume content for free. He hopes to turn this model on its head by launching a Cloudflare marketplace where website owners can sell access to their content for AI training. Want to know how websites are pushing back against AI scraping? Read more on eWeek about the growing movement to block training bots.
Fiona Jackson is a news writer who started her journalism career at SWNS press agency, later working at MailOnline, an advertising agency, and TechnologyAdvice. Her work spans human interest and consumer tech reporting, appearing in prominent media outlets such as TechHQ, The Independent, Daily Mail, and The Sun.
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com
Tác giả: Nghĩa Lê Trung
Ý kiến bạn đọc
Những tin cũ hơn