By Maria Belen Guaranda, January 23, 2020
Bài được đưa lên Internet ngày: 23/01/2020
Xem thêm: Giáo dục Mở và Tài nguyên Giáo dục Mở
Đây là phần của loạt bài đăng giới thiệu các dự án được những người đóng góp nguồn mở xây dựng và được Creative Commons hướng dẫn trong quá trình cuộc thi Lập trình Mùa hè của Google năm 2019 - Google Summer of Code (GSoC) 2019. Maria Belen Guaranda là một trong những người đóng góp và chúng tôi biết ơn vì công việc của cô trong dự án này.
“Bằng việc trực quan hóa thông tin, chúng tôi biến nó thành một bức tranh để bạn có thể khai thác bằng đôi mắt của bạn”. David McCandless
Bức tranh nội dung được cấp phép mở là rộng lớn và đa dạng. Hàng triệu trang web đặt chỗ và chia sẻ các tác phẩm được cấp phép CC - trên thực tế, chúng tôi ước tính có hơn 1,6 tỷ khắp trên web! Với sự tăng trưởng này các tác phẩm được cấp phép CC, Creative Commons (CC) đang ngày càng được quan tâm trong việc học cách để đặt chỗ và những người sử dụng các tư liệu được cấp phép CC được kết nối, cũng như các dạng nội dung được xuất bản theo một giấy phép CC và cách thức nội dung này được chia sẻ. Mỗi tháng, CC sử dụng dữ liệu Common Crawl để tìm kiếm tất cả các miền có chứa nội dung được cấp phép CC. Tập hợp dữ liệu này gồm thông tin về địa chỉ web URL của các website và các giấy phép được sử dụng.
Để đưa ra các kết luận và sự thấu hiểu từ tập hợp dữ liệu này, chúng tôi đã tạo ra Cái chung được Liên kết (Linked Commons): sự trực quan hóa chỉ ra cách Cái chung được Liên kết dạng số như thế nào.
Trong Linked Commons, các nút (các đơn vị trong một cấu trúc dữ liệu) đại diện cho các website của một tổ chức, con người, cơ sở hàn lâm, .v.v. Đường liên kết giữa các nút tồn tại nếu một website đặt chỗ nội dung được cấp phép CC thuộc về hoặc được đặt chỗ bởi một website khác (như được một đường liên kết URL chỉ ra). Cộng đồng đại diện cho nhóm các website có liên quan chặt chẽ với nhau vì họ sản xuất và/hoặc chia sẻ nội dung giữa họ với nhau.
Lượng dữ liệu khổng lồ làm cho bất kỳ trình duyệt web nào trả về các yếu tố thành phần chậm và có thể thậm chí treo. Vì 100 ngàn nút bao gồm trong Linked Commons, sự trực quan đó ban đầu mất nhiều thời gian để trả về và đã có xuất hiện bị phân mảnh - điều này từng là mối lo ngại chính.
Điều đó giải thích vì sao chúng tôi đã quyết định sử dụng dữ liệu từ chỉ một tháng duy nhất và chọn 500 website hàng đầu có chứa các đường liên kết tới tư liệu được cấp phép CC, cũng như tất cả các miễn khác mà 500 nút đó được kết nối tới. Bổ sung thêm vào việc làm giảm thời gian tải, chúng tôi thấy điều này cũng là thân thiện với người sử dụng vì việc điều hướng đồ họa của toàn bộ tập hợp dữ liệu có thể là chóng mặt. Thậm chí với tập hợp dữ liệu nhỏ hơn này, chúng tôi đã có khả năng thu thập những thấu hiểu đáng giá từ hình đồ họa đó, bao gồm việc phát hiện các cộng đồng con các máy chủ và những người sử dụng giấy phép CC. Một cộng đồng con như vậy được chỉ ra trong hình bên dưới.
Cộng đồng con ở trên là một cộng đồng “giáo dục”; được hình thành từ các thư viện, các trường đại học, và các trường phổ thông.
Các trực quan hóa như vậy là đáng giá cho CC vì chúng có thể giúp hướng dẫn các nỗ lực vươn ra ngoài của chúng tôi và cho các truyền thông có nhắm đích. Đội Tìm kiếm CC (CC Search) cũng có thể sử dụng dữ liệu này để chọn các lĩnh vực nào ưu tiên đánh chỉ mục trong Catalog của CC.
Trực quan hóa là có tính tương tác; những người sử dụng có thể xoay, phóng to và thu nhỏ, hơ chuột qua nút để thấy các láng giềng của nó, và nhấn vào nút để hiển thị đồ thị dạng bánh, giống như ảnh bên dưới. Chúng tôi khuyến khích những người sử dụng kiểm thử Linked Commons và xem những thấu hiểu nào họ có thể thu thập được từ thông tin này!
Tiếp theo là gì?
Chúng tôi có kế hoạch tiếp tục làm việc về Linked Commons. Đây là vài tính năng chúng tôi hy vọng bổ sung thêm:
-
Cập nhật sống động - Đồ họa đó hiện là tĩnh vì nó sử dụng tệp dữ liệu của chỉ một tháng duy nhất đã được xử lý. Chúng tôi muốn cập nhật tự động đồ họa đó ngay khi dữ liệu mới được xử lý.
-
Lọc các miền theo quốc gia - Vài miền có các hậu tố đại diện cho các quốc gia, như domain.au tương ứng với miền từ nước Úc. Chúng tôi có kế hoạch sử dụng các hậu tố đó để lọc các nút trong sự trực quan hóa theo quốc gia.
-
Lọc các miền theo tên - Người sử dụng có thể muốn kiểm tra liệu miền nhất định nào đó có nội dung được cấp phép CC và nội dung đó được sử dụng như thế nào. Chúng tôi có kế hoạch bổ sung thêm thanh tìm kiếm và cung cấp cho người sử dụng khả năng tìm kiếm nút nhất định nào đó nếu biết tên miền và/hoặc URL.
Hãy cho chúng tôi phản hồi của bạn!
Linked Commons là dự án nguồn mở. Mã nguồn của dự án là sẵn sàng trong kho Github. Những đóng góp được chào đón! Các chi tiết kỹ thuật về dự án này đã được phát triển như thế nào, vui lòng đọc loạt bài đăng này trên blog CC Open Source.
This is part of a series of posts introducing the projects built by open source contributors mentored by Creative Commons during Google Summer of Code (GSoC) 2019. Maria Belen Guaranda was one of those contributors and we are grateful for her work on this project.
“By visualizing information, we turn it into a landscape that you can explore with your eyes.” David McCandless
The landscape of openly licensed content is wide and varied. Millions of web pages host and share CC-licensed works—in fact, we estimate that there are over 1.6 billion across the web! With this growth of CC-licensed works, Creative Commons (CC) is increasingly interested in learning how hosts and users of CC-licensed materials are connected, as well as the types of content published under a CC license and how this content is shared. Each month, CC uses Common Crawl data to find all domains that contain CC-licensed content. This dataset contains information about the URL of the websites and the licenses used.
Using the Linked Commons
In order to draw conclusions and insights from this dataset, we created the Linked Commons: a visualization that shows how the Commons is digitally connected.
In the Linked Commons, nodes (units in a data structure) represent websites of an organization, person, academic institution, etc. A link between nodes exists if one website hosts CC-licensed content that belongs to or is hosted by another website (as indicated by a URL link). A community represents a group of websites that are closely related to each other because they produce and/or share CC-licensed content between them.
Vast quantities of data make any web browser render elements slowly and may eventually freeze. Due to the 100k nodes included in the Linked Commons, the visualization initially took a long time to render and had a clustered appearance—this was a major concern.
That’s why we decided to use data from only a single month and chose the top 500 websites containing links to CC-licensed material, as well as all of the other domains those 500 nodes are connected to. In addition to lessening the loading time, we found that this was also more user-friendly because navigating the entire dataset’s graph would be dizzying. Even with this smaller dataset, we were able to gather valuable insights from the graph, including discovering subcommunities of CC license hosts and users. One such subcommunity is shown in the image below.
The subcommunity above is an “educational” community; made up of libraries, universities, and schools.
Visualizations like these are valuable for CC because they can help guide our outreach efforts and targeted communications. The CC Search team can also use this data to choose which domains to prioritize indexing in the CC Catalog.
The visualization is interactive; users can pan, zoom in and out, hover over a node to see its neighbors, and click on a node to display a pie chart, like the one below. We encourage users to test out the Linked Commons and see what insights they can gather from this information!
What’s next?
We plan to continue working on the Linked Commons. Here are some features we hope to add:
-
Live updates—The graph is currently static because it uses a single month’s data file that has already been processed. We would like to automatically update the graph as soon as new data is processed.
-
Filtering domains by country—Some domains have suffixes that represent countries, such as domain.au which corresponds to a domain from Australia. We plan to use these suffixes to filter nodes in the visualization by country.
-
Filtering domains by name—A user might want to check if a specific domain has CC-licensed content and how that content is used. We plan to add a search bar and provide the user with the ability to search for a specific node given a domain name and/or URL.
Give us your feedback!
The Linked Commons is an open source project. The project’s source code is available in the Github repo. Contributions are welcome! For the technical details of how this project was developed, please read this series of posts on the CC Open Source blog.
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com