Bạn có thể làm gì với dữ liệu mở?

Thứ tư - 22/06/2016 06:02

What can you do with open data?

Posted 09 May 2016 by Gordon Haff

Theo: https://opensource.com/business/16/5/what-can-you-do-open-data

Bài được đưa lên Internet ngày: 09/05/2016

Chơi trò chơi có liên quan tới từ ngữ và từ “mở” sẽ gần như chắc chắn được đi theo với từ “nguồn”. Và nguồn mở chắc chắn là sức mạnh quan trọng cho việc lưu giữ các quyền tự do và sự truy cập của người sử dụng tới điện toán. Tuy nhiên, mã không chỉ là dạng tính mở quan trọng.

Dữ liệu mở

Dữ liệu mở đã được thảo luận ít nhất một thập kỷ. Ở hội nghị OSCON năm 2007, Tim O'Reilly đã khởi động một chút huyên náo khi ông đã gợi ý rằng dữ liệu mở thực sự có thể quan trọng hơn là mã mở. Dữ liệu mở trong ngữ cảnh này hầu hết tham chiếu tới khả năng xuất các dữ liệu “Web 2.0” được người sử dụng tạo ra, nó từng trở thành quan trọng vào thời điểm đó. Tim Bray, sau đó ở Sun Microsystems, đã nhấn mạnh vấn đề đó khi ông đã viết:

Cuối cùng, thông tin sống ngoài phần mềm và vượt qua phần mềm và giá trị hơn phần mềm.

Cùng lúc, các khía cạnh khác của dữ liệu mở đã bắt đầu được đặt ra - bao gồm sự truy cập tới các nguồn dữ liệu của nhà nước. Thậm chí khi dữ liệu nhà nước đã sẵn sàng rồi cho các nhà nghiên cứu và những người khác, thường nó không ở dạng có thể tự do và dễ dàng truy cập được. Ví dụ, khi tôi đã nhìn vào việc sử dụng thông tin mức nước sông từ Khỏa sát Địa lý Mỹ xung quanh thời gian đó, tôi đã thấy rằng tôi có lẽ cần phải làm vài trang web phức tạp nạo vét để có thông tin ở dạng tôi có thể nhập vào một chương trình. Nhiều dạng khác của dữ liệu là hoàn toàn không có sẵn trên trực tuyến.

Điều này đã bắt đầu thay đổi theo một cách thức có hệ thống. Vào tháng 5/2009, Giám đốc Thông tin của Mỹ khi đó là Vikek Kundra đã khởi xướng Data.gov. Tới lượt nó, điều này đã dẫn tới lệnh thực thi năm 2013 mà "đã làm cho dữ liệu mở và máy đọc được trở thành mặc định cho các thông tin của chính phủ". Nhiều bang và vùng tự trị cũng đã mở rộng dữ liệu họ đã làm cho sẵn sàng. Vào tháng 3/2016, Nhà Trắng đã tung ra cái gọi là Dự án Cơ hội (Opportunity Project) tập trung vào các công cụ để trực quan hóa và sử dụng các dữ liệu nhà nước theo các cách thức hữu dụng. 8 thành phố của nước Mỹ — Baltimore, Detroit, Kansas City (Missouri), New Orleans, New York, Philadelphia, San Francisco, và Washington D.C.— hiện đang tham gia trong dự án này.

Nhiều trong số các tập hợp dữ liệu đó đại diện cho sự kiện, sự đo đếm, hoặc đối tượng vật lý ở một địa điểm đặc thù. Như tôi đã từng viết trước đó, dữ liệu như vậy có thể được trực quan hóa bằng việc sử dụng dữ liệu bản đồ từ nguồn như OpenStreetMap và nhúng nó vào trang web với thư viện Javascript như Leaflet.

Many of these data sets represent an event, a measurement, or a physical object at a specific location. As I've written about previously, such data can be visualized by using map data from a source such as OpenStreetMap and embedding it into a web page with a Javascript library like Leaflet.

Để làm cho mọi điều cụ thể hơn, hãy nhìn vào dữ liệu từ một thành phố cụ thể: Cambridge, Massachusetts. Cambridge làm cho 160 bộ dữ liệu sẵn sàng. Chúng bao gồm dữ liệu điều tra y tế, tai nạn, các báo cáo tội phạm, thông tin điều tra dân số, các cây được duy trì trong thành phố, các yêu cầu sửa chữa các ổ gà, và nhiều hơn thế nữa.

Dữ liệu có thể tải về được ở các định dạng khác nhau (JSON, XML, CSV). Định dạng nào bạn sử dụng sẽ phụ thuộc vào các ưu tiên của bạn và liệu bạn có muốn làm việc với các dữ liệu có tính chương trình hoặc trong các công cụ thông thường hơn đối với những người sử dụng, như một bảng tính. Bạn sẽ lưu ý rằng nhiều dữ liệu như vậy tham chiếu tới các vị trí, mặc dù bạn thường cần chuyển đổi các địa chỉ đường phố thành các tọa độ địa lý (như, kinh độ và vĩ độ) bằng việc sử dụng cơ sở dữ liệu mã địa lý/giải mã địa lý để hiển thị nó bằng việc sử dụng các chương trình được nêu ở trên như Leaflet và OpenStreetMap. Nominatum là máy tìm kiếm cho dữ liệu của OpenStreetMap. Các lựa chọn khác bao gồm Google Maps.

Tuy nhiên, những khai thác dữ liệu của bạn không cần phải bị hạn chế để chọc que lên bản đồ. Việc tưởng tượng thực hiện các tổng hợp và đối sánh phức tạp hơn đối với các bộ dữ liệu khác nhau bằng việc sử dụng dải rộng lớn các kỹ thuật thống kê và trực quan hóa không khó khăn. (D3.js là thư viện đặc biệt phổ biến của Javascript cho việc điều khiển các tài liệu dựa vào dữ liệu, và là công cụ mạnh cho việc hiển thị dữ liệu theo các cách thức có thể vừa nắm bắt được vừa cả nguồn của sự hiểu thấu thực sự). Ví dụ, hãy tưởng tượng nhìn vào cách các dịch vụ của thành phố được cung cấp trong các vùng lân cậnkhác nhau thông qua thành phố; các dạng mẫu đó có thể là cơ sở cho nghề báo chí với dữliệu dựa vào bằng chứng.

Điều đó để nói, là đáng đưa ra cảnh báo trước khó khăn ở thời điểm này rằng dữ liệu mở là chủ đề cho sự hiểu sai và sử dụng sai y hệt như dữ liệu từ bất kỳ nguồn nào khác. Hiểu được nguồn gốc và các hạn chế của bất kỳ các tập hợp dữ liệu nào bạn sử dụng. Nói chung, ngày càng có dải lớn các dữ liệu mở có sẵn từ các nguồn tin cậy mà đã thu thập nó bằng việc sử dụng các kỹ thuật khá khó khăn. Tuy nhiên, thậm chí dạng dữ liệu này có thể lỗi thời - hoặc nó có thể đơn giản không truyền đạt được thông tin bạn nghĩ nó làm được dựa vào cái nhìn nhanh ban đầu.

Hơn nữa hãy nhận thức được về những cạm bẫy tiềm tàng có liên quan tới việc tổng hợp dữ liệu ở các phạm vi mức độ khác nhau, cũng như các vấn đề rộng lớn hơn có liên quan tới việc thể hiện các thiệt hại. Người ta cần phải đặc biệt cẩn thận về việc tổng hợp dữ liệu cho các sự trực quan hóa thông tin địa lý. Ví dụ, nếu bạn tổng hợp dữ liệu và đánh mã đỏ để hiển thị một vài mức hoạt động của khối đồng thuận hoặc khu vực trong thành phố, thì mức độ đó có thể bị ảnh hưởng nhiều hơn bởi dân số hoặc kích cỡ không đó, thay vì bởi những khác biệt thực sự trong tỷ lệ nằm bên dưới của hoạt động đó.

Ngày một gia tăng, một dải rộng lớn các dữ liệu và các thông tin khác là sẵn sàng theo cách là dễ dàng để tiêu dùng và không đặt ra hạn chế nào lên sử dụng nó. Hơn nữa đối với các dạng dữ liệu của chính quyền địa phương mà tôi đi qua ở trên, cũng có sự truy cập công khai được mở rộng của các nghiên cứu được liên bang cấp vốn, ví dụ thế. Dữ liệu mở trong các lĩnh vực như thế đặc biệt là đáng kể vì nó có thể làm gia tăng sự cộng tác và xây dựng dựa vào công việc của những người khác - giống hệt như với sự thành công được chứng minh của mô hình phát triển nguồn mở.

Play a word association game and the word "open" will almost surely be followed by "source." And open source is certainly an important force for preserving user freedoms and access to computing. However, code isn't the only form of openness that's important.

Open data

Open data has been discussed for at least a decade. At the OSCON conference in 2007, Tim O'Reilly kicked off a bit of a ruckus when he suggested that open data might actually be more important than open code. Open data in this context mostly referred to the ability to export the user-created "Web 2.0" data, which was becoming important at that time. Tim Bray, then at Sun Microsystems, highlighted the issue when he wrote:

At the end of the day, information outlives software and transcends software and is more valuable than software.

At the same time, other aspects of open data were starting to come to the fore—including access to public data sources. Even when public data was already available to researchers and others, often it wasn't in a form that could be freely and easily accessed. For example, when I looked into using river-level information from the US Geological Survey around that time, I found that I would need to do some complicated web page scraping to get the information into a form I could import into a program. Many other types of data weren't available online at all.

This started to change in a systematic way. In May 2009, then-US chief information officer Vivek Kundra launched Data.gov. This, in turn, led to a 2013 executive order that "made open and machine-readable data the new default for government information." Many states and municipalities also expanded the data that they made available. In March 2016, the White House launched the Opportunity Project to focus on tools for visualizing and using public data in useful ways. Eight US cities—Baltimore, Detroit, Kansas City (Missouri), New Orleans, New York, Philadelphia, San Francisco, and Washington D.C.—are currently participating in the project.

To make things more concrete, let's take a look at data from one specific city: Cambridge, Massachusetts. Cambridge makes 160 datasets available. These include health inspection data, accidents, crime reports, census information, city maintained trees, pothole repair requests, and much more.

Data can be downloaded in a variety of formats (JSON, XML, CSV). Which you use will depend on your preferences and whether you want to work with the data programmatically or in a more typical end-user tool, such as a spreadsheet. You'll notice that much of this data does refer to locations, although you'll typically need to convert street addresses to geographical coordinates (i.e., latitude and longitude) using a geocoding/geoencoding database to display it using the aforementioned Leaflet and OpenStreetMaps. Nominatum is a search engine for OpenStreetMaps data. Other options include Google Maps.

Your data explorations, however, don't need to be limited to sticking pins on a map. Imagining doing more complex aggregations and correlations of different datasets using a wide range of statistical techniques and visualizations isn't hard. (D3.js is a particularly popular Javascript library for manipulating documents based on data, and is a powerful tool for displaying data in ways that can be both visually arresting and the source of genuine insights.) For example, imagine looking at how city services are provided in different neighborhoods throughout the city; these sort of patterns can be the basis for evidence-based data journalism.

That said, it's worth interjecting the caveat at this point that open data is subject to the same misinterpretation and misuse as data from any other source. Understand the provenance and limitations of any datasets that you use. In general, there is an increasingly wide range of open data available from trusted sources that have collected it using relatively rigorous techniques. However, even this sort of data can get stale—or it may simply not communicate the information you think it does based on a quick initial look.

Also be aware of the potential pitfalls associated with aggregating data at different scales, as well as broader issues related to demonstrating causality. One needs to be especially careful about aggregating data for spatial visualizations. For example, if you aggregate data and color-code to display the level of some activity by census block or city ward, that level may be influenced more by the population or size of the block, rather than by actual differences in the underlying rate of the activity.

Increasingly, a wide range of data and other information is available in a way that's easy to consume and doesn't put limits on its use. In addition to the types of local government data that I went into above, there's also expanded public access to results of federally funded research, for example. Open data in areas such as these is particularly significant because it can increase collaboration and building upon the work of others—just as with the proven success of the open source development model.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com