Làm sạch dữ liệu của bạn như thế nào
Một trong những thách thức lớn nhất khi làm việc với bất kỳ dữ liệu nào là làm việc với các lỗi. Thường thì ngay cả các nhà xuất bản dữ liệu cũng không nhìn ra các lỗi vì dữ liệu đó có thể thay đổi qua nhiều năm tháng. Trong các trường hợp khác, như đánh máy sai hoặc viết tắt sai.
Khi làm việc với bất kỳ dữ liệu nào, là quan trọng phải biết tìm ra các lỗi và sửa chúng cho đúng như thế nào để làm cho dữ liệu đó hữu dụng hơn.
Trong bài này chúng ta khai thác những điều sau:
-
Các lỗi dữ liệu phổ biến
-
Các công cụ làm sạch dữ liệu hữu dụng
-
Các lý do để làm sạch dữ liệu
Làm sạch dữ liệu - trong 2 phút
Giảng viên David Tarrant của ODI giải thích vì sao dữ liệu mở sạch là quan trọng, cách để làm sạch dữ liệu mở bạn tìm thấy và các công cụ nào là sẵn sàng để hỗ trợ cho bạn.
Mở ra giá trị; chúng ta ngụ ý gì khi làm sạch dữ liệu?
Biết rằng dữ liệu sạch là quan trọng để đảm bảo bạn có điểm khởi đầu đáng tin cậy khi làm việc với nó và sáng tạo giá trị mới từ nó.
Dữ liệu sạch là dữ liệu nhất quán, không bị đúp bản và sẵn sàng để máy sử dụng được.
Nếu dữ liệu là sạch, là dễ dàng hơn để kết hợp nó với các tập hợp dữ liệu khác và giành được sự thấu hiểu sâu hơn.
Các lỗi phổ biến trong dữ liệu
Có một số lỗi phổ biến trong dữ liệu mà bạn nên tìm ra đối với bất kỳ tập hợp dữ liệu nào bạn đang làm việc.
Các định dạng không đúng
Ngày tháng có thể được viết theo các cách thức không nhất quán. Các định dạng ngày tháng pha trộn nhau đôi khi là đơn giản để nhặt ra:
8-sep-2013 so với 8/9/2013
và đôi khi ít rõ ràng hơn:
8/9/2013 so với 9/8/2013.
Một thách thức khác là vài ứng dụng, như Excel, sẽ ‘đoán’ định dạng khi một tập hợp dữ liệu được mở ra, điều dó có thể ẩn dấu đi cách thức ngày tháng thực sự được viết trong tệp đó.
Lỗi phổ biến nhất là sử dụng pha trộn các định dạng của Mỹ (MM/DD/YYYY) và của châu Âu (DD/MM/YYYY).
Nhiều đại diện
Mọi người thường cố gắng tiết kiệm thời gian khi nhập dữ liệu bằng việc sử dụng các khái niệm viết tắt. Nếu các viết tắt đó là không nhất quán, nó có thể gây ra các lỗi trong một tập hợp dữ liệu.
Những khác biệt về chữ hoa, dấu trống và giống của các tính từ, tất cả đều có thể là các lỗi.
Đúp bản các bản ghi
Bản ghi đúp bản là nơi mẩu dữ liệu y hệt đã được nhập vào nhiều hơn một lần. Đúp bản các bản ghi thường xảy ra khi các tập hợp dữ liệu đã được kết hợp hoặc vì nó đã không biết từng có rồi một hạng mục đầu vào.
Dữ liệu dư thừa
Dữ liệu dư thừa là điều gì đó không thích hợp cho công việc của bạn với một tập hợp dữ liệu. Thường thì một tập hợp dữ liệu đã được tạo ra cho một mục đích cụ thể đòi hỏi các chi tiết bạn có thể cần.
Các trường hợp phổ biến của dữ liệu dư thừa bao gồm các hàng đại diện cho tổng số.
Các trường hợp khác là khi các cột dữ liệu đã được kết hợp hoặc được nhân bản để hỗ trợ cho khả năng đọc của con người.
Các thước đo số pha trộn
Các giá trị số trong các tập hợp dữ liệu thường sử dụng các thước đo khác nhau để làm cho dễ dàng hơn cho con người để đọc. Trong các tập hợp dữ liệu về ngân sách, ví dụ, các đơn vị thường là hàng triệu. 1.200.000 thường được viết thành 1,2m. Tuy nhiên, các số nhỏ hơn như 800.000 vẫn được viết đầy đủ. Đối với máy, điều này ngụ ý chúng đọc số lớn hơn như là 1,2 và điều này gây ra các lỗi.
Các dải pha trộn
Dữ liệu đôi khi được đo đếm theo các dải, như độ tuổi hoặc dải lương. Để cho máy hiểu được các dải đó, là quan trọng phải tách các giá trị cao và thấp ra khỏi nhau.
Các lỗi chính tả
Các lỗi chính tả thường khó xác định trong các dữ liệu dạng bảng.
Đừng quên chạy dữ liệu của bạn qua bộ kiểm tra chính tả để bắt các lỗi chính tả.
Bộ công cụ làm sạch dữ liệu
Không có dữ liệu sạch, chúng ta không thể xây dựng thông tin. Có một số công cụ hữu dụng có thể giúp xử lý làm sạch dữ liệu.
Bộ công cụ làm sạch dữ liệu
Khi bạn đang tìm kiếm các lỗi trong dữ liệu, có thể cần thiết phải tải về và tải lên các tập hợp dữ liệu theo nhiều công cụ để làm sạch và xử lý.
Cũng là quan trọng để ghi lại những thay đổi gì đã được thực hiện và chia sẻ chúng công khai với những người khác sao cho mọi người có thể hưởng lợi từ công việc của bạn, đặc biệt nếu dữ liệu đó bạn đang làm sạch là dữ liệu mở đang tồn tại mà dã được xuất bản rồi.
Trong phần này chúng ta xem xét 2 công cụ chính và các sử dụng của chúng:
-
Open Refine
-
Excel và các chương trình bảng tính tương tự
Open Refine (Tinh chỉnh Mở)
Open Refine là công cụ phần mềm được thiết kế để làm việc với dữ liệu chưa được làm sạch. Công cụ đó là trình duyệt dựa vào các cột, cho phép bạn sửa các lỗi xuyên khắp toàn bộ tập hợp dữ liệu mở với một hành động duy nhất. Các lỗi có thể được sửa bao gồm:
-
Các định dạng ngày tháng
-
Nhiều đại diện
-
Các bản ghi đúp bản
-
Dữ liệu dư thừa
-
Các thước đo số pha trộn
-
Các dải pha trộn
Các chương trình bảng tính
Open Refine là công cụ làm sạch dữ liệu. Tuy nhiên, đôi khi là dễ dàng hơn để sửa vài lỗi trong một chương trình bảng tính:
-
Các lỗi chính tả
-
Dữ liệu dư thừa
-
Thẩm định số
-
Sửa dữ liệu bị/được dịch chuyển
Các lợi ích của làm sạch dữ liệu là gì?
Ngoài việc các công cụ đó có thể được sử dụng để làm sạch dữ liệu, là quan trọng để hiểu những lợi ích mà việc làm sạch đó mang lại.
Ưu tiên làm sạch
Nếu dữ liệu không sạch thì các quyết định được đưa ra dựa trên cơ sở của nó có thể là sai. Điều này có thể ảnh hưởng tới các sản phẩm và sự hiểu thấu bạn phát triển từ dữ liệu và, trong một vài trường hợp, có tác động lên hàng ngàn hoặc thậm chí hàng triệu người.
Một nghiên cứu gần đây thấy rằng quy trình chuẩn bị dữ liệu để phân tích có thể chiếm đâu đó trong khoảng từ 60% cho tới 80% thời gian của dự án do dữ liệu dẫn dắt.
Cải thiện tính khả dụng
Việc chia sẻ tập hợp dữ liệu mở sạch sẽ làm cho dữ liệu đó hữu dụng hơn. Các công cụ như Open Refine cho phép bạn chia sẻ lịch sự các thay đổi, cho phép mọi người biết những gì đã được làm sạch và như thế nào. Việc làm cho quy trình đó là mở cũng như bản thân dữ liệu đó giúp bổ sung thêm tính bền vững và lòng tin mà người sử dụng có thể đặt vào một tập hợp dữ liệu.
Cũng có các cộng đồng làm sạch dữ liệu đang nổi lên có thể được hỗ trợ tích cực hơn, ví dụ như các cộng đồng của OpenStreetMap (OSM).
Phát hiện những hiểu thấu
Nhiều công cụ làm sạch dữ liệu, bao gồm cả Open Refine, giúp bạn kết hợp và làm giàu các tập hợp dữ liệu. Điều này có thể dẫn tới những thấu hiểu đang được phát hiện có giá trị.
Ví dụ, việc làm giàu một tập hợp dữ liệu tham chiếu tới các doanh nghiệp (theo tên hoặc theo vài mã nhận diện khác) có thể thông tin cho bạn liệu doanh nghiệp đó có còn đang hoạt động thương mại hay không và tình hình tài chính hiện hành của nó.
Bạn sẵn sàng để làm sạch dữ liệu?
Bạn có thể nhớ lại các lý do vì sao dữ liệu cần được làm sạch, các công cụ hữu dụng để sử dụng và các lỗi phổ biến nào bạn nên tìm kiếm trong các tập hợp dữ liệu hay không?
Vì sao dữ liệu cần được làm sạch?
Dữ liệu mở không được làm sạch là một vấn đề vì:
-
nó không thể được vẽ trên đồ thị
-
nó không thể được xuất bản
-
nó có thể dẫn tới các kết luận sai
Đáp án đúng!
Dữ liệu không sạch là vấn đề vì nó có thể dẫn tới các kết luận sai được đưa ra. Điều này không nên gây cản trở cho xuất bản hoặc sử dụng dữ liệu đó, dù việc làm sạch phải được thực hiện.
Bạn chắc chắn chứ?
Dữ liệu không sạch là vấn đề vì nó có thể dẫn tới các kết luận sai được đưa ra. Điều này không nên gây cản trở cho xuất bản hoặc sử dụng dữ liệu đó, dù việc làm sạch phải được thực hiện.
Đâu là 2 công cụ hữu dụng nhất để làm sạch dữ liệu?
-
Microsoft Access và Adobe Photoshop
-
Apple Notes và Microsoft Word
-
Microsoft Excel và Open Refine
Đáp án đúng!
Open Refine và Excel (hoặc các trình soạn thảo bảng tính tương đương) là 2 trong số các công cụ hữu dụng nhất để làm sạch dữ liệu.
Bạn chắc chắn chứ?
Open Refine và Excel (hoặc các trình soạn thảo bảng tính tương đương) là 2 trong số các công cụ hữu dụng nhất để làm sạch dữ liệu.
Nhận biết các lỗi
Những thứ sau đây đâu là các lỗi trong dữ liệu đòi hỏi phải làm sạch?
-
Các thước đo số pha trộn
-
Thiếu chi tiết
-
Dữ liệu dư thừa
-
Thiếu giấy phép
-
Nhiều đại diện
Đáp án đúng!
Sử dụng các thước đo pha trộn, dữ liệu dư thừa và nhiều đại diện của dữ liệu y hệt chỉ là vài lỗi cần phải được sửa trong dữ liệu không sạch. Trong khi sự chi tiết và thiếu giấy phép là vấn đề, thì chúng không có liên quan tới bản thân dữ liệu đang là không sạch đó.
Bạn chắc chắn chứ?
Sử dụng các thước đo pha trộn, dữ liệu dư thừa và nhiều đại diện của dữ liệu y hệt chỉ là vài lỗi cần phải được sửa trong dữ liệu không sạch. Trong khi sự chi tiết và thiếu giấy phép là vấn đề, thì chúng không có liên quan tới bản thân dữ liệu đang là không sạch đó.
Có thể bỏ ra bao nhiêu thời gian để làm sạch và chuẩn bị dữ liệu?
Trong bất kỳ dự án nào do dữ liệu dẫn dắt, có thể bỏ ra bao nhiêu thời gian để làm sạch và chuẩn bị dữ liêu?
-
Khoảng từ 20% tới 40%
-
Khoảng từ 40% tới 60%
-
Khoảng từ 60% tới 80%
Đáp án đúng!
Bằng chứng gợi ý khoảng từ 60% tới 80% thời gian của dự án dữ liệu sẽ được bỏ ra cho việc làm sạch, biến đổi và chuẩn bị dữ liệu để phân tích.
Bạn chắc chắn chứ?
Bằng chứng gợi ý khoảng từ 60% tới 80% thời gian của dự án dữ liệu sẽ được bỏ ra cho việc làm sạch, biến đổi và chuẩn bị dữ liệu để phân tích.
Làm sạch dữ liệu
Làm sạch dữ liệu là cơ bản để đảm bảo khi dữ liệu được sử dụng, các kết luận đúng được đưa ra.
Thường thì thậm chí các nhà xuất bản dữ liệu cũng không nhận ra các lỗi vì dữ liệu đó có thể thay đổi qua nhiều năm. Các lỗi có thể là kết quả của những sai lầm của con người khi nhập dữ liệu, như đánh máy sai hoặc viết tắt không đúng.
Hãy nhớ là việc làm sạch có thể mất lâu thời gian hơn so với bạn nghĩ. Quy trình làm sạch cẩn thận, vì thế, tiết kiệm thời gian đáng kể về dài hạn.
Đi theo bài tập làm sạch dữ liệu của chúng tôi để làm quen với Open Refine và tự bản thân bạn khám phá nó dễ dàng làm sao.
Về bài trước ………. Tới bài sau
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com