Tương lai của khám phá khoa học là dựa vào mở

Thứ tư - 13/08/2014 05:16

The future of scientific discovery relies on open

Posted 04 Aug 2014 by Marcus D. Hanwell

Theo: http://opensource.com/education/14/8/evolution-open

Bài được đưa lên Internet ngày: 04/08/2014

Lời người dịch: Định nghĩa Mở: “Một mẩu dữ liệu hoặc nội dung là mở nếu bất kỳ ai đó được tự do sử dụng, sử dụng lại và phân phối lại nó - chỉ tuân thủ, nhiều nhất, yêu cầu ghi nhận công và/hoặc chia sẻ tương tự”. “Đây là thời điểm cực kỳ thú vị cho khoa học mở và sự giao cắt của nó với cộng đồng nguồn mở”. “Khoa học mở là quan trọng sống còn cho việc tăng tốc độ phát hiện và cấp vốn tiếp tục cho các nghiên cứu hàn lâm. Ít nhất 80% các nghiên cứu hàn lâm được cấp vốn nhà nước, hoặc từ thiện. Vì thế rõ ràng là nghiên cứu nên được thực hiện theo cách thức tối đa hóa hoàn vốn đầu tư; khuyến khích việc chia sẻ, sử dụng lại, và cộng tác cho sự giành được tổng thể. Trong khoa học 'đóng', ít người có thể đọc được xuất bản phẩm (nó phải trả tiền) và không ai ngoài nhóm tác giả gốc ban đầu có thể sử dụng lại các dữ liệu hoặc mã được sử dụng để sinh ra các kết quả đó. Mô hình khoa học đóng dẫn tới tiến bộ không có hiệu quả sâu sắc, chậm hơn, khó khăn hơn. Theo mô hình khoa học mở, các xuất bản phẩm sẽ mở cho bất kỳ ai đọc và khám phá, và tương tự các dữ liệu và mã sẽ là mở cho sử dụng lại ngay lập tức đối với tất cả những người khác. Rõ ràng đối với tôi khoa học có thể tiến bộ nhanh hơn nếu nó được vận hành thường xuyên hơn theo mô hình mở”.

Ross Mounce là nhà nghiên cứu sau khi hoàn thành luận án tiến sĩ ở Đại học Bath và đang nghiên cứu sử dụng hóa thạch trong phylogeny và phyloinformatics, hoàn thành luận án tiến sĩ khoa học của mình ở Đại học Bath vào năm ngoái. Ross từng là một trong những người của Panton Fellows và là một thành viên tích cực của Quỹ Tri thức Mở (Open Knowledge Foundation), đặc biệt là Nhóm Làm việc Khoa học Mở (Open Science Working Group). Ông là một người bảo vệ khoa học mở, và ông làm việc tích cực trong các xuất bản phẩm hàn lâm khai thác nội dung để sử dụng lại các nghiên cứu khoa học trong các siêu phân tích để giành được sự thấu hiệu mức cao hơn trong các mẫu tiến hóa.

Đọc nhiều hơn trong cuộc phỏng vấn của tôi với ông trong mục Sự nghiệp trên tờ Tuần Nguồn Mở.

Ông có thể cho chúng tôi biết ngắn gọn tổng quan về nghiên cứu của ông?

Lĩnh vực nghiên cứu hiện nay của tôi là tin học về loài (Phyloinformatic), và tôi là một tiến sĩ trong nhóm Wills ở Đại học Bath. Tôi đã xuất bản cây tiến hóa và các dữ liệu tiến hóa khác từ tư liệu hàn lâm và thực hiện các siêu phân tích và tổng hợp các thông tin này khắp hàng trăm và hàng ngàn tài liệu để có được sự hiểu thấu mức cao hơn trong các mẫu tiến hóa khắp các nhóm loài khác nhau. Chỉ việc đưa các dữ liệu đó ngược lại về các mẫu biêu sử dụng lại được, tính toán lại được từ các tư liệu được xuất bản cũng là thách thức nặng nề nhất cho tới nay trong dự án của chúng tôi. Như một phần của dự án PLUTo do BBSRC cấp vốn, tôi đang làm việc với Peter Murray-Rust và đội ContentMine (Khai thác Nội dung) để phát triển các công cụ phần mềm và các tiếp cận để giúp tự động hóa qui trình tìm kiếm và trích xuất các dữ liệu chủng loài từ các tư liệu.

Đây một phần là việc tìm kim trong đống cỏ; có hơn 100.000 tài liệu được xuất bản có chứa các chủng loài trong một thập kỷ qua, rải rác khắp hơn 1.000 tạp chí, và có hơn 2 triệu bài báo được xuất bản mỗi năm!

Tại Đại học Bath, chúng tôi thậm chí không có sự truy cập hợp pháp tới tất cả các tạp chí trong đó chúng tôi biết có các dữ liệu chủng loài. Một khi tìm thấy, các dữ liệu thường phải được diễn giải lại tử các hình ảnh được đưa ra trong xuất bản phẩm đó. Chỉ gần 4% các nghiên cứu được xuất bản có một phân tích giống loài trong năm 2010 la cung cấp các dữ liệu mà máy có thể đọc được và sử dụng lại được. Tình trạng 'dữ liệu tồi' này không phải là hiếm trong nhiều lĩnh vực khoa học và được hệ thống xuất bản tạp chí có từ trước tạo thuận lợi - hầu hết các tạp chí đơn giản không có các yêu cầu chia sẻ dữ liệu mạnh.

Vì sao khoa học mở, nguồn mở và các dữ liệu mở là quan trọng đối với bạn?

Khoa học mở là quan trọng sống còn cho việc tăng tốc độ phát hiện và cấp vốn tiếp tục cho các nghiên cứu hàn lâm. Ít nhất 80% các nghiên cứu hàn lâm được cấp vốn nhà nước, hoặc từ thiện. Vì thế rõ ràng là nghiên cứu nên được thực hiện theo cách thức tối đa hóa hoàn vốn đầu tư; khuyến khích việc chia sẻ, sử dụng lại, và cộng tác cho sự giành được tổng thể. Trong khoa học 'đóng', ít người có thể đọc được xuất bản phẩm (nó phải trả tiền) và không ai ngoài nhóm tác giả gốc ban đầu có thể sử dụng lại các dữ liệu hoặc mã được sử dụng để sinh ra các kết quả đó. Mô hình khoa học đóng dẫn tới tiến bộ không có hiệu quả sâu sắc, chậm hơn, khó khăn hơn. Các nhà nghiên cứu có thể bỏ qua các tài liệu các đồng nghiệp của họ đơn giản vì họ không có sự truy cập tới chúng. Tương tự, các nhà nghiên cứu rất mất thời gian và tài nguyên tái tạo lại các dữ liệu hoặc chức năng phần mềm y hệt vì các nhà nghiên cứu khác đã không/sẽ không chia sẻ các dữ liệu/mã gốc ban đầu.

Theo mô hình khoa học mở, các xuất bản phẩm sẽ mở cho bất kỳ ai đọc và khám phá, và tương tự các dữ liệu và mã sẽ là mở cho sử dụng lại ngay lập tức đối với tất cả những người khác. Rõ ràng đối với tôi khoa học có thể tiến bộ nhanh hơn nếu nó được vận hành thường xuyên hơn theo mô hình mở.

Ở mức độ cá nhân, khoa học mở là rất tốt với tôi. Tôi đã bỏ ra hầu hết thời gian nghiên cứu luận án tiến sĩ khoa học của mình để nạo các dữ liệu ra khỏi các tệp PDF hàn lâm, hoặc các tác giả thư điện tử (với khá ít trả lời có ích) vì một bản sao chụp các dữ liệu được xuất bản của họ. Điều đó thực sự lả kinh khủng khổng lồ. thay vì làm 'khoa học' tôi đã làm các nhiệm vụ nặng nhọc, lặp đi lặp lại nhưng đơn giản cao độ bằng tay. Nếu các tác giả đã xuất bản các dữ liệu của họ cùng với các tài liệu của họ theo các định dạng dữ liệu được thiết lập từ lâu thì tôi có thể bỏ thời gian của mình ra hữu ích hơn trong việc phân tích lại và mở rộng các giới hạn tri thức của chúng ta. Tôi đã nói với các đồng nghiệp của mình và thấy họ cũng đã có các vấn đề y hệt; sự không hiệu quả khổng lồ từng là thứ gì đó 'bình thường' trong cộng đồng của chúng ta. Vì thế, tôi đã viết một thư ngỏ vào năm 2011 với các bạn của tôi để nhấn mạnh sự hoang phí nảy, và để khuyến khích việc lưu trữ các dữ liệu tri thức, và tờ Nature News đã viết một câu chuyện về nó mà đã giúp lan truyền nó khắp cộng đồng nghiên cứu về chủng loài. Kể từ đó, các cơ sở dữ liệu như http://morphobank.org/ đã có tỷ lệ đóng góp cao hơn nhưng vấn đề chung vẫn còn: các dữ liệu phần lớn vẫn thường là công dân hạng 2 so với các xuất bản phẩm được viết ra.

Ông là một trong những người đầu tiên của Panton Fellows. Điều đó có ý nghĩa gì, và làm thế nào điều này đã thay đổi sự nghiệp của ông?

Panton Fellowships được Quỹ Tri thức Mở (Open Knowledge Foundation) trao một cách cạnh tranh cho các nhà nghiên cứu mới khởi nghiệp và sinh viên mới ra trường, mục tiêu của chúng là để trang bị cho họ thúc đẩy các dữ liệu mở trong các lĩnh vực nghiên cứu của họ. Các dự án thành công ôm lấy các nguyên tắc Panton (Panton Principles) đối với các dữ liệu mở trong khoa học, ngắn gọn thừa nhận rằng:

Khoa học dựa vào việc xây dựng trên, việc sử dụng lại, và việc phê bình mở cơ quan xuất bản tri thức khoa học. Để khoa học vận hành có hiệu quả, và để xã hội với tới được những lợi ích đầy đủ từ các nỗ lực khoa học, là sống còn rằng các dữ liệu khoa học phải được làm thành mở.

Học bổng của tôi đã trao cho tôi ý nghĩa mạnh về mục đích làm thứ gì đó tích cực với sự vỡ mộng của tôi cách thức theo đó các dữ liệu đã được làm cho sẵn sàng theo nguyên tắc của tôi. Nó từng và vẫn là, sự nhấn mạnh thực sự về lý lịch (CV) của tôi. Sự thừa nhận và sự hỗ trợ về cả tài chính và tinh thần của phần thưởng này đã trao cho tôi sự tin cậy để nói về dữ liệu mở có liên quan tới các vấn đề trong khoa học tại nhiều hội nghị khác nhau, mang các vấn đề tới một khán thính phòng của các nhà khoa học mà có thể nếu khác đi sẽ miễn cưỡng nghe bất kỳ điều gì mà không phải là nghiên cứu hàn lâm, hẹp, chủ đề có liên quan. Học bổng đó đã mở các con mắt của tôi tới tầm quan trọng của việc ra chính sách và gây ảnh hưởng tới chính sách, thứ gì đó thường bị bỏ qua trong các viện hàn lâm truyền thống. Quả thực, bài nói chuyện phổ biến nhất mà tôi đã từng thực hiện tại một cuộc gặp với Ủy ban châu Âu (EC) 'Các giấy phép cho các Văn bản của châu Âu & Nhóm Làm việc Khai thác Dữ liệu', ở Brussels, đưa ra bằng chứng cho EC đối với những thách thức và khó khăn gì các nhà nghiên cứu châu Âu sẽ đối mặt trong dạng nghiên cứu này. Tôi có lẽ sẽ không bao giờ có mặt trong cuộc gặp này, hoặc nhiều cuộc như thế, đưa ra một tác động tích cực tới chính sách nghiên cứu, nếu đó không phải là Panton Fellowship.

Học bổng đó cũng đã thay đổi đường hướng nghiên cứu hàn lâm của tôi. Cùng với một trong những hướng đạo viên học bổng của tôi (Peter Murray-Rust) và Tiến sĩ khoa học, người giám sát của tôi (Matthew Wills), 3 chúng tôi đã viết một đề xuất học bổng khoa học mở để giải phóng và làm cho các dữ liệu bị thiêu đốt trong các tư liệu trở thành sử dụng lại được một lần nữa, điều từng là thành công và là những gì tôi đang làm việc bây giờ sau khi bảo vệ xong luận án tiến sĩ của tôi, dự án PLUTo.

Mở có nghĩa gì đối với bạn như là một nhà khoa học, và cách mà các nhà khoa học khác có thể trở nên mở hơn?

Lấy một định nghĩa chính thức của mở, hoặc theo ngữ cảnh khoa học hoặc bên ngoài điều đó, như Định nghĩa Mở sau:

“Một mẩu dữ liệu hoặc nội dung là mở nếu bất kỳ ai đó được tự do sử dụng, sử dụng lại và phân phối lại nó - chỉ tuân thủ, nhiều nhất, yêu cầu ghi nhận công và/hoặc chia sẻ tương tự”.

Theo ngữ cảnh khoa học, điều này có nghĩa là các xuất bản phẩm hàn lâm chỉ là truy cập mở nếu chúng được cấp phép theo các giấy phép mở tuân thủ OKD như Creative Commons Attribution Licence hoặc Creative Commons Zero Waiver. Tương tự, các dữ liệu là dữ liệu mở chỉ nếu nó được cấp phép rõ ràng theo một giấy phép tuân thủ OKD, nếu không thì rõ ràng không tuân thủ bản quyền.

Dường như là nặng nề sẽ là chính xác như vậy về định nghĩa của mở nhưng điều đó thực tế đúng như vậy. Hình tượng hình dung rằng tôi đang khai thác cho dự án PLUTo là rõ ràng tuân thủ bản quyền, thậm chí nếu họ có các dữ liệu không có khả năng xác định bản quyền. Tôi có thể đưa lại các hình tượng được cấp phép mở của các cây tiến hóa trong Flickr ở đây mà nó làm cho qui trình nghiên cứu của tôi truy cập được nhiều hơn (ít chán hơn!) và có thể tìm kiếm được. Tôi có thể gán thẻ nội dung giúp cho cộng đồng và xem các số đo để trình bày tác động.

Nhưngt các hình tượng nghiên cứu không được xuất bản theo các giấy phép mở sẽ không/không thể có được ứng xử này, và tôi có một bộ sưu tập về chúng lớn hơn nhiều hiện đang ở trong ổ đĩa cứng của tôi. Tôi đơn giản không được phép chia sẻ chúng, thậm chí dù bộ sựu tập như một tổng thể nếu được đưa lên trực tuyến cởi mở có thể hữu dụng hơn nhiều cho cộng đồng. Những hạn chế mà các nhà xuất bản áp đặt có nghĩa là tôi chỉ có thể đưa lại có lẽ 10% các hình tượng phù hợp mà tôi đang tìm kiếm.

Bản thân các nhà khoa học có mọi điều để giành được từ việc thực hiện học bổng mở, và có một số bước rất đơn giản mà có thể được thực hiện theo hướng này, ấy là: đưa lên các báo cáo và sử dụng kho chủ đề hoặc của cơ quan bạn cho tất cả các kết quả đầu ra nghiên cứu của bạn (đặc biệt bao gồm mã và các dữ liệu, chứ không chỉ các xuất bản phẩm. Bằng chứng chỉ ra có một ưu thế trích dẫn rõ ràng cho cả các xuất bản phẩm truy cập mở và các xuất bản phẩm cung cấp các dữ liệu mở, sao cho nó thực sự là nằm trong mối quan tâm của cá nhân thực hiện học bổng mở.

Bạn có thấy phạm vi cho sự tương tác lớn hơn với cộng đồng nguồn mở trong tương lai không?

Tuyệt đối có. Nguồn mở rõ ràng đang 'thắng' bây giờ trong các lĩnh vực khoa học của tôi (sinh thái học, cổ sinh vật học, chủng loài học). Phần mềm nguồn mở giống như R và các ngôn ngữ lập trình như Python cực kỳ phổ biến. Các nền tảng trực tuyến như GitHub hầu hết là văn hóa hàn lâm chuyển một tay, có nhiều nhà khoa học sử dụng các hệ thống kiểm soát phiên bản phân tán đúng phù hợp lần đầu, qua sử dụng git. Tôi thậm chí đã giúp viết một tài liệu hàn lâm trên GitHub! Đây là thời điểm cực kỳ thú vị cho khoa học mở và sự giao cắt của nó với cộng đồng nguồn mở.
Ross Mounce is a postdoctoral researcher at the University of Bath studying the use of fossils in phylogeny and phyloinformatics, completing his PhD at the University of Bath last year. Ross was one of the first Panton Fellows and is an active member of the Open Knowledge Foundation, particularly the Open Science Working Group. He is an advocate for open science, and he is actively working on content mining academic publications to reuse scientific research in meta-analyses to gain higher level insights in evolutionary patterns.

Read more in my interview with him for Careers in Open Source Week.

Can you give us a brief overview of your research?

My current area of research is phyloinformatics, and I'm a postdoc in the Wills group at the University of Bath. I take published evolutionary trees and other evolutionary data from the academic literature and perform meta-analyses and syntheses of this information across hundreds and thousands of papers to gain higher-level insights into evolutionary patterns across different species groups. Just getting these data back into re-usable, re-computable forms from the published literature is by far and away the hardest challenge of our project. As part of the BBSRC-funded PLUTo project (Phyloinformatic Literature Unlocking Tools), I'm working with Peter Murray-Rust and the ContentMine team to develop software tools and approaches to help automate the process of finding and extracting phylogenetic data from the literature.

It's partly a needle in the haystack problem; there are 100,000+ papers published containing-phylogeny in the past decade, scattered across 1,000+ journals, and there are 2,000,000+ articles published per year!

At the University of Bath, we don't even have legal access to all the journals in which we know phylogenetic data lies. Once found, data must typically be re-interpreted from the figure images provided in the publication. Only ~4% of published studies containing a phylogenetic analysis in 2010 provided machine-readable, re-usable data of their results. This 'data-poor' situation is not uncommon in many areas of science and is facilitated by the legacy journal publication system—most journals simply don't have strong data sharing requirements yet.

Why is open science, open source, and open data important to you?

Open science is vitally important to accelerating the pace of discovery and the continued funding of academic research. At least 80% of academic research is publicly, or charitably funded. It's therefore obvious that research should be done in a manner that maximizes the return-on-investment; encouraging sharing, re-use, and collaboration for overall gain. In 'closed' science, fewer people can read the publication (it's paywalled) and no one outside of the original author group can re-use the data or the code used to generate the results. The closed science model leads to deeply inefficient, slower, harder, progress. Researchers may overlook their peers papers simply because they don't have access to them. Likewise, researchers waste immense time and resources re-generating the same data or software functionality because other researchers didn't/won't share the original data/code.

Under the open science model, the publications are open for everyone to read and discover, and likewise the data and code are open for immediate re-use by all others too. It's clear to me that science would progress more quickly if it operated more frequently under the open model.

On a personal level, open science matters a great deal to me. I spent most of my PhD research time scraping data out of academic PDFs, or emailing authors (with relatively few helpful replies) for a copy of their published data. It was immensely frustrating. Instead of doing 'science' I was doing tedious, repetitive but highly-manual simple tasks. If authors had published their data alongside their papers according to long-established data formats I could have spent my time more usefully on re-analysis and extending the limits of our knowledge. I talked with my peers and found they had these problems too; the immense inefficiency was somehow 'normal' in our community. So, I wrote an open letter in 2011 with my friends to highlight this wastefulness, and to encourage intelligent data archiving, and Nature News wrote a story about it which helped spread it around the palaeontology community. Since then, databases like http://morphobank.org/ have had a higher-rate of contribution but the general problem still remains: data is largely still a second-class citizen relative to written publications.

You were one of the first Panton Fellows. What does that mean, and how did this change your career?

Panton Fellowships are competitively awarded by the Open Knowledge Foundation to graduate and early career researchers, their goal is to empower the fellows promote open data in their research fields. Successful projects embrace the Panton Principles for open data in science, which in short recognise that:

Science is based on building on, reusing, and openly criticising the published body of scientific knowledge. For science to effectively function, and for society to reap the full benefits from scientific endeavours, it is crucial that science data be made open.

My fellowship gave me a strong sense of purpose to do something positive with my disillusionment of the way in which data was made available in my discipline. It was and still is, a real highlight of my CV. The recognition and financial and moral support of this award gave me the confidence to speak-up about open data related issues in science at many different conferences, bringing the issues to an audience of scientists that can be otherwise reluctant to listen to anything that isn't narrow, subject-related, academic research. The fellowship opened my eyes to the importance of policy-making & policy-influence, something commonly dismissed in traditional academia. Indeed, the most popular talk I have ever given was at a meeting of the European Commission (EC) 'Licenses for Europe' Text & Data Mining Working Group, in Brussels, providing evidence to the EC as to what challenges and difficulties European researchers face in this type of research. I would never have been at this meeting, or many like it, making a positive impact on research policy, if it wasn't for the Panton Fellowship.

The fellowship also changed the direction of my academic research. Together with one of the mentors of my fellowship award (Peter Murray-Rust) and my PhD supervisor (Matthew Wills), the three of us wrote a very open science-y grant proposal to liberate and make data buried in the literature re-usable again, which was successful and is what I'm working on now in my first postdoc, the PLUTo project.

What des open mean to you as a scientist, and how can other scientists be more open?

Take a formal definition of open, whether in the context of science or outside it, like the The Open Definition:

"A piece of data or content is open if anyone is free to use, reuse, and redistribute it—subject only, at most, to the requirement to attribute and/or share-alike."

In the context of science, this means that academic publications are only open access if they are licensed under OKD-compliant open licenses such as the Creative Commons Attribution Licence or the Creative Commons Zero Waiver. Likewise, data is only open data if it is explicitly licensed under an OKD-compliant licence, or otherwise clearly not subject to copyright.

It may seem tedious to be so precise about the definition of open but it really does matter. The figure images that I'm mining for the PLUTo project are clearly subject to copyright, even if they contain uncopyrightable data. I can re-post open-licensed figures of evolutionary trees on Flickr here which makes my research-process more accessible (less boring!) and searchable. I can get community-aided tagging of content and view metrics to demonstrate impact.

But research figures not published under open licenses don't/can't get this treatment, and I have a much larger collection of these currently languishing on my hard-drives. I'm simply not allowed to share them, even though the collection-as-a-whole if posted openly online would be far more useful to the community. Publisher-imposed restrictions mean I can only re-post perhaps 10% of the relevant figures I'm finding.

Scientists themselves have everything to gain from doing open scholarship, and there are some very simple steps that can be taken in that direction, namely: posting preprints and using your institutional or subject repository for all your research outputs (specifically including code and data, not just publications). Evidence shows there's a clear citation advantage for both open access publications and publications supplying open data, so it really is in the interest of the individual to do open scholarship.

Do you see scope for greater interaction with the open source community in the future?

Absolutely. Open source is clearly 'winning' now in my areas of science (ecology, palaeontology, phylogenetics). Open source software like R and programming languages like Python are extremely popular. Online platforms like GitHub are almost single-handedly transforming academic culture, getting many scientists to use proper distributed version-control systems for the first-time, through the use of git. I've even helped write an academic paper on GitHub! It's an extremely exciting time for open science and its intersection with the open source community.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com