Aligning data-sharing policies: Meeting the moment
July 12, 2023, By Erin C. McKiernan, Greg Tananbaum
Bài được đưa lên Internet ngày: 12/07/2023
Khoa học mở đang có được sự chú ý đặc biệt lúc này. Vào tháng 8/2022, Văn phòng Chính sách Khoa học và Công nghệ Nhà Trắng (OSTP) đã ban hành bản ghi nhớ về “Đảm bảo quyền truy cập tự do không mất tiền, tức thì, và công bằng tới nghiên cứu được Liên bang cấp vốn” (bản dịch sang tiếng Việt). Các trường đại học và cao đẳng đang ôm lấy một dải các hoạt động và thực hành khoa học mở. Các chính phủ khắp trên thế giới đã xây dựng các chiến lược quốc gia về khoa học mở, từ Ireland đến Colombia đến Tây Ban Nha, được các tổ chức quốc tế như UNESCO hỗ trợ. Việc chống trụ cho các tiến bộ đó là lòng tin được chia sẻ chung rằng khoa học mở tăng tốc nhịp độ khám phá, giảm thiểu các khoảng trống về chia sẻ thông tin, thúc đẩy sản xuất kiến thức công bằng hơn, khuyến khích đổi mới sáng tạo, và thúc đẩy khả năng tái tạo lại.
Như các nhà lãnh đạo của Nhóm các Nhà cấp vốn Nghiên cứu Mở - ORFG (Open Research Funders Group), chúng tôi làm việc đối tác với 26 tổ chức từ thiện hàng đầu để phát triển, triển khai, và giám sát các chính sách khoa học mở. Một lĩnh vực đảm bảo có sự chú ý đặc biệt là dữ liệu nghiên cứu. Dữ liệu nghiên cứu là rất quan trọng cho: (1) khẳng định độc lập các kết quả và các kết luận; (2) đưa ra các quyết định có đầy đủ thông tin về các hoạt động nghiên cứu trong tương lai; và (3) thể hiện dạng minh bạch để xây dựng lòng tin của công chúng vào khoa học.
Trong công việc của chúng tôi với ORFG và các nhà tổ chức chính của Hội nghị bàn tròn về việc Điều chỉnh các Ưu đãi cho Khoa học Mở của các Viện hàn lâm khoa học Quốc gia về Khoa học, Kỹ thuật, và Y tế (NASEM), chúng tôi đã thấy các nhà nghiên cứu, các học giả, nhà khoa học, và sinh viên tất cả đều nhấn mạnh nhu cầu về hướng dẫn rõ ràng và nhất quán từ các nhà cấp vốn, các trường đại học, và các hiệp hội nghề nghiệp. Hướng dẫn mù mờ không rõ ràng (tốt nhất) hoặc xung đột (tệ nhất) sẽ làm khó hơn để chia sẻ tác phẩm theo cách thức hợp lý hóa tính FAIR (khả năng Tìm thấy được, Truy cập được, Tương hợp được, và Sử dụng lại được - Findability, Accessibility, Interoperability, and Reuse).
Để làm cho việc chia sẻ dữ liệu dễ dàng hơn và để thiết lập cơ sở rõ ràng cho các chính sách chia sẻ dữ liệu được xem xét tốt nên xoay quanh, chúng tôi khuyến nghị các rằng các nhà cấp vốn:
1. Chỉ định rõ ràng những đảm bảo dữ liệu nào được yêu cầu phải chia sẻ. Bạn muốn đảm bảo chỉ chia sẻ dữ liệu nằm bên dưới các nghiên cứu được xuất bản hay tất cả dữ liệu được sinh ra trong một dự án được cấp vốn? Bạn muốn dữ liệu thô hay đã được xử lý trước rồi? Nếu dữ liệu định tính (không chỉ định lượng) cũng được chính sách của bạn bao trùm, liệu bạn có cung cấp hướng dẫn cho những người nhận trợ cấp về các thực hành tốt cho việc chia sẻ dữ liệu định tính hay không?
2. Cân nhắc kết hợp các yêu cầu về chia sẻ mã và phần mềm như là sự mở rộng cần thiết của các chính sách chia sẻ dữ liệu của họ. Để có khả năng tái tạo lại các kết quả chính xác và xây dựng dựa vào dữ liệu được chia sẻ, các nhà nghiên cứu phải không chỉ có quyền truy cập tới các tệp mà còn mã và phần mềm được sử dụng để phân tích dữ liệu. Chỉ sau đó dữ liệu mới thực sự là tìm thấy được, truy cập được, tương hợp được, và sử dụng lại được. ORFG và Sáng kiến Lãnh đạo Giáo dục Đại học vì Uyên thâm Mở (HELIOS) đã chuẩn bị một tóm tắt chi tiết hơn.
3. Chỉ định rõ ràng khung thời gian chia sẻ dữ liệu được yêu cầu. Khung thời gian sẽ biến động dựa vào dữ liệu nào sẽ được chia sẻ và những gì tạo thành sự kiện kích hoạt yêu cầu chia sẻ. Nếu dữ liệu chống trụ cho một nghiên cứu được xuất bản, việc tuân thủ hoặc điều chỉnh cho phù hợp với các chính sách mới của liên bang sẽ yêu cầu dữ liệu phải được chia sẻ tức thì vào thời điểm xuất bản. Tuy nhiên, nếu chính sách yêu cầu chia sẻ tất cả các dữ liệu, thì khung thời gian có thể gắn chặt với giai đoạn trao trợ cấp (như NIH yêu cầu).
4. Yêu cầu những người nhận trợ cấp ký gửi dữ liệu vào trong các kho công cộng tin cậy chỉ định một mã nhận diện thường trực (ví dụ, DOI), cung cấp hạ tầng cần thiết để đặt chỗ và xuất khẩu siêu dữ liệu chất lượng, triển khai các chiến lược bảo tồn dài lâu, và đáp ứng các Đặc tính Mong muốn của các Kho Dữ liệu của Hội đồng Khoa học và Công nghệ Quốc gia. Để việc tuân thủ là dễ dàng hơn cho những người nhận trợ cấp, các nhà cấp vốn phải cung cấp danh sách các kho dữ liệu được phê chuẩn đáp ứng các đặc tính đó và là phù hợp đối với các nguyên tắc họ cấp vốn.
5. Yêu cầu những người nhận trợ cấp chia sẻ dữ liệu theo các giấy phép tạo thuận lợi cho sử dụng lại. Giấy phép của văn hóa tự do được khuyến nghị cho dữ liệu là Hiến tặng vào phạm vi công cộng của Creative Commons - CC0 (Creative Commons Public Domain Dedication). Lý do đằng sau điều này nằm ở 2 điểm: trước nhất, dữ liệu không phải lúc nào cũng có bản quyền và, vì thế, việc giữ lại các quyền nhất định theo các giấy phép khác có thể là không phù hợp, và thứ hai, chúng ta nên tránh phân bổ hoặc xếp chồng giấy phép có thể xảy ra khi bộ dữ liệu được phối lại và sử dụng lại. Các lựa chọn khác bao gồm các giấy phép Creative Commons Attribution (CC BY) hoặc ShareAlike (CC BY-SA).
6. Mạnh mẽ khuyến khích những người nhận trợ cấp chia sẻ dữ liệu theo các thực hành tốt nhất được thiết lập. Chúng bao gồm, nhưng không bị giới hạn tới: (a) FCác nguyên tắc FAIR, chúng đưa ra cách để chia sẻ dữ liệu sao cho chúng là Tìm thấy được, Truy cập được, Tương hợp được, và Sử dụng lại được; (b) Các nguyên tắc CARE cho Điều hành Dữ liệu Bản địa, nó nhấn mạnh tầm quan trọng của Lợi ích Tập thể, Quyền Kiểm soát, Trách nhiệm, và Đạo đức trong bối cảnh của dữ liệu bản địa, nhưng cũng có thể thông báo cho quản lý và chia sẻ có trách nhiệm dữ liệu cho các quần thể khác; và (c) các quy tắc quyền riêng tư, như các quy tắc được cung cấp theo HIPAA. Các nhà cấp vốn nên truyền thông rằng là trách nhiệm của những người nhận trợ cấp để có sự đồng ý phù hợp và sự phê chuẩn có đạo đức (ví dụ, từ ban rà soát lại ở cơ sở của họ) rằng sẽ cho phép họ thu thập và sau đó chia sẻ mở các dữ liệu không thể nhận diện được.
7. Cho phép những người nhận trợ cấp đưa các chi phí chia sẻ dữ liệu vào ngân sách trợ cấp của họ. Điều này có thể bao gồm các chi phí có liên quan tới quản lý, giám tuyển, đặt chỗ, và bảo tồn dữ liệu dài hạn. Đối với nhiều dự án, các chi phí đặt chỗ dữ liệu có khả năng sẽ là tối thiểu - vài kho công cộng cho phép các nhà nghiên cứu lưu trữ miễn phí lượng dữ liệu đáng kể. Đối với các dự án sẽ sinh ra lượng lớn dữ liệu, các chi phí đặt chỗ bổ sung có thể cần có trong ngân sách. Chi phí quan trọng nhất có thể là thời gian và sự tinh thông của cá nhân được yêu cầu để chuẩn bị đúng cách dữ liệu để chia sẻ và sử dụng lại. Các nhà cấp vốn sẽ cân nhắc nâng cao các chi phí cá nhân được phép để đảm bảo thời gian giám tuyển thêm đối với các thành viên nhóm nghiên cứu hoặc tuyển dụng người quản trị dữ liệu chuyên tâm.
8. Yêu cầu những người nhận trợ cấp đệ trình một Kế hoạch Quản lý Dữ liệu (DMP) vào thời điểm gửi đơn đề xuất trợ cập, và tính tới nó trong quy trình rà soát lại đơn đó. DMP cung cấp cơ hội để thu thập ở một chỗ tất cả các thông tin được chỉ định ở trên, như dữ liệu nào sẽ được chia sẻ, khi nào, ở đâu, và theo việc cấp phép nào. Việc yêu cầu những người nhận trợ cấp cung cấp các chi tiết đó ở giai đoạn sớm, trước khi thu thập dữ liệu, có thể giúp họ nghĩ thấu đáo và dự đoán trước các nhu cầu chia sẻ dữ liệu của họ, điều dẫn tới các thực hành quản lý dữ liệu tốt hơn và lên ngân sách chính xác hơn. Các kế hoạch như vậy cũng có thể giúp cho các nhà cấp vốn sau đó theo dõi việc chia sẻ dữ liệu, và, tới lượt nó, đo đếm việc sử dụng lại và tác động của dữ liệu. Các nhà cấp vốn có thể cung cấp hướng dẫn và thậm chí các kế hoạch mẫu để giúp những người nhận trợ cấp tiềm năng phát triển các DMP chất lượng.
Các khuyến nghị này không là vét cạn, cũng không là bất biến. Chúng tôi kỳ vọng rằng cơ bản về chia sẻ dữ liệu này sẽ tiếp tục tiến hóa khi bằng chứng về những lợi ích và hạn chế về chia sẻ dữ liệu được tích lũy, hạ tầng tốt hơn và các chương trình đào tạo được phát triển, nhiều công cụ mạnh hơn để xử lý và phân tích dữ liệu mở tới trên trực tuyến, nhiều hơn chính phủ và cơ quan triển khai các chiến lược khoa học mở, và các chuẩn mực của cộng đồng nổi lên. Nhưng công biết bắt đầu bây giờ, và bằng việc gắn kết với các nguyên tắc này, các nhà cấp vốn công và tư có thể giúp chuyển đổi thời điểm nổi bật của khoa học mở để bao trùm một kỷ nguyên.
Các tác giả muốn cảm ơn Ashley Farley, Maryrose Franko, Adam Jones, Matthew Lewis, và Belinda Orland vì những đóng góp của họ cho bọ các khuyến nghị này. Đầu vào và sự tinh thông của họ đã giúp định hình đáng kể tài liệu này.
Erin C. McKiernan là giám đốc cộng đồng ở Nhóm các Nhà cấp vốn Nghiên cứu Mở - ORFG (Open Research Funders Group) cũng như là một nhà khoa học về thần kinh và là giáo sư của Phòng Vật lý học, Chương trình Vật lý Y Sinh tại Đại học Tự chủ Quốc gia Mexico (Universidad Nacional Autónoma de México). Greg Tananbaum là giám đốc của ORFG.
Open science is having a moment in the spotlight. In August 2022, the White House Office of Science and Technology Policy (OSTP) issued a memorandum on “Ensuring Free, Immediate, and Equitable Access to Federally Funded Research.” Colleges and universities are embracing a range of open science activities and practices. Governments around the globe have instituted national open science strategies, from Ireland to Colombia to Spain, supported by international bodies like UNESCO. Underpinning these advances is the shared belief that open science accelerates the pace of discovery, reduces information-sharing gaps, stimulates more equitable knowledge production, encourages innovation, and promotes reproducibility.
As leaders of the Open Research Funders Group (ORFG), we work in partnership with 26 leading philanthropic organizations to develop, implement, and oversee open science policies. One area that warrants particular attention is research data. Research data are critical to: 1) the independent confirmation of results and conclusions; 2) making informed decisions about future research activities; and 3) demonstrating the type of transparency that builds public confidence in science.
In our work with the ORFG and as key organizers of the National Academies of Sciences, Engineering, and Medicine (NASEM) Roundtable on Aligning Incentives for Open Science, we have found that researchers, scholars, scientists, and students all emphasize the need for clear and consistent guidance from funders, universities, and professional societies. Ambiguous (at best) or contradictory (at worst) guidance will make it more difficult to share work in a manner that optimizes FAIRness (Findability, Accessibility, Interoperability, and Reuse).
To make data sharing easier and to establish a clear baseline for what well-considered data-sharing policies should encompass, we recommend that funders:
1. Clearly specify which data grantees are required to share. Do you want grantees to share only data underlying published studies or all data generated during the funded project? Do you want raw or pre-processed data? If qualitative (not just quantitative) data are also covered by your policy, do you provide guidance for grantees on good practices for sharing qualitative data?
2. Consider incorporating code- and software-sharing requirements as a necessary extension of their data-sharing policies. To be able to reproduce results accurately and build upon shared data, researchers must not only have access to the files but also the code and software used to open and analyze data. Only then are data truly findable, accessible, interoperable, and reusable. The ORFG and the Higher Education Leadership Initiative for Open Scholarship (HELIOS) have prepared a more detailed brief.
3. Clearly specify the required timing of data sharing. The timing will vary based on what data are to be shared and what constitutes the event that triggers the sharing requirement. If data underlie a published study, complying or aligning with new federal policies will require data to be shared immediately at the time of publication. If, however, the policy requires sharing of all data, then the timing may be tied to the award period (as the NIH requires).
4. Require grantees to deposit data in trusted public repositories that assign a persistent identifier (e.g., DOI), provide the necessary infrastructure to host and export quality metadata, implement strategies for long-term preservation, and otherwise meet the National Science and Technology Council’s Desirable Characteristics of Data Repositories. To make compliance easier for grantees, funders should provide a list of approved data repositories that meet these characteristics and are appropriate for the disciplines they fund.
5. Require grantees to share data under licenses that facilitate reuse. The recommended free culture license for data is the Creative Commons Public Domain Dedication (CC0). The reasoning behind this is two-fold: first, data do not always incur copyright and, therefore, reserving certain rights under other licenses may be inappropriate, and second, we should avoid attribution or license stacking that may occur as datasets are remixed and reused. Other options include the Creative Commons Attribution (CC BY) or ShareAlike (CC BY-SA) licenses.
6. Strongly encourage grantees to share data according to established best practices. These include, but are not limited to: a) the FAIR Principles, which outline how to share data so they are Findable, Accessible, Interoperable, and Reusable; b) the CARE Principles for Indigenous Data Governance, which emphasize the importance of Collective Benefit, Authority to Control, Responsibility, and Ethics in the context of Indigenous data, but could also inform the responsible management and sharing of data for other populations; and c) privacy rules, such as those provided under HIPAA. Funders should communicate that it is the responsibility of grantees to get the appropriate consent and ethical approval (e.g., from their institutional review board) that will allow them to collect and subsequently openly share de-identified data.
7. Allow grantees to include data sharing costs in their grant budgets. This could include costs associated with data management, curation, hosting, and long-term preservation. For many projects, data hosting costs will likely be minimal—several public repositories allow researchers to store significant amounts of data for free. For projects that will generate larger amounts of data, additional hosting costs can be budgeted. The most important cost may be the personnel time and expertise required to properly prepare data for sharing and reuse. Funders should consider increasing the allowable personnel costs to secure extra curation time for team members or hire a dedicated data steward.
8. Require grantees to submit a Data Management Plan (DMP) at the time of grant application, and take it into account in the application review process. The DMP provides an opportunity to collect in one place all the information specified above, such as which data will be shared, when, where, and under what licensing. Requiring grantees to outline these details at an early stage, before data collection, can help them think through and anticipate their data-sharing needs, which leads to better data management practices and more accurate budgeting. Such plans can also help funders to subsequently track data sharing, and, in turn, measure data reuse and impact. Funders can provide guidance and even sample plans to help potential grantees develop quality DMPs.
These recommendations are neither exhaustive nor immutable. We expect that this data-sharing baseline will continue to evolve as evidence on the benefits and limitations of data sharing accumulates, better infrastructure and training modules are developed, more powerful tools to process and analyze open data come online, more governments and agencies implement open science strategies, and community norms emerge. But the work starts now, and by adhering to these principles, public and private funders can help transform open science’s spotlight moment to encompass an epoch.
The authors wish to thank Ashley Farley, Maryrose Franko, Adam Jones, Matthew Lewis, and Belinda Orland for their contributions to this set of recommendations. Their input and expertise helped shape this piece substantially.
Erin C. McKiernan is community manager at Open Research Funders Group (ORFG) as well as a neuroscientist and a professor in the Department of Physics, Biomedical Physics Program at Universidad Nacional Autónoma de México. Greg Tananbaum is the director of ORFG.
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com
Tác giả: Nghĩa Lê Trung
Ý kiến bạn đọc
Những tin mới hơn
Những tin cũ hơn
Blog này được chuyển đổi từ http://blog.yahoo.com/letrungnghia trên Yahoo Blog sang sử dụng NukeViet sau khi Yahoo Blog đóng cửa tại Việt Nam ngày 17/01/2013.Kể từ ngày 07/02/2013, thông tin trên Blog được cập nhật tiếp tục trở lại với sự hỗ trợ kỹ thuật và đặt chỗ hosting của nhóm phát triển...