Về vai trò của thư viện đại học trong bức tranh TDM

Thứ tư - 19/07/2017 06:58

On the role of a university library in the TDM landscape

June 2, 2017

By Martine Oudenhoven, LIBER's Community Engagement Officer.

Theo: http://libereurope.eu/blog/2017/06/02/role-university-library-tdm-landscape/

Bài được đưa lên Internet ngày: 02/06/2017

Xem thêm: Giáo dục mở và tài nguyên, giấy phép tư liệu mở

25 năm trước, khi Laurents Sesink từng vẫn còn là sinh viên sử học, luận án của anh về các quan hệ chính trị quốc tế đã gồm nhiều đánh dấu các nhãn và các bài đọc. Khi đó anh đã nghĩ “Phải có cách tốt hơn để làm điều này”, vì thế anh đã xây dựng cơ sở dữ liệu và bắt đầu công việc về thông tin và số hóa. Bây giờ anh là người đứng đầu của Trung tâm Hàn lâm Số (Centre for Digital Scholarship) ở thư viện Đại học Leiden. Trung tâm đã được khởi xướng vào tháng 7/2016, và họ hiện đang chỉ ra cách tốt nhất để hỗ trợ cho nghiên cứu.

Trung tâm Hàn lâm Số ở Đại học Leiden vẫn còn quá mới. Nó đã được bắt đầu như thế nào?

Nó đã được ban lãnh đạo trường đại học khởi xướng, vì họ muốn các nhà khoa học có khả năng sử dụng các công cụ và các công nghệ mới nhanh hơn. Đã có rồi nhiều hoạt động liên tục trong lĩnh vực quản lý dữ liệu và truy cập mở ở đại học này. Điều đó giải thích vì sao tầm nhìn là phải có cửa hàng một cửa duy nhất (one-stop-shop), nó làm việc cùng và tham chiếu tới sự tinh thông đang có lan truyền khắp đại học. Trung tâm rõ ràng không ngụ ý sẽ nắm lấy sự tinh thông này, mà là để kết nối nó tốt hơn.

Trung tâm Hàn lâm Số thực sự làm gì?

Chúng tôi làm các việc khác nhau. Trước hết, chúng tôi hỗ trợ các nhà nghiên cứu để làm cho các xuất bản phẩm của họ là truy cập mở và tìm kiếm các xuất bản phẩm truy cập mở. Thứ 2, chúng tôi hỗ trợ họ bằng sự quản lý dữ liệu nghiên cứu, điều này cũng bao gồm sự bảo tồn dữ liệu. Nhưng điều mới mẻ và thực sự thú vị mà chúng tôi đang làm, là chúng tôi hỗ trợ các nhà nghiên cứu bằng khoa học dữ liệu. Việc khai thác văn bản và dữ liệu cũng là một phần của gói này.

Các thư viện đại học khác cũng có tiếp cận tương tự chứ?

Chủ yếu ở Mỹ và Anh, tôi nghĩ thế. Tại Hà Lan chúng tôi là đầu tiên. Ở hầu hết các thư viện đại học ở Hà Lan, các hoạt động đó là một phần của ‘hỗ trợ nghiên cứu’, nên nó đang diễn ra. Nhưng ở Leiden chúng tôi chọn phân đoạn nó, và phải có các nhân viên chuyên tâm.

Vì sao việc hỗ trợ cho các nhà nghiên cứu bằng khoa học dữ liệu lại rất thú vị?

Vì nó là mới và vì chúng tôi vẫn còn chỉ ra cách để tổ chức nó, những gì phải tập trung vào. Đó là những gì làm cho nó trở nên thú vị. Có hàng ngàn nhà nghiên cứu ở đại học này, và chúng tôi chỉ có 6 FTE ở trung tâm của chúng tôi. Chúng tôi hy vọng mở rộng thành 12 FTE. Nhưng thậm chí như vậy, chúng tôi vẫn phải tiến hành lựa chọn.

Dạng các lựa chọn nào vậy?

Chúng tôi không thể chỉ hỗ trợ các nhà nghiên cứu và phân phối các kết quả, chúng tôi cũng phải huấn luyện cho họ để tiến hành, ví dụ, việc khai thác văn bản và dữ liệu cho bản thân họ. Chúng tôi đang thiết lập việc này qua Dạy nghề Thư viện - Library Carpentry (trang chuyên đào tạo các kỹ năng phần mềm cho những người chuyên nghiệp về thư viện), để chắc chắn rằng các thủ thư của riêng chúng tôi trở thành các đối tác hội thoại tốt khi nói về khoa học dữ liệu. Hiện tại chúng tôi đang bắt đầu với Dạy nghề Dữ liệu - Data Carpentry, cùng với Trung tâm Công nghệ Hà Lan về Khoa học Đời sống (Dutch Tech Centre for Life Sciences). Các thủ thư hàn lâm số của riêng chúng tôi cũng đang tham gia khóa huấn luyện, để có khả năng huấn luyện những người khác.

Ông đã nói với tôi trước đó, ông đang làm việc chặt chẽ cùng với các nhà khoa học để tìm ra những hỗ trợ nào họ cần. Ông có thể nói một chút về điều này?

Chúng tôi sử dụng phương pháp luận của dự án Agile, với các yếu tố scrum. Ví dụ: một trong các nhà nghiên cứu chúng tôi cùng làm việc đang nghiên cứu văn học Trung Quốc - Malaysia (Sino-Malaysian literature). Chúng tôi chia nhỏ nghiên cứu đó thành 2 bước lớn. Trước tiên chúng tôi xem xét các dữ liệu, những gì cần thiết để biến chúng thành FAIR có được chăng? Ở bước thứ 2 chúng tôi đã xem xét tính sẵn sàng của dữ liệu. Các cuốn sách, ví dụ, vẫn nên được công nhận như những cuốn sách. Rồi chúng tôi đi tới các phân tích: những phân tích nào nhà nghiên cứu này có thể làm, các công cụ nào có sẵn?

Nghe có vẻ thú vị khi làm việc này chặt chẽ với các nhà nghiên cứu!

Đúng vậy, nhưng đó cũng là công việc rất nặng nhọc. Vì thế chúng tôi đã học được là chúng tôi cần một tiếp cận khác, đặc biệt khi nói về khai thác văn bản và dữ liệu - TDM (Text and Data Mining). Trong tương lai, chúng tôi sẽ chia sự hỗ trợ của chúng tôi thành 3 mức:

Khóa học giới thiệu về khai thác văn bản và dữ liệu, với các ví dụ. Chúng tôi cũng phải xem liệu chúng tôi có thể kết nối tới thứ gì đó đang tồn tại rồi hay không.
Tư vấn cho các nhà nghiên cứu, những người có sự hiểu biết rồi về TDM về các công cụ có sẵn, và cách họ có thể tùy biến chúng cho các nhu cầu của họ.
Việc hỗ trợ cho một nhà nghiên cứu biết rồi chính xác những gì anh/chị ta cần, nhưng các công cụ đang tồn tại còn chưa đủ, nên họ cần nhiều hỗ trợ hơn. Nhưng chúng tôi chũng sẽ chỉ có khả năng chào điều này cho số lượng giới hạn các nhà nghiên cứu.

Chúng tôi đã học được nhiều từ làm việc với các nhà nghiên cứu, rằng chúng tôi có thể đã học được trong khi ngồi ở các bàn làm việc của riêng chúng tôi. Và họ cũng học được từ chúng tôi, vì thế đó là sự tương tác vui vẻ.

Ông chủ yếu làm việc với các nhà nghiên cứu nhân văn à?

Nếu nói về việc khai thác văn bản và dữ liệu: đúng. Vâng, nhân văn, luật, một chút khoa học xã hội. Các ngành nghề khác nhau đi tới chúng tôi với các câu hỏi khác nhau. Các nhà khoa học đời sống quen thuộc hơn trong việc tự họ phát triển các công cụ. Họ chủ yếu tìm kiếm sự hỗ trợ với truy cập mở và quản lý dữ liệu nghiên cứu.

Theo ông, đâu là thách thức lớn nhất cho việc khai thác văn bản và dữ liệu?

Để giữ cho tổng quan công việc được hoàn thành, thì các công nghệ, các kết quả, các công cụ phần mềm tốt nhất… Có rồi nhiều điều mới luôn xuất hiện. Là thách thức để nêu ra các công việc nào là tốt nhất trong từng trường hợp. Và sau đó: nếu bạn muốn TDM được triển khai rộng rãi hơn, tri thức phải được cải thiện. Ở vài thời điểm, từng người nên có sự tinh thông cơ bản, và sau đó chúng tôi có thể bắt đầu huấn luyện ở mức chuyên gia.

Ông nghĩ gì về vai trò của các thư viện trong bức tranh TDM?

Hiện tại chúng tôi hầu hết làm việc theo yêu cầu. Chúng tôi không nên chào những điều không có nhu cầu. Nhu cầu này có thể tới từ chính sách, hoặc trực tiếp từ các nhà khoa học. Nhưng tôi nghĩ cũng là quan trọng để nhìn trước, ví dụ, để thấy các công nghệ nào đang được phát triển rồi, và các xu thế đang diễn ra. Điều đó sẽ làm cho dễ dàng hơn để chuẩn bị cho sự chuyển đổi quá độ. Sẽ có những vấp váp trên con đường đó, và dễ dàng hơn nhiều để làm việc với họ nếu bạn được chuẩn bị tốt hơn. Các thư viện theo truyền thống được tập trung nhiều hơn vào phần hành chính của mọi điều, nhưng tôi nghĩ chúng tôi có thể cũng thích nghi được nhiều hơn mà không đánh mất đi độ tin cậy, tất nhiên rồi. Ở đây chúng tôi có thể học được từ các viện nghiên cứu.

Bài báo này ban đầu được đăng trên website của FutureTDM và OpenMinTeD, 2 dự án mà LIBER là đối tác.

25 years ago, when Laurents Sesink was still a history student, his thesis on political internal relations included a lot of reading and tally marks. Back then he already thought “There must be a better way to do this”, so he built a database and started to get into informatics and digitisation. Now he is the head of the Centre for Digital Scholarship at the library of Leiden University. The centre kicked off in July 2016, and they are currently figuring out the best way to support research.

The Centre for Digital Scholarship at Leiden University is still very new. How did it start?

It was initiated by the executive board of the university, because they wanted scientists to be able to use new tools and technologies faster. There were already a lot of activities going on in the field of data management and open access in this university. That’s why the vision is to have a one-stop-shop, that works together and refers to the existing expertise spread out through the university. The centre is explicitly not meant to take over this expertise, but to connect it better.

What does the Centre for Digital Scholarship actually do?

We do different things. Firstly, we support researchers to make their publications open access and to find open access publications. Secondly, we support them with research data management, this also includes digital preservation of data. But the real fun and new thing we are doing, is that we support researchers with data science. Text and data mining is also part of this package.

Do other university libraries have a similar approach?

Mainly in the US and the UK I think. In The Netherlands we are the first. In most Dutch university libraries, the activities are part of the ‘research support’, so it does happen. But in Leiden we chose to cluster it, and to have dedicated staff.

Why is supporting researchers with data science so much fun?

Because it is new and because we are still figuring out how to organise it, what to focus on. That’s what makes it interesting. There are thousands of researchers in this university, and we only have 6 FTE in our centre. We hope to extend it to 12 FTE. But even then, we still have to make choices.

What kind of choices?

We cannot only support researchers and deliver results, we also have to train them to do for example text and data mining themselves. We are setting this up through a Library Carpentry, to make sure that our own librarians become good conversation partners when it comes to data science. Currently we are starting this up together with the National Library and the Vrije University. We are also starting with Data Carpentry, together with the Dutch Tech Centre for Life Sciences. Our own digital scholarship librarians are also doing a workshop, in order to be able to train others.

You told me before, that you are working closely together with scientists to find out what support they need. Can you tell a bit more about this?

We use the Agile project methodology, with elements of scrum. An example: one of the researchers we work with investigates Sino-Malaysian literature. We broke down the research into big steps. First we looked at the data, what is necessary to have them FAIR? In the second step we looked at the availability of the data. Books for example, should still be recognized as books. Then we went to the analyses: which analyses can this researcher do, which tools are available?

Sounds like fun to work this closely with researchers!

Absolutely, but it is also very labour intensive. So we did learn that we need a different approach, especially when it comes to TDM. In the future, we will break down our support into 3 levels:

An introductory course on text and data mining, with examples. We also have to see if we can connect to something that already exists.
Advise researchers who already have an understanding of TDM on the tools that are available, and how they can adapt them to their needs.
Supporting a researcher who already knows exactly what he or she needs, but the existing tools are not sufficient, so they need more support. But we will only be able to offer this to a limited number of researchers.

We did learn a lot from working with researchers, that we could not have learned while sitting at our own desks. And they learn from us, so it is a nice interaction.

Do you mainly work with humanities researchers?

When it comes to text and data mining: yes. Well, humanities, law, a bit of social sciences. Different disciplines come to us with different questions. Life scientists are more used to developing tools on their own. They are mainly looking for support with open access and research data management.

What do you think is the biggest challenge for text and data mining?

To keep the overview of the work that has been done, the technologies, the results, the best software tools… There already is a lot and new things pop up all the time. It can be challenging to figure out what works best in each case. And then: if you want TDM to be taken up more widely, knowledge has to be improved. At some point, everybody should have the basic expertise, and then we can start training at the expert level.

What do you think is the role of libraries in the TDM landschape?

At the moment we mostly work demand-driven. We should not offer things if there is no demand. This demand can come from policy, or directly from scientists. But I think it is also important to look ahead, for example to see which technologies are already being developed, the trends that are occurring. That will make it easier to prepare the transition. There will be bumps in the road, and it is much easier to deal with them if you are better prepared. Libraries are traditionally more focused on the administrative side of things, but I think we can be more adaptive as well, without losing reliability of course. Here we can learn from research institutes.

This article was originally posted on the websites of FutureTDM and OpenMinTeD, two projects in which LIBER is a partner.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com