GPT cho các học giả: Bộ tạo thuận lợi cho nghiên cứu kém chất lượng?

Thứ sáu - 07/06/2024 04:43

GPTs for Scholars: Enablers of Shoddy Research?

GPT cung cấp các trích dẫn học thuật có thể loại bỏ vấn đề các trích dẫn ảo (giả), nhưng chúng đặt ra những vấn đề khác, Mohammad Hosseini và Kristi Holmes viết.

By Mohammad Hosseini and Kristi Holmes

May 16, 2024

Theo: https://www.insidehighered.com/opinion/views/2024/05/16/scholar-specific-gpts-may-enable-shoddy-research-opinion

Bài được đưa lên Internet ngày: 16/05/2024

Một khảo sát khoảng 3.800 học giả sau tiến sĩ được Nature tiến hành đã chỉ ra rằng 17% các học giả sau tiến sĩ sử dụng các chatbot hàng ngày và 43% sử dụng chúng hàng tuần cho các nhiệm vụ như “tham chiếu văn bản” (63%), “sinh ra/biên soạn/xử lý sự cố về mã” (56%), và “tìm kiếm/tóm tắt văn bản” (29%). Tỷ lệ phần trăm khá cao các nhà nghiên cứu sử dụng các chatbot để tìm kiếm và tóm tắt tài liệu vừa gây ngạc nhiên vừa gây lo ngại, vì các trích dẫn ảo/giả được ChatGPT sinh ra đã tạo ra nhiều tiêu đề và đã được thảo luận tăng cường trên các phương tiện truyền thông công cộng và tài liệu học thuật.

ChatGPT tạo ra các trích dẫn giả nhưng trông như thật, vì nó không có kết nối tới cơ sở dữ liệu các ấn phẩm học thuật. Như từ viết tắt GPT (Generative Pre-training Transformer - Bộ chuyển đổi huấn luyện trước có tính sáng tạo) gợi ý, nó được huấn luyện trước trên một lượng lớn dữ liệu văn bản, phạm vi của dữ liệu này chưa được tiết lộ chính thức ngoài những mô tả mơ hồ do các nhà phát triển của chúng đưa ra, chẳng hạn như “lượng dữ liệu khổng lồ từ internet.” Trong khi các nhà nghiên cứu con người (lý tưởng) đọc và sau đó trích dẫn một tài liệu đã được xuất bản trước đó, thì ChatGPT sản xuất các trích dẫn bằng việc xử lý dữ liệu văn bản và sinh ra câu trả lời có khả năng cao cho một yêu cầu, trong trường hợp này, cho một trích dẫn. Vấn đề tương tự đã được quan sát thấy khi sử dụng ChatGPT trong các tính toán toán học, trong đó một phản hồi có khả năng xảy ra cao có thể hoàn toàn không chính xác.

Để cảnh báo người dùng, các nhà phát triển ChatGPT đã đưa vào tuyên bố từ chối trách nhiệm bên dưới hộp nhập nội dung “ChatGPT có thể mắc lỗi. Hãy cân nhắc việc kiểm tra những thông tin quan trọng.” Hơn nữa, người dùng ChatGPT trả phí có thể sử dụng GPT theo ngữ cảnh cụ thể mà cung cấp các tính năng bổ sung thêm so với phiên bản ChatGPT thông thường để thực hiện các tác vụ cụ thể. Sự ra đời của GPT Store (Cửa hàng GPT) đã tạo ra nhiều GPT mới được xây dựng tùy chỉnh (do các bên thứ ba phát triển) sử dụng giao diện lập trình ứng dụng (API) ChatGPT cho nhiều tác vụ khác nhau. Các ví dụ bao gồm GPT giải các phương trình toán học và đại số (ví dụ: Trình giải toán, Trình giải đại số tuyến tính), dạy vật lý theo những cách phù hợp với các phong cách học tập và nhóm tuổi khác nhau (ví dụ: Gia sư Vật lý) và trợ giúp người dùng nấu ăn (ví dụ: Trình tạo công thức nấu ăn: Trợ lý nấu ăn).

Ngoài ra còn có nhiều GPT khác nhau (ví dụ: Đồng thuận, GPT của học giả, Tài liệu nghiên cứu, AI của học giả) cung cấp các trích dẫn mang tính học thuật để đáp lại một câu truy vấn (ví dụ: “cà phê tốt cho sức khỏe con người”). Các GPT này giải quyết vấn đề trích dẫn ảo và giả mạo, đồng thời đưa ra các trích dẫn chính xác về mặt thư mục. Tuy nhiên, sự tiện lợi này đi kèm với một cái giá đắt. Vì các GPT này sử dụng API ChatGPT nên chúng thừa hưởng hầu hết các hạn chế của API. Ngoài sự thiếu hiểu biết của chúng tôi về cách chúng hoạt động chính xác (vấn đề hộp đen), việc thiếu khả năng tái tạo, độ tin cậy gây tranh cãi và sự phổ biến của các thành kiến cho thấy rằng các GPT này tạo ra một nền văn hóa nghiên cứu kém chất lượng, dẫn đến ít nhất bốn vấn đề đạo đức riêng biệt.

1. Tìm kiếm không đáng tin cậy và không thể lặp lại. Đầu tư tài chính đáng kể và kiến thức chuyên môn dồi dào đã được đầu tư vào việc phát triển các chỉ số học thuật mạnh mẽ, có trật tự và được duy trì tốt, cho phép tìm kiếm đáng tin cậy và có thể tái tạo lại. Ví dụ, theo Thư viện Y khoa Quốc gia của Viện Y tế Quốc gia, PubMed đăng ký “các thông báo rút lại và sai sót, bày tỏ quan ngại, các bài báo được sửa chữa và xuất bản lại, các bình luận, các ấn phẩm trùng lặp, cập nhật, tóm tắt bệnh nhân và các bài báo được xuất bản lại” để đảm bảo rằng các nhà nghiên cứu tìm thấy tất cả các thông tin cần thiết liên quan đến một trích dẫn. Tuy nhiên, GPT không thể tái tạo lại đã chưa được các chuyên gia hiện trường và thủ thư kiểm tra có thể không có quyền truy cập vào tất cả các nguồn sẵn có và có thể không lưu giữ hồ sơ cập nhật về các lần rút lại, lỗi sai và biểu hiện lo ngại. Theo đó, chúng có thể tạo ra các tìm kiếm không đáng tin cậy và không thể sao chép, ảnh hưởng tiêu cực đến tính toàn vẹn, chính xác và xác thực của hồ sơ nghiên cứu.

2. Tăng khả năng vi phạm đạo đức trích dẫn. Hiện tại vẫn chưa rõ mức độ chính xác của các trích dẫn do GPT tạo ra vì vẫn chưa có đánh giá có hệ thống về các công cụ này. Vì các nhà nghiên cứu chịu trách nhiệm và trách nhiệm giải trình cuối cùng về mọi quyết định được đưa ra trong suốt quá trình nghiên cứu nên việc cho phép GPT tìm kiếm trong kho tài liệu học thuật và đưa ra một số nguồn hỗ trợ cho tuyên bố sẽ tác động tiêu cực đến tính chính xác và tính toàn vẹn của các trích dẫn. Tham gia vào các tài liệu đã xuất bản trước đó một cách có trách nhiệm là một vấn đề phức tạp và có nhiều hậu quả, chính là nền tảng để các nhà nghiên cứu tìm ra những lỗ hổng trong tài liệu cũng như phát triển và thử nghiệm các giả thuyết mới. Hơn nữa, như những cáo buộc gần đây về hành vi sai trái chống lại các quan chức đại học hàng đầu ở Hoa Kỳ đã cho thấy, hậu quả của việc sử dụng tài liệu một cách vô trách nhiệm có thể quay trở lại gây tổn hại cho các nhà nghiên cứu ở mọi cấp độ, nhiều năm sau khi nghiên cứu được công bố.

3. Tăng khả năng thiên vị trong tài liệu. Trong khi các chỉ mục học thuật trình bày kho nội dung tóm tắt được lập chỉ mục và kho nội dung toàn văn đang phát triển nhanh chóng phù hợp với từ khóa hoặc chuỗi tìm kiếm, GPT cung cấp cho các nhà nghiên cứu một danh sách chọn lọc các nguồn có sẵn. Hơn nữa, các chỉ mục như PubMed có các bộ lọc và hướng dẫn sử dụng cụ thể được cập nhật và bảo trì thường xuyên, nhưng GPT có thể không có bộ lọc và không có hướng dẫn về cách sử dụng chúng hoặc cách tránh sai sót. Theo đó, những thành kiến trong thuật toán và báo cáo đầu vào có thể dẫn đến các trích dẫn không hỗ trợ các tuyên bố được đưa ra trong một ấn phẩm, không phản ánh các sắc thái có sẵn hoặc tệ hơn là gây tổn hại thực sự bằng cách cung cấp hỗ trợ trích dẫn cho các tuyên bố không có căn cứ và không chính xác. Trừ khi các nhà nghiên cứu đọc kỹ và xác thực mọi trích dẫn được cung cấp trước khi sử dụng, những GPT này có thể truyền bá thông tin sai lệch và không chính xác về hồ sơ đã xuất bản, làm tăng thông tin sai lệch và giả khoa học trong tương lai.

4. Cho phép nghiên cứu kém chất lượng. Vì các GPT này cho phép các nhà nghiên cứu sử dụng các tuyên bố và câu không có cấu trúc làm cụm từ tìm kiếm (thay vì tận dụng các từ khóa có cấu trúc hoặc từ điển đồng nghĩa về Tiêu đề Chủ đề Y tế chẳng hạn), nên chúng cho phép các nhà nghiên cứu lười biếng trích dẫn các ấn phẩm dựa trên linh cảm của họ mà không cần hiểu biết gì về tài liệu, hoặc thậm chí không cần đọc phần tóm tắt của bài viết. Do đó, việc sử dụng thường xuyên và không hạn chế các GPT này có thể ảnh hưởng vĩnh viễn đến phương pháp học thuật, ảnh hưởng đến khả năng xác định và tiếp cận nghiên cứu dựa trên bằng chứng cũng như nâng cao khám phá thông qua yêu cầu nghiêm ngặt.

Việc sử dụng ChatGPT và các chatbot có sẵn khác có thể giúp thực hiện nhiều nhiệm vụ nghiên cứu hiệu quả hơn; tuy nhiên, phải cẩn thận để đảm bảo sử dụng có trách nhiệm. Mặc dù các GPT chuyên biệt này giải quyết vấn đề trích dẫn ảo và giả mạo, nhưng chúng lại tạo ra các vấn đề đạo đức bổ sung với những hậu quả bất lợi. Do tốc độ phát triển và áp dụng chóng mặt (GPT Store báo cáo rằng Consensus đã được sử dụng hơn 5 triệu lần và Scholar GPT hơn 2 triệu lần), các GPT này chưa được kiểm tra về độ chính xác và độ tin cậy và các nhà nghiên cứu cũng chưa còn được đào tạo về cách sử dụng có trách nhiệm.

Để giải quyết một cách thích hợp những khoảng trống này, chúng ta cần đánh giá thêm về tính xác thực của những công cụ này, xây dựng các hướng dẫn và phương pháp thực hành tốt nhất để sử dụng chúng một cách có đạo đức cũng như đào tạo có ý nghĩa cho các nhà nghiên cứu. Cuối cùng, cần phải có một loạt biện pháp can thiệp để ngăn GPT truyền bá thông tin sai lệch, khoa học giả và quan điểm thiên vị sẽ làm suy yếu các tiêu chuẩn nghiên cứu và cuối cùng là làm xói mòn niềm tin vào khoa học.

Mohammad Hosseini, Tiến sĩ, là trợ lý giáo sư tại Khoa Y tế Dự phòng tại Trường Y khoa Feinberg của Đại học Northwestern. Kristi Holmes, Tiến sĩ, là giám đốc Thư viện Khoa học Sức khỏe Galter và phó trưởng khoa quản lý tri thức và chiến lược tại Trường Y khoa Feinberg của Đại học Northwestern. Họ đã viết nhiều về đạo đức của việc sử dụng AI trong nghiên cứu.

The GPTs that offer scholarly citations may eliminate the issue of hallucinated (fake) citations, but they pose other problems, Mohammad Hosseini and Kristi Holmes write.

A survey of about 3,800 postdoctoral scholars conducted by Nature showed that 17 percent of postdocs use chatbots daily and 43 percent use them weekly for such tasks as “refining text” (63 percent), “code generation/editing/troubleshooting” (56 percent), and “finding/summarizing the literature” (29 percent). The relatively high percentage of researchers using chatbots for finding and summarizing the literature is both surprising and concerning, given that hallucinated/fake citations generated by ChatGPT made many headlines and have been discussed extensively in public media and the academic literature.

ChatGPT produces fake but realistic-looking citations, because it is not connected to a database of scholarly publications. As the acronym GPT (Generative Pre-trained Transformer) suggests, it is pretrained on large amounts of textual data, the scope of which has not been officially disclosed beyond vague descriptions released by their developers such as “vast amounts of data from the internet.” While human researchers (ideally) read and then cite a previously published paper, ChatGPT produces citations by processing text data and generating a highly probable response to a request, in this case, for a citation. A similar issue has been observed when using ChatGPT in mathematical calculations, where a highly probable response can be outright incorrect.

To warn users, ChatGPT developers have included a disclaimer underneath the input box that reads “ChatGPT can make mistakes. Consider checking important information.” Furthermore, paid users of ChatGPT can use context-specific GPTs that offer add-on features on top of the vanilla version of ChatGPT to conduct specific tasks. The introduction of the GPT Store has made available numerous new custom-built GPTs (developed by third parties) that use the ChatGPT application programming interface (API) for various tasks. Examples include GPTs that solve math and algebra equations (e.g., Math Solver, Linear Algebra Solver), teach physics in ways that match different learning styles and age groups (e.g., Physics Tutor), and help users with cooking (e.g., Recipe Generator: Cooking Assistant).

There are also various GPTs (e.g., Consensus, Scholar GPT, Research Papers, Scholar AI) that offer scholarly citations in response to a query statement (e.g., “coffee is good for human health”). These GPTs resolve the issue of hallucinated and fake citations and offer citations that are bibliometrically correct. However, this convenience comes with a hefty price. Since these GPTs use the ChatGPT API, they inherit most of its limitations. In addition to our lack of understanding about how exactly they work (the black box problem), the lack of reproducibility, debatable reliability and prevalence of biases suggest that these GPTs enable a shoddy research culture, resulting in at least four distinct ethical issues.

1. Unreliable and nonreplicable searches. Substantial financial investment and a wealth of expertise have gone into developing robust, orderly and well-maintained scholarly indices, which enable reliable and reproducible searches. For example, according to the National Institutes of Health’s National Library of Medicine, PubMed registers “retraction and erratum notices, expressions of concern, corrected and republished articles, comments, duplicate publications, updates, patient summaries, and republished articles” to ensure that researchers find all the necessary information associated with a citation. However, nonreproducible GPTs that have not been vetted by field experts and librarians may not have access to all available sources, and may not keep an up-to-date record of retractions, errata and expressions of concern. Accordingly, they could produce unreliable and nonreplicable searches, which negatively affect the integrity, accuracy and veracity of the research record.

2. Increased likelihood of citation ethics violations. It is currently unclear to what extent citations generated by GPTs are accurate, as there has not yet been a systematic evaluation of these tools. Since researchers are ultimately responsible and accountable for all decisions made throughout the research process, allowing GPTs to search through the scholarly corpus and offer a handful of sources that support a claim stands to negatively impact the accuracy and integrity of citations. Engaging with previously published material in a responsible manner is a complicated and consequential matter, the very bedrock upon which researchers find gaps in the literature and develop and test new hypotheses. Moreover, as recent allegations of misconduct against top university officials in the U.S. have shown, the consequences of irresponsible use of the literature could come back to bite researchers at any level, many years after a research publication.

3. Increased likelihood of bias in the literature. While scholarly indices present the indexed corpus of abstracts and a rapidly growing corpus of full-text articles that match keywords or a search string, GPTs provide researchers with a select list of available sources. Furthermore, indices like PubMed have specific filters and user guides that are frequently updated and maintained, but GPTs may come with no filters and no instructions on how to use them or how to avoid mistakes. Accordingly, biases in algorithms and input statements could result in citations that fail to support claims made in a publication, do not reflect available nuances, or, worse, do real harm by offering citation support for unsubstantiated and inaccurate claims. Unless researchers thoroughly read and validate every offered citation before use, these GPTs could propagate inaccurate and slanted information about the published record, increasing misinformation and pseudoscience far into the future.

4. Enabling shoddy research. Since these GPTs allow researchers to use unstructured statements and sentences as a search term (instead of leveraging structured keywords or the Medical Subject Headings thesaurus, for example), they enable indolent researchers to cite publications based on their hunches without any understanding of the literature, or even without reading an article’s abstract. Consequently, frequent and unfettered use of these GPTs may permanently impact the scholarly method, impacting the ability to identify and access evidenced-based research and advance discovery through rigorous inquiry.

Use of ChatGPT and other available chatbots can help make a wide range of research tasks more efficient; however, care must be taken to ensure responsible use. While these specialized GPTs address the issue of hallucinated and fake citations, they create additional ethical issues with detrimental consequences. Due to the breakneck speed of their development and adoption (GPT Store reports that Consensus has been used more than 5 million times, and Scholar GPT more than 2 million times), these GPTs have not been tested for accuracy and reliability, and researchers have not been trained on their responsible use.

To appropriately address these gaps, we need further assessment of these tools’ veracity, the development of guidelines and best practices for their ethical use, and meaningful training for researchers. Ultimately, a range of interventions are required to prevent GPTs from spreading misinformation, pseudoscience and biased views that will undermine norms of research and ultimately erode trust in science.

Mohammad Hosseini, Ph.D., is an assistant professor in the Department of Preventive Medicine at Northwestern University’s Feinberg School of Medicine. Kristi Holmes, Ph.D., is the director of the Galter Health Sciences Library and associate dean for knowledge management and strategy at Northwestern University’s Feinberg School of Medicine. They have written extensively about the ethics of using AI in research.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Tác giả: Nghĩa Lê Trung