Automatic Reasoning and Tool-use (ART)
Theo: https://www.promptingguide.ai/techniques/art
Việc kết hợp các lời nhắc theo chuỗi tư duy – CoT (Chain-of-Thought) và các công cụ theo cách xen kẽ đã được chứng minh là một phương pháp mạnh mẽ và hiệu quả để giải quyết nhiều nhiệm vụ với LLM. Các phương pháp này thường yêu cầu các bản trình diễn nhiệm vụ cụ thể thủ công được tạo ra và việc xen kẽ được lập trình cẩn thận giữa việc tạo mô hình với việc sử dụng công cụ. Paranjape và cộng sự, (2023) đề xuất một khuôn khổ mới sử dụng LLM đóng băng để tự động tạo ra các bước suy luận trung gian dưới dạng một chương trình.
ART hoạt động như sau:
với một nhiệm vụ mới, nó chọn các bản trình diễn về suy luận nhiều bước và sử dụng công cụ từ thư viện các nhiệm vụ
tại thời điểm kiểm tra, nó tạm dừng việc tạo sinh bất cứ khi nào các công cụ bên ngoài được gọi và tích hợp đầu ra của chúng trước khi tiếp tục tạo sinh.
ART khuyến khích mô hình khái quát hóa từ các bản trình diễn để phân tích một nhiệm vụ mới và sử dụng các công cụ ở những vị trí thích hợp, theo cách không có lỗi nào. Ngoài ra, ART có thể mở rộng vì nó cũng cho phép con người sửa lỗi trong các bước suy luận hoặc thêm các công cụ mới bằng cách đơn giản là cập nhật thư viện các nhiệm vụ và công cụ. Quy trình được minh họa dưới đây:

Image Source: Paranjape et al., (2023)
ART cải thiện đáng kể so với việc nhắc với vài lần ví dụ/minh họa và CoT tự động dựa trên các tác vụ chưa được biết đến trong các phép đo chuẩn BigBench và MMLU, đồng thời vượt trội hơn hiệu suất của các lời nhắc CoT thủ công được tạo ra khi kết hợp phản hồi của con người.
Dưới đây là bảng minh họa hiệu suất của ART dựa trên các tác vụ BigBench và MMLU:

Image Source: Paranjape et al., (2023)
Về ‘Kỹ thuật viết lời nhắc’ ………. Phần trước ………. Phần tiếp theo
Combining CoT prompting and tools in an interleaved manner has shown to be a strong and robust approach to address many tasks with LLMs. These approaches typically require hand-crafting task-specific demonstrations and carefully scripted interleaving of model generations with tool use. Paranjape et al., (2023) propose a new framework that uses a frozen LLM to automatically generate intermediate reasoning steps as a program.
ART works as follows:
given a new task, it select demonstrations of multi-step reasoning and tool use from a task library
at test time, it pauses generation whenever external tools are called, and integrate their output before resuming generation
ART encourages the model to generalize from demonstrations to decompose a new task and use tools in appropriate places, in a zero-shot fashion. In addition, ART is extensible as it also enables humans to fix mistakes in the reasoning steps or add new tools by simply updating the task and tool libraries. The process is demonstrated below:
ART substantially improves over few-shot prompting and automatic CoT on unseen tasks in the BigBench and MMLU benchmarks, and exceeds performance of hand-crafted CoT prompts when human feedback is incorporated.
Below is a table demonstrating ART's performance on BigBench and MMLU tasks:
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com
Tác giả: Nghĩa Lê Trung
Ý kiến bạn đọc
Những tin cũ hơn
Blog này được chuyển đổi từ http://blog.yahoo.com/letrungnghia trên Yahoo Blog sang sử dụng NukeViet sau khi Yahoo Blog đóng cửa tại Việt Nam ngày 17/01/2013.Kể từ ngày 07/02/2013, thông tin trên Blog được cập nhật tiếp tục trở lại với sự hỗ trợ kỹ thuật và đặt chỗ hosting của nhóm phát triển...
Các bài trình chiếu trong năm 2024
Tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ cho giáo viên phổ thông, bao gồm cả giáo viên tiểu học và mầm non tới hết năm 2024
Các lớp tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ tới hết năm 2024
Các tài liệu dịch sang tiếng Việt tới hết năm 2024
‘Digcomp 2.2: Khung năng lực số cho công dân - với các ví dụ mới về kiến thức, kỹ năng và thái độ’, EC xuất bản năm 2022
Tổng hợp các bài của Nhóm các Nhà cấp vốn Nghiên cứu Mở (ORFG) đã được dịch sang tiếng Việt
Tổng hợp các bài của Liên minh S (cOAlition S) đã được dịch sang tiếng Việt
Năm Khoa học Mở & Chuyển đổi sang Khoa học Mở - Tổng hợp các bài liên quan
Hội nghị Đối tác Dữ liệu Mở châu Á năm 2021 do Việt Nam lần đầu tiên chủ trì
Các khung năng lực trong hành động
Phong trào Bình dân học vụ số: Mục tiêu, đối tượng, nội dung, nguồn lực, phương thức tổ chức thực hiện
Lễ công bố công khai Trung tâm Năng lực Kim cương châu Âu và dự án ALMASI
Khung năng lực AI cho giáo viên
Ngày Phần mềm Tự do, Ngày Phần cứng tự do, Ngày Tài liệu Tự do
‘Khung năng lực AI cho giáo viên’ - bản dịch sang tiếng Việt
Bạn cần biết những gì về các khung năng lực AI mới của UNESCO cho học sinh và giáo viên
Bàn về 'Lợi thế của doanh nghiệp Việt là dữ liệu Việt, bài toán Việt' - bài phát biểu của Bộ trưởng Nguyễn Mạnh Hùng ngày 21/08/2025
Các tài liệu dịch sang tiếng Việt tới hết năm 2024
Các bài trình chiếu trong năm 2024
‘Tài liệu quan điểm của KR21 về Giữ lại Quyền Tác giả: Giữ lại các quyền trong kết quả đầu ra nghiên cứu để cho phép phổ biến mở kiến thức’ - bản dịch sang tiếng Việt
‘KHUYẾN NGHỊ VÀ HƯỚNG DẪN TRUY CẬP MỞ KIM CƯƠNG cho các cơ sở, nhà cấp vốn, nhà bảo trợ, nhà tài trợ, và nhà hoạch định chính sách’ - bản dịch sang tiếng Việt
DeepSeek đã gây ra sự hoảng loạn trên thị trường — nhưng một số người cho rằng việc bán tháo là quá mức
“Chúng tôi không có hào nước”: Sự đổi mới đột phá của AI nguồn mở
Ứng dụng và phát triển Tài nguyên Giáo dục Mở (OER) tại Việt Nam
Tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ cho giáo viên phổ thông, bao gồm cả giáo viên tiểu học và mầm non tới hết năm 2024
Nhà khoa học AI hàng đầu của Meta cho biết thành công của DeepSeek cho thấy 'các mô hình nguồn mở đang vượt trội hơn các mô hình độc quyền'
Dữ liệu để phân loại AI
50 công cụ AI tốt nhất cho năm 2025 (Đã thử và kiểm nghiệm)
Mark Zuckerberg: DeepSeek cho thấy vì sao nước Mỹ phải là ‘tiêu chuẩn nguồn mở toàn cầu’ của AI; không có lý do gì để suy nghĩ lại về việc chi tiêu
‘Hướng dẫn triển khai Khuyến nghị Tài nguyên Giáo dục Mở. Lĩnh vực hành động 2: Phát triển chính sách hỗ trợ’ - bản dịch sang tiếng Việt