LLM Settings
Theo: https://www.promptingguide.ai/introduction/settings

Video: Hiểu các thiết lập LLM
Khi thiết kế và kiểm thử lời nhắc, bạn thường tương tác với LLM thông qua API. Bạn có thể cấu hình một vài tham số để có được các kết quả khác nhau cho lời nhắc của mình. Việc tinh chỉnh các thiết lập này rất quan trọng để cải thiện độ tin cậy và tính mong muốn của phản hồi, và cần một chút thử nghiệm để tìm ra thiết lập phù hợp cho các trường hợp sử dụng của bạn. Dưới đây là các cài đặt phổ biến bạn sẽ gặp phải khi sử dụng các nhà cung cấp LLM khác nhau:
Nhiệt độ (Temperature) - Tóm lại, nhiệt độ càng thấp, kết quả càng mang tính xác định theo nghĩa là mã thông báo (token) tiếp theo có xác suất cao nhất luôn được chọn. Nhiệt độ tăng có thể dẫn đến tính ngẫu nhiên cao hơn, khuyến khích các đầu ra đa dạng hoặc sáng tạo hơn. Về cơ bản, bạn đang tăng trọng số của các mã thông báo khả thi khác. Về mặt ứng dụng, bạn có thể muốn sử dụng giá trị nhiệt độ thấp hơn cho các tác vụ như QA (Hỏi Đáp) dựa trên dữ kiện để khuyến khích các phản hồi thực tế và ngắn gọn hơn. Đối với việc tạo thơ hoặc các tác vụ sáng tạo khác, việc tăng giá trị nhiệt độ có thể mang lại lợi ích.
Top P - Một kỹ thuật lấy mẫu với nhiệt độ, được gọi là lấy mẫu hạt nhân, cho phép bạn kiểm soát mức độ xác định của mô hình. Nếu bạn đang tìm kiếm các câu trả lời chính xác và thực tế, hãy giữ giá trị này ở mức thấp. Nếu bạn đang tìm kiếm các phản hồi đa dạng hơn, hãy tăng lên giá trị cao hơn. Nếu bạn sử dụng Top P, điều đó có nghĩa là chỉ các mã thông báo tạo nên khối lượng xác suất top_p mới được xem xét cho các phản hồi, do đó, giá trị top_p thấp sẽ chọn các phản hồi chắc chắn nhất. Điều này có nghĩa là giá trị top_p cao sẽ cho phép mô hình xem xét nhiều từ khả thi hơn, bao gồm cả những từ ít khả thi hơn, dẫn đến kết quả đầu ra đa dạng hơn.
Khuyến nghị chung là thay đổi giá trị temperature hoặc Top P nhưng không được thay đổi cả hai.
Độ dài Tối đa (Max Length) - Bạn có thể quản lý số lượng mã thông báo (token) mà mô hình tạo ra bằng cách điều chỉnh độ dài tối đa. Việc chỉ định độ dài tối đa giúp bạn tránh các phản hồi dài hoặc không liên quan và kiểm soát chi phí.
Chuỗi Dừng (Stop Sequences) - Chuỗi dừng là một chuỗi dừng mô hình tạo ra các mã thông báo (token). Chỉ định chuỗi dừng là một cách khác để kiểm soát độ dài và cấu trúc phản hồi của mô hình. Ví dụ, bạn có thể yêu cầu mô hình tạo danh sách có không quá 10 mục bằng cách thêm "11" làm chuỗi dừng.
Hình phạt Tần suất (Frequency Penalty) - Hình phạt tần suất áp dụng hình phạt cho mã thông báo tiếp theo tỷ lệ thuận với số lần mã thông báo đó đã xuất hiện trong phản hồi và lời nhắc. Hình phạt tần suất càng cao, khả năng một từ xuất hiện lại càng thấp. Thiết lập này làm giảm sự lặp lại của các từ trong phản hồi của mô hình bằng cách áp dụng hình phạt cao hơn cho các mã thông báo xuất hiện nhiều hơn.
Hình phạt Hiện diện (Presence Penalty) - Hình phạt hiện diện cũng áp dụng hình phạt cho các mã thông báo lặp lại, nhưng không giống như hình phạt tần suất, hình phạt này giống nhau cho tất cả các mã thông báo lặp lại. Mã thông báo xuất hiện hai lần và mã thông báo xuất hiện 10 lần đều bị phạt như nhau. Thiết lập này ngăn mô hình lặp lại các cụm từ quá thường xuyên trong phản hồi của nó. Nếu bạn muốn mô hình tạo ra văn bản đa dạng hoặc sáng tạo, bạn có thể muốn sử dụng hình phạt hiện diện cao hơn. Hoặc, nếu bạn cần mô hình duy trì sự tập trung, hãy thử sử dụng hình phạt hiện diện thấp hơn.
Tương tự như temperature và top_p, khuyến nghị chung là thay đổi hình phạt tần suất hoặc hình phạt hiện diện nhưng không phải cả hai.
Trước khi bắt đầu với một số ví dụ cơ bản, hãy lưu ý rằng kết quả của bạn có thể khác nhau tùy thuộc vào phiên bản LLM bạn sử dụng.
Về phần ‘Giới thiệu’ ………. Phần tiếp theo
Video: Understanding LLM Settings
When designing and testing prompts, you typically interact with the LLM via an API. You can configure a few parameters to get different results for your prompts. Tweaking these settings are important to improve reliability and desirability of responses and it takes a bit of experimentation to figure out the proper settings for your use cases. Below are the common settings you will come across when using different LLM providers:
Temperature - In short, the lower the temperature, the more deterministic the results in the sense that the highest probable next token is always picked. Increasing temperature could lead to more randomness, which encourages more diverse or creative outputs. You are essentially increasing the weights of the other possible tokens. In terms of application, you might want to use a lower temperature value for tasks like fact-based QA to encourage more factual and concise responses. For poem generation or other creative tasks, it might be beneficial to increase the temperature value.
Top P - A sampling technique with temperature, called nucleus sampling, where you can control how deterministic the model is. If you are looking for exact and factual answers keep this low. If you are looking for more diverse responses, increase to a higher value. If you use Top P it means that only the tokens comprising the top_p probability mass are considered for responses, so a low top_p value selects the most confident responses. This means that a high top_p value will enable the model to look at more possible words, including less likely ones, leading to more diverse outputs.
The general recommendation is to alter temperature or Top P but not both.
Max Length - You can manage the number of tokens the model generates by adjusting the max length. Specifying a max length helps you prevent long or irrelevant responses and control costs.
Stop Sequences - A stop sequence is a string that stops the model from generating tokens. Specifying stop sequences is another way to control the length and structure of the model's response. For example, you can tell the model to generate lists that have no more than 10 items by adding "11" as a stop sequence.
Frequency Penalty - The frequency penalty applies a penalty on the next token proportional to how many times that token already appeared in the response and prompt. The higher the frequency penalty, the less likely a word will appear again. This setting reduces the repetition of words in the model's response by giving tokens that appear more a higher penalty.
Presence Penalty - The presence penalty also applies a penalty on repeated tokens but, unlike the frequency penalty, the penalty is the same for all repeated tokens. A token that appears twice and a token that appears 10 times are penalized the same. This setting prevents the model from repeating phrases too often in its response. If you want the model to generate diverse or creative text, you might want to use a higher presence penalty. Or, if you need the model to stay focused, try using a lower presence penalty.
Similar to temperature and top_p, the general recommendation is to alter the frequency or presence penalty but not both.
Before starting with some basic examples, keep in mind that your results may vary depending on the version of LLM you use.
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com
Tác giả: Nghĩa Lê Trung
Ý kiến bạn đọc
Những tin mới hơn
Những tin cũ hơn
Blog này được chuyển đổi từ http://blog.yahoo.com/letrungnghia trên Yahoo Blog sang sử dụng NukeViet sau khi Yahoo Blog đóng cửa tại Việt Nam ngày 17/01/2013.Kể từ ngày 07/02/2013, thông tin trên Blog được cập nhật tiếp tục trở lại với sự hỗ trợ kỹ thuật và đặt chỗ hosting của nhóm phát triển...
Các bài trình chiếu trong năm 2024
Tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ cho giáo viên phổ thông, bao gồm cả giáo viên tiểu học và mầm non tới hết năm 2024
Các lớp tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ tới hết năm 2024
Các tài liệu dịch sang tiếng Việt tới hết năm 2024
‘Digcomp 2.2: Khung năng lực số cho công dân - với các ví dụ mới về kiến thức, kỹ năng và thái độ’, EC xuất bản năm 2022
Tổng hợp các bài của Nhóm các Nhà cấp vốn Nghiên cứu Mở (ORFG) đã được dịch sang tiếng Việt
Tổng hợp các bài của Liên minh S (cOAlition S) đã được dịch sang tiếng Việt
Năm Khoa học Mở & Chuyển đổi sang Khoa học Mở - Tổng hợp các bài liên quan
Hội nghị Đối tác Dữ liệu Mở châu Á năm 2021 do Việt Nam lần đầu tiên chủ trì
Các khung năng lực trong hành động
Phong trào Bình dân học vụ số: Mục tiêu, đối tượng, nội dung, nguồn lực, phương thức tổ chức thực hiện
Lễ công bố công khai Trung tâm Năng lực Kim cương châu Âu và dự án ALMASI
Khung năng lực AI cho giáo viên
Ngày Phần mềm Tự do, Ngày Phần cứng tự do, Ngày Tài liệu Tự do
‘Khung năng lực AI cho giáo viên’ - bản dịch sang tiếng Việt
Bạn cần biết những gì về các khung năng lực AI mới của UNESCO cho học sinh và giáo viên
Bàn về 'Lợi thế của doanh nghiệp Việt là dữ liệu Việt, bài toán Việt' - bài phát biểu của Bộ trưởng Nguyễn Mạnh Hùng ngày 21/08/2025
Các tài liệu dịch sang tiếng Việt tới hết năm 2024
Các bài trình chiếu trong năm 2024
‘Tài liệu quan điểm của KR21 về Giữ lại Quyền Tác giả: Giữ lại các quyền trong kết quả đầu ra nghiên cứu để cho phép phổ biến mở kiến thức’ - bản dịch sang tiếng Việt
‘KHUYẾN NGHỊ VÀ HƯỚNG DẪN TRUY CẬP MỞ KIM CƯƠNG cho các cơ sở, nhà cấp vốn, nhà bảo trợ, nhà tài trợ, và nhà hoạch định chính sách’ - bản dịch sang tiếng Việt
Ứng dụng và phát triển Tài nguyên Giáo dục Mở (OER) tại Việt Nam
DeepSeek đã gây ra sự hoảng loạn trên thị trường — nhưng một số người cho rằng việc bán tháo là quá mức
“Chúng tôi không có hào nước”: Sự đổi mới đột phá của AI nguồn mở
Tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ cho giáo viên phổ thông, bao gồm cả giáo viên tiểu học và mầm non tới hết năm 2024
Nhà khoa học AI hàng đầu của Meta cho biết thành công của DeepSeek cho thấy 'các mô hình nguồn mở đang vượt trội hơn các mô hình độc quyền'
Dữ liệu để phân loại AI
50 công cụ AI tốt nhất cho năm 2025 (Đã thử và kiểm nghiệm)
Mark Zuckerberg: DeepSeek cho thấy vì sao nước Mỹ phải là ‘tiêu chuẩn nguồn mở toàn cầu’ của AI; không có lý do gì để suy nghĩ lại về việc chi tiêu
Tài sản chung kỹ thuật số và Hàng hóa Công cộng Kỹ thuật số - Tìm thấy nền tảng chung cho các nhà hoạch định chính sách