Hướng dẫn kỹ thuật lời nhắc. Giới thiệu. Thiết lập LLM

Thứ tư - 22/10/2025 06:28

LLM Settings

Theo: https://www.promptingguide.ai/introduction/settings

Khi thiết kế và kiểm thử lời nhắc, bạn thường tương tác với LLM thông qua API. Bạn có thể cấu hình một vài tham số để có được các kết quả khác nhau cho lời nhắc của mình. Việc tinh chỉnh các thiết lập này rất quan trọng để cải thiện độ tin cậy và tính mong muốn của phản hồi, và cần một chút thử nghiệm để tìm ra thiết lập phù hợp cho các trường hợp sử dụng của bạn. Dưới đây là các cài đặt phổ biến bạn sẽ gặp phải khi sử dụng các nhà cung cấp LLM khác nhau:

Nhiệt độ (Temperature) - Tóm lại, nhiệt độ càng thấp, kết quả càng mang tính xác định theo nghĩa là mã thông báo (token) tiếp theo có xác suất cao nhất luôn được chọn. Nhiệt độ tăng có thể dẫn đến tính ngẫu nhiên cao hơn, khuyến khích các đầu ra đa dạng hoặc sáng tạo hơn. Về cơ bản, bạn đang tăng trọng số của các mã thông báo khả thi khác. Về mặt ứng dụng, bạn có thể muốn sử dụng giá trị nhiệt độ thấp hơn cho các tác vụ như QA (Hỏi Đáp) dựa trên dữ kiện để khuyến khích các phản hồi thực tế và ngắn gọn hơn. Đối với việc tạo thơ hoặc các tác vụ sáng tạo khác, việc tăng giá trị nhiệt độ có thể mang lại lợi ích.

Top P - Một kỹ thuật lấy mẫu với nhiệt độ, được gọi là lấy mẫu hạt nhân, cho phép bạn kiểm soát mức độ xác định của mô hình. Nếu bạn đang tìm kiếm các câu trả lời chính xác và thực tế, hãy giữ giá trị này ở mức thấp. Nếu bạn đang tìm kiếm các phản hồi đa dạng hơn, hãy tăng lên giá trị cao hơn. Nếu bạn sử dụng Top P, điều đó có nghĩa là chỉ các mã thông báo tạo nên khối lượng xác suất top_p mới được xem xét cho các phản hồi, do đó, giá trị top_p thấp sẽ chọn các phản hồi chắc chắn nhất. Điều này có nghĩa là giá trị top_p cao sẽ cho phép mô hình xem xét nhiều từ khả thi hơn, bao gồm cả những từ ít khả thi hơn, dẫn đến kết quả đầu ra đa dạng hơn.

Khuyến nghị chung là thay đổi giá trị temperature hoặc Top P nhưng không được thay đổi cả hai.

Độ dài Tối đa (Max Length) - Bạn có thể quản lý số lượng mã thông báo (token) mà mô hình tạo ra bằng cách điều chỉnh độ dài tối đa. Việc chỉ định độ dài tối đa giúp bạn tránh các phản hồi dài hoặc không liên quan và kiểm soát chi phí.

Chuỗi Dừng (Stop Sequences) - Chuỗi dừng là một chuỗi dừng mô hình tạo ra các mã thông báo (token). Chỉ định chuỗi dừng là một cách khác để kiểm soát độ dài và cấu trúc phản hồi của mô hình. Ví dụ, bạn có thể yêu cầu mô hình tạo danh sách có không quá 10 mục bằng cách thêm "11" làm chuỗi dừng.

Hình phạt Tần suất (Frequency Penalty) - Hình phạt tần suất áp dụng hình phạt cho mã thông báo tiếp theo tỷ lệ thuận với số lần mã thông báo đó đã xuất hiện trong phản hồi và lời nhắc. Hình phạt tần suất càng cao, khả năng một từ xuất hiện lại càng thấp. Thiết lập này làm giảm sự lặp lại của các từ trong phản hồi của mô hình bằng cách áp dụng hình phạt cao hơn cho các mã thông báo xuất hiện nhiều hơn.

Hình phạt Hiện diện (Presence Penalty) - Hình phạt hiện diện cũng áp dụng hình phạt cho các mã thông báo lặp lại, nhưng không giống như hình phạt tần suất, hình phạt này giống nhau cho tất cả các mã thông báo lặp lại. Mã thông báo xuất hiện hai lần và mã thông báo xuất hiện 10 lần đều bị phạt như nhau. Thiết lập này ngăn mô hình lặp lại các cụm từ quá thường xuyên trong phản hồi của nó. Nếu bạn muốn mô hình tạo ra văn bản đa dạng hoặc sáng tạo, bạn có thể muốn sử dụng hình phạt hiện diện cao hơn. Hoặc, nếu bạn cần mô hình duy trì sự tập trung, hãy thử sử dụng hình phạt hiện diện thấp hơn.

Tương tự như temperature và top_p, khuyến nghị chung là thay đổi hình phạt tần suất hoặc hình phạt hiện diện nhưng không phải cả hai.

Trước khi bắt đầu với một số ví dụ cơ bản, hãy lưu ý rằng kết quả của bạn có thể khác nhau tùy thuộc vào phiên bản LLM bạn sử dụng.

Về phần ‘Giới thiệu’ ………. Phần tiếp theo

Video: Understanding LLM Settings

When designing and testing prompts, you typically interact with the LLM via an API. You can configure a few parameters to get different results for your prompts. Tweaking these settings are important to improve reliability and desirability of responses and it takes a bit of experimentation to figure out the proper settings for your use cases. Below are the common settings you will come across when using different LLM providers:

Temperature - In short, the lower the temperature, the more deterministic the results in the sense that the highest probable next token is always picked. Increasing temperature could lead to more randomness, which encourages more diverse or creative outputs. You are essentially increasing the weights of the other possible tokens. In terms of application, you might want to use a lower temperature value for tasks like fact-based QA to encourage more factual and concise responses. For poem generation or other creative tasks, it might be beneficial to increase the temperature value.

Top P - A sampling technique with temperature, called nucleus sampling, where you can control how deterministic the model is. If you are looking for exact and factual answers keep this low. If you are looking for more diverse responses, increase to a higher value. If you use Top P it means that only the tokens comprising the top_p probability mass are considered for responses, so a low top_p value selects the most confident responses. This means that a high top_p value will enable the model to look at more possible words, including less likely ones, leading to more diverse outputs.

The general recommendation is to alter temperature or Top P but not both.

Max Length - You can manage the number of tokens the model generates by adjusting the max length. Specifying a max length helps you prevent long or irrelevant responses and control costs.

Stop Sequences - A stop sequence is a string that stops the model from generating tokens. Specifying stop sequences is another way to control the length and structure of the model's response. For example, you can tell the model to generate lists that have no more than 10 items by adding "11" as a stop sequence.

Frequency Penalty - The frequency penalty applies a penalty on the next token proportional to how many times that token already appeared in the response and prompt. The higher the frequency penalty, the less likely a word will appear again. This setting reduces the repetition of words in the model's response by giving tokens that appear more a higher penalty.

Presence Penalty - The presence penalty also applies a penalty on repeated tokens but, unlike the frequency penalty, the penalty is the same for all repeated tokens. A token that appears twice and a token that appears 10 times are penalized the same. This setting prevents the model from repeating phrases too often in its response. If you want the model to generate diverse or creative text, you might want to use a higher presence penalty. Or, if you need the model to stay focused, try using a lower presence penalty.

Similar to temperature and top_p, the general recommendation is to alter the frequency or presence penalty but not both.

Before starting with some basic examples, keep in mind that your results may vary depending on the version of LLM you use.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Tác giả: Nghĩa Lê Trung