10 mô hình ngôn ngữ lớn (LLM) nguồn mở hàng đầu cho năm 2025. 1. LLaMA3

Thứ ba - 07/10/2025 06:25

Top 10 open source LLMs for 2025. 1. LLaMA 3

Theo: https://www.instaclustr.com/education/open-source-ai/top-10-open-source-llms-for-2025/

Mô hình Ngôn ngữ Lớn - LLM (Large Language Model) là mô hình máy học có thể hiểu được và tạo ra ngôn ngữ con người dựa vào các tập dữ liệu phạm vi rộng.

1. LLaMA 3

Meta đã phát triển họ mô hình ngôn ngữ lớn LLaMA 3, bao gồm một bộ sưu tập các mô hình văn bản tạo sinh được huấn luyện trước và điều chỉnh theo hướng dẫn, có sẵn với kích thước tham số 8 tỷ (8B) và 70 tỷ (70B). Các mô hình này được tối ưu hóa cho các trường hợp sử dụng đối thoại, chẳng hạn như trong các ứng dụng AI đàm thoại.

Thông tin dự án:

Giấy phép: Giấy phép cộng đồng Meta Llama 3 (Meta Llama 3 community license)
Số sao trên GitHub: 23,3 nghìn
Người đóng góp: Joseph Spisak và cộng sự
Nhà tài trợ chính: META
Liên kết kho lưu trữ chính thức: https://github.com/meta-llama/llama3

Tính năng:

Kích thước mô hình: Có sẵn ở hai kích thước: 8 tỷ (8B) và 70 tỷ (70B) tham số.
Cửa sổ ngữ cảnh: Phiên bản Meta LLaMA trước đó có cửa sổ ngữ cảnh là 8 nghìn token. Phiên bản 3.2 đã nâng cấp lên 128 nghìn token.
Đầu vào và đầu ra: Các mô hình này chấp nhận đầu vào văn bản và có khả năng tạo ra cả văn bản và mã, giúp chúng linh hoạt cho nhiều ứng dụng khác nhau như tạo nội dung, tạo mã và đối thoại tương tác.
Kiến trúc: Sử dụng kiến trúc biến đổi được tối ưu hóa, giúp tăng cường khả năng hiểu và tạo ra văn bản giống con người của mô hình.
Bộ phân tích mã hóa: Sử dụng bộ phân tích mã hóa với vốn từ vựng 128.000 mã thông báo (token), giúp xử lý và hiểu hiệu quả các đầu vào văn bản đa dạng.
Quy trình đào tạo: Được đào tạo trên chuỗi 8.192 mã thông báo, sử dụng Grouped-Query Attention (GQA) để cải thiện hiệu quả suy luận, cho phép các mô hình xử lý các ngữ cảnh dài hơn.

Về mục lục ………. Phần tiếp theo

Meta developed the LLaMA 3 family of large language models, which includes a collection of pretrained and instruction-tuned generative text models available in 8 billion (8B) and 70 billion (70B) parameter sizes. These models are optimized for dialogue use cases, such as in conversational AI applications.

Project information:

License: Meta Llama 3 community license
GitHub stars: 23.3K
Contributors: Joseph Spisak et. al.
Main corporate sponsor: META
Official repo link: https://github.com/meta-llama/llama3

Features:

Model sizes: Available in two sizes: 8 billion (8B) and 70 billion (70B) parameters.
Context window: Earlier version of Meta LLaMA had a context window of 8K tokens. Version 3.2 upgraded this to 128K tokens.
Input and output: These models accept text input and are capable of generating both text and code, making them versatile for various applications such as content creation, code generation, and interactive dialogue.
Architecture: Uses an optimized transformer architecture, which enhances the model’s ability to understand and generate human-like text.
Tokenizer: Uses a tokenizer with a vocabulary of 128,000 tokens, which helps in efficiently processing and understanding diverse text inputs.
Training procedure: Trained on sequences of 8,192 tokens, utilizing Grouped-Query Attention (GQA) for improved inference efficiency, allowing the models to handle longer contexts.