10 mô hình ngôn ngữ lớn (LLM) nguồn mở hàng đầu cho năm 2025. 6. Grok 1.5

Thứ hai - 13/10/2025 06:50

Top 10 open source LLMs for 2025. 6. Grok 1.5

Theo: https://www.instaclustr.com/education/open-source-ai/top-10-open-source-llms-for-2025/

Mô hình Ngôn ngữ Lớn - LLM (Large Language Model) là mô hình máy học có thể hiểu được và tạo ra ngôn ngữ con người dựa vào các tập dữ liệu phạm vi rộng.

6. Grok 1.5

Grok-1.5, được phát triển bởi xAI của Elon Musk, được xây dựng dựa trên nền tảng của Grok-1. Grok-1.5V mở rộng các khả năng LLM dựa trên văn bản truyền thống để bao gồm cả khả năng hiểu thị giác. Mô hình đa phương thức này có thể diễn giải nhiều loại hình ảnh khác nhau và thực hiện các nhiệm vụ suy luận phức tạp bằng cách kết hợp các kỹ năng ngôn ngữ với phân tích thị giác.

Tính năng:

Cửa sổ ngữ cảnh: 128 nghìn mã thông báo.
Khả năng đa phương thức: Xử lý và hiểu một loạt thông tin thị giác, bao gồm tài liệu, sơ đồ và ảnh chụp. Nó có thể phân tích tài liệu, diễn giải các yếu tố giao diện người dùng, hiểu ảnh chụp và xử lý nội dung thị giác động như video và hoạt ảnh.
Suy luận đa ngành: Có thể kết hợp thông tin thị giác và văn bản để thực hiện các nhiệm vụ suy luận phức tạp. Nó có thể trả lời các câu hỏi về sơ đồ khoa học, làm theo hướng dẫn liên quan đến văn bản và hình ảnh, và cung cấp thông tin chẩn đoán trong chẩn đoán hình ảnh y tế bằng cách phân tích ảnh chụp và hồ sơ bệnh nhân.
Hiểu biết không gian trong thế giới thực: Đạt hiệu suất cao trên tiêu chuẩn RealWorldQA, đánh giá khả năng hiểu và tương tác với môi trường thực tế của mô hình AI.

Source: X.ai

Về mục lục ………. Phần trước ………. Phần tiếp theo

Grok-1.5, developed by Elon Musk’s xAI, builds on the foundation of Grok-1. Grok-1.5V expands traditional text-based LLM capabilities to include visual understanding. This multimodal model can interpret various image types and perform complex reasoning tasks by combining linguistic skills with visual analysis.

Features:

Context window: 128K tokens.
Multimodal capabilities: Processes and understands a range of visual information, including documents, diagrams, and photographs. It can analyze documents, interpret user interface elements, understand photographs, and handle dynamic visual content such as videos and animations.
Multi-disciplinary reasoning: Can combine visual and textual information to perform complex reasoning tasks. It can answer questions about scientific diagrams, follow instructions involving text and images, and provide diagnostic insights in medical imaging by analyzing scans and patient records.
Real-world spatial understanding: Performs strongly on the RealWorldQA benchmark, which measures an AI model’s ability to understand and interact with real-world environments.