10 mô hình ngôn ngữ lớn (LLM) nguồn mở hàng đầu cho năm 2025. 6. Grok 1.5

Thứ hai - 13/10/2025 06:50
10 mô hình ngôn ngữ lớn (LLM) nguồn mở hàng đầu cho năm 2025. 6. Grok 1.5

Top 10 open source LLMs for 2025. 6. Grok 1.5

Theo: https://www.instaclustr.com/education/open-source-ai/top-10-open-source-llms-for-2025/

Mô hình Ngôn ngữ Lớn - LLM (Large Language Model) là mô hình máy học có thể hiểu được và tạo ra ngôn ngữ con người dựa vào các tập dữ liệu phạm vi rộng.

6. Grok 1.5

Grok-1.5, được phát triển bởi xAI của Elon Musk, được xây dựng dựa trên nền tảng của Grok-1. Grok-1.5V mở rộng các khả năng LLM dựa trên văn bản truyền thống để bao gồm cả khả năng hiểu thị giác. Mô hình đa phương thức này có thể diễn giải nhiều loại hình ảnh khác nhau và thực hiện các nhiệm vụ suy luận phức tạp bằng cách kết hợp các kỹ năng ngôn ngữ với phân tích thị giác.

Tính năng:

  • Cửa sổ ngữ cảnh: 128 nghìn mã thông báo.

  • Khả năng đa phương thức: Xử lý và hiểu một loạt thông tin thị giác, bao gồm tài liệu, sơ đồ và ảnh chụp. Nó có thể phân tích tài liệu, diễn giải các yếu tố giao diện người dùng, hiểu ảnh chụp và xử lý nội dung thị giác động như video và hoạt ảnh.

  • Suy luận đa ngành: Có thể kết hợp thông tin thị giác và văn bản để thực hiện các nhiệm vụ suy luận phức tạp. Nó có thể trả lời các câu hỏi về sơ đồ khoa học, làm theo hướng dẫn liên quan đến văn bản và hình ảnh, và cung cấp thông tin chẩn đoán trong chẩn đoán hình ảnh y tế bằng cách phân tích ảnh chụp và hồ sơ bệnh nhân.

  • Hiểu biết không gian trong thế giới thực: Đạt hiệu suất cao trên tiêu chuẩn RealWorldQA, đánh giá khả năng hiểu và tương tác với môi trường thực tế của mô hình AI.

Source: X.ai

Về mục lục ………. Phần trước ………. Phần tiếp theo

Grok-1.5, developed by Elon Musk’s xAI, builds on the foundation of Grok-1. Grok-1.5V expands traditional text-based LLM capabilities to include visual understanding. This multimodal model can interpret various image types and perform complex reasoning tasks by combining linguistic skills with visual analysis.

Features:

  • Context window: 128K tokens.

  • Multimodal capabilities: Processes and understands a range of visual information, including documents, diagrams, and photographs. It can analyze documents, interpret user interface elements, understand photographs, and handle dynamic visual content such as videos and animations.

  • Multi-disciplinary reasoning: Can combine visual and textual information to perform complex reasoning tasks. It can answer questions about scientific diagrams, follow instructions involving text and images, and provide diagnostic insights in medical imaging by analyzing scans and patient records.

  • Real-world spatial understanding: Performs strongly on the RealWorldQA benchmark, which measures an AI model’s ability to understand and interact with real-world environments.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

 

Tác giả: Nghĩa Lê Trung

Tổng số điểm của bài viết là: 0 trong 0 đánh giá

Click để đánh giá bài viết

  Ý kiến bạn đọc

Về Blog này

Blog này được chuyển đổi từ http://blog.yahoo.com/letrungnghia trên Yahoo Blog sang sử dụng NukeViet sau khi Yahoo Blog đóng cửa tại Việt Nam ngày 17/01/2013.Kể từ ngày 07/02/2013, thông tin trên Blog được cập nhật tiếp tục trở lại với sự hỗ trợ kỹ thuật và đặt chỗ hosting của nhóm phát triển...

Bài đọc nhiều nhất trong năm
Thăm dò ý kiến

Bạn quan tâm gì nhất ở mã nguồn mở?

Thống kê truy cập
  • Đang truy cập178
  • Máy chủ tìm kiếm9
  • Khách viếng thăm169
  • Hôm nay18,545
  • Tháng hiện tại436,299
  • Tổng lượt truy cập45,684,372
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây