Top 10 open source LLMs for 2025. 6. Grok 1.5
Theo: https://www.instaclustr.com/education/open-source-ai/top-10-open-source-llms-for-2025/
Mô hình Ngôn ngữ Lớn - LLM (Large Language Model) là mô hình máy học có thể hiểu được và tạo ra ngôn ngữ con người dựa vào các tập dữ liệu phạm vi rộng.
6. Grok 1.5

Grok-1.5, được phát triển bởi xAI của Elon Musk, được xây dựng dựa trên nền tảng của Grok-1. Grok-1.5V mở rộng các khả năng LLM dựa trên văn bản truyền thống để bao gồm cả khả năng hiểu thị giác. Mô hình đa phương thức này có thể diễn giải nhiều loại hình ảnh khác nhau và thực hiện các nhiệm vụ suy luận phức tạp bằng cách kết hợp các kỹ năng ngôn ngữ với phân tích thị giác.
Tính năng:
Cửa sổ ngữ cảnh: 128 nghìn mã thông báo.
Khả năng đa phương thức: Xử lý và hiểu một loạt thông tin thị giác, bao gồm tài liệu, sơ đồ và ảnh chụp. Nó có thể phân tích tài liệu, diễn giải các yếu tố giao diện người dùng, hiểu ảnh chụp và xử lý nội dung thị giác động như video và hoạt ảnh.
Suy luận đa ngành: Có thể kết hợp thông tin thị giác và văn bản để thực hiện các nhiệm vụ suy luận phức tạp. Nó có thể trả lời các câu hỏi về sơ đồ khoa học, làm theo hướng dẫn liên quan đến văn bản và hình ảnh, và cung cấp thông tin chẩn đoán trong chẩn đoán hình ảnh y tế bằng cách phân tích ảnh chụp và hồ sơ bệnh nhân.
Hiểu biết không gian trong thế giới thực: Đạt hiệu suất cao trên tiêu chuẩn RealWorldQA, đánh giá khả năng hiểu và tương tác với môi trường thực tế của mô hình AI.

Source: X.ai
Về mục lục ………. Phần trước ………. Phần tiếp theo
Grok-1.5, developed by Elon Musk’s xAI, builds on the foundation of Grok-1. Grok-1.5V expands traditional text-based LLM capabilities to include visual understanding. This multimodal model can interpret various image types and perform complex reasoning tasks by combining linguistic skills with visual analysis.
Features:
Context window: 128K tokens.
Multimodal capabilities: Processes and understands a range of visual information, including documents, diagrams, and photographs. It can analyze documents, interpret user interface elements, understand photographs, and handle dynamic visual content such as videos and animations.
Multi-disciplinary reasoning: Can combine visual and textual information to perform complex reasoning tasks. It can answer questions about scientific diagrams, follow instructions involving text and images, and provide diagnostic insights in medical imaging by analyzing scans and patient records.
Real-world spatial understanding: Performs strongly on the RealWorldQA benchmark, which measures an AI model’s ability to understand and interact with real-world environments.
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com
Tác giả: Nghĩa Lê Trung
Ý kiến bạn đọc
Những tin mới hơn
Những tin cũ hơn
Blog này được chuyển đổi từ http://blog.yahoo.com/letrungnghia trên Yahoo Blog sang sử dụng NukeViet sau khi Yahoo Blog đóng cửa tại Việt Nam ngày 17/01/2013.Kể từ ngày 07/02/2013, thông tin trên Blog được cập nhật tiếp tục trở lại với sự hỗ trợ kỹ thuật và đặt chỗ hosting của nhóm phát triển...
Các bài trình chiếu trong năm 2024
Tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ cho giáo viên phổ thông, bao gồm cả giáo viên tiểu học và mầm non tới hết năm 2024
Các lớp tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ tới hết năm 2024
Các tài liệu dịch sang tiếng Việt tới hết năm 2024
‘Digcomp 2.2: Khung năng lực số cho công dân - với các ví dụ mới về kiến thức, kỹ năng và thái độ’, EC xuất bản năm 2022
Tổng hợp các bài của Nhóm các Nhà cấp vốn Nghiên cứu Mở (ORFG) đã được dịch sang tiếng Việt
Tổng hợp các bài của Liên minh S (cOAlition S) đã được dịch sang tiếng Việt
Năm Khoa học Mở & Chuyển đổi sang Khoa học Mở - Tổng hợp các bài liên quan
Hội nghị Đối tác Dữ liệu Mở châu Á năm 2021 do Việt Nam lần đầu tiên chủ trì
Các khung năng lực trong hành động
Phong trào Bình dân học vụ số: Mục tiêu, đối tượng, nội dung, nguồn lực, phương thức tổ chức thực hiện
Lễ công bố công khai Trung tâm Năng lực Kim cương châu Âu và dự án ALMASI
Khung năng lực AI cho giáo viên
Ngày Phần mềm Tự do, Ngày Phần cứng tự do, Ngày Tài liệu Tự do
‘Khung năng lực AI cho giáo viên’ - bản dịch sang tiếng Việt
Bạn cần biết những gì về các khung năng lực AI mới của UNESCO cho học sinh và giáo viên
Bàn về 'Lợi thế của doanh nghiệp Việt là dữ liệu Việt, bài toán Việt' - bài phát biểu của Bộ trưởng Nguyễn Mạnh Hùng ngày 21/08/2025
Các tài liệu dịch sang tiếng Việt tới hết năm 2024
Các bài trình chiếu trong năm 2024
‘Tài liệu quan điểm của KR21 về Giữ lại Quyền Tác giả: Giữ lại các quyền trong kết quả đầu ra nghiên cứu để cho phép phổ biến mở kiến thức’ - bản dịch sang tiếng Việt
‘KHUYẾN NGHỊ VÀ HƯỚNG DẪN TRUY CẬP MỞ KIM CƯƠNG cho các cơ sở, nhà cấp vốn, nhà bảo trợ, nhà tài trợ, và nhà hoạch định chính sách’ - bản dịch sang tiếng Việt
Ứng dụng và phát triển Tài nguyên Giáo dục Mở (OER) tại Việt Nam
DeepSeek đã gây ra sự hoảng loạn trên thị trường — nhưng một số người cho rằng việc bán tháo là quá mức
“Chúng tôi không có hào nước”: Sự đổi mới đột phá của AI nguồn mở
Tập huấn thực hành ‘Khai thác tài nguyên giáo dục mở’ cho giáo viên phổ thông, bao gồm cả giáo viên tiểu học và mầm non tới hết năm 2024
Nhà khoa học AI hàng đầu của Meta cho biết thành công của DeepSeek cho thấy 'các mô hình nguồn mở đang vượt trội hơn các mô hình độc quyền'
Dữ liệu để phân loại AI
50 công cụ AI tốt nhất cho năm 2025 (Đã thử và kiểm nghiệm)
Mark Zuckerberg: DeepSeek cho thấy vì sao nước Mỹ phải là ‘tiêu chuẩn nguồn mở toàn cầu’ của AI; không có lý do gì để suy nghĩ lại về việc chi tiêu
Tài sản chung kỹ thuật số và Hàng hóa Công cộng Kỹ thuật số - Tìm thấy nền tảng chung cho các nhà hoạch định chính sách