10 mô hình ngôn ngữ lớn (LLM) nguồn mở hàng đầu cho năm 2025. 9. GPT-NeoX

Thứ năm - 16/10/2025 06:38
10 mô hình ngôn ngữ lớn (LLM) nguồn mở hàng đầu cho năm 2025. 9. GPT-NeoX

Top 10 open source LLMs for 2025. 9. GPT-NeoX

Theo: https://www.instaclustr.com/education/open-source-ai/top-10-open-source-llms-for-2025/

Mô hình Ngôn ngữ Lớn - LLM (Large Language Model) là mô hình máy học có thể hiểu được và tạo ra ngôn ngữ con người dựa vào các tập dữ liệu phạm vi rộng.

9. GPT-NeoX

GPT-NeoX là một mô hình ngôn ngữ tự hồi quy với 20 tỷ tham số do EleutherAI phát triển. Được đào tạo trên tập dữ liệu Pile, GPT-NeoX-20B là một mô hình tự hồi quy dày đặc với các trọng số được công khai. Mô hình này, được cung cấp miễn phí theo giấy phép dễ dãi, cung cấp các khả năng nâng cao về hiểu ngôn ngữ, toán học và các tác vụ dựa trên kiến thức.

Thông tin dự án:

Tính năng:

  • Kích thước mô hình: GPT-NeoX-20B có 20 tỷ tham số, khiến nó trở thành một trong những mô hình mã nguồn mở lớn nhất hiện có.

  • Thiết lập đào tạo: Mô hình sử dụng các thư viện Megatron và DeepSpeed để đào tạo trên nhiều GPU, được tối ưu hóa cho tính toán phân tán. Nó hỗ trợ các kỹ thuật song song như song song tensor và pipeline để nâng cao hiệu quả.

  • Hiệu suất: Mô hình hoạt động đặc biệt tốt trong việc hiểu ngôn ngữ tự nhiên và các tác vụ ít ảnh, vượt trội hơn các mô hình có kích thước tương tự như GPT-3 Curie trong một số điểm chuẩn.

  • Bộ dữ liệu: Mô hình được đào tạo hoàn toàn trên dữ liệu tiếng Anh từ Pile và không dành cho các tác vụ đa ngôn ngữ.

  • Cách sử dụng: Mặc dù đa năng, GPT-NeoX-20B không được tinh chỉnh cho các tác vụ hướng đến người dùng như chatbot và có thể cần giám sát khi sử dụng trong các cài đặt như vậy.

Về mục lục ………. Phần trước ………. Phần tiếp theo

GPT-NeoX is a 20 billion parameter autoregressive language model developed by EleutherAI. Trained on the Pile dataset, GPT-NeoX-20B is a dense autoregressive model with publicly available weights. This model, made freely accessible under a permissive license, offers advanced capabilities in language understanding, mathematics, and knowledge-based tasks.

Project information:

Features:

  • Model size: GPT-NeoX-20B has 20 billion parameters, making it one of the largest open-source models available.

  • Training setup: It uses Megatron and DeepSpeed libraries for training across multiple GPUs, optimized for distributed computing. It supports parallelism techniques like tensor and pipeline parallelism to enhance efficiency.

  • Performance: The model performs particularly well on natural language understanding and few-shot tasks, surpassing similarly sized models like GPT-3 Curie in some benchmarks.

  • Dataset: The model was trained exclusively on English data from the Pile, and is not intended for multilingual tasks.

  • Usage: While versatile, GPT-NeoX-20B is not fine-tuned for consumer-facing tasks like chatbots and may require supervision when used in such settings.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

 

Tác giả: Nghĩa Lê Trung

Tổng số điểm của bài viết là: 0 trong 0 đánh giá

Click để đánh giá bài viết

  Ý kiến bạn đọc

Về Blog này

Blog này được chuyển đổi từ http://blog.yahoo.com/letrungnghia trên Yahoo Blog sang sử dụng NukeViet sau khi Yahoo Blog đóng cửa tại Việt Nam ngày 17/01/2013.Kể từ ngày 07/02/2013, thông tin trên Blog được cập nhật tiếp tục trở lại với sự hỗ trợ kỹ thuật và đặt chỗ hosting của nhóm phát triển...

Bài đọc nhiều nhất trong năm
Thăm dò ý kiến

Bạn quan tâm gì nhất ở mã nguồn mở?

Thống kê truy cập
  • Đang truy cập174
  • Máy chủ tìm kiếm6
  • Khách viếng thăm168
  • Hôm nay23,847
  • Tháng hiện tại602,819
  • Tổng lượt truy cập45,850,892
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây