Top 10 open source LLMs for 2025. 10. Vicuna-13B
Theo: https://www.instaclustr.com/education/open-source-ai/top-10-open-source-llms-for-2025/
Mô hình Ngôn ngữ Lớn - LLM (Large Language Model) là mô hình máy học có thể hiểu được và tạo ra ngôn ngữ con người dựa vào các tập dữ liệu phạm vi rộng.
10. Vicuna-13B
Vicuna-13B là một mô hình chatbot nguồn mở được phát triển bằng cách tinh chỉnh mô hình LLaMA với các cuộc trò chuyện được chia sẻ giữa người dùng từ ShareGPT. Mô hình này đã đạt được hơn 90% chất lượng so với ChatGPT của OpenAI, dựa trên các đánh giá sơ bộ sử dụng GPT-4 làm tiêu chuẩn. Chi phí phát triển Vicuna-13B khoảng 300 đô la, và cả mã nguồn lẫn trọng số đều được công khai cho mục đích sử dụng phi thương mại.
Thông tin dự án:
Giấy phép: Giấy phép phi thương mại
Số sao trên GitHub: 35,8 nghìn
Người đóng góp: Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica
Nhà tài trợ chính: LMSYS
Liên kết kho lưu trữ chính thức: https://github.com/lm-sys/FastChat
Tính năng:
Hiệu suất: Đánh giá sơ bộ sử dụng GPT-4 cho thấy Vicuna-13B đạt hơn 90% chất lượng của ChatGPT và các phiên bản đầu của Google Gemini. Nó cũng vượt trội hơn các mô hình khác như LLaMA và Stanford Alpaca.
Đào tạo: Mô hình được đào tạo bằng PyTorch FSDP trên 8 GPU A100 trong một ngày, tập trung vào các cuộc hội thoại nhiều lượt và xử lý chuỗi dài. Mô hình được đào tạo trên khoảng 70.000 cuộc hội thoại được chia sẻ bởi người dùng từ ShareGPT.
Phục vụ: Một hệ thống phục vụ phân tán nhẹ đã được triển khai để phục vụ nhiều mô hình với tích hợp GPU worker linh hoạt, sử dụng các phiên bản spot được quản lý bởi SkyPilot để giảm chi phí phục vụ.
Về mục lục ………. Phần trước
Vicuna-13B is an open source chatbot model developed by fine-tuning the LLaMA model with user-shared conversations from ShareGPT. It has achieved over 90% of the quality of OpenAI’s ChatGPT, based on preliminary evaluations using GPT-4 as a judge. The development cost of Vicuna-13B was approximately $300, and both the code and weights are publicly available for non-commercial use.
Project information:
License: Non-commercial license
GitHub stars: 35.8K
Contributors: Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica
Main corporate sponsor: LMSYS
Official repo link: https://github.com/lm-sys/FastChat
Features:
Performance: Preliminary evaluations using GPT-4 indicate that Vicuna-13B achieves over 90% of the quality of ChatGPT and early versions of Google Gemini. It also outperforms other models like LLaMA and Stanford Alpaca.
Training: The model was trained using PyTorch FSDP on 8 A100 GPUs in one day, with a focus on multi-turn conversations and long sequence handling. It was trained on approximately 70,000 user-shared conversations from ShareGPT.
Serving: A lightweight distributed serving system was implemented to serve multiple models with flexible GPU worker integration, using SkyPilot managed spot instances to reduce serving costs.
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com
Tác giả: Nghĩa Lê Trung
Ý kiến bạn đọc
Những tin cũ hơn
Blog này được chuyển đổi từ http://blog.yahoo.com/letrungnghia trên Yahoo Blog sang sử dụng NukeViet sau khi Yahoo Blog đóng cửa tại Việt Nam ngày 17/01/2013.Kể từ ngày 07/02/2013, thông tin trên Blog được cập nhật tiếp tục trở lại với sự hỗ trợ kỹ thuật và đặt chỗ hosting của nhóm phát triển...