DeepSeek Proves It: Open Source is the Secret to Dominating Tech Markets (and Wall Street has it wrong)
Jim Zemlin, Giám đốc Điều hành tại Quỹ Linux Foundation
Bài được đưa lên Internet ngày: 28/01/2025
Tôi hiếm khi viết blog hoặc đăng bài trên mạng xã hội nhưng tôi viết bản tin riêng hàng tuần cho nhân viên và ban quản trị của chúng tôi và trong vài tuần liên tiếp đã viết về DeepSeek. Điều tôi không cân nhắc là phản ứng của báo chí và thị trường trong tuần này. Những người tốt như Ben Thompson, Pat Gellisnger, Tomasz Tunguz đều đã bình luận. Với việc cổ phiếu AI bị đánh tơi tả và những lo ngại nghiêm trọng nổi lên về tác động của mô hình R1 của DeepSeek đối với tương lai của AI, rõ ràng là nỗi sợ hãi về DeepSeek đã chạm sâu đến dây thần kinh. Phản ứng lớn đó xứng đáng được xem xét và giải thích.
Ngắn gọn, những gì thị trường phản ứng là khả năng của DeepSeek trong việc xây dựng một mô hình có thể sánh ngang với mô hình lý luận o1 tinh vi của OpenAI và mô hình Sonnet của Anthropic với chi phí chỉ bằng một phần nhỏ của việc tính toán. Có vẻ như DeepSeek đã thực hiện điều này bằng các kỹ thuật nổi tiếng. Không có đột phá thuật toán lớn nào, chỉ là kỹ thuật rất thông minh. Nhóm vừa quay lại với Nguyên tắc đầu tiên, đặt những câu hỏi cơ bản và xếp chồng các kỹ thuật hiện có theo những cách mới lạ để đạt được kết quả vượt trội bằng cách sử dụng Học tăng cường – RL (Reinforcement Learning) và nhiều giai đoạn tinh chỉnh khác nhau. Không có phép thuật nào ở đây — chỉ là sự xáo trộn rất thông minh các thẻ hiện có tạo ra kết quả tinh tế và hiệu quả hơn.
Một số nhà quan sát cáo buộc DeepSeek "ăn theo" công trình của những nhà sản xuất mô hình lớn khác như Meta (Llama) và AliBaba (Qwen). Tuy nhiên, quan điểm này phản ánh sự hiểu lầm về cách thức hoạt động của các hệ thống nguồn mở. Nguyên tắc cơ bản của đổi mới nguồn mở là kỳ vọng rằng những người khác sẽ xây dựng dựa trên công trình trước đó để thúc đẩy tiến trình.
Trong trường hợp của DeepSeek, họ đã chứng minh điều này bằng cách chắt lọc mô hình lý luận cơ bản của họ, DeepSeek-R1—một sự phát triển của mô hình DeepSeek-V3-Base nguồn mở trước đó của họ —và tinh chỉnh các mô hình nhỏ hơn từ loạt mô hình Llama 3 và Qwen 2.5 bằng cách sử dụng dữ liệu lý luận do mô hình cơ sở của họ tạo ra. Quá trình này làm nổi bật cách DeepSeek tận dụng các đổi mới mở hiện có, không chỉ sao chép mà còn chứng minh những cải tiến đáng kể về hiệu suất của mô hình ngôn ngữ nhỏ. Sau đó, DeepSeek đã phát hành lại các mô hình đó trở lại cộng đồng AI nguồn mở.
Đây là Điểm chính. Những gì mà tin tức và bình luận bỏ lỡ là cơ hội to lớn mà DeepSeek đã mở ra cho nguồn mở và rộng hơn là toàn bộ phong trào mở. Quá nhiều cuộc trò chuyện được định hình là Hoa Kỳ so với Trung Quốc và cuộc đua giành quyền tối cao về AI. Quá nhiều cuộc trò chuyện được định hình trên ý tưởng rằng DeepSeek đào tạo một mô hình mạnh mẽ trên một phần nhỏ của tính toán với một phần nhỏ chi phí có nghĩa là tất cả các công ty lớn chi nhiều tiền cho thiết bị và đào tạo NVIDIA sẽ bị cắt giảm.
Theo quan điểm (thiên vị) của tôi, đổi mới nguồn mở sẽ chiến thắng và điều này thực sự sẽ tốt cho tất cả mọi người — Trung Quốc, Hoa Kỳ, Big Tech, Chủ quyền kỹ thuật số châu Âu, NVIDIA, v.v. Một số nhà đầu tư mạo hiểm đặt cược vào các công ty khởi nghiệp AI ban đầu đã trở thành các tính năng bên trong các dịch vụ AI lớn hơn có thể bị xóa sổ, nhưng điều đó xảy ra trong bất kỳ giai đoạn chuyển đổi công nghệ nào. Điều mà DeepSeek chứng minh là chúng ta cần hàng nghìn con mắt nhìn vào vấn đề để đưa ra các giải pháp tốt hơn nhằm biến trí thông minh trở nên gần với miễn phí nhất có thể. Một nhóm nhỏ ở Trung Quốc đã xem xét lại một vấn đề và đưa ra một cách tiếp cận mới giúp giảm chi phí suy luận theo chuỗi suy nghĩ xuống 50 lần (nếu các bài đăng của DeepSeek là chính xác) và sau đó xuất bản một bài báo mô tả đầy đủ về quy trình của họ, cho phép cộng đồng được hưởng lợi từ những bài học kinh nghiệm của họ. Chúng ta cần NHIỀU hơn nữa tiến bộ này, chứ không phải ít hơn. Đây không phải là cuộc chạy đua vũ trang giữa Hoa Kỳ và Trung Quốc. Đây là cuộc đấu tranh giành thị trường mở giữa các lực lượng mở và các lực lượng đóng. Các chính phủ có thể nghĩ rằng họ có thể kiểm soát được điều này, nhưng lịch sử cho thấy công nghệ mở, một khi được phát hiện và đưa vào tay cộng đồng, thì giống như mưa. Bạn không thể tạm dừng hoặc ngăn chặn nó. Việc ngăn chặn sự phát triển khoa học một cách giả tạo chưa bao giờ có hiệu quả trong bất kỳ thời hạn dài nào và khoa học máy tính và AI cũng không ngoại lệ.
Vào tháng 3 năm 2013, thế giới nguồn mở đã giới thiệu một cách nhẹ nhàng, chuẩn hóa để đóng gói và chạy các ứng dụng với tất cả các phụ thuộc của chúng, đảm bảo tính nhất quán trên các môi trường khác nhau. Không giống như các máy ảo truyền thống, các container Docker sử dụng các môi trường biệt lập trên một hệ điều hành cơ bản duy nhất để thực hiện ảo hóa. Các container Docker nhanh hơn, khả chuyển hơn và hiệu quả hơn bằng cách chia sẻ hạt nhân của hệ thống máy chủ trong khi cô lập các quy trình. Docker đã tổ chức lại nhiều khả năng ảo hóa và container nguồn mở hiện có như cgroups, LXC, không gian tên, v.v. Việc tổ chức lại đó hoặc xáo trộn các thẻ hiện có đã thay đổi trò chơi. Máy ảo đã hoạt động tốt trong nhiều năm, nhưng các container Docker tốt hơn nhiều đối với nhiều tải công việc. Tính mở của sự thay đổi công nghệ đó đã giúp thúc đẩy làn sóng mới áp dụng điện toán bẩm sinh đám mây.
Một hiểu lầm cơ bản khác là DeepSeek sẽ yêu cầu ít đầu tư vào cơ sở hạ tầng AI hơn. Tuy nhiên, có một nhu cầu vô hạn đối với trí thông minh. Chúng ta thậm chí còn chưa khám phá hết bề mặt và đang ở giai đoạn đầu khai thác các ứng dụng hỗ trợ AI.
Những cải tiến gần đây hơn trong các mô hình AI đã chuyển mối liên hệ của lý luận từ các cải tiến trước khi đào tạo và sau khi đào tạo sang tính toán thời gian thử nghiệm hiện nay, cho phép các mô hình "lý luận" thông qua phản hồi của chúng (chuỗi suy nghĩ). Điều này không có nghĩa là chúng ta cần ít tính toán hơn. Trên thực tế, nó có nghĩa là chúng ta cần nhiều tính toán hơn, khi lớp suy luận hoạt động giống như bộ não con người hơn — luôn suy nghĩ, xem xét lại, giải quyết nhiều nhiệm vụ cùng một lúc và phát triển để đáp ứng nhu cầu về các hoạt động trí tuệ mới. Điều này giống như điện hơn — một loại hàng hóa. Làm cho nó rẻ hơn để có thể ứng dụng nhiều hơn (như VC Tomasz Tungus giải thích rõ ràng tại đây) và nhiều người sẽ sử dụng nó hơn.
Đối với nguồn mở, điều này mở ra một ranh giới mới to lớn. Nếu nguồn mở chiến thắng trong AI và trở thành mô hình đổi mới và phát triển thống trị, thì chúng ta có cơ hội định hình lại cách thế giới hoạt động ở cấp độ cơ bản. DeepSeek là một ví dụ về việc cung cấp lý luận sẵn sàng cho nhiều người dùng và ứng dụng hơn. AI nguồn mở có thể là con đường để cung cấp tính tương hợp và các tiêu chuẩn thực sự giữa các ứng dụng và ngăn xếp ứng dụng.
AI là siêu lớp (Meta-Layer) mà chúng ta có thể xây dựng kỳ vọng mới về tính tương hợp, một thực tế mới mà Satya Nadela đã ám chỉ khi ông phát biểu tại nhiều diễn đàn về cách AI có thể phá vỡ các ứng dụng Phần mềm như một Dịch vụ – SaaS (Software as a Service) bằng cách cho phép các tổ chức kết nối các phần phụ trợ và nguồn dữ liệu khác nhau với các máy (công cụ) AI. Nói cách khác, AI nguồn mở mang đến cho thế giới cơ hội viết lại các quy tắc có lợi cho bất kỳ điều gì mở, ở mọi nơi có thể. Trong thế giới này, quyền lực thuộc về cộng đồng và những người bảo trì.
Tất nhiên, có rất nhiều sắc thái xung quanh nguồn mở và cách thức hoạt động của nó. Nhưng qua lăng kính này, tôi tin rằng bài học của DeepSeek là về sự bùng nổ AI sắp tới và cách nó có thể mang lại lợi ích cho mọi người và thúc đẩy tiến bộ kinh tế và công nghệ vượt xa những gì thị trường nhận thức — nếu chúng ta giữ cho nó là mở.
Bạn không tin tôi sao? Linux hiện đã ba mươi bốn tuổi và một nhóm các nhà nghiên cứu tại Đại học Waterloo làm việc trong môi trường mở đã chứng minh, chỉ mới tuần trước, rằng "thay đổi 30 dòng mã trong Linux có thể cắt giảm mức sử dụng năng lượng tại một số trung tâm dữ liệu tới 30 phần trăm". Hãy đoán xem tất cả các khối lượng công việc AI đó chạy trên hệ điều hành nào?
Cuối cùng, tôi sẽ đưa ra một dự đoán nhỏ cho tất cả những người phản đối thiếu hiểu biết "con ngựa thành Troy". Một công ty hoặc phòng nghiên cứu khác sẽ có một mô hình tương tự sử dụng phương pháp này với tỷ lệ hiệu suất trên chi phí đáng kinh ngạc trong vài tuần tới. Hãy thoải mái đoán xem ai trong phần bình luận.
Jim Zemlin, Executive Director at Linux Foundation
January 28, 2025
I rarely blog or post on social media but I do write a private weekly newsletter for our staff and board and for a couple of weeks in a row have been writing about DeepSeek. What I didn’t consider is the reaction this week in the press and markets. Good folks like Ben Thompson, Pat Gellisnger, Tomasz Tunguz have all been commenting. With AI stocks getting pummeled and grave concerns surfacing about the impact of DeepSeek’s R1 model on the future of AI, it’s clear that fears of DeepSeek struck a deep nerve. That huge reaction merits both examination and explanation.
In short, what the markets reacted to was DeepSeek’s ability to build a model that rivaled OpenAI’s sophisticated o1 reasoning model and Anthropic’s Sonnet model for pennies on the dollar on a fraction of the compute. It also appears that DeepSeek did this using well-known techniques. There were no massive algorithmic breakthroughs, just very clever engineering. The team just went back to First Principles, asked basic questions and stacked up existing techniques in novel ways to achieve outsized results using Reinforcement Learning (RL) and various stages of fine-tuning. There’s no magic here — just a very smart reshuffling of the existing cards that produced a more refined and efficient result.
Some observers accused DeepSeek of “free riding” on work done by other large model makers like Meta (Llama) and AliBaba (Qwen). However, this perspective reflects a misunderstanding of how open-source systems function. The foundational principle of open-source innovation is the expectation that others will build upon prior work to drive progress. In the case of DeepSeek, they demonstrated this by distilling their base reasoning model, DeepSeek-R1—an evolution of their earlier open source DeepSeek-V3-Base model —and fine-tuning smaller models from the Llama 3 and Qwen 2.5 series of models using reasoning data generated by their base model. This process highlights how DeepSeek leveraged existing open innovations, not merely for replication, but to demonstrate significant improvements in small language model performance. DeepSeek then re-released those models back to the open source AI community.
Here’s the Big Takeaway. What the news and commentariat are missing is the massive opportunity that DeepSeek has opened for open source and, more broadly, the entire open movement. Too much of the conversation is framed as U.S. vs China and the race for AI supremacy. Too much of the conversation is framed on the idea that DeepSeek training a powerful model on a fraction of the compute for a fraction of the cost means all the large companies spending big bucks on NVIDIA gear and training will be undercut.
In my (biased) view, open source innovation will win and that this will actually be good for everyone — China, the U.S., Big Tech, European Digital Sovereignty, NVIDIA, and more. Some venture investors who bet on early AI startups that have become features inside of larger AI offerings might get wiped out, but that happens in any technology phase shift. What DeepSeek proves is that we need thousands of eyes on the problem to come up with better solutions to make intelligence as close to free as possible. A small team in China took a fresh look at a problem and came up with a novel approach that reduced the cost of chain-of-thought reasoning by 50x (if DeepSeek’s postings are accurate) and then published a paper fully describing their process, allowing the community to benefit from their learnings. We need MORE of this progress, not less. This is not an arm’s race between the U.S. and China. It is a struggle over open markets between the forces of open and the forces of closed. Governments may think they can control this, but history shows that open technology, once discovered and put in the hands of the community, is like rain. You can’t pause or stop it. Artificially halting scientific development has never worked in any long-run term, and computer science and AI are no different.
In March 2013, the open source world was introduced to a lightweight, standardized way to package and run applications with all their dependencies, ensuring consistency across different environments. Unlike traditional virtual machines, Docker containers used isolated environments on a single underlying operating system to do virtualization. Docker containers were faster, more portable, and more efficient by sharing the host system's kernel while isolating processes. Docker reorganized many existing open source virtualization and container capabilities like cgroups, LXC, namespaces and more. That reorganization, or shuffling of the then-existing cards, changed the game. Virtual machines had worked well for years, but Docker containers were far better for many workloads. The openness of that technology shift helped power a new wave of cloud-native computing adoption.
Another fundamental misunderstanding is that DeepSeek will require less AI infrastructure investment. Yet, there is a boundless appetite for intelligence. We haven’t even scratched the surface and are in the very early stages of tapping into AI-powered applications.
More recent improvements in AI models have shifted the nexus of reasoning from pre-training and post-training enhancements to now test-time compute, allowing models to “reason” through their responses (chain-of-thought). This doesn’t mean we need less compute. It actually means we need more compute, when the inference layer acts more like a human brain — always thinking, reconsidering, tackling multiple tasks at once, and evolving to fill the need for new intelligence activities. This is more like electricity — a commodity. Make it cheaper so more applications are possible (as VC Tomasz Tungus explains neatly here), and more people will use it.
For open source, this opens a massive new frontier. If open source wins in AI and becomes the dominant innovation and development model, then we have an opportunity to reshape the way the world works at fundamental levels. DeepSeek is one example of making reasoning available to a much wider array of users and applications. Open source AI could be a path to deliver true interoperability and standards between applications and application stacks.
AI is the meta-layer upon which we could build a new expectation for interoperability, a new reality that Satya Nadela hinted at when he spoke in multiple forums about how AI could disrupt SaaS apps by allowing organizations to hook up different back-ends and data sources to AI engines. In other words, open source AI gives the world a chance to rewrite the rules to favor open everything, everywhere possible. In this world, power goes to the community and the maintainers.
There is, of course, a lot of nuance around open source and how it works. But through this lens, I believe the lesson of DeepSeek is about the coming AI boom and how it can benefit everyone and drive economic and technological progress far exceeding what markets perceive — if we keep it open.
Don’t believe me? Linux is now thirty-four years old and a group of researchers at the University of Waterloo working in the open demonstrated, just last week, that “changing 30 lines of code in Linux could cut energy use at some data centers by up to 30 percent” Guess what OS all those AI workloads run on?
Finally, I will throw out a small prediction for all the “trojan horse” uninformed naysayers. Another firm or research lab will have a similar model using this method with amazing performance to cost ratio in the next few weeks. Feel free to guess who in the comments.
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com
Tác giả: Nghĩa Lê Trung
Ý kiến bạn đọc
Những tin mới hơn
Những tin cũ hơn
Blog này được chuyển đổi từ http://blog.yahoo.com/letrungnghia trên Yahoo Blog sang sử dụng NukeViet sau khi Yahoo Blog đóng cửa tại Việt Nam ngày 17/01/2013.Kể từ ngày 07/02/2013, thông tin trên Blog được cập nhật tiếp tục trở lại với sự hỗ trợ kỹ thuật và đặt chỗ hosting của nhóm phát triển...