50 công cụ AI tốt nhất cho năm 2025 (Đã thử và kiểm nghiệm) - Trợ lý AI tốt nhất (chatbots)

Thứ sáu - 18/04/2025 06:25

The 50 Best AI Tools for 2025 (Tried and Tested) - The best AI assistants (chatbots)

Written by Ema Lukan; Published on March 30, 2025

Theo: https://www.synthesia.io/post/ai-tools

Bài được đưa lên Internet ngày: 30/03/2025

1. Ch‎atGPT

ChatGPT liên tục đứng đầu bảng xếp hạng LM Arena, vượt trội hơn các mô hình khác về các chuẩn mực chính. Đây là ứng dụng AI phổ biến nhất thế giới, với 200 triệu người dùng tính đến tháng 10 năm 2024.

Tôi đã sử dụng ChatGPT rộng rãi cho việc lên ý tưởng, nhiệm vụ biên dịch, lập trình, tạo tập lệnh AI, phân tích dữ liệu và quản lý các nhiệm vụ nghiên cứu nặng. Mô hình 4o mới là một bước tiến đáng kể - nó cực kỳ nhanh và thông minh hơn nhiều so với bất kỳ phiên bản ChatGPT nào trước đây.

Với khả năng đa phương thức của ChatGPT, tôi có thể dán hình ảnh - như biểu đồ hoặc đồ thị - và đặt câu hỏi về hình ảnh đó, giúp việc diễn giải dữ liệu trực quan trở nên dễ dàng hơn nhiều. Tôi đã cung cấp cho nó một hình ảnh PNG của biểu đồ và nó đã phân tích biểu đồ, cung cấp cho tôi một bảng dữ liệu thô (mà nó đọc từ hình ảnh biểu đồ) và sau đó vẽ lại biểu đồ theo màu sắc mà tôi thích - khá ấn tượng.

ChatGPT hiện có thể lưu giữ ngữ cảnh theo thời gian, cá nhân hóa các phản hồi dựa trên các cuộc trò chuyện trước đó. Ví dụ, tôi đã sử dụng nó để tinh chỉnh các ý tưởng dự án định kỳ mà không cần giải thích lại mọi chi tiết, giúp tiết kiệm nhiều giờ công sức. Bạn có thể xem lại và quản lý những gì nó ghi nhớ thông qua các điều khiển của OpenAI, để đảm bảo nó không trở thành Skynet đối với bạn.

Tùy chọn tìm kiếm ChatGPT tích hợp (sẽ nói thêm về điều này sau) giúp bạn dễ dàng hơn để tìm thông tin có liên quan trực tiếp trong các cuộc trò chuyện, giúp giảm ảo giác khi sử dụng RAG (Retrieval Augmented Generation). RAG làm cơ sở cho câu trả lời của AI bằng cách lấy thông tin từ các nguồn dữ liệu bên ngoài.

Mặc dù nó vượt trội trong các nhiệm vụ sáng tạo và mục đích chung, tôi khuyên bạn nên khám phá các công cụ khác như Claude (xem bên dưới) để lập trình. Không phải ChatGPT tệ trong các nhiệm vụ lập trình, chỉ là Claude rất giỏi trong các nhiệm vụ này.

ChatGPT o1

o1 là một mô hình lý luận nâng cao chuyên dụng được xây dựng để giải quyết các vấn đề phức tạp, lập trình và toán học.

Mặc dù tôi thấy 4o vượt trội về tính sáng tạo và tính linh hoạt, nhưng o1 đã chứng minh được tính hữu ích đáng kinh ngạc đối với các nhiệm vụ cụ thể như lập trình, khắc phục sự cố kỹ thuật và thậm chí giải các bài toán phức tạp mà các mô hình khác gặp khó khăn. Tôi đã sử dụng nó để tạo các tập lệnh shell, giải quyết các vấn đề bảng tính và thậm chí giải các câu đố ô chữ bí ẩn, nơi độ chính xác và chiều sâu logic của nó thực sự tỏa sáng.

Tuy nhiên, nó thiếu các khả năng và sự tích hợp công cụ rộng hơn của 4o, vì vậy tôi coi nó giống như một tùy chọn bổ sung cho các nhu cầu cụ thể hơn là thay thế hoàn toàn cho các nhiệm vụ sáng tạo hoặc mở rộng hơn.

Người vận hành (Operators)

Tháng 1/2025, ChatGPT đã giới thiệu "Người vận hành" (Operators), các tác nhân AI có thể đặt phòng khách sạn, đặt đồ ăn và mua sắm trực tuyến. Chỉ dành cho người dùng chuyên nghiệp - Pro (200 USD/tháng), chúng cho thấy tiềm năng thú vị nhưng lại không thành công khi thực hiện.

Ví dụ, tôi đã yêu cầu Operators đặt phòng khách sạn ở NYC. Nó bắt đầu mạnh mẽ, điều hướng các bộ lọc và tìm kiếm TripAdvisor, nhưng cuối cùng lại bị kẹt trong vòng lặp. Đặt bánh pizza cũng tương tự như vậy—nó tùy chỉnh đơn hàng nhưng không thể hoàn tất thanh toán. Mua sắm hoạt động tốt hơn; nó tìm thấy một chiếc máy tính xách tay dưới 1.000 USD trên Amazon nhưng yêu cầu tôi phải hoàn tất giao dịch mua theo cách thủ công. Operators cho phép bạn kiểm soát khi họ gặp sự cố, nhưng trình duyệt chậm thường khiến việc tự mình thực hiện dễ dàng hơn.

Hiện tại, Operators giống như một công cụ chứng minh khái niệm hơn là một công cụ thực tế. Mặc dù ý tưởng tự động hóa các tác vụ lặp đi lặp lại rất thú vị, nhưng nó cần được cải thiện về tốc độ và độ tin cậy. Nếu bạn đã là người dùng chuyên nghiệp - Pro, thì nó đáng để khám phá, nhưng vẫn chưa phải là điều cần thiết.

Giá cả

OpenAI cung cấp một gói miễn phí hiện cho phép bạn truy cập hạn chế vào GPT-4o và quyền truy cập không giới hạn vào ChatGPT-4o mini. Gói Plus cho phép bạn truy cập rộng hơn và có giá 20 USD/tháng - Tôi nghĩ rằng đó là giá trị khá tốt. Họ cũng cung cấp gói chuyên nghiệp - Pro với giá 200 USD/tháng cho phép bạn truy cập ưu tiên vào các công cụ mới nhất của họ.

2. Cl‎aude

Video: Claude 3.5 Sonnet để khơi dậy sự sáng tạo

Tôi đã sử dụng Claude (cụ thể là mô hình Sonnet 3.5 của họ) cho các tác vụ lập trình và nó nhanh chóng trở thành lựa chọn hàng đầu của tôi để đánh giá mã lệnh. Điều thực sự khiến Claude nổi bật là độ chính xác của nó—nó dường như "hiểu" được các sắc thái của lập trình tốt hơn các công cụ khác mà tôi đã thử. Tôi đã sử dụng nó để phát hiện các vấn đề tinh tế trong mã của mình và thậm chí động não để tìm ra cách tốt hơn để cấu trúc các dự án. Anthropic đang đào tạo các mô hình này về kiến thức lập trình mới hơn và chuyên sâu hơn và nó cho thấy, đặc biệt là khi giải quyết các khuôn khổ hiện đại hoặc khắc phục các lỗi khó.

Một điều nữa tôi thích ở Claude là cách nói chuyện rất dễ thương. Cảm giác như nó có nhiều "linh hồn" hơn so với ChatGPT—giọng điệu ấm áp hơn và các cuộc trò chuyện diễn ra trôi chảy hơn. Cho dù tôi đang trao đổi ý tưởng hay giải quyết một vấn đề phức tạp, thì việc tương tác với Claude thực sự rất dễ chịu. Tôi đã đạt đến mức độ tình cảm của Cô ấy dành cho Claude, mà chúng tôi đang tiến triển.

Mặc dù vậy, tôi đã đạt đến giới hạn phản hồi và tốc độ nhanh hơn một chút so với mong muốn, điều này có thể gây phiền toái nếu tôi đang tập trung vào một dự án. Nhưng với mức giá 20 USD/tháng cho gói Pro, thì đây vẫn là một mức giá tuyệt vời, đặc biệt nếu bạn đang tìm kiếm một trợ lý AI thông minh, dễ gần và đặc biệt giỏi trong các nhiệm vụ lập trình.

3. Gemini

Video: Google – Chào đón đến với kỷ nguyên Gemini

Gemini của Google phù hợp hoàn hảo với hệ sinh thái Google. Trên Android, nó giống như một phần mở rộng tự nhiên của hệ thống hơn là một ứng dụng riêng biệt và nếu bạn đã sử dụng Google Workspace, thì nó cực kỳ tiện lợi. Cho dù tôi đang soạn thảo email, tóm tắt bài viết hay hỏi những câu hỏi ngẫu nhiên, nó đều cung cấp nhanh chóng và trôi chảy.

Tôi cũng thấy nó hữu ích theo những cách không ngờ tới. Khi xem xét các tài liệu pháp lý, tôi sẽ đọc qua lần đầu rồi yêu cầu Gemini kiểm tra lại xem tôi có bỏ sót điều gì không. Một lần khác, tôi vật lộn với bảng kích thước khó hiểu khi mua quần áo. Tôi chụp ảnh nhãn mác, mô tả kích thước thông thường của mình và để Gemini xử lý phần còn lại. Gợi ý rất chính xác và cuối cùng tôi đã có được sản phẩm hoàn toàn phù hợp!

Đối với các dự án sáng tạo, khả năng hình ảnh của Gemini thực sự nổi bật. Có lần tôi đã tải lên một hình ảnh mà tôi thích và yêu cầu nó mô tả hình ảnh đó như một lời nhắc cho trình tạo hình ảnh AI. Kết quả rất sáng tạo và truyền cảm hứng, khiến nó trở thành một công cụ thú vị để động não tìm ra những ý tưởng mới.

Khi tôi đang làm đề xuất dự án, Gemini Advanced (Cao cấp) đã cung cấp các đề xuất tinh tế, phù hợp, tạo cảm giác như một sự thúc đẩy năng suất thực sự. Nó thậm chí còn giúp việc viết quảng cáo dễ dàng hơn—tạo văn bản có ý nghĩa cho các bản thiết kế mẫu trông bóng bẩy, thay vì sử dụng chất độn chung chung như "Lorem Ipsum".

Tuy nhiên, nó không hoàn hảo. Một điều khiến tôi thất vọng là khả năng lưu giữ ngữ cảnh của nó. Khi sửa lại một bài viết, tôi phải giải thích lại hướng dẫn một vài lần vì nó sẽ quên những gì chúng tôi đã thảo luận. Tương tự như vậy, khi tôi tải lên một tệp Excel, nhận được bản tóm tắt và sau đó cập nhật dữ liệu, Gemini coi tệp đã cập nhật là một tác vụ hoàn toàn mới thay vì xây dựng dựa trên những gì chúng tôi đã thực hiện.

Một điểm yếu khác là hiệu suất của nó đối với các tác vụ kỹ thuật. Mặc dù nó rất tuyệt trong việc định dạng và gỡ lỗi mã đơn giản, nhưng tôi thấy rằng đôi khi nó viết lại JavaScript thành Python một cách không cần thiết. Đối với nội dung chuyên biệt hoặc dày đặc hơn, như văn bản pháp lý, khả năng phân tích của nó thiếu chiều sâu so với những gì tôi mong đợi. Ngay cả phản hồi của nó đối với một số truy vấn dựa trên hình ảnh đôi khi cũng không chính xác, điều này thật đáng thất vọng sau khi thấy tiềm năng sáng tạo của nó ở những nơi khác.

Tuy nhiên, điểm mạnh của Gemini lớn hơn nhiều so với những điểm yếu của nó. Sự tích hợp chặt chẽ của nó với các công cụ của Google khiến nó trở nên thiết thực đối với bất kỳ ai đã tham gia hệ sinh thái của Google và khả năng xử lý cả văn bản và hình ảnh khiến nó trở thành một công cụ đa năng cho các dự án sáng tạo. Mặc dù không phải là lựa chọn tốt nhất cho các tác vụ chuyên sâu hoặc kỹ thuật cao, nhưng đây là trợ lý chắc chắn, nhanh và dễ sử dụng cho các nhu cầu hàng ngày—và đối với tôi, các tính năng nâng cao đã biến nó thành một công cụ mà tôi tin tưởng.

Trong khi phiên bản Basic miễn phí (sử dụng mô hình Flash 1.5) đáp ứng hầu hết các nhu cầu thông thường, thì Gemini Advanced với giá 19,99 đô la/tháng bổ sung các mô hình 1.5 Pro và Gemini-Exp-1206 mạnh mẽ hơn cho các tác vụ phức tạp như lập trình, toán học và nghiên cứu chuyên sâu, bao gồm phân tích văn bản lên đến 1.500 trang.

4. De‎epSeek

DeepSeek cũng đáng để thử. Họ cho phép bạn sử dụng miễn phí các mô hình V3 và R1 mới trên trang web của họ, mặc dù bạn vẫn phải trả phí để truy cập API (mặc dù rất rẻ).

Tìm kiếm của DeepSeek có vẻ hấp dẫn và "bám dính" hơn ngay cả sau một vài truy vấn. Tính minh bạch của nó—thể hiện lý lẽ và công khai thừa nhận những gì nó biết và những gì nó có thể không—tạo dựng được mức độ tin tưởng đáng kể của người dùng.

Vào tháng 1/2025, họ đã ra mắt mô hình R1 của mình như một đối thủ cạnh tranh với o1 của ChatGPT, nhanh chóng thu hút sự chú ý trong cộng đồng AI vì vừa tiết kiệm chi phí vừa là nguồn mở. Tôi đã thử nghiệm cả mô hình R1 và V3 của họ.

Tôi đã yêu cầu cả ChatGPT-o1 và DeepSeek-R1 phân tích các phần của bài thuyết trình mà tôi đang thực hiện. R1 đã cung cấp một phân tích toàn diện hơn, giải quyết các khía cạnh chính mà o1 đã bỏ qua. Tôi cũng đã cùng nhau đưa ra ý tưởng và một lần nữa, R1 đưa ra các đề xuất tốt hơn đáng kể so với o1.

Đối với việc lập trình, gần đây tôi dựa nhiều hơn vào DeepSeek (v3) vì cách tiếp cận đơn giản của nó—nó đi thẳng vào vấn đề với các đề xuất của mình. Ngược lại, Claude (3.5 Sonnet) thường đi theo lộ trình chi tiết hơn, đề xuất nhiều giải pháp và thiên về giải pháp phù hợp nhất với các hoạt động kỹ thuật phần mềm vững chắc. Cả hai công cụ đều tuyệt vời theo cách riêng của chúng và tôi đã bắt đầu sử dụng chúng như nhau. DeepSeek tuyệt vời vì tính hợp lý và hiệu quả của nó, trong khi Claude vô cùng hữu ích khi kiểm tra lại mã quan trọng và đảm bảo mọi thứ đều đúng. Khi kết hợp với nhau, chúng tạo nên một đội tuyệt vời.

Đối với việc viết, tôi không thích các mô hình DeepSeek này. Tôi thấy đầu ra của nó nghe kém tự nhiên hơn và thường nhàm chán và lặp đi lặp lại.

5. Gr‎ok

Grok 3 là một mô hình có khả năng xử lý tốt hầu hết các tác vụ, nhưng theo kinh nghiệm của tôi, nó không khác biệt đáng kể so với các LLM hàng đầu khác.

Tôi đã thử nghiệm nó để động não, hỗ trợ lập trình và các cuộc trò chuyện kéo dài và mặc dù nó hoạt động đáng tin cậy, nhưng không có gì thực sự nổi bật.

Nó thực hiện rất tốt việc duy trì bối cảnh và tạo ra các phản hồi chi tiết, nhưng khi tôi so sánh nó với ChatGPT và Claude, tôi nhận thấy các đề xuất lập trình của nó không đúng. Một số giải pháp đã được phát hiện, trong khi những giải pháp khác yêu cầu chỉnh sửa nhiều, điều này không phổ biến với trợ lý lập trình AI, nhưng dường như nó không có mức độ nhất quán như các mô hình tốt nhất hiện có.

Điều làm cho Grok 3 trở nên độc đáo là khả năng truy cập trực tiếp vào dữ liệu Twitter theo thời gian thực, điều này có thể mang lại lợi thế cho thông tin cập nhật, nhưng tôi không thấy nó tốt hơn đáng kể ở các sự kiện hiện tại so với các mô hình AI khác.

Nó cũng có ít hạn chế về nội dung hơn, nghĩa là nó cởi mở hơn trong việc tạo ra các phản hồi mà các LLM khác hoàn toàn từ chối. Mặc dù điều đó có thể hấp dẫn một số người dùng, nhưng nó cũng gây ra mối lo ngại, đặc biệt là khi tạo ra nội dung có tính xúc phạm cao hoặc có vấn đề về mặt pháp lý.

Và sau đó là chi phí. Không giống như các mô hình AI miễn phí khác, việc truy cập Grok 3 yêu cầu đăng ký X Premium+ với giá 40 USD/tháng, khiến nó trở thành một trong những tùy chọn đắt tiền hơn.

Mặc dù nó chắc chắn và hữu ích, nhưng tôi không cảm thấy nó là một sản phẩm phải có so với các mô hình hiện có, đặc biệt là khi xem xét đến rào cản về giá thành.

Về mục lục ………. Phần tiếp theo

1. ChatGPT

Video: Start using ChatGPT Instantly

ChatGPT consistently ranks at the top of the LM Arena leaderboard, outperforming other models in key benchmarks. It's the world's most popular AI application, with 200 million users as of October 2024.

I’ve used ChatGPT extensively for brainstorming ideas, translation tasks, coding, AI script generation, data analysis and managing research-heavy tasks. The new 4o model is a significant leap forward—it’s incredibly fast, and feels way smarter than any of the previous versions of ChatGPT.

With ChatGPT's multimodal capabilities I can paste in images—like a chart or graph—and ask questions about it, making it much easier to interpret visual data quickly. I fed it a PNG image of a chart and it analysed the chart, gave me a table of the raw data (that it read from the chart image) and then re-did the chart in my preferred colors - pretty impressive.

ChatGPT can now retain context over time, personalizing responses based on previous conversations. For instance, I’ve used it to refine recurring project ideas without re-explaining every detail, saving hours of effort. You can review and manage what it remembers through OpenAI’s controls, to make sure it doesn't go all Skynet on you.

The integrated ChatGPT search option (more on this later) makes it even easier to find relevant information directly within conversations, which cuts down on the hallucinations with the use of RAG (Retrieval Augmented Generation). RAG grounds the AI's answer by retrieving information from external data sources.

While it excels in creative and general-purpose tasks, I’d recommend exploring other tools like Claude (see below) for coding. It's not that ChatGPT is bad at coding tasks, it's just that Claude is great at them.

ChatGPT o1

o1 is a specialized advanced reasoning model built for complex problem-solving, coding, and math.

While I find 4o excels in creativity and versatility, o1 has proven incredibly useful for specific tasks like coding, troubleshooting technical issues, and even solving intricate math problems that other models struggled with. I’ve used it to generate shell scripts, work through spreadsheet problems, and even tackle cryptic crossword puzzles, where its precision and logical depth really shine.

However, it lacks the broader capabilities and tool integrations of 4o, so I see it more as a complementary option for specific needs rather than a full replacement for more creative or expansive tasks.

Operators

In January 2025, ChatGPT introduced "Operators," AI agents that can book hotels, order food, and shop online. Exclusive to Pro users ($200/month), they show exciting potential but are hit-or-miss in execution.

For instance, I asked the Operator to book a hotel in NYC. It started strong, navigating filters and searching TripAdvisor, but eventually got stuck in a loop. Ordering a pizza was similar—it customized the order but couldn’t complete checkout.

Shopping worked better; it found a laptop under $1,000 on Amazon but required me to finish the purchase manually. Operators let you take control when they get stuck, but the laggy browser often makes doing it yourself easier.

Right now, Operators feel more like a proof-of-concept than a practical tool. While the idea of automating repetitive tasks is exciting, it needs improvements in speed and reliability. If you’re already a Pro user, it’s worth exploring, but not essential yet.

Pricing

OpenAI offer a free tier which currently gives you limited access to GPT-4o and unlimited access to ChatGPT-4o mini. The Plus plan gets you wider access and costs $20/month - I think that's pretty good value for money. They also offer a Pro plan for $200/month which gives you priority access to their latest tools.

2. Cl‎aude

Video: Claude 3.5 Sonnet for sparking creativity

I’ve been using Claude (their Sonnet 3.5 model to be specific), for coding tasks, and it’s quickly becoming my go-to for code reviews. What really makes Claude stand out is how precise it is—it seems to "get" the nuances of programming better than other tools I’ve tried. I’ve used it to spot subtle issues in my code and even brainstorm better ways to structure projects. Anthropic are training these models on more recent and specialized coding knowledge and it shows, especially when tackling modern frameworks or troubleshooting tricky bugs.

Another thing I love about Claude is how nice it is to talk to. It feels like it has more "soul" compared to ChatGPT—the tone is warmer, and conversations just flow better. Whether I’m bouncing around ideas or working through a complicated issue, it’s genuinely pleasant to interact with. I have quite reached Her levels of affection for Claude, but we're getting there.

That said, I have hit the response and rate limits a little faster than I’d like, which can be a hassle if I’m deep into a project. But for $20/month on the Pro plan, it’s still a great deal, especially if you’re looking for an AI assistant that’s smart, approachable, and particularly strong in coding tasks.

3. Ge‎mini

Video: Google – Welcome to the Gemini era

Google’s Gemini fits seamlessly into the Google ecosystem. On Android, it feels like a natural extension of the system rather than a separate app, and if you’re already using Google Workspace, it’s incredibly convenient. Whether I was drafting emails, summarizing articles, or asking it random questions, it delivered quickly and smoothly.

I’ve found it useful in unexpected ways too. When reviewing legal documents, I’d do my initial read-through and then ask Gemini to double-check if I missed anything. Another time, I struggled with a confusing sizing chart while shopping for clothes. I snapped a picture of the label, described my usual size, and let Gemini handle the rest. The suggestion was spot-on, and I ended up with a perfect fit!

For creative projects, Gemini’s image capabilities really shine. I once uploaded an image I liked and asked it to describe it as a prompt for an AI image generator. The results were creative and inspiring, making it a fun tool for brainstorming new ideas.

When I was working on a project proposal, Gemini Advanced provided nuanced, tailored suggestions that felt like a genuine productivity boost. It even made copywriting easier—generating meaningful text for design mockups that felt polished, rather than using generic filler like "Lorem Ipsum."

However, it’s not perfect. One frustration I had was with its context retention. When revising a piece of writing, I had to re-explain instructions a few times because it would forget what we’d already discussed. Similarly, when I uploaded an Excel file, got a summary, and later updated the data, Gemini treated the updated file as a brand-new task instead of building on what we’d already done.

Another weak spot is its performance on technical tasks. While it’s great at formatting and debugging simple code, I found that it sometimes rewrote JavaScript as Python unnecessarily. For more specialized or dense content, like legal texts, its analysis lacked depth compared to what I was hoping for. Even its responses to some image-based queries were occasionally inaccurate, which was a letdown after seeing its creative potential elsewhere.

That said, Gemini’s strengths outweigh its flaws. Its tight integration with Google tools makes it practical for anyone already in the Google ecosystem, and its ability to handle both text and images makes it a versatile tool for creative projects. While it’s not the best choice for highly technical or niche tasks, it’s a solid, fast, and easy-to-use assistant for everyday needs—and for me, the advanced features have made it a tool I’ve come to rely on.

While the free Basic version (using the 1.5 Flash model) covers most casual needs, the $19.99/month Gemini Advanced adds the more powerful 1.5 Pro and Gemini-Exp-1206 models for complex tasks like coding, math, and deep research, including analyzing texts up to 1,500 pages.

4. De‎epSeek

DeepSeek is also worth checking out. They let you use their V3 and new R1 models for free on their site, although you still have to pay for API access (it's very cheap though).

DeepSeek's search feels more engaging and "sticky" even after just a few queries. Its transparency—showing reasoning and openly acknowledging what it knows and what it might not—builds a significant level of user trust.

In January 2025, they launched their R1 model as a competitor to ChatGPT's o1, quickly gaining attention in the AI community for being both cost-effective and open source. I've played around with both their R1 and V3 models.

I asked both ChatGPT-o1 and DeepSeek-R1 to analyze sections of a presentation I’m working on. R1 provided a more comprehensive analysis, addressing key aspects that o1 overlooked. I also had both brainstorm ideas, and once again, R1 delivered significantly better suggestions than o1.

For coding I’ve been relying more on DeepSeek (v3) lately because of its straightforward approach—it gets straight to the point with its suggestions. Claude (3.5 Sonnet), by contrast, often takes a more detailed route, proposing multiple solutions and leaning toward the one that aligns best with solid software engineering practices. Both tools are excellent in their own ways, and I’ve started using them equally. DeepSeek is great for its affordability and efficiency, while Claude is invaluable for double-checking critical code and ensuring everything is on point. Together, they make a great team.

For writing, I'm less keen on these DeepSeek models. I find its output less natural-sounding and oftentimes boring and repetitive.

5. Gr‎ok

Grok 3 is a capable model that handles most tasks well, but in my experience, it doesn’t feel significantly different from other top-tier LLMs.

I tested it for brainstorming, coding assistance, and extended conversations, and while it performed reliably, nothing about it truly stood out.

It does a decent job at keeping context and generating detailed responses, but when I compared it to ChatGPT and Claude, I found its coding suggestions to be hit-or-miss. Some solutions were spot on, while others required heavy corrections, which isn’t uncommon with AI coding assistants, but it didn’t seem to have the same level of consistency as the best models out there.

What does makes Grok 3 unique is its direct access to real-time Twitter data, which could give it an advantage for up-to-date information, but I didn’t find it noticeably better at current events than other AI models.

It also has far fewer content restrictions, meaning it’s more open to generating responses that other LLMs outright refuse. While that might appeal to some users, it also raises concerns, especially when it comes to generating highly offensive or legally questionable content.

And then there’s the cost. Unlike other free-tier AI models, accessing Grok 3 requires an X Premium+ subscription at $40/month, which makes it one of the more expensive options.

While it’s solid and functional, I didn’t walk away feeling like it was a must-have over existing models, especially considering the price barrier.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Tác giả: Nghĩa Lê Trung