Newsletter

Sự phát triển của LLM: Tổng quan ngắn gọn về thị trường

Chênh lệch giữa các LLM hàng đầu về các tiêu chuẩn chính chưa đến 2 phần trăm—cuộc chiến công nghệ đã kết thúc với tỷ số hòa. Cuộc chiến thực sự vào năm 2025 sẽ diễn ra về hệ sinh thái, phân phối và chi phí: DeepSeek đã chứng minh rằng họ có thể cạnh tranh với 5,6 triệu đô la so với 78-191 triệu đô la của GPT-4. ChatGPT thống trị thương hiệu (độ nhận diện 76%) mặc dù Claude giành chiến thắng 65% trong các tiêu chuẩn kỹ thuật. Đối với các công ty, chiến lược chiến thắng không phải là chọn "mô hình tốt nhất" mà là phối hợp các mô hình bổ sung cho các trường hợp sử dụng khác nhau.

Cuộc chiến mô hình ngôn ngữ 2025: Từ sự ngang bằng về mặt kỹ thuật đến cuộc chiến của các hệ sinh thái

Sự phát triển của các Mô hình Ngôn ngữ Lớn đã đạt đến một bước ngoặt quan trọng vào năm 2025: cuộc cạnh tranh không còn dựa trên năng lực cốt lõi của các mô hình - giờ đây về cơ bản là tương đương nhau về các tiêu chuẩn chính - mà dựa trên hệ sinh thái, tích hợp và chiến lược triển khai của chúng. Mặc dù Claude Sonnet 4.5 của Anthropic vẫn duy trì lợi thế kỹ thuật hẹp trong các tiêu chuẩn cụ thể, nhưng cuộc chiến thực sự đã chuyển sang một địa hình khác.

Rút thăm kỹ thuật: Khi các con số bằng nhau

Tiêu chuẩn MMLU (Hiểu ngôn ngữ đa nhiệm hàng loạt)

  • Claude Sonnet 4.5: 88,7%
  • GPT-4o: 88,0%
  • Gemini 2.0 Flash: 86,9%
  • DeepSeek-V3: 87,1%

Sự khác biệt là không đáng kể—chỉ cách biệt chưa đến 2 điểm phần trăm giữa các công ty có hiệu suất cao nhất. Theo Báo cáo Chỉ số AI 2025 của Stanford, "sự hội tụ của các năng lực mô hình ngôn ngữ cốt lõi đại diện cho một trong những xu hướng quan trọng nhất của giai đoạn 2024-2025, với những tác động sâu sắc đến chiến lược cạnh tranh của các công ty AI."

Khả năng suy luận (GPQA Diamond)

  • Claude Sonnet 4: 65,0%
  • GPT-4o: 53,6%
  • Gemini 2.0 Pro: 59,1%

Claude vẫn giữ được lợi thế đáng kể trong các nhiệm vụ suy luận phức tạp, nhưng GPT-4o vượt trội về tốc độ phản hồi (độ trễ trung bình 1,2 giây so với Claude là 2,1 giây) và Gemini về khả năng xử lý đa phương thức gốc.

Cuộc cách mạng DeepSeek: Bước ngoặt thay đổi cuộc chơi của Trung Quốc

Tháng 1 năm 2025 chứng kiến ​​sự ra đời đột phá của DeepSeek-V3, chứng minh rằng các mô hình cạnh tranh có thể được phát triển với chi phí 5,6 triệu đô la so với 78–191 triệu đô la của GPT-4/Gemini Ultra. Marc Andreessen gọi đây là "một trong những đột phá đáng kinh ngạc nhất—và với tư cách là mã nguồn mở, đây là một món quà sâu sắc cho thế giới."

Thông số kỹ thuật của DeepSeek-V3:

  • Tổng cộng 671 tỷ tham số (37 tỷ tham số hoạt động thông qua Hỗn hợp chuyên gia)
  • Chi phí đào tạo: 5,576 triệu đô la
  • Hiệu suất: Vượt trội hơn GPT-4o ở một số điểm chuẩn toán học
  • Kiến trúc: Sự chú ý tiềm ẩn đa đầu (MLA) + DeepSeekMoE

Tác động: Cổ phiếu Nvidia giảm 17% chỉ trong một phiên giao dịch sau thông báo, khi thị trường đang đánh giá lại các rào cản gia nhập để phát triển mô hình.

Nhận thức của công chúng so với thực tế kỹ thuật

ChatGPT vẫn duy trì vị thế thống trị không thể chối cãi về nhận diện thương hiệu: Nghiên cứu của Trung tâm nghiên cứu Pew (tháng 2 năm 2025) cho thấy 76% người Mỹ chỉ liên tưởng "AI đàm thoại" với ChatGPT, trong khi chỉ có 12% biết đến Claude và 8% tích cực sử dụng Gemini.

Nghịch lý: Claude Sonnet 4 đánh bại GPT-4o ở tiêu chuẩn kỹ thuật 65% nhưng chỉ chiếm 8% thị phần người tiêu dùng so với 71% của ChatGPT (dữ liệu của Similarweb, tháng 3 năm 2025).

Google phản hồi bằng sự tích hợp quy mô lớn: Gemini 2.0 gốc trong Tìm kiếm, Gmail, Docs và Drive—chiến lược hệ sinh thái so với sản phẩm độc lập. 2,1 tỷ người dùng Google Workspace đại diện cho việc triển khai ngay lập tức mà không cần thu hút khách hàng.

Sử dụng máy tính và tác nhân: Biên giới tiếp theo

Claude Computer Use (phiên bản beta tháng 10 năm 2024, bản sản xuất quý 1 năm 2025)

  • Khả năng: Điều khiển chuột/bàn phím trực tiếp, điều hướng trình duyệt, tương tác ứng dụng
  • Áp dụng: 12% khách hàng doanh nghiệp Anthropic sử dụng máy tính trong sản xuất
  • Hạn chế: Tỷ lệ thất bại vẫn là 14% đối với các tác vụ phức tạp gồm nhiều bước

GPT-4o với Tầm nhìn và Hành động

  • Tích hợp Zapier: Hơn 6.000 ứng dụng có thể quản lý
  • GPT tùy chỉnh: 3 triệu đã xuất bản, 800 nghìn đang được sử dụng tích cực
  • Chia sẻ doanh thu cho người sáng tạo GPT: 10 triệu đô la được phân phối vào quý 4 năm 2024

Nghiên cứu sâu về Gemini (tháng 1 năm 2025)

  • Nghiên cứu đa nguồn tự chủ với phân tích so sánh
  • Tạo báo cáo toàn diện từ một lời nhắc duy nhất
  • Thời gian trung bình: 8-12 phút cho một báo cáo dài hơn 5.000 từ

Gartner dự đoán 33% nhân viên trí thức sẽ sử dụng tác nhân AI tự động vào cuối năm 2025, so với 5% hiện nay.

Sự khác biệt về triết lý về an ninh

OpenAI: Phương pháp "An toàn thông qua hạn chế"

  • Từ chối 8,7% lời nhắc của người tiêu dùng (rò rỉ dữ liệu nội bộ của OpenAI)
  • Chính sách nội dung cứng nhắc khiến 23% nhà phát triển chuyển sang các lựa chọn thay thế
  • Khung chuẩn bị công cộng với đội đỏ liên tục

Nhân học: "AI Hiến pháp"

  • Người mẫu được đào tạo theo các nguyên tắc đạo đức rõ ràng
  • Từ chối có chọn lọc: 3,1% nhắc nhở (OpenAI cho phép nhiều hơn)
  • Tính minh bạch trong quá trình ra quyết định: Giải thích lý do tại sao nó từ chối các yêu cầu

Google: "An toàn tối đa, tranh cãi tối thiểu"

  • Bộ lọc thị trường chặt chẽ hơn: 11,2% lời nhắc bị chặn
  • Sự phá sản của Gemini Image vào tháng 2 năm 2024 (điều chỉnh sai lệch quá mức) dẫn đến sự thận trọng cực độ
  • Tập trung vào doanh nghiệp làm giảm khả năng chịu rủi ro

Meta Llama 3.1: không có bộ lọc tích hợp, trách nhiệm của người thực hiện—triết lý đối lập.

Chuyên môn hóa theo chiều dọc: Sự khác biệt thực sự

Chăm sóc sức khỏe:

  • Med-PaLM 2 (Google): 85,4% trên MedQA (so với 77% bác sĩ hàng đầu)
  • Claude trong Epic Systems: được 305 bệnh viện Hoa Kỳ áp dụng để hỗ trợ quyết định lâm sàng

Hợp pháp:

  • Harvey AI (GPT-4 tùy chỉnh): 102 công ty luật nằm trong top 100 khách hàng, ARR 100 triệu đô la
  • CoCounsel (Thomson Reuters + Claude): Nghiên cứu pháp lý có độ chính xác 98%

Tài chính:

  • Bloomberg GPT: Được đào tạo về 363B Proprieary Financial Tokens
  • Goldman Sachs Marcus AI (cơ sở GPT-4): Phê duyệt khoản vay nhanh hơn 40%

Mô hình dọc hóa tạo ra mức sẵn lòng chi trả cao gấp 3,5 lần so với các mô hình chung (khảo sát của McKinsey, 500 người mua doanh nghiệp).

Llama 3.1: Chiến lược nguồn mở của Meta

Các thông số 405B, cạnh tranh với GPT-4o trên nhiều điểm chuẩn, được thiết kế hoàn toàn mở. Chiến lược siêu dữ liệu: thương mại hóa lớp cơ sở hạ tầng để cạnh tranh trên lớp sản phẩm (kính Ray-Ban Meta, WhatsApp AI).

Nhận nuôi Llama 3.1:

  • Hơn 350 nghìn lượt tải xuống trong tháng đầu tiên
  • Hơn 50 công ty khởi nghiệp đang xây dựng AI theo chiều dọc trên Llama
  • Chi phí lưu trữ tự quản lý: 12.000 đô la/tháng so với chi phí API hơn 50.000 đô la cho các mô hình nguồn đóng cho mức sử dụng tương đương

Ngược lại trực giác: Meta mất hàng tỷ đô la vào Reality Labs nhưng lại đầu tư mạnh vào AI mở để bảo vệ hoạt động quảng cáo cốt lõi.

Cửa sổ ngữ cảnh: Cuộc đua giành hàng triệu mã thông báo

  • Claude Sonnet 4.5: Mã thông báo 200K
  • Gemini 2.0 Pro: 2 triệu token (thời gian phát hành dài nhất có thể thương mại hóa)
  • GPT-4 Turbo: 128K token

Gemini 2M context cho phép bạn phân tích toàn bộ cơ sở mã, hơn 10 giờ video, hàng nghìn trang tài liệu — những trường hợp sử dụng mang tính chuyển đổi cho doanh nghiệp. Google Cloud báo cáo 43% POC doanh nghiệp sử dụng ngữ cảnh >500.000 token.

Khả năng thích ứng và tùy chỉnh

Dự án & Phong cách của Claude:

  • Hướng dẫn tùy chỉnh trò chuyện chéo liên tục
  • Cài đặt trước kiểu: Trang trọng, Ngắn gọn, Giải thích
  • Tải lên cơ sở kiến ​​thức (tài liệu lên đến 5GB)

Cửa hàng GPT & GPT tùy chỉnh:

  • 3M GPT đã được công bố, 800K lượt sử dụng hoạt động hàng tháng
  • Người sáng tạo hàng đầu kiếm được 63.000 đô la/tháng (chia sẻ doanh thu)
  • 71% doanh nghiệp sử dụng ≥1 GPT tùy chỉnh nội bộ

Tiện ích mở rộng Gemini:

  • Tích hợp Gmail, Lịch, Drive, Bản đồ gốc
  • Bối cảnh không gian làm việc: Đọc email + lịch để có những gợi ý chủ động
  • 1,2 tỷ hành động không gian làm việc được thực hiện trong quý 4 năm 2024

Chú thích: Từ "lời nhắc đơn lẻ" đến "trợ lý liên tục với bộ nhớ và ngữ cảnh liên phiên".

Sự phát triển và quỹ đạo tương lai của Quý 1 năm 2025

Xu hướng 1: Sự thống trị của hỗn hợp chuyên gia Tất cả các mô hình hàng đầu năm 2025 đều sử dụng MoE (kích hoạt các tham số tập hợp con cho các truy vấn):

  • Giảm chi phí suy luận 40-60%
  • Độ trễ tốt hơn trong khi vẫn duy trì chất lượng
  • DeepSeek, GPT-4, Gemini Ultra đều dựa trên MoE

Xu hướng 2: Đa phương thức bản địa Gemini 2.0 có tính đa phương thức bản địa (không phải các mô-đun riêng biệt được gắn kết với nhau):

  • Nó bao gồm văn bản + hình ảnh + âm thanh + video cùng một lúc
  • Lý luận liên phương thức: "So sánh phong cách kiến ​​trúc, ảnh chụp tòa nhà và mô tả văn bản về giai đoạn lịch sử."

Xu hướng 3: Tính toán thời gian thử nghiệm (Mô hình suy luận) OpenAI o1, DeepSeek-R1: Sử dụng nhiều thời gian tính toán hơn cho suy luận phức tạp:

  • o1: 30-60 giây cho bài toán phức tạp so với 2 giây GPT-4o
  • Độ chính xác AIME 2024: 83,3% so với 13,4% GPT-4o
  • Sự đánh đổi rõ ràng giữa độ trễ và độ chính xác

Xu hướng 4: Mô hình quy trình làm việc của Agentic Giao thức ngữ cảnh (MCP) Anthropic, tháng 11 năm 2024:

  • Tiêu chuẩn mở cho các tác nhân AI tương tác với các công cụ/cơ sở dữ liệu
  • Hơn 50 đối tác nhận con nuôi trong 3 tháng đầu tiên
  • Cho phép các tác nhân xây dựng "bộ nhớ" bền bỉ trong suốt các tương tác

Cuộc chiến về chi phí và giá cả

API định giá cho mã thông báo 1M (đầu vào):

  • GPT-4o: 2,50 đô la
  • Claude Sonnet 4: $3.00
  • Gemini 2.0 Flash: 0,075 đô la (rẻ hơn 33 lần)
  • DeepSeek-V3: 0,27 đô la (mã nguồn mở, chi phí lưu trữ)

Nghiên cứu điển hình về Gemini Flash: tóm tắt về AI khởi nghiệp giúp giảm 94% chi phí khi chuyển đổi từ GPT-4o—chất lượng tương đương, độ trễ tương đương.

Quá trình thương mại hóa diễn ra nhanh hơn: chi phí suy luận giảm -70% so với cùng kỳ năm 2023-2024 (dữ liệu Epoch AI).

Ý nghĩa chiến lược đối với các công ty

Khung quyết định: Chọn mô hình nào?

Tình huống 1: An toàn doanh nghiệp quan trọng → Claude Sonnet 4

  • Chăm sóc sức khỏe, pháp lý, tài chính, nơi sai lầm gây thiệt hại hàng triệu đô la
  • AI theo Hiến pháp làm giảm rủi ro trách nhiệm pháp lý
  • Giá cao cấp được biện minh bằng việc giảm thiểu rủi ro

Kịch bản 2: Khối lượng lớn, nhạy cảm về chi phí → Gemini Flash hoặc DeepSeek

  • Chatbot dịch vụ khách hàng, kiểm duyệt nội dung, phân loại
  • Hiệu suất "đủ tốt", âm lượng 10x-100x
  • Chi phí phân biệt chính

Kịch bản 3: Khóa hệ sinh thái → Gemini cho Google Workspace, GPT cho Microsoft

  • Đã đầu tư vào hệ sinh thái
  • Tích hợp gốc > hiệu suất biên vượt trội
  • Chi phí đào tạo cho nhân viên trên nền tảng hiện có

Kịch bản 4: Tùy chỉnh/Kiểm soát → Mở Llama 3.1 hoặc DeepSeek

  • Các yêu cầu tuân thủ cụ thể (lưu trữ dữ liệu, kiểm toán)
  • Tinh chỉnh mạnh mẽ dữ liệu độc quyền
  • Tự lưu trữ giá cả phải chăng theo khối lượng

Kết luận: Từ cuộc chiến công nghệ đến cuộc chiến nền tảng

Cuộc thi LLM năm 2025 không còn là "mô hình nào suy nghĩ tốt hơn" nữa mà là "hệ sinh thái nào thu được nhiều giá trị hơn". OpenAI thống trị các thương hiệu tiêu dùng, Google tận dụng việc phân phối hàng tỷ người dùng, Anthropic giành được các doanh nghiệp chú trọng đến an toàn, Meta thương mại hóa cơ sở hạ tầng.

Dự đoán 2026-2027:

  • Hội tụ hiệu suất cốt lõi hơn nữa (~90% MMLU tất cả top-5)
  • Sự khác biệt về: tốc độ, chi phí, tích hợp, chuyên môn hóa theo chiều dọc
  • Các tác nhân tự động nhiều bước trở thành xu hướng chính (33% nhân viên tri thức)
  • Nguồn mở thu hẹp khoảng cách chất lượng, duy trì lợi thế về chi phí/tùy chỉnh

Người chiến thắng cuối cùng? Có lẽ không phải một người chơi đơn lẻ, mà là các hệ sinh thái bổ trợ phục vụ các nhóm trường hợp sử dụng khác nhau. Giống như hệ điều hành điện thoại thông minh (iOS và Android cùng tồn tại), đây không phải là "kẻ thắng được tất cả", mà là "kẻ thắng được phân khúc".

Đối với doanh nghiệp: Chiến lược đa mô hình trở thành tiêu chuẩn—GPT cho các nhiệm vụ chung, Claude cho lý luận có rủi ro cao, Gemini Flash cho khối lượng, Llama tùy chỉnh cho độc quyền.

Năm 2025 không phải là năm của "mô hình tốt nhất" mà là năm của sự phối hợp thông minh giữa các mô hình bổ sung.

Nguồn:

  • Báo cáo Chỉ số AI Stanford 2025
  • Thẻ mô hình nhân học Claude Sonnet 4.5
  • Báo cáo kỹ thuật OpenAI GPT-4o
  • Thẻ hệ thống Google DeepMind Gemini 2.0
  • Tài liệu kỹ thuật DeepSeek-V3 (arXiv)
  • Epoch AI - Xu hướng trong Học máy
  • Hội nghị thượng đỉnh AI & Phân tích Gartner 2025
  • Báo cáo Tình hình AI của McKinsey năm 2025
  • Khảo sát về việc áp dụng AI của Trung tâm nghiên cứu Pew
  • Trí tuệ nền tảng Similarweb

Tài nguyên cho sự phát triển kinh doanh