Đào tạo mô hình AI là một trong những thách thức phức tạp nhất trong phát triển công nghệ đương đại. Không chỉ đơn thuần là một vấn đề thuật toán, việc đào tạo mô hình hiệu quả đòi hỏi một phương pháp tiếp cận có hệ thống và đa ngành, tích hợp dữ liệu , khoa học dữ liệu, kiến thức chuyên ngành và kỹ thuật phần mềm. Như James Luke đã nhấn mạnh trong cuốn sách nổi tiếng " Vượt ra ngoài thuật toán: Triển khai AI cho doanh nghiệp ", thành công của việc triển khai AI phụ thuộc nhiều vào việc quản lý dữ liệu và thiết kế hệ thống hơn là bản thân các thuật toán. Bối cảnh đang thay đổi nhanh chóng, với những đổi mới như mô hình DeepSeek-R1 đang định nghĩa lại chi phí và khả năng tiếp cận.
Trái với quan niệm phổ biến, số lượng dữ liệu không phải lúc nào cũng là chìa khóa thành công. Chất lượng và tính đại diện của dữ liệu quan trọng hơn đáng kể. Trong bối cảnh này, việc tích hợp các nguồn dữ liệu khác nhau là điều cần thiết:
Sự tích hợp này tạo ra nền tảng đào tạo toàn diện, nắm bắt được các tình huống thực tế trong khi vẫn duy trì các tiêu chuẩn về đạo đức và quyền riêng tư.
Quá trình "sắp xếp dữ liệu" (nghĩa đen là "thuần hóa dữ liệu") chiếm tới 80% công sức cần thiết trong các dự án trí tuệ nhân tạo. Giai đoạn này bao gồm:
Việc lựa chọn kiến trúc mô hình nên được hướng dẫn bởi bản chất cụ thể của vấn đề cần giải quyết, thay vì thiên kiến hay sở thích cá nhân. Mỗi loại vấn đề khác nhau đòi hỏi những cách tiếp cận khác nhau:
Tối ưu hóa kiến trúc đòi hỏi phải đánh giá một cách có hệ thống trên nhiều cấu hình khác nhau, đặc biệt chú ý đến sự đánh đổi giữa hiệu suất và yêu cầu tính toán, một khía cạnh ngày càng trở nên quan trọng hơn với sự ra đời của các mô hình như DeepSeek-R1 cung cấp khả năng suy luận tiên tiến với chi phí thấp hơn đáng kể.
Chưng cất đã nổi lên như một công cụ đặc biệt mạnh mẽ trong hệ sinh thái AI hiện nay. Quá trình này cho phép tạo ra các mô hình nhỏ hơn, chuyên biệt hơn, kế thừa khả năng suy luận của các mô hình lớn hơn, phức tạp hơn, như DeepSeek-R1.
Như DeepSeek đã chứng minh, công ty đã chắt lọc khả năng suy luận của mình thành một số mô hình nhỏ hơn, bao gồm các mô hình nguồn mở từ họ Llama của Meta và họ Qwen của Alibaba. Những mô hình nhỏ hơn này sau đó có thể được tối ưu hóa cho các tác vụ cụ thể, thúc đẩy xu hướng hướng tới các mô hình chuyên biệt, nhanh chóng.
Nhà phát triển máy học Sam Witteveen lưu ý: "Chúng ta đang bắt đầu bước vào một thế giới mà mọi người sử dụng nhiều mô hình. Họ không chỉ sử dụng một mô hình mọi lúc." Điều này bao gồm các mô hình vòng kín, chi phí thấp như Gemini Flash và GPT-4o Mini, "hoạt động rất tốt trong 80% trường hợp sử dụng".
Thay vì đào tạo các mô hình riêng biệt cho các khả năng liên quan, học tập đa nhiệm cho phép các mô hình chia sẻ kiến thức trên nhiều chức năng khác nhau:
Đối với các công ty hoạt động trong những lĩnh vực rất cụ thể, nơi thông tin không được cung cấp rộng rãi trên web hoặc trong các cuốn sách thường được sử dụng để đào tạo mô hình ngôn ngữ, thì điều chỉnh có giám sát (SFT) là một lựa chọn hiệu quả.
DeepSeek đã chứng minh rằng có thể đạt được kết quả tốt với "hàng ngàn" tập dữ liệu hỏi đáp. Ví dụ, kỹ sư Chris Hay của IBM đã trình bày cách anh ấy huấn luyện một mô hình nhỏ bằng bộ dữ liệu toán học riêng của mình, đạt được những câu trả lời cực kỳ nhanh, vượt trội hơn mô hình o1 của OpenAI trong cùng một nhiệm vụ.
Các công ty muốn đào tạo một mô hình phù hợp hơn với các sở thích cụ thể - ví dụ, tạo một chatbot hỗ trợ khách hàng vừa đồng cảm vừa súc tích - sẽ muốn triển khai các kỹ thuật học tăng cường (RL). Phương pháp này đặc biệt hữu ích nếu công ty muốn chatbot điều chỉnh giọng điệu và đề xuất dựa trên phản hồi của người dùng.
Đối với hầu hết các công ty, RAG (Retrieval-Augmented Generation - Thế hệ Tăng cường Truy xuất) là con đường đơn giản và an toàn nhất. Đây là một quy trình tương đối đơn giản, cho phép các tổ chức neo mô hình của mình với dữ liệu độc quyền từ cơ sở dữ liệu riêng, đảm bảo kết quả đầu ra chính xác và phù hợp với từng lĩnh vực.
Theo một nghiên cứu của Vectara, phương pháp này cũng giúp giải quyết một số vấn đề ảo giác liên quan đến các mô hình như DeepSeek, hiện tại gây ảo giác 14 phần trăm thời gian so với 8 phần trăm của mô hình o3 của OpenAI.
Sự kết hợp giữa chưng cất mô hình và RAG chính là điều kỳ diệu đối với hầu hết các công ty, vì nó trở nên cực kỳ dễ triển khai, ngay cả với những công ty có kỹ năng khoa học dữ liệu hoặc lập trình hạn chế.
AI hiệu quả không chỉ được đo lường dựa trên độ chính xác thô mà còn đòi hỏi một khuôn khổ đánh giá toàn diện xem xét:
Tác động tức thời nhất của việc ra mắt DeepSeek là việc giảm giá mạnh mẽ. Ngành công nghệ kỳ vọng chi phí sẽ giảm theo thời gian, nhưng ít ai dự đoán được điều này sẽ diễn ra nhanh đến mức nào. DeepSeek đã chứng minh rằng các mô hình mở mạnh mẽ có thể vừa tiết kiệm chi phí vừa hiệu quả, tạo cơ hội cho việc thử nghiệm rộng rãi và triển khai tiết kiệm chi phí.
Amr Awadallah, CEO của Vectara, nhấn mạnh điểm này, lưu ý rằng yếu tố thực sự thay đổi cuộc chơi không chỉ là chi phí đào tạo, mà còn là chi phí suy luận, đối với DeepSeek, chi phí suy luận trên mỗi token chỉ bằng khoảng 1/30 so với các mô hình o1 hoặc o3 của OpenAI. "Biên lợi nhuận mà OpenAI, Anthropic và Google Gemini đã đạt được giờ đây sẽ phải giảm ít nhất 90% vì họ không thể duy trì khả năng cạnh tranh với mức giá cao như vậy", Awadallah nói.
Không chỉ vậy, những chi phí này sẽ tiếp tục giảm. Tổng giám đốc điều hành Anthropic, Dario Amodei, gần đây đã tuyên bố rằng chi phí phát triển mô hình tiếp tục giảm với tốc độ khoảng bốn lần mỗi năm. Do đó, mức phí mà các nhà cung cấp LLM tính cho việc sử dụng mô hình của họ cũng sẽ tiếp tục giảm.
"Tôi hoàn toàn kỳ vọng chi phí sẽ giảm xuống bằng 0 ", Ashok Srivastava, Giám đốc Điều hành (CDO) của Intuit, một công ty đang tích cực ứng dụng AI vào các dịch vụ phần mềm thuế và kế toán như TurboTax và Quickbooks, cho biết. "...và độ trễ sẽ giảm xuống bằng 0. Những tính năng này sẽ trở thành những năng lực cơ bản mà chúng ta có thể sử dụng."
DeepSeek và Deep Research của OpenAI không chỉ là những công cụ mới trong kho vũ khí AI mà chúng còn báo hiệu một sự thay đổi sâu sắc trong đó các công ty sẽ triển khai hàng loạt mô hình được xây dựng theo mục đích cụ thể, cực kỳ tiết kiệm chi phí, có năng lực và dựa trên dữ liệu và phương pháp tiếp cận của riêng công ty.
Đối với các công ty, thông điệp rất rõ ràng: các công cụ để xây dựng các ứng dụng AI mạnh mẽ, chuyên biệt cho từng lĩnh vực đang trong tầm tay. Bạn có nguy cơ bị bỏ lại phía sau nếu không tận dụng những công cụ này. Nhưng thành công thực sự sẽ đến từ cách bạn quản lý dữ liệu, tận dụng các kỹ thuật như RAG và chưng cất, và đổi mới vượt ra ngoài giai đoạn tiền đào tạo.
Như Packer của AmEx đã nói, các công ty quản lý dữ liệu tốt sẽ là những công ty dẫn đầu làn sóng đổi mới AI tiếp theo.