Làm thế nào để đào tạo một mô hình trí tuệ nhân tạo
Đào tạo mô hình AI là một trong những thách thức phức tạp nhất trong phát triển công nghệ đương đại. Không chỉ đơn thuần là một vấn đề thuật toán, đào tạo mô hình hiệu quả đòi hỏi một phương pháp tiếp cận có hệ thống và đa ngành, tích hợp khoa học dữ liệu, kiến thức chuyên ngành và kỹ thuật phần mềm. Như James Luke đã nhấn mạnh trong cuốn sách nổi tiếng " Vượt ra ngoài thuật toán: Triển khai AI cho doanh nghiệp ", thành công của việc triển khai AI phụ thuộc nhiều vào quản lý dữ liệu và thiết kế hệ thống hơn là bản thân các thuật toán. Bối cảnh đang thay đổi nhanh chóng, với những đổi mới như mô hình DeepSeek-R1 đang định nghĩa lại chi phí và khả năng tiếp cận.
Quỹ: Thu thập và quản lý dữ liệu
Chất lượng hơn số lượng
Trái với quan niệm phổ biến, số lượng dữ liệu không phải lúc nào cũng là chìa khóa thành công. Chất lượng và tính đại diện của dữ liệu quan trọng hơn đáng kể. Trong bối cảnh này, việc tích hợp các nguồn dữ liệu khác nhau là điều cần thiết:
- Dữ liệu của bên thứ nhất : Được thu thập một cách có đạo đức và ẩn danh bởi các triển khai hiện có
- Dữ liệu được ủy quyền : Có nguồn gốc từ các nhà cung cấp đáng tin cậy đáp ứng các tiêu chuẩn chất lượng nghiêm ngặt
- Bộ dữ liệu nguồn mở : Được xác minh cẩn thận để đảm bảo tính đa dạng và chính xác
- Dữ liệu tổng hợp : Được tạo ra một cách nhân tạo để lấp đầy khoảng trống và giải quyết các vấn đề về quyền riêng tư
Sự tích hợp này tạo ra nền tảng đào tạo toàn diện, nắm bắt được các tình huống thực tế trong khi vẫn duy trì các tiêu chuẩn về đạo đức và quyền riêng tư.
Thách thức của việc chuẩn bị dữ liệu
Quá trình "sắp xếp dữ liệu" (nghĩa đen là "thuần hóa dữ liệu") chiếm tới 80% công sức cần thiết trong các dự án trí tuệ nhân tạo. Giai đoạn này bao gồm:
- Làm sạch dữ liệu : Loại bỏ sự không nhất quán, trùng lặp và giá trị ngoại lệ
- Chuyển đổi dữ liệu : Chuyển đổi sang các định dạng phù hợp để xử lý
- Tích hợp dữ liệu : Hợp nhất các nguồn khác nhau thường sử dụng các lược đồ và định dạng không tương thích
- Xử lý dữ liệu bị thiếu : Các chiến lược như quy kết thống kê hoặc sử dụng dữ liệu ủy nhiệm
Kiến trúc mô hình: kích thước phù hợp
Việc lựa chọn kiến trúc mô hình nên được hướng dẫn bởi bản chất cụ thể của vấn đề cần giải quyết, thay vì thiên kiến hay sở thích cá nhân. Mỗi loại vấn đề khác nhau đòi hỏi những cách tiếp cận khác nhau:
- Các mô hình ngôn ngữ dựa trên bộ chuyển đổi cho các nhiệm vụ đòi hỏi sự hiểu biết sâu sắc về ngôn ngữ
- Mạng nơ-ron tích chập để nhận dạng hình ảnh và mẫu
- Mạng nơ-ron đồ thị để phân tích các mối quan hệ phức tạp giữa các thực thể
- Học tăng cường cho các vấn đề tối ưu hóa và quyết định
- Kiến trúc lai kết hợp nhiều phương pháp tiếp cận cho các trường hợp sử dụng phức tạp
Tối ưu hóa kiến trúc đòi hỏi phải đánh giá một cách có hệ thống trên nhiều cấu hình khác nhau, đặc biệt chú ý đến sự đánh đổi giữa hiệu suất và yêu cầu tính toán, một khía cạnh ngày càng trở nên quan trọng hơn với sự ra đời của các mô hình như DeepSeek-R1 cung cấp khả năng suy luận tiên tiến với chi phí thấp hơn đáng kể.
Phương pháp đào tạo nâng cao
Chưng cất mô hình
Chưng cất đã nổi lên như một công cụ đặc biệt mạnh mẽ trong hệ sinh thái AI hiện nay. Quá trình này cho phép tạo ra các mô hình nhỏ hơn, chuyên biệt hơn, kế thừa khả năng suy luận của các mô hình lớn hơn, phức tạp hơn, như DeepSeek-R1.
Như DeepSeek đã chứng minh, công ty đã chắt lọc khả năng suy luận của mình thành một số mô hình nhỏ hơn, bao gồm các mô hình nguồn mở từ họ Llama của Meta và họ Qwen của Alibaba. Những mô hình nhỏ hơn này sau đó có thể được tối ưu hóa cho các tác vụ cụ thể, thúc đẩy xu hướng hướng tới các mô hình chuyên biệt, nhanh chóng.
Nhà phát triển máy học Sam Witteveen lưu ý: "Chúng ta đang bắt đầu bước vào một thế giới mà mọi người sử dụng nhiều mô hình. Họ không chỉ sử dụng một mô hình mọi lúc." Điều này bao gồm các mô hình vòng kín, chi phí thấp như Gemini Flash và GPT-4o Mini, "hoạt động rất tốt trong 80% trường hợp sử dụng".
Học tập đa nhiệm vụ
Thay vì đào tạo các mô hình riêng biệt cho các khả năng liên quan, học tập đa nhiệm cho phép các mô hình chia sẻ kiến thức trên nhiều chức năng khác nhau:
- Các mô hình tối ưu hóa đồng thời cho nhiều mục tiêu liên quan
- Chức năng cơ bản được hưởng lợi từ việc tiếp xúc rộng rãi hơn với các nhiệm vụ khác nhau
- Hiệu suất được cải thiện trên tất cả các tác vụ, đặc biệt là những tác vụ có dữ liệu hạn chế
- Hiệu quả tính toán tăng lên thông qua việc chia sẻ thành phần
Điều chỉnh tinh chỉnh có giám sát (SFT)
Đối với các công ty hoạt động trong những lĩnh vực rất cụ thể, nơi thông tin không được cung cấp rộng rãi trên web hoặc trong các cuốn sách thường được sử dụng để đào tạo mô hình ngôn ngữ, thì điều chỉnh có giám sát (SFT) là một lựa chọn hiệu quả.
DeepSeek đã chứng minh rằng có thể đạt được kết quả tốt với "hàng ngàn" tập dữ liệu hỏi đáp. Ví dụ, kỹ sư Chris Hay của IBM đã trình bày cách anh ấy huấn luyện một mô hình nhỏ bằng bộ dữ liệu toán học riêng của mình, đạt được những câu trả lời cực kỳ nhanh, vượt trội hơn mô hình o1 của OpenAI trong cùng một nhiệm vụ.
Học tăng cường (RL)
Các công ty muốn đào tạo một mô hình phù hợp hơn với các sở thích cụ thể - ví dụ, tạo một chatbot hỗ trợ khách hàng vừa đồng cảm vừa súc tích - sẽ muốn triển khai các kỹ thuật học tăng cường (RL). Phương pháp này đặc biệt hữu ích nếu công ty muốn chatbot điều chỉnh giọng điệu và đề xuất dựa trên phản hồi của người dùng.
Thế hệ tăng cường truy xuất (RAG)
Đối với hầu hết các công ty, RAG (Retrieval-Augmented Generation - Thế hệ Tăng cường Truy xuất) là con đường đơn giản và an toàn nhất. Đây là một quy trình tương đối đơn giản, cho phép các tổ chức neo mô hình của mình với dữ liệu độc quyền từ cơ sở dữ liệu riêng, đảm bảo kết quả đầu ra chính xác và phù hợp với từng lĩnh vực.
Theo một nghiên cứu của Vectara, phương pháp này cũng giúp giải quyết một số vấn đề ảo giác liên quan đến các mô hình như DeepSeek, hiện tại gây ảo giác 14 phần trăm thời gian so với 8 phần trăm của mô hình o3 của OpenAI.
Sự kết hợp giữa chưng cất mô hình và RAG chính là điều kỳ diệu đối với hầu hết các công ty, vì nó trở nên cực kỳ dễ triển khai, ngay cả với những công ty có kỹ năng khoa học dữ liệu hoặc lập trình hạn chế.
Đánh giá và tinh chỉnh: vượt ra ngoài các số liệu chính xác
AI hiệu quả không chỉ được đo lường dựa trên độ chính xác thô mà còn đòi hỏi một khuôn khổ đánh giá toàn diện xem xét:
- Độ chính xác chức năng : Tần suất mô hình tạo ra kết quả chính xác
- Độ bền vững : Tính nhất quán của hiệu suất dưới các điều kiện và đầu vào khác nhau
- Tính công bằng : Hiệu suất nhất quán giữa các nhóm người dùng và tình huống khác nhau
- Hiệu chuẩn : Sự liên kết giữa điểm tin cậy và độ chính xác thực tế
- Hiệu quả : Yêu cầu về tính toán và bộ nhớ
- Khả năng giải thích : Tính minh bạch của các quy trình ra quyết định, một lĩnh vực mà các mô hình tinh gọn của DeepSeek vượt trội, thể hiện quá trình lý luận của chúng
Tác động của đường cong chi phí
Tác động tức thời nhất của việc ra mắt DeepSeek là việc giảm giá mạnh mẽ. Ngành công nghệ kỳ vọng chi phí sẽ giảm theo thời gian, nhưng ít ai dự đoán được điều này sẽ diễn ra nhanh đến mức nào. DeepSeek đã chứng minh rằng các mô hình mở mạnh mẽ có thể vừa tiết kiệm chi phí vừa hiệu quả, tạo cơ hội cho việc thử nghiệm rộng rãi và triển khai tiết kiệm chi phí.
Amr Awadallah, CEO của Vectara, nhấn mạnh điểm này, lưu ý rằng yếu tố thực sự thay đổi cuộc chơi không chỉ là chi phí đào tạo, mà còn là chi phí suy luận, đối với DeepSeek, chi phí suy luận trên mỗi token chỉ bằng khoảng 1/30 so với các mô hình o1 hoặc o3 của OpenAI. "Biên lợi nhuận mà OpenAI, Anthropic và Google Gemini đã đạt được giờ đây sẽ phải giảm ít nhất 90% vì họ không thể duy trì khả năng cạnh tranh với mức giá cao như vậy", Awadallah nói.
Không chỉ vậy, những chi phí này sẽ tiếp tục giảm. Tổng giám đốc điều hành Anthropic, Dario Amodei, gần đây đã tuyên bố rằng chi phí phát triển mô hình tiếp tục giảm với tốc độ khoảng bốn lần mỗi năm. Do đó, mức phí mà các nhà cung cấp LLM tính cho việc sử dụng mô hình của họ cũng sẽ tiếp tục giảm.
"Tôi hoàn toàn kỳ vọng chi phí sẽ giảm xuống bằng 0", Ashok Srivastava, CEO của Intuit, một công ty đang tích cực ứng dụng AI vào các phần mềm thuế và kế toán như TurboTax và Quickbooks, cho biết. "...và độ trễ sẽ giảm xuống bằng 0. Những tính năng này sẽ trở thành những khả năng cơ bản mà chúng ta có thể sử dụng."
Kết luận: Tương lai của AI doanh nghiệp là mở, giá cả phải chăng và dựa trên dữ liệu
DeepSeek và Deep Research của OpenAI không chỉ là những công cụ mới trong kho vũ khí AI mà chúng còn báo hiệu một sự thay đổi sâu sắc trong đó các công ty sẽ triển khai hàng loạt mô hình được xây dựng theo mục đích cụ thể, cực kỳ tiết kiệm chi phí, có năng lực và dựa trên dữ liệu và phương pháp tiếp cận của riêng công ty.
Đối với các công ty, thông điệp rất rõ ràng: các công cụ để xây dựng các ứng dụng AI mạnh mẽ, chuyên biệt cho từng lĩnh vực đang trong tầm tay. Bạn có nguy cơ bị bỏ lại phía sau nếu không tận dụng những công cụ này. Nhưng thành công thực sự sẽ đến từ cách bạn quản lý dữ liệu, tận dụng các kỹ thuật như RAG và chưng cất, và đổi mới vượt ra ngoài giai đoạn tiền đào tạo.
Như Packer của AmEx đã nói, các công ty quản lý dữ liệu tốt sẽ là những công ty dẫn đầu làn sóng đổi mới AI tiếp theo.


