Việc kinh doanh

Vượt ra ngoài thuật toán: Mô hình AI được đào tạo và cải thiện như thế nào

"Dữ liệu là chìa khóa. Chén thánh của AI tạo sinh." — Hilary Packer, Giám đốc Công nghệ của American Express. Việc xử lý dữ liệu chiếm 80% công sức trong các dự án AI. DeepSeek đã thay đổi cuộc chơi: chi phí suy luận chỉ bằng 1/30 so với OpenAI. Dario Amodei: chi phí đang giảm 4 lần mỗi năm. "Tôi kỳ vọng chi phí sẽ về 0." — Giám đốc Công nghệ của Intuit. Sự kết hợp giữa phương pháp chưng cất và RAG chính là điểm mấu chốt cho hầu hết các công ty. Tương lai? Hàng loạt mô hình cụ thể, hiệu quả về chi phí bắt nguồn từ dữ liệu doanh nghiệp.

CEO & Người sáng lập của ELECTE

Tóm tắt bài viết này bằng AI

Làm thế nào để đào tạo một mô hình trí tuệ nhân tạo

Đào tạo mô hình AI là một trong những thách thức phức tạp nhất trong phát triển công nghệ đương đại. Không chỉ đơn thuần là một vấn đề thuật toán, việc đào tạo mô hình hiệu quả đòi hỏi một phương pháp tiếp cận có hệ thống và đa ngành, tích hợp dữ liệu , khoa học dữ liệu, kiến thức chuyên ngành và kỹ thuật phần mềm. Như James Luke đã nhấn mạnh trong cuốn sách nổi tiếng " Vượt ra ngoài thuật toán: Triển khai AI cho doanh nghiệp ", thành công của việc triển khai AI phụ thuộc nhiều vào việc quản lý dữ liệu và thiết kế hệ thống hơn là bản thân các thuật toán. Bối cảnh đang thay đổi nhanh chóng, với những đổi mới như mô hình DeepSeek-R1 đang định nghĩa lại chi phí và khả năng tiếp cận.

‍

Quỹ: Thu thập và quản lý dữ liệu

Chất lượng hơn số lượng

Trái với quan niệm phổ biến, số lượng dữ liệu không phải lúc nào cũng là chìa khóa thành công. Chất lượng và tính đại diện của dữ liệu quan trọng hơn đáng kể. Trong bối cảnh này, việc tích hợp các nguồn dữ liệu khác nhau là điều cần thiết:

‍

Dữ liệu của bên thứ nhất : Được thu thập một cách có đạo đức và ẩn danh bởi các triển khai hiện có
Dữ liệu được ủy quyền : Có nguồn gốc từ các nhà cung cấp đáng tin cậy đáp ứng các tiêu chuẩn chất lượng nghiêm ngặt
Bộ dữ liệu nguồn mở : Được xác minh cẩn thận để đảm bảo tính đa dạng và chính xác
Dữ liệu tổng hợp : Được tạo ra một cách nhân tạo để lấp đầy khoảng trống và giải quyết các vấn đề về quyền riêng tư

Sự tích hợp này tạo ra nền tảng đào tạo toàn diện, nắm bắt được các tình huống thực tế trong khi vẫn duy trì các tiêu chuẩn về đạo đức và quyền riêng tư.

Thách thức của việc chuẩn bị dữ liệu

Quá trình "sắp xếp dữ liệu" (nghĩa đen là "thuần hóa dữ liệu") chiếm tới 80% công sức cần thiết trong các dự án trí tuệ nhân tạo. Giai đoạn này bao gồm:

Làm sạch dữ liệu : Loại bỏ sự không nhất quán, trùng lặp và giá trị ngoại lệ
Chuyển đổi dữ liệu : Chuyển đổi sang các định dạng phù hợp để xử lý
Tích hợp dữ liệu : Hợp nhất các nguồn khác nhau thường sử dụng các lược đồ và định dạng không tương thích
Xử lý dữ liệu bị thiếu : Các chiến lược như quy kết thống kê hoặc sử dụng dữ liệu ủy nhiệm

Như Hilary Packer, Giám đốc Công nghệ của American Express, đã chỉ ra: "Thành thật mà nói, khoảnh khắc "aha!" đối với chúng tôi chính là dữ liệu. Bạn có thể lựa chọn mô hình tốt nhất trên thế giới... nhưng dữ liệu mới là chìa khóa. Xác thực và độ chính xác là yếu tố then chốt hiện nay trong AI tạo sinh."

‍

Kiến trúc mô hình: kích thước phù hợp

Việc lựa chọn kiến trúc mô hình nên được hướng dẫn bởi bản chất cụ thể của vấn đề cần giải quyết, thay vì thiên kiến hay sở thích cá nhân. Mỗi loại vấn đề khác nhau đòi hỏi những cách tiếp cận khác nhau:

‍

Các mô hình ngôn ngữ dựa trên bộ chuyển đổi cho các nhiệm vụ đòi hỏi sự hiểu biết sâu sắc về ngôn ngữ
Mạng nơ-ron tích chập để nhận dạng hình ảnh và mẫu
Mạng nơ-ron đồ thị để phân tích các mối quan hệ phức tạp giữa các thực thể
Học tăng cường cho các vấn đề tối ưu hóa và quyết định
Kiến trúc lai kết hợp nhiều phương pháp tiếp cận cho các trường hợp sử dụng phức tạp

Tối ưu hóa kiến trúc đòi hỏi phải đánh giá một cách có hệ thống trên nhiều cấu hình khác nhau, đặc biệt chú ý đến sự đánh đổi giữa hiệu suất và yêu cầu tính toán, một khía cạnh ngày càng trở nên quan trọng hơn với sự ra đời của các mô hình như DeepSeek-R1 cung cấp khả năng suy luận tiên tiến với chi phí thấp hơn đáng kể.

‍

Phương pháp đào tạo nâng cao

‍

Chưng cất mô hình

Chưng cất đã nổi lên như một công cụ đặc biệt mạnh mẽ trong hệ sinh thái AI hiện nay. Quá trình này cho phép tạo ra các mô hình nhỏ hơn, chuyên biệt hơn, kế thừa khả năng suy luận của các mô hình lớn hơn, phức tạp hơn, như DeepSeek-R1.

‍

Như DeepSeek đã chứng minh, công ty đã chắt lọc khả năng suy luận của mình thành một số mô hình nhỏ hơn, bao gồm các mô hình nguồn mở từ họ Llama của Meta và họ Qwen của Alibaba. Những mô hình nhỏ hơn này sau đó có thể được tối ưu hóa cho các tác vụ cụ thể, thúc đẩy xu hướng hướng tới các mô hình chuyên biệt, nhanh chóng.

‍

Nhà phát triển máy học Sam Witteveen lưu ý: "Chúng ta đang bắt đầu bước vào một thế giới mà mọi người sử dụng nhiều mô hình. Họ không chỉ sử dụng một mô hình mọi lúc." Điều này bao gồm các mô hình vòng kín, chi phí thấp như Gemini Flash và GPT-4o Mini, "hoạt động rất tốt trong 80% trường hợp sử dụng".

Học tập đa nhiệm vụ

Thay vì đào tạo các mô hình riêng biệt cho các khả năng liên quan, học tập đa nhiệm cho phép các mô hình chia sẻ kiến thức trên nhiều chức năng khác nhau:

Các mô hình tối ưu hóa đồng thời cho nhiều mục tiêu liên quan
Chức năng cơ bản được hưởng lợi từ việc tiếp xúc rộng rãi hơn với các nhiệm vụ khác nhau
Hiệu suất được cải thiện trên tất cả các tác vụ, đặc biệt là những tác vụ có dữ liệu hạn chế
Hiệu quả tính toán tăng lên thông qua việc chia sẻ thành phần

Điều chỉnh tinh chỉnh có giám sát (SFT)

Đối với các công ty hoạt động trong những lĩnh vực rất cụ thể, nơi thông tin không được cung cấp rộng rãi trên web hoặc trong các cuốn sách thường được sử dụng để đào tạo mô hình ngôn ngữ, thì điều chỉnh có giám sát (SFT) là một lựa chọn hiệu quả.

DeepSeek đã chứng minh rằng có thể đạt được kết quả tốt với "hàng ngàn" tập dữ liệu hỏi đáp. Ví dụ, kỹ sư Chris Hay của IBM đã trình bày cách anh ấy huấn luyện một mô hình nhỏ bằng bộ dữ liệu toán học riêng của mình, đạt được những câu trả lời cực kỳ nhanh, vượt trội hơn mô hình o1 của OpenAI trong cùng một nhiệm vụ.

Học tăng cường (RL)

Các công ty muốn đào tạo một mô hình phù hợp hơn với các sở thích cụ thể - ví dụ, tạo một chatbot hỗ trợ khách hàng vừa đồng cảm vừa súc tích - sẽ muốn triển khai các kỹ thuật học tăng cường (RL). Phương pháp này đặc biệt hữu ích nếu công ty muốn chatbot điều chỉnh giọng điệu và đề xuất dựa trên phản hồi của người dùng.

Thế hệ tăng cường truy xuất (RAG)

Đối với hầu hết các công ty, RAG (Retrieval-Augmented Generation - Thế hệ Tăng cường Truy xuất) là con đường đơn giản và an toàn nhất. Đây là một quy trình tương đối đơn giản, cho phép các tổ chức neo mô hình của mình với dữ liệu độc quyền từ cơ sở dữ liệu riêng, đảm bảo kết quả đầu ra chính xác và phù hợp với từng lĩnh vực.

Theo một nghiên cứu của Vectara, phương pháp này cũng giúp giải quyết một số vấn đề ảo giác liên quan đến các mô hình như DeepSeek, hiện tại gây ảo giác 14 phần trăm thời gian so với 8 phần trăm của mô hình o3 của OpenAI.

Sự kết hợp giữa chưng cất mô hình và RAG chính là điều kỳ diệu đối với hầu hết các công ty, vì nó trở nên cực kỳ dễ triển khai, ngay cả với những công ty có kỹ năng khoa học dữ liệu hoặc lập trình hạn chế.

‍

Đánh giá và tinh chỉnh: vượt ra ngoài các số liệu chính xác

AI hiệu quả không chỉ được đo lường dựa trên độ chính xác thô mà còn đòi hỏi một khuôn khổ đánh giá toàn diện xem xét:

Độ chính xác chức năng : Tần suất mô hình tạo ra kết quả chính xác
Độ bền vững : Tính nhất quán của hiệu suất dưới các điều kiện và đầu vào khác nhau
Tính công bằng : Hiệu suất nhất quán giữa các nhóm người dùng và tình huống khác nhau
Hiệu chuẩn : Sự liên kết giữa điểm tin cậy và độ chính xác thực tế
Hiệu quả : Yêu cầu về tính toán và bộ nhớ
Khả năng giải thích : Tính minh bạch của các quy trình ra quyết định, một lĩnh vực mà các mô hình tinh gọn của DeepSeek vượt trội, thể hiện quá trình lý luận của chúng

Tác động của đường cong chi phí

Tác động tức thời nhất của việc ra mắt DeepSeek là việc giảm giá mạnh mẽ. Ngành công nghệ kỳ vọng chi phí sẽ giảm theo thời gian, nhưng ít ai dự đoán được điều này sẽ diễn ra nhanh đến mức nào. DeepSeek đã chứng minh rằng các mô hình mở mạnh mẽ có thể vừa tiết kiệm chi phí vừa hiệu quả, tạo cơ hội cho việc thử nghiệm rộng rãi và triển khai tiết kiệm chi phí.

‍

Amr Awadallah, CEO của Vectara, nhấn mạnh điểm này, lưu ý rằng yếu tố thực sự thay đổi cuộc chơi không chỉ là chi phí đào tạo, mà còn là chi phí suy luận, đối với DeepSeek, chi phí suy luận trên mỗi token chỉ bằng khoảng 1/30 so với các mô hình o1 hoặc o3 của OpenAI. "Biên lợi nhuận mà OpenAI, Anthropic và Google Gemini đã đạt được giờ đây sẽ phải giảm ít nhất 90% vì họ không thể duy trì khả năng cạnh tranh với mức giá cao như vậy", Awadallah nói.

‍

Không chỉ vậy, những chi phí này sẽ tiếp tục giảm. Tổng giám đốc điều hành Anthropic, Dario Amodei, gần đây đã tuyên bố rằng chi phí phát triển mô hình tiếp tục giảm với tốc độ khoảng bốn lần mỗi năm. Do đó, mức phí mà các nhà cung cấp LLM tính cho việc sử dụng mô hình của họ cũng sẽ tiếp tục giảm.

‍

"Tôi hoàn toàn kỳ vọng chi phí sẽ giảm xuống bằng 0 ", Ashok Srivastava, Giám đốc Điều hành (CDO) của Intuit, một công ty đang tích cực ứng dụng AI vào các dịch vụ phần mềm thuế và kế toán như TurboTax và Quickbooks, cho biết. "...và độ trễ sẽ giảm xuống bằng 0. Những tính năng này sẽ trở thành những năng lực cơ bản mà chúng ta có thể sử dụng."

‍

Kết luận: Tương lai của AI doanh nghiệp là mở, giá cả phải chăng và dựa trên dữ liệu

DeepSeek và Deep Research của OpenAI không chỉ là những công cụ mới trong kho vũ khí AI mà chúng còn báo hiệu một sự thay đổi sâu sắc trong đó các công ty sẽ triển khai hàng loạt mô hình được xây dựng theo mục đích cụ thể, cực kỳ tiết kiệm chi phí, có năng lực và dựa trên dữ liệu và phương pháp tiếp cận của riêng công ty.

‍

Đối với các công ty, thông điệp rất rõ ràng: các công cụ để xây dựng các ứng dụng AI mạnh mẽ, chuyên biệt cho từng lĩnh vực đang trong tầm tay. Bạn có nguy cơ bị bỏ lại phía sau nếu không tận dụng những công cụ này. Nhưng thành công thực sự sẽ đến từ cách bạn quản lý dữ liệu, tận dụng các kỹ thuật như RAG và chưng cất, và đổi mới vượt ra ngoài giai đoạn tiền đào tạo.

‍

Như Packer của AmEx đã nói, các công ty quản lý dữ liệu tốt sẽ là những công ty dẫn đầu làn sóng đổi mới AI tiếp theo.

Tài nguyên cho sự phát triển kinh doanh

Ngày 24 tháng 2 năm 2026

ELECTE Bổ nhiệm Anne Anderson làm Trưởng bộ phận Vận hành.

ELECTE Một chuyên gia về trí tuệ nhân tạo đã nhận được bằng sáng chế của Pháp, phát hành bản cập nhật nền tảng, mở rộng đội ngũ và công bố sự ra mắt của các sản phẩm mới.

Ngày 15 tháng 2 năm 2026

Ví dụ thực tế về KPI trong Excel: 7 chỉ số giúp phát triển doanh nghiệp của bạn

Ví dụ thực tế về KPI trong Excel: 7 chỉ số giúp phát triển doanh nghiệp của bạn

Khám phá hướng dẫn của chúng tôi với các ví dụ thực tiễn về KPI trong Excel. Tìm hiểu cách theo dõi doanh số, tiếp thị và tài chính để đưa ra quyết định dựa trên dữ liệu và giành chiến thắng.

Ngày 13 tháng 2 năm 2026

8 ví dụ điển hình về mô hình kinh doanh dựa trên dữ liệu để cách mạng hóa doanh nghiệp vừa và nhỏ của bạn

8 ví dụ điển hình về mô hình kinh doanh dựa trên dữ liệu để cách mạng hóa doanh nghiệp vừa và nhỏ của bạn

Khám phá 8 ví dụ điển hình về mô hình kinh doanh dành cho doanh nghiệp vừa và nhỏ, từ bán lẻ đến tài chính. Tìm hiểu cách trí tuệ nhân tạo (AI) chuyển đổi dữ liệu thành các quyết định chiến lược và lợi nhuận đầu tư (ROI).

Ngày 29 tháng 1 năm 2026

Trí tuệ nhân tạo có thể đọc được suy nghĩ của bạn, nhưng bạn không thể đọc được suy nghĩ của nó.

Nghiên cứu hợp tác giữa OpenAI, DeepMind, Anthropic và Meta đã hé lộ một ảo tưởng về tính minh bạch trong các mô hình suy luận.