Newsletter

Tại sao Toán học lại khó (Ngay cả khi bạn là AI)

Các mô hình ngôn ngữ không thể nhân—chúng ghi nhớ kết quả giống như chúng ta ghi nhớ số pi, nhưng điều đó không làm cho chúng có năng lực toán học. Vấn đề nằm ở cấu trúc: chúng học thông qua sự tương đồng về mặt thống kê, chứ không phải sự hiểu biết về thuật toán. Ngay cả những "mô hình suy luận" mới như o1 cũng thất bại trong các nhiệm vụ tầm thường: nó đếm đúng chữ 'r' trong "strawberry" sau vài giây xử lý, nhưng lại thất bại khi phải viết một đoạn văn mà chữ cái thứ hai của mỗi câu lại viết thành một từ. Phiên bản cao cấp 200 đô la một tháng mất bốn phút để giải quyết những gì một đứa trẻ có thể làm ngay lập tức. DeepSeek và Mistral vẫn đếm sai chữ cái vào năm 2025. Giải pháp mới nổi? Một phương pháp tiếp cận kết hợp—các mô hình thông minh nhất đã tìm ra thời điểm cần gọi một máy tính thực sự thay vì tự mình thực hiện phép tính. Chuyển đổi mô hình: AI không cần phải biết cách làm mọi thứ, nhưng phải sắp xếp các công cụ phù hợp. Nghịch lý cuối cùng: GPT-4 có thể giải thích lý thuyết giới hạn một cách xuất sắc, nhưng lại thất bại trong các bài toán nhân mà máy tính bỏ túi luôn giải đúng. Chúng rất tuyệt vời cho việc học toán - chúng giải thích với sự kiên nhẫn vô hạn, đưa ra ví dụ và phân tích lập luận phức tạp. Để tính toán chính xác? Hãy tin vào máy tính, chứ không phải trí tuệ nhân tạo.

Nhiều người cũng dựa vào LLM để thực hiện các phép toán. Cách tiếp cận này không hiệu quả.

Vấn đề thực ra rất đơn giản: các mô hình ngôn ngữ lớn (LLM) không thực sự biết cách nhân. Đôi khi chúng có thể cho kết quả đúng, giống như tôi có thể thuộc lòng giá trị của số pi. Nhưng điều đó không có nghĩa là tôi là một nhà toán học, hay các LLM thực sự biết cách làm toán.

Ví dụ thực tế

Ví dụ: 49858 *5994949 = 298896167242 Kết quả này luôn giống nhau; không có điểm trung gian. Kết quả chỉ có đúng hoặc sai.

Ngay cả khi được đào tạo chuyên sâu về toán học, những mô hình tốt nhất cũng chỉ có thể giải quyết chính xác một phần nhỏ các phép tính. Mặt khác, một chiếc máy tính bỏ túi đơn giản luôn cho kết quả chính xác 100%. Và số càng lớn, hiệu suất của chương trình Thạc sĩ Luật (LLM) càng kém.

Có thể giải quyết được vấn đề này không?

Vấn đề cơ bản là các mô hình này học bằng sự tương đồng chứ không phải bằng sự hiểu biết. Chúng hoạt động tốt nhất với những vấn đề tương tự như những vấn đề chúng được đào tạo, nhưng chúng không bao giờ phát triển được sự hiểu biết thực sự về những gì chúng đang nói.

Đối với những ai muốn tìm hiểu thêm, tôi đề xuất bài viết này về “ cách thức hoạt động của LLM ”.

Ngược lại, máy tính sử dụng thuật toán chính xác được lập trình để thực hiện phép tính.

Đây là lý do tại sao chúng ta không bao giờ nên hoàn toàn dựa vào LLM cho các phép tính toán học: ngay cả trong điều kiện tốt nhất, với lượng dữ liệu đào tạo chuyên biệt khổng lồ, chúng vẫn không đảm bảo độ tin cậy ngay cả trong những phép toán cơ bản nhất. Một phương pháp kết hợp có thể hiệu quả, nhưng chỉ riêng LLM là không đủ. Có lẽ phương pháp này sẽ được sử dụng để giải quyết cái gọi là "bài toán dâu tây ".

Ứng dụng của LLM trong nghiên cứu toán học

Trong bối cảnh giáo dục, LLM có thể đóng vai trò như những người hướng dẫn cá nhân, có khả năng điều chỉnh cách giải thích cho phù hợp với trình độ hiểu biết của sinh viên. Ví dụ, khi sinh viên gặp bài toán vi phân, LLM có thể chia nhỏ lý luận thành các bước đơn giản hơn, cung cấp giải thích chi tiết cho từng bước giải. Phương pháp này giúp xây dựng nền tảng vững chắc về các khái niệm cơ bản.

Một khía cạnh đặc biệt thú vị là khả năng tạo ra các ví dụ liên quan và đa dạng của chương trình Thạc sĩ Luật (LLM). Nếu sinh viên đang cố gắng hiểu khái niệm giới hạn, LLM có thể trình bày các tình huống toán học khác nhau, bắt đầu từ những trường hợp đơn giản đến những tình huống phức tạp hơn, từ đó giúp sinh viên dần dần hiểu được khái niệm này.

Một ứng dụng đầy hứa hẹn là việc sử dụng LLM để chuyển đổi các khái niệm toán học phức tạp sang ngôn ngữ tự nhiên dễ hiểu hơn. Điều này tạo điều kiện thuận lợi cho việc truyền đạt toán học đến nhiều đối tượng hơn và có thể giúp vượt qua rào cản truyền thống để tiếp cận ngành học này.

Thạc sĩ Luật (LLM) cũng có thể hỗ trợ việc biên soạn tài liệu giảng dạy, tạo ra các bài tập với độ khó khác nhau và cung cấp phản hồi chi tiết về các giải pháp do sinh viên đề xuất. Điều này cho phép giáo viên cá nhân hóa tốt hơn quá trình học tập của sinh viên.

Lợi thế thực sự

Nói chung, điều quan trọng là phải cân nhắc đến "sự kiên nhẫn" cực độ cần thiết để giúp ngay cả những học sinh kém nhất học tập: trong trường hợp này, việc không biểu lộ cảm xúc lại có ích. Tuy nhiên, ngay cả AI đôi khi cũng "mất kiên nhẫn". Xem ví dụ "hài hước" này.

Bản cập nhật năm 2025: Mô hình lý luận và phương pháp tiếp cận kết hợp

Giai đoạn 2024-2025 đã chứng kiến ​​những bước phát triển đáng kể với sự ra đời của cái gọi là "mô hình suy luận" như OpenAI o1 và deepseek R1. Các mô hình này đã đạt được kết quả ấn tượng trên các chuẩn toán học: o1 đã giải đúng 83% bài toán Olympic Toán học Quốc tế, so với 13% của GPT-4o. Tuy nhiên, hãy cẩn thận: chúng không giải quyết được vấn đề cơ bản được mô tả ở trên.

Bài toán "dâu tây" - đếm chữ "r" trong "dâu tây" - minh họa hoàn hảo cho hạn chế dai dẳng này. o1 giải đúng bài toán sau vài giây "suy luận", nhưng nếu bạn yêu cầu nó viết một đoạn văn mà chữ cái thứ hai của mỗi câu viết thành từ "CODE", nó sẽ thất bại. o1-pro, phiên bản 200 đô la mỗi tháng, giải được bài toán này... sau 4 phút xử lý. DeepSeek R1 và các mô hình gần đây khác vẫn còn sai số đếm cơ bản. Tính đến tháng 2 năm 2025, Mistral vẫn báo cho bạn biết chỉ có hai chữ "r" trong "dâu tây".

Thủ thuật mới xuất hiện là một phương pháp lai: khi cần nhân 49858 với 5994949, các mô hình tiên tiến nhất không còn cố gắng "đoán" kết quả dựa trên sự tương đồng với các phép tính được thấy trong quá trình huấn luyện. Thay vào đó, chúng gọi một máy tính hoặc chạy mã Python - giống như một con người thông minh biết rõ giới hạn của mình.

Việc "sử dụng công cụ" này đại diện cho một sự thay đổi mô hình: AI không nhất thiết phải có khả năng tự làm mọi thứ, mà phải có khả năng phối hợp các công cụ phù hợp. Các mô hình suy luận kết hợp khả năng ngôn ngữ để hiểu vấn đề, lập luận từng bước để lên kế hoạch giải pháp, và phân quyền cho các công cụ chuyên dụng (máy tính, trình thông dịch Python, cơ sở dữ liệu) để thực hiện chính xác.

Bài học rút ra là gì? Các chương trình Thạc sĩ Luật (LLM) năm 2025 hữu ích hơn trong toán học không phải họ đã "học" được phép nhân - họ vẫn chưa thực sự làm được điều đó - mà bởi vì một số người trong số họ đã bắt đầu hiểu được khi nào nên giao phó phép nhân cho những người thực sự biết cách thực hiện. Vấn đề cơ bản vẫn còn đó: chúng hoạt động dựa trên sự tương đồng về mặt thống kê, chứ không phải dựa trên sự hiểu biết về thuật toán. Một chiếc máy tính bỏ túi năm euro vẫn đáng tin cậy hơn vô cùng cho những phép tính chính xác.

Tài nguyên cho sự phát triển kinh doanh

Ngày 9 tháng 11 năm 2025

Quy định về AI cho các ứng dụng tiêu dùng: Cách chuẩn bị cho các quy định mới năm 2025

Năm 2025 đánh dấu sự kết thúc của kỷ nguyên "Miền Tây Hoang dã" của AI: Đạo luật AI của EU có hiệu lực vào tháng 8 năm 2024, với các yêu cầu về kiến ​​thức AI từ ngày 2 tháng 2 năm 2025, và quản trị cùng GPAI từ ngày 2 tháng 8. California dẫn đầu với SB 243 (ra đời sau vụ tự tử của Sewell Setzer, một cậu bé 14 tuổi đã phát triển mối quan hệ tình cảm với chatbot), trong đó áp đặt lệnh cấm các hệ thống khen thưởng cưỡng chế, phát hiện ý định tự tử, nhắc nhở "Tôi không phải là người" ba giờ một lần, kiểm toán công khai độc lập và phạt 1.000 đô la cho mỗi vi phạm. SB 420 yêu cầu đánh giá tác động đối với "các quyết định tự động có rủi ro cao" với quyền kháng cáo lên cơ quan chức năng. Thực thi thực tế: Noom bị kiện vào năm 2022 vì bot đóng giả làm huấn luyện viên con người, một khoản bồi thường trị giá 56 triệu đô la. Xu hướng quốc gia: Alabama, Hawaii, Illinois, Maine và Massachusetts phân loại việc không thông báo cho chatbot AI là vi phạm UDAP. Phương pháp tiếp cận rủi ro ba cấp độ—các hệ thống quan trọng (y tế/giao thông/năng lượng), chứng nhận trước khi triển khai, công bố thông tin minh bạch hướng đến người tiêu dùng, đăng ký mục đích chung và kiểm tra bảo mật. Quy định chắp vá mà không có quyền ưu tiên của liên bang: các công ty đa quốc gia phải điều chỉnh các yêu cầu thay đổi. EU từ tháng 8 năm 2026: thông báo cho người dùng về tương tác AI trừ khi nội dung rõ ràng do AI tạo ra được gắn nhãn là có thể đọc được bằng máy.
Ngày 9 tháng 11 năm 2025

Quản lý những thứ không được tạo ra: Liệu châu Âu có nguy cơ mất đi sự liên quan về mặt công nghệ không?

Châu Âu chỉ thu hút được một phần mười đầu tư toàn cầu vào AI, nhưng lại tuyên bố áp đặt các quy tắc toàn cầu. Đây chính là "Hiệu ứng Brussels" - áp đặt các quy định toàn cầu thông qua sức mạnh thị trường mà không thúc đẩy đổi mới. Đạo luật AI có hiệu lực theo lịch trình so le cho đến năm 2027, nhưng các tập đoàn công nghệ đa quốc gia đang phản ứng bằng các chiến lược né tránh sáng tạo: viện dẫn bí mật thương mại để tránh tiết lộ dữ liệu đào tạo, đưa ra các bản tóm tắt tuân thủ kỹ thuật nhưng khó hiểu, sử dụng phương pháp tự đánh giá để hạ cấp hệ thống từ "rủi ro cao" xuống "rủi ro tối thiểu" và tham gia vào việc mua bán diễn đàn bằng cách chọn các quốc gia thành viên có quy định kiểm soát ít nghiêm ngặt hơn. Nghịch lý về bản quyền ngoài lãnh thổ: EU yêu cầu OpenAI tuân thủ luật pháp châu Âu ngay cả đối với việc đào tạo bên ngoài châu Âu - một nguyên tắc chưa từng thấy trong luật pháp quốc tế. "Mô hình kép" xuất hiện: các phiên bản giới hạn của châu Âu so với các phiên bản toàn cầu tiên tiến của cùng một sản phẩm AI. Rủi ro thực sự: Châu Âu trở thành một "pháo đài kỹ thuật số" bị cô lập khỏi đổi mới toàn cầu, với công dân châu Âu tiếp cận các công nghệ kém hơn. Tòa án Công lý đã bác bỏ lời biện hộ "bí mật thương mại" trong vụ kiện chấm điểm tín dụng, nhưng sự không chắc chắn trong diễn giải vẫn còn rất lớn—chính xác thì "tóm tắt chi tiết đầy đủ" nghĩa là gì? Không ai biết. Câu hỏi cuối cùng chưa được trả lời: EU đang tạo ra một con đường thứ ba đạo đức giữa chủ nghĩa tư bản Hoa Kỳ và sự kiểm soát của nhà nước Trung Quốc, hay chỉ đơn giản là xuất khẩu bộ máy quan liêu sang một lĩnh vực mà nó không cạnh tranh? Hiện tại: một quốc gia dẫn đầu thế giới về quy định AI, nhưng đang trong giai đoạn phát triển. Một chương trình khổng lồ.
Ngày 9 tháng 11 năm 2025

Ngoại lệ: Nơi khoa học dữ liệu gặp gỡ những câu chuyện thành công

Khoa học dữ liệu đã đảo ngược mô hình: các giá trị ngoại lệ không còn là "lỗi cần loại bỏ" mà là thông tin giá trị cần được hiểu. Một giá trị ngoại lệ đơn lẻ có thể làm biến dạng hoàn toàn mô hình hồi quy tuyến tính - thay đổi độ dốc từ 2 thành 10 - nhưng việc loại bỏ nó có thể đồng nghĩa với việc mất đi tín hiệu quan trọng nhất trong tập dữ liệu. Học máy giới thiệu các công cụ tinh vi: Rừng Cô lập cô lập các giá trị ngoại lệ bằng cách xây dựng cây quyết định ngẫu nhiên, Hệ số Ngoại lệ Cục bộ phân tích mật độ cục bộ, và Bộ mã hóa Tự động tái tạo dữ liệu bình thường và đánh dấu những gì chúng không thể tái tạo. Có các giá trị ngoại lệ toàn cầu (nhiệt độ -10°C ở vùng nhiệt đới), các giá trị ngoại lệ theo ngữ cảnh (chi 1.000 euro ở một khu dân cư nghèo) và các giá trị tập thể (lưu lượng mạng đạt đỉnh đồng bộ cho thấy có tấn công). Một điểm tương đồng với Gladwell: "quy tắc 10.000 giờ" đang bị tranh cãi - Paul McCartney đã nói, "Nhiều ban nhạc đã biểu diễn 10.000 giờ ở Hamburg mà không thành công; lý thuyết này không phải là hoàn hảo." Thành công toán học châu Á không phải do di truyền mà do văn hóa: Hệ thống số trực quan hơn của Trung Quốc, canh tác lúa đòi hỏi sự cải tiến liên tục so với sự bành trướng lãnh thổ của nền nông nghiệp phương Tây. Ứng dụng thực tế: Các ngân hàng Anh thu hồi 18% tổn thất tiềm ẩn thông qua phát hiện bất thường theo thời gian thực, sản xuất phát hiện các lỗi vi mô mà kiểm tra thủ công có thể bỏ sót, chăm sóc sức khỏe xác thực dữ liệu thử nghiệm lâm sàng với độ nhạy phát hiện bất thường trên 85%. Bài học cuối cùng: Khi khoa học dữ liệu chuyển từ loại bỏ các giá trị ngoại lai sang hiểu rõ chúng, chúng ta phải xem những nghề nghiệp phi truyền thống không phải là những bất thường cần được khắc phục mà là những quỹ đạo giá trị cần được nghiên cứu.