Newsletter

Vấn đề dâu tây

"Có bao nhiêu chữ 'r' trong từ strawberry?" — GPT-4o trả lời "hai", một đứa trẻ sáu tuổi chỉ biết ba. Vấn đề nằm ở việc phân tách: mô hình nhìn thấy [str][aw][berry], chứ không phải chữ cái. OpenAI đã không giải quyết được vấn đề này với o1—nó đã tránh được bằng cách dạy mô hình "suy nghĩ trước khi nói". Kết quả: 83% so với 13% tại kỳ thi Olympic Toán, nhưng 30 giây thay vì 3 giây và chi phí tăng gấp ba. Các mô hình ngôn ngữ là những công cụ xác suất tuyệt vời—nhưng việc đếm vẫn cần đến con người.

Từ Vấn đề Dâu tây đến Mô hình o1: Cách OpenAI (một phần) giải quyết Hạn chế Mã hóa

Vào mùa hè năm 2024, một meme lan truyền trên internet đã làm khó các mô hình ngôn ngữ tiên tiến nhất thế giới: "Có bao nhiêu chữ 'r' trong từ 'strawberry'?" Câu trả lời đúng là ba, nhưng GPT-4o vẫn ngoan cố trả lời là "hai". Một lỗi tưởng chừng nhỏ nhặt đã tiết lộ một hạn chế cơ bản của các mô hình ngôn ngữ: chúng không có khả năng phân tích từng chữ cái trong từ.

Vào ngày 12 tháng 9 năm 2024, OpenAI đã phát hành o1—tên mã nội bộ là "Strawberry"—mô hình đầu tiên trong chuỗi "mô hình suy luận" mới được thiết kế đặc biệt để khắc phục những hạn chế này. Và đúng vậy, cái tên này không phải là ngẫu nhiên: như một nhà nghiên cứu của OpenAI đã xác nhận, o1 cuối cùng đã đếm chính xác chữ 'r' trong "strawberry".

Nhưng giải pháp không như bài viết gốc hình dung. OpenAI không "dạy" mô hình phân tích từng chữ cái. Thay vào đó, họ phát triển một phương pháp hoàn toàn khác: dạy mô hình "suy nghĩ" trước khi phản hồi.

Vấn đề đếm: Tại sao các mô hình lại sai

Vấn đề vẫn bắt nguồn từ việc mã hóa—quá trình cơ bản mà các mô hình ngôn ngữ sử dụng để xử lý văn bản. Như đã giải thích trong một bài báo kỹ thuật được công bố trên arXiv vào tháng 5 năm 2025 ("Vấn đề Dâu tây: Sự xuất hiện của Hiểu biết ở Cấp độ Ký tự trong các Mô hình Ngôn ngữ Mã hóa"), các mô hình xem các từ không phải là chuỗi chữ cái mà là "mã thông báo"—các đơn vị ý nghĩa được chuyển đổi thành số.

Khi GPT-4 xử lý từ "strawberry", bộ phân tích cú pháp của nó sẽ chia nó thành ba phần: [str][aw][berry], mỗi phần có một ID số duy nhất (496, 675, 15717). Đối với mô hình, "strawberry" không phải là một chuỗi 10 chữ cái mà là một chuỗi 3 token số. Giống như thể nó đang đọc một cuốn sách mà mỗi từ được thay thế bằng một mã số—và sau đó có người yêu cầu nó đếm các chữ cái trong một mã số mà nó chưa từng thấy ai viết ra.

Vấn đề trở nên trầm trọng hơn với các từ ghép. "Timekeeper" bị chia thành các token riêng biệt, khiến mô hình không thể xác định vị trí chính xác của các chữ cái nếu không có lý luận rõ ràng. Sự phân mảnh này không chỉ ảnh hưởng đến việc đếm chữ cái mà còn ảnh hưởng đến việc hiểu cấu trúc bên trong của từ.

Giải pháp 1: Suy nghĩ trước khi trả lời

OpenAI o1 đã giải quyết vấn đề theo một cách không ngờ tới: thay vì sửa đổi mã thông báo - vốn khó về mặt kỹ thuật và sẽ làm giảm hiệu quả của mô hình - nó đã dạy hệ thống "suy nghĩ trước khi nói" bằng một kỹ thuật gọi là "lập luận chuỗi suy nghĩ".

Khi bạn hỏi 01 có bao nhiêu chữ 'r' trong từ "strawberry", mô hình không trả lời ngay lập tức. Nó mất vài giây - đôi khi thậm chí vài phút cho những câu hỏi phức tạp - để tự phát triển một "chuỗi suy luận" ẩn khỏi người dùng. Quá trình này cho phép nó:

  1. Nhận ra rằng câu hỏi đòi hỏi phải phân tích ở cấp độ nhân vật
  2. Phát triển một chiến lược để phá vỡ từ
  3. Xác minh câu trả lời thông qua các cách tiếp cận khác nhau
  4. Vui lòng sửa bất kỳ lỗi nào trước khi cung cấp câu trả lời cuối cùng.

Như nhà nghiên cứu Noam Brown của OpenAI đã giải thích trong một loạt bài đăng trên X: "o1 được đào tạo bằng phương pháp học tăng cường để 'suy nghĩ' trước khi phản hồi thông qua chuỗi suy nghĩ riêng tư." Mô hình nhận được phần thưởng trong quá trình đào tạo cho mỗi bước đúng trong quá trình suy luận, không chỉ cho câu trả lời đúng cuối cùng.

Kết quả thật ấn tượng nhưng cũng rất tốn kém. Trong kỳ thi tuyển chọn Olympic Toán học Quốc tế, o1 đã giải đúng 83% số bài toán, so với 13% của GPT-4o. Đối với các câu hỏi khoa học cấp tiến sĩ, nó đạt độ chính xác 78%, so với 56% của GPT-4o. Nhưng sức mạnh này cũng có cái giá của nó: o1 mất hơn 30 giây để trả lời các câu hỏi mà GPT-4o chỉ mất 3 giây, và chi phí là 15 đô la cho mỗi triệu mã thông báo đầu vào, so với 5 đô la của GPT-4o.

Chuỗi suy nghĩ: Nó thực sự hoạt động như thế nào

Kỹ thuật này không phải là phép thuật, mà là có phương pháp. Khi nhận được lời nhắc, o1 sẽ tự động tạo ra một chuỗi dài các "suy nghĩ" không được hiển thị cho người dùng. Đối với vấn đề 'r' trong "strawberry", quy trình nội bộ có thể là:

"Trước tiên, tôi cần hiểu cấu trúc từ. Strawberry có thể được phân tách thành [str][aw][berry]. Để đếm các chữ 'r', tôi cần tái tạo toàn bộ từ ở cấp độ ký tự. Str chứa: str (1 'r'). Aw chứa: aw (0 'r'). Berry chứa: berry (2 'r'). Tổng cộng: 1+0+2 = 3 chữ 'r'. Tôi xác minh: strawberry = strawberry. Tôi đếm các chữ 'r': vị trí 3, vị trí 8, vị trí 9. Đã xác nhận: 3 chữ 'r'."

Lý luận nội bộ này được thiết kế để ẩn đi. OpenAI rõ ràng cấm người dùng cố gắng tiết lộ dòng suy nghĩ của o1 bằng cách theo dõi các lời nhắc và có khả năng thu hồi quyền truy cập đối với những người vi phạm quy tắc này. Công ty viện dẫn lý do bảo mật AI và lợi thế cạnh tranh, nhưng quyết định này đã bị các nhà phát triển làm việc với các mô hình ngôn ngữ chỉ trích là mất tính minh bạch.

Hạn chế dai dẳng: o1 không hoàn hảo

Mặc dù đã có những tiến bộ, o1 vẫn chưa giải quyết được hoàn toàn vấn đề. Nghiên cứu được công bố trên Language Log vào tháng 1 năm 2025 đã thử nghiệm nhiều mô hình khác nhau trên một thử thách phức tạp hơn: "Hãy viết một đoạn văn trong đó chữ cái thứ hai của mỗi câu viết thành từ 'CODE'."

o1 standard (20 đô la/tháng) đã gặp lỗi khi đếm sai chữ cái đầu tiên của mỗi từ đầu tiên thành "chữ cái thứ hai". o1-pro (200 đô la/tháng) đã khắc phục được sự cố... sau 4 phút 10 giây "suy nghĩ". DeepSeek R1, mẫu máy của Trung Quốc đã gây chấn động thị trường vào tháng 1 năm 2025, cũng mắc lỗi tương tự như o1 standard.

Vấn đề cơ bản vẫn còn đó: các mô hình vẫn nhìn thấy văn bản thông qua token, chứ không phải chữ cái. o1 đã học cách "xử lý" hạn chế này thông qua lập luận, nhưng vẫn chưa loại bỏ được nó. Như một nhà nghiên cứu đã lưu ý trong Language Log: "Token hóa là một phần bản chất của mô hình ngôn ngữ; đối với bất kỳ câu trả lời sai nào, lời giải thích chính xác là 'à, token hóa'."

Nghiên cứu học thuật: Sự xuất hiện của sự hiểu biết ở cấp độ nhân vật

Một bài báo quan trọng được công bố trên arXiv vào tháng 5 năm 2025 ("Vấn đề Dâu tây: Sự xuất hiện của Hiểu biết ở cấp độ Ký tự trong Mô hình Ngôn ngữ Mã hóa") đã phân tích hiện tượng này từ góc độ lý thuyết. Các nhà nghiên cứu đã tạo ra 19 bài tập tổng hợp cô lập khả năng suy luận ở cấp độ ký tự trong các ngữ cảnh được kiểm soát, chứng minh rằng những khả năng này xuất hiện đột ngột và chỉ muộn trong quá trình đào tạo.

Nghiên cứu đề xuất rằng việc học cấu tạo nhân vật về cơ bản không khác gì việc học kiến ​​thức thông thường—nó xuất hiện thông qua quá trình "thấm nhuần khái niệm" khi mô hình đạt đến khối lượng tới hạn các ví dụ và kết nối.

Các nhà nghiên cứu đề xuất một sửa đổi kiến ​​trúc nhẹ giúp cải thiện đáng kể khả năng suy luận ở cấp độ ký tự, đồng thời vẫn giữ được những ưu điểm của mô hình dựa trên từ phụ. Tuy nhiên, những sửa đổi này vẫn đang trong giai đoạn thử nghiệm và chưa được triển khai trên các mô hình thương mại.

Ý nghĩa thực tế: Khi nào nên tin tưởng và khi nào không nên tin tưởng

Trường hợp "dâu tây" dạy một bài học quan trọng về độ tin cậy của các mô hình ngôn ngữ: chúng là công cụ xác suất, không phải máy tính xác định. Như Mark Liberman đã lưu ý trong Language Log, "Bạn nên thận trọng khi tin tưởng vào phản hồi của bất kỳ hệ thống AI hiện tại nào đối với các nhiệm vụ liên quan đến việc đếm đồ vật."

Điều này không có nghĩa là các mô hình vô dụng. Như một người bình luận đã lưu ý, "Việc một con mèo mắc phải sai lầm ngớ ngẩn là sợ dưa chuột không có nghĩa là chúng ta không nên giao cho mèo nhiệm vụ khó khăn hơn nhiều là đuổi loài gặm nhấm ra khỏi tòa nhà." Mô hình ngôn ngữ không phải là công cụ phù hợp nếu bạn muốn đếm chữ cái một cách có hệ thống, nhưng chúng rất tuyệt vời để tự động xử lý hàng nghìn bản ghi podcast và trích xuất tên của khách mời và người dẫn chương trình.

Đối với các nhiệm vụ đòi hỏi độ chính xác tuyệt đối—hạ cánh tàu vũ trụ trên sao Hỏa, tính toán liều lượng dược phẩm, xác minh việc tuân thủ quy định—các mô hình ngôn ngữ hiện tại vẫn chưa đủ nếu không có sự giám sát của con người hoặc xác minh bên ngoài. Bản chất xác suất của chúng khiến chúng trở nên mạnh mẽ trong việc so khớp mẫu và tạo ra sự sáng tạo, nhưng lại không đáng tin cậy cho các nhiệm vụ mà sai sót là không thể chấp nhận được.

Tương lai: Hướng tới những mô hình có thể suy nghĩ trong nhiều giờ

OpenAI đã tuyên bố rằng họ có ý định thử nghiệm với các mô hình o1 có khả năng "suy luận trong nhiều giờ, nhiều ngày hoặc thậm chí nhiều tuần" để cải thiện hơn nữa khả năng suy luận của chúng. o3 được công bố vào tháng 12 năm 2024 (tên o2 đã bị loại bỏ để tránh xung đột thương hiệu với nhà mạng di động O2) và vào tháng 3 năm 2025, API cho o1-pro đã được phát hành, đây là mô hình AI đắt nhất của OpenAI cho đến nay, với giá 150 đô la cho một triệu mã thông báo đầu vào và 600 đô la cho một triệu mã thông báo đầu ra.

Hướng đi rất rõ ràng: thay vì ngày càng làm cho các mô hình lớn hơn (thu nhỏ quy mô), OpenAI đang đầu tư vào việc giúp chúng "suy nghĩ" lâu hơn (tính toán thời gian thử nghiệm). Cách tiếp cận này có thể bền vững hơn về mặt năng lượng và tính toán so với việc đào tạo các mô hình ngày càng lớn.

Nhưng vẫn còn một câu hỏi bỏ ngỏ: liệu những mô hình này có thực sự "lập luận" hay chỉ đơn giản là mô phỏng lập luận thông qua các mô hình thống kê phức tạp hơn? Nghiên cứu của Apple được công bố vào tháng 10 năm 2024 cho thấy các mô hình như o1 có thể sao chép các bước lập luận từ dữ liệu huấn luyện của chúng. Việc thay đổi số và tên trong các bài toán, hoặc đơn giản là chạy lại cùng một bài toán, đã làm giảm đáng kể hiệu suất của các mô hình. Việc thêm thông tin không liên quan nhưng không liên quan về mặt logic đã dẫn đến việc giảm hiệu suất tới 65% đối với một số mô hình.

Kết luận: Các công cụ mạnh mẽ với những hạn chế cơ bản

Bài toán "dâu tây" và giải pháp o1 cho thấy cả tiềm năng lẫn những hạn chế cố hữu của các mô hình ngôn ngữ hiện tại. OpenAI đã chứng minh rằng với việc đào tạo có mục tiêu và thời gian xử lý bổ sung, các mô hình có thể khắc phục một số hạn chế về mặt cấu trúc của việc mã hóa. Nhưng họ không loại bỏ hoàn toàn—họ chỉ đang lách luật.

Đối với người dùng và nhà phát triển, bài học thực tế rất rõ ràng: việc hiểu rõ cách thức hoạt động của các hệ thống này—điểm mạnh và điểm yếu của chúng—là rất quan trọng để sử dụng chúng hiệu quả. Các mô hình ngôn ngữ là những công cụ tuyệt vời cho các tác vụ xác suất, so khớp mẫu, sáng tạo và tổng hợp thông tin. Nhưng đối với các tác vụ đòi hỏi độ chính xác tuyệt đối—đếm, tính toán, xác minh các dữ kiện cụ thể—chúng vẫn không đáng tin cậy nếu không có sự giám sát bên ngoài hoặc các công cụ bổ sung.

Cái tên "Strawberry" sẽ mãi là một lời nhắc nhở mỉa mai về hạn chế cơ bản này: ngay cả những hệ thống AI tiên tiến nhất thế giới cũng có thể vấp váp trước những câu hỏi mà một đứa trẻ sáu tuổi có thể giải quyết ngay lập tức. Không phải vì chúng ngu ngốc, mà vì chúng "suy nghĩ" theo những cách hoàn toàn khác biệt so với chúng ta - và có lẽ chúng ta nên ngừng kỳ vọng chúng suy nghĩ như con người.

Nguồn:

  • OpenAI - "Học cách suy luận với LLM" (bài đăng trên blog chính thức, tháng 9 năm 2024)
  • Wikipedia - "OpenAI o1" (mục nhập được cập nhật vào tháng 1 năm 2025)
  • Cosma, Adrian và cộng sự - "Vấn đề Dâu tây: Sự xuất hiện của Hiểu biết cấp độ Ký tự trong các Mô hình Ngôn ngữ được Mã hóa", arXiv:2505.14172 (tháng 5 năm 2025)
  • Liberman, Mark - "Hệ thống AI vẫn chưa thể đếm", Nhật ký ngôn ngữ (tháng 1 năm 2025)
  • Yang, Yu - "Tại sao các mô hình ngôn ngữ lớn gặp khó khăn khi đếm các chữ cái trong một từ?", Medium (tháng 2 năm 2025)
  • Orland, Kyle - "DeepSeek R1 thực sự cạnh tranh như thế nào với các mô hình suy luận tốt nhất của OpenAI?", Ars Technica
  • Brown, Noam (OpenAI) - Chuỗi bài đăng X/Twitter (tháng 9 năm 2024)
  • TechCrunch - "OpenAI ra mắt o1, một mô hình có thể tự kiểm tra thực tế" (tháng 9 năm 2024)
  • Gợi ý 16x - "Tại sao ChatGPT không thể đếm được bao nhiêu Rs trong Strawberry" (cập nhật tháng 6 năm 2025)

Tài nguyên cho sự phát triển kinh doanh

Ngày 9 tháng 11 năm 2025

Ảo tưởng về lý luận: Cuộc tranh luận làm rung chuyển thế giới AI

Apple công bố hai bài báo gây chấn động—"GSM-Symbolic" (tháng 10 năm 2024) và "The Illusion of Thinking" (tháng 6 năm 2025)—chứng minh cách các chương trình Thạc sĩ Luật (LLM) thất bại trong việc xử lý các biến thể nhỏ của các bài toán kinh điển (Tháp Hà Nội, vượt sông): "Hiệu suất giảm khi chỉ có các giá trị số bị thay đổi." Không có thành công nào trên một Tháp Hà Nội phức tạp. Nhưng Alex Lawsen (Open Philanthropy) phản bác bằng bài báo "The Illusion of the Illusion of Thinking", chứng minh phương pháp luận sai lầm: thất bại là giới hạn đầu ra token, chứ không phải sự sụp đổ của lý luận, các tập lệnh tự động phân loại sai các đầu ra một phần chính xác, một số câu đố không thể giải được về mặt toán học. Bằng cách lặp lại các bài kiểm tra với các hàm đệ quy thay vì liệt kê các bước di chuyển, Claude/Gemini/GPT đã giải được bài toán Tháp Hà Nội 15 đĩa. Gary Marcus ủng hộ luận điểm "chuyển dịch phân phối" của Apple, nhưng một bài báo về thời gian trước WWDC lại đặt ra những câu hỏi chiến lược. Ý nghĩa kinh doanh: chúng ta nên tin tưởng AI đến mức nào cho các nhiệm vụ quan trọng? Giải pháp: phương pháp tiếp cận thần kinh biểu tượng—mạng nơ-ron để nhận dạng mẫu + ngôn ngữ, hệ thống biểu tượng cho logic hình thức. Ví dụ: AI kế toán hiểu được câu hỏi "Tôi đã chi bao nhiêu cho du lịch?" nhưng SQL/tính toán/kiểm toán thuế = mã xác định.
Ngày 9 tháng 11 năm 2025

🤖 Tech Talk: Khi AI phát triển ngôn ngữ bí mật của chúng

Trong khi 61% mọi người đã cảnh giác với AI hiểu được, vào tháng 2 năm 2025, Gibberlink đã thu hút được 15 triệu lượt xem bằng cách trình bày một điều hoàn toàn mới: hai AI ngừng nói tiếng Anh và giao tiếp bằng âm thanh cao độ ở mức 1875-4500 Hz, con người không thể hiểu được. Đây không phải là khoa học viễn tưởng, mà là một giao thức FSK cải thiện hiệu suất lên 80%, lật đổ Điều 13 của Đạo luật AI của EU và tạo ra độ mờ đục hai lớp: các thuật toán khó hiểu phối hợp bằng các ngôn ngữ không thể giải mã. Khoa học cho thấy chúng ta có thể học các giao thức máy (như mã Morse ở tốc độ 20-40 từ/phút), nhưng chúng ta phải đối mặt với giới hạn sinh học không thể vượt qua: 126 bit/giây đối với con người so với Mbps+ đối với máy móc. Ba nghề nghiệp mới đang nổi lên—Nhà phân tích giao thức AI, Kiểm toán viên truyền thông AI và Nhà thiết kế giao diện người-AI—khi IBM, Google và Anthropic phát triển các tiêu chuẩn (ACP, A2A, MCP) để tránh hộp đen cuối cùng. Các quyết định đưa ra ngày nay về giao thức truyền thông AI sẽ định hình quỹ đạo của trí tuệ nhân tạo trong nhiều thập kỷ tới.