Newsletter

Vấn đề dâu tây

"Có bao nhiêu chữ 'r' trong từ strawberry?" — GPT-4o trả lời "hai", một đứa trẻ sáu tuổi chỉ biết ba. Vấn đề nằm ở việc phân tách: mô hình nhìn thấy [str][aw][berry], chứ không phải chữ cái. OpenAI đã không giải quyết được vấn đề này với o1—nó đã tránh được bằng cách dạy mô hình "suy nghĩ trước khi nói". Kết quả: 83% so với 13% tại kỳ thi Olympic Toán, nhưng 30 giây thay vì 3 giây và chi phí tăng gấp ba. Các mô hình ngôn ngữ là những công cụ xác suất tuyệt vời—nhưng việc đếm vẫn cần đến con người.

Từ Vấn đề Dâu tây đến Mô hình o1: Cách OpenAI (một phần) giải quyết Hạn chế Mã hóa

Vào mùa hè năm 2024, một meme lan truyền trên internet đã làm khó các mô hình ngôn ngữ tiên tiến nhất thế giới: "Có bao nhiêu chữ 'r' trong từ 'strawberry'?" Câu trả lời đúng là ba, nhưng GPT-4o vẫn ngoan cố trả lời là "hai". Một lỗi tưởng chừng nhỏ nhặt đã tiết lộ một hạn chế cơ bản của các mô hình ngôn ngữ: chúng không có khả năng phân tích từng chữ cái trong từ.

Vào ngày 12 tháng 9 năm 2024, OpenAI đã phát hành o1—tên mã nội bộ là "Strawberry"—mô hình đầu tiên trong chuỗi "mô hình suy luận" mới được thiết kế đặc biệt để khắc phục những hạn chế này. Và đúng vậy, cái tên này không phải là ngẫu nhiên: như một nhà nghiên cứu của OpenAI đã xác nhận, o1 cuối cùng đã đếm chính xác chữ 'r' trong "strawberry".

Nhưng giải pháp không như bài viết gốc hình dung. OpenAI không "dạy" mô hình phân tích từng chữ cái. Thay vào đó, họ phát triển một phương pháp hoàn toàn khác: dạy mô hình "suy nghĩ" trước khi phản hồi.

Vấn đề đếm: Tại sao các mô hình lại sai

Vấn đề vẫn bắt nguồn từ việc mã hóa—quá trình cơ bản mà các mô hình ngôn ngữ sử dụng để xử lý văn bản. Như đã giải thích trong một bài báo kỹ thuật được công bố trên arXiv vào tháng 5 năm 2025 ("Vấn đề Dâu tây: Sự xuất hiện của Hiểu biết ở Cấp độ Ký tự trong các Mô hình Ngôn ngữ Mã hóa"), các mô hình xem các từ không phải là chuỗi chữ cái mà là "mã thông báo"—các đơn vị ý nghĩa được chuyển đổi thành số.

Khi GPT-4 xử lý từ "strawberry", bộ phân tích cú pháp của nó sẽ chia nó thành ba phần: [str][aw][berry], mỗi phần có một ID số duy nhất (496, 675, 15717). Đối với mô hình, "strawberry" không phải là một chuỗi 10 chữ cái mà là một chuỗi 3 token số. Giống như thể nó đang đọc một cuốn sách mà mỗi từ được thay thế bằng một mã số—và sau đó có người yêu cầu nó đếm các chữ cái trong một mã số mà nó chưa từng thấy ai viết ra.

Vấn đề trở nên trầm trọng hơn với các từ ghép. "Timekeeper" bị chia thành các token riêng biệt, khiến mô hình không thể xác định vị trí chính xác của các chữ cái nếu không có lý luận rõ ràng. Sự phân mảnh này không chỉ ảnh hưởng đến việc đếm chữ cái mà còn ảnh hưởng đến việc hiểu cấu trúc bên trong của từ.

Giải pháp 1: Suy nghĩ trước khi trả lời

OpenAI o1 đã giải quyết vấn đề theo một cách không ngờ tới: thay vì sửa đổi mã thông báo - vốn khó về mặt kỹ thuật và sẽ làm giảm hiệu quả của mô hình - nó đã dạy hệ thống "suy nghĩ trước khi nói" bằng một kỹ thuật gọi là "lập luận chuỗi suy nghĩ".

Khi bạn hỏi 01 có bao nhiêu chữ 'r' trong từ "strawberry", mô hình không trả lời ngay lập tức. Nó mất vài giây - đôi khi thậm chí vài phút cho những câu hỏi phức tạp - để tự phát triển một "chuỗi suy luận" ẩn khỏi người dùng. Quá trình này cho phép nó:

  1. Nhận ra rằng câu hỏi đòi hỏi phải phân tích ở cấp độ nhân vật
  2. Phát triển một chiến lược để phá vỡ từ
  3. Xác minh câu trả lời thông qua các cách tiếp cận khác nhau
  4. Vui lòng sửa bất kỳ lỗi nào trước khi cung cấp câu trả lời cuối cùng.

Như nhà nghiên cứu Noam Brown của OpenAI đã giải thích trong một loạt bài đăng trên X: "o1 được đào tạo bằng phương pháp học tăng cường để 'suy nghĩ' trước khi phản hồi thông qua chuỗi suy nghĩ riêng tư." Mô hình nhận được phần thưởng trong quá trình đào tạo cho mỗi bước đúng trong quá trình suy luận, không chỉ cho câu trả lời đúng cuối cùng.

Kết quả thật ấn tượng nhưng cũng rất tốn kém. Trong kỳ thi tuyển chọn Olympic Toán học Quốc tế, o1 đã giải đúng 83% số bài toán, so với 13% của GPT-4o. Đối với các câu hỏi khoa học cấp tiến sĩ, nó đạt độ chính xác 78%, so với 56% của GPT-4o. Nhưng sức mạnh này cũng có cái giá của nó: o1 mất hơn 30 giây để trả lời các câu hỏi mà GPT-4o chỉ mất 3 giây, và chi phí là 15 đô la cho mỗi triệu mã thông báo đầu vào, so với 5 đô la của GPT-4o.

Chuỗi suy nghĩ: Nó thực sự hoạt động như thế nào

Kỹ thuật này không phải là phép thuật, mà là có phương pháp. Khi nhận được lời nhắc, o1 sẽ tự động tạo ra một chuỗi dài các "suy nghĩ" không được hiển thị cho người dùng. Đối với vấn đề 'r' trong "strawberry", quy trình nội bộ có thể là:

"Trước tiên, tôi cần hiểu cấu trúc từ. Strawberry có thể được phân tách thành [str][aw][berry]. Để đếm các chữ 'r', tôi cần tái tạo toàn bộ từ ở cấp độ ký tự. Str chứa: str (1 'r'). Aw chứa: aw (0 'r'). Berry chứa: berry (2 'r'). Tổng cộng: 1+0+2 = 3 chữ 'r'. Tôi xác minh: strawberry = strawberry. Tôi đếm các chữ 'r': vị trí 3, vị trí 8, vị trí 9. Đã xác nhận: 3 chữ 'r'."

Lý luận nội bộ này được thiết kế để ẩn đi. OpenAI rõ ràng cấm người dùng cố gắng tiết lộ dòng suy nghĩ của o1 bằng cách theo dõi các lời nhắc và có khả năng thu hồi quyền truy cập đối với những người vi phạm quy tắc này. Công ty viện dẫn lý do bảo mật AI và lợi thế cạnh tranh, nhưng quyết định này đã bị các nhà phát triển làm việc với các mô hình ngôn ngữ chỉ trích là mất tính minh bạch.

Hạn chế dai dẳng: o1 không hoàn hảo

Mặc dù đã có những tiến bộ, o1 vẫn chưa giải quyết được hoàn toàn vấn đề. Nghiên cứu được công bố trên Language Log vào tháng 1 năm 2025 đã thử nghiệm nhiều mô hình khác nhau trên một thử thách phức tạp hơn: "Hãy viết một đoạn văn trong đó chữ cái thứ hai của mỗi câu viết thành từ 'CODE'."

o1 standard (20 đô la/tháng) đã gặp lỗi khi đếm sai chữ cái đầu tiên của mỗi từ đầu tiên thành "chữ cái thứ hai". o1-pro (200 đô la/tháng) đã khắc phục được sự cố... sau 4 phút 10 giây "suy nghĩ". DeepSeek R1, mẫu máy của Trung Quốc đã gây chấn động thị trường vào tháng 1 năm 2025, cũng mắc lỗi tương tự như o1 standard.

Vấn đề cơ bản vẫn còn đó: các mô hình vẫn nhìn thấy văn bản thông qua token, chứ không phải chữ cái. o1 đã học cách "xử lý" hạn chế này thông qua lập luận, nhưng vẫn chưa loại bỏ được nó. Như một nhà nghiên cứu đã lưu ý trong Language Log: "Token hóa là một phần bản chất của mô hình ngôn ngữ; đối với bất kỳ câu trả lời sai nào, lời giải thích chính xác là 'à, token hóa'."

Nghiên cứu học thuật: Sự xuất hiện của sự hiểu biết ở cấp độ nhân vật

Một bài báo quan trọng được công bố trên arXiv vào tháng 5 năm 2025 ("Vấn đề Dâu tây: Sự xuất hiện của Hiểu biết ở cấp độ Ký tự trong Mô hình Ngôn ngữ Mã hóa") đã phân tích hiện tượng này từ góc độ lý thuyết. Các nhà nghiên cứu đã tạo ra 19 bài tập tổng hợp cô lập khả năng suy luận ở cấp độ ký tự trong các ngữ cảnh được kiểm soát, chứng minh rằng những khả năng này xuất hiện đột ngột và chỉ muộn trong quá trình đào tạo.

Nghiên cứu đề xuất rằng việc học cấu tạo nhân vật về cơ bản không khác gì việc học kiến ​​thức thông thường—nó xuất hiện thông qua quá trình "thấm nhuần khái niệm" khi mô hình đạt đến khối lượng tới hạn các ví dụ và kết nối.

Các nhà nghiên cứu đề xuất một sửa đổi kiến ​​trúc nhẹ giúp cải thiện đáng kể khả năng suy luận ở cấp độ ký tự, đồng thời vẫn giữ được những ưu điểm của mô hình dựa trên từ phụ. Tuy nhiên, những sửa đổi này vẫn đang trong giai đoạn thử nghiệm và chưa được triển khai trên các mô hình thương mại.

Ý nghĩa thực tế: Khi nào nên tin tưởng và khi nào không nên tin tưởng

Trường hợp "dâu tây" dạy một bài học quan trọng về độ tin cậy của các mô hình ngôn ngữ: chúng là công cụ xác suất, không phải máy tính xác định. Như Mark Liberman đã lưu ý trong Language Log, "Bạn nên thận trọng khi tin tưởng vào phản hồi của bất kỳ hệ thống AI hiện tại nào đối với các nhiệm vụ liên quan đến việc đếm đồ vật."

Điều này không có nghĩa là các mô hình vô dụng. Như một người bình luận đã lưu ý, "Việc một con mèo mắc phải sai lầm ngớ ngẩn là sợ dưa chuột không có nghĩa là chúng ta không nên giao cho mèo nhiệm vụ khó khăn hơn nhiều là đuổi loài gặm nhấm ra khỏi tòa nhà." Mô hình ngôn ngữ không phải là công cụ phù hợp nếu bạn muốn đếm chữ cái một cách có hệ thống, nhưng chúng rất tuyệt vời để tự động xử lý hàng nghìn bản ghi podcast và trích xuất tên của khách mời và người dẫn chương trình.

Đối với các nhiệm vụ đòi hỏi độ chính xác tuyệt đối—hạ cánh tàu vũ trụ trên sao Hỏa, tính toán liều lượng dược phẩm, xác minh việc tuân thủ quy định—các mô hình ngôn ngữ hiện tại vẫn chưa đủ nếu không có sự giám sát của con người hoặc xác minh bên ngoài. Bản chất xác suất của chúng khiến chúng trở nên mạnh mẽ trong việc so khớp mẫu và tạo ra sự sáng tạo, nhưng lại không đáng tin cậy cho các nhiệm vụ mà sai sót là không thể chấp nhận được.

Tương lai: Hướng tới những mô hình có thể suy nghĩ trong nhiều giờ

OpenAI đã tuyên bố rằng họ có ý định thử nghiệm với các mô hình o1 có khả năng "suy luận trong nhiều giờ, nhiều ngày hoặc thậm chí nhiều tuần" để cải thiện hơn nữa khả năng suy luận của chúng. o3 được công bố vào tháng 12 năm 2024 (tên o2 đã bị loại bỏ để tránh xung đột thương hiệu với nhà mạng di động O2) và vào tháng 3 năm 2025, API cho o1-pro đã được phát hành, đây là mô hình AI đắt nhất của OpenAI cho đến nay, với giá 150 đô la cho một triệu mã thông báo đầu vào và 600 đô la cho một triệu mã thông báo đầu ra.

Hướng đi rất rõ ràng: thay vì ngày càng làm cho các mô hình lớn hơn (thu nhỏ quy mô), OpenAI đang đầu tư vào việc giúp chúng "suy nghĩ" lâu hơn (tính toán thời gian thử nghiệm). Cách tiếp cận này có thể bền vững hơn về mặt năng lượng và tính toán so với việc đào tạo các mô hình ngày càng lớn.

Nhưng vẫn còn một câu hỏi bỏ ngỏ: liệu những mô hình này có thực sự "lập luận" hay chỉ đơn giản là mô phỏng lập luận thông qua các mô hình thống kê phức tạp hơn? Nghiên cứu của Apple được công bố vào tháng 10 năm 2024 cho thấy các mô hình như o1 có thể sao chép các bước lập luận từ dữ liệu huấn luyện của chúng. Việc thay đổi số và tên trong các bài toán, hoặc đơn giản là chạy lại cùng một bài toán, đã làm giảm đáng kể hiệu suất của các mô hình. Việc thêm thông tin không liên quan nhưng không liên quan về mặt logic đã dẫn đến việc giảm hiệu suất tới 65% đối với một số mô hình.

Kết luận: Các công cụ mạnh mẽ với những hạn chế cơ bản

Bài toán "dâu tây" và giải pháp o1 cho thấy cả tiềm năng lẫn những hạn chế cố hữu của các mô hình ngôn ngữ hiện tại. OpenAI đã chứng minh rằng với việc đào tạo có mục tiêu và thời gian xử lý bổ sung, các mô hình có thể khắc phục một số hạn chế về mặt cấu trúc của việc mã hóa. Nhưng họ không loại bỏ hoàn toàn—họ chỉ đang lách luật.

Đối với người dùng và nhà phát triển, bài học thực tế rất rõ ràng: việc hiểu rõ cách thức hoạt động của các hệ thống này—điểm mạnh và điểm yếu của chúng—là rất quan trọng để sử dụng chúng hiệu quả. Các mô hình ngôn ngữ là những công cụ tuyệt vời cho các tác vụ xác suất, so khớp mẫu, sáng tạo và tổng hợp thông tin. Nhưng đối với các tác vụ đòi hỏi độ chính xác tuyệt đối—đếm, tính toán, xác minh các dữ kiện cụ thể—chúng vẫn không đáng tin cậy nếu không có sự giám sát bên ngoài hoặc các công cụ bổ sung.

Cái tên "Strawberry" sẽ mãi là một lời nhắc nhở mỉa mai về hạn chế cơ bản này: ngay cả những hệ thống AI tiên tiến nhất thế giới cũng có thể vấp váp trước những câu hỏi mà một đứa trẻ sáu tuổi có thể giải quyết ngay lập tức. Không phải vì chúng ngu ngốc, mà vì chúng "suy nghĩ" theo những cách hoàn toàn khác biệt so với chúng ta - và có lẽ chúng ta nên ngừng kỳ vọng chúng suy nghĩ như con người.

Nguồn:

  • OpenAI - "Học cách suy luận với LLM" (bài đăng trên blog chính thức, tháng 9 năm 2024)
  • Wikipedia - "OpenAI o1" (mục nhập được cập nhật vào tháng 1 năm 2025)
  • Cosma, Adrian và cộng sự - "Vấn đề Dâu tây: Sự xuất hiện của Hiểu biết cấp độ Ký tự trong các Mô hình Ngôn ngữ được Mã hóa", arXiv:2505.14172 (tháng 5 năm 2025)
  • Liberman, Mark - "Hệ thống AI vẫn chưa thể đếm", Nhật ký ngôn ngữ (tháng 1 năm 2025)
  • Yang, Yu - "Tại sao các mô hình ngôn ngữ lớn gặp khó khăn khi đếm các chữ cái trong một từ?", Medium (tháng 2 năm 2025)
  • Orland, Kyle - "DeepSeek R1 thực sự cạnh tranh như thế nào với các mô hình suy luận tốt nhất của OpenAI?", Ars Technica
  • Brown, Noam (OpenAI) - Chuỗi bài đăng X/Twitter (tháng 9 năm 2024)
  • TechCrunch - "OpenAI ra mắt o1, một mô hình có thể tự kiểm tra thực tế" (tháng 9 năm 2024)
  • Gợi ý 16x - "Tại sao ChatGPT không thể đếm được bao nhiêu Rs trong Strawberry" (cập nhật tháng 6 năm 2025)

Tài nguyên cho sự phát triển kinh doanh

Ngày 9 tháng 11 năm 2025

Quy định về AI cho các ứng dụng tiêu dùng: Cách chuẩn bị cho các quy định mới năm 2025

Năm 2025 đánh dấu sự kết thúc của kỷ nguyên "Miền Tây Hoang dã" của AI: Đạo luật AI của EU có hiệu lực vào tháng 8 năm 2024, với các yêu cầu về kiến ​​thức AI từ ngày 2 tháng 2 năm 2025, và quản trị cùng GPAI từ ngày 2 tháng 8. California dẫn đầu với SB 243 (ra đời sau vụ tự tử của Sewell Setzer, một cậu bé 14 tuổi đã phát triển mối quan hệ tình cảm với chatbot), trong đó áp đặt lệnh cấm các hệ thống khen thưởng cưỡng chế, phát hiện ý định tự tử, nhắc nhở "Tôi không phải là người" ba giờ một lần, kiểm toán công khai độc lập và phạt 1.000 đô la cho mỗi vi phạm. SB 420 yêu cầu đánh giá tác động đối với "các quyết định tự động có rủi ro cao" với quyền kháng cáo lên cơ quan chức năng. Thực thi thực tế: Noom bị kiện vào năm 2022 vì bot đóng giả làm huấn luyện viên con người, một khoản bồi thường trị giá 56 triệu đô la. Xu hướng quốc gia: Alabama, Hawaii, Illinois, Maine và Massachusetts phân loại việc không thông báo cho chatbot AI là vi phạm UDAP. Phương pháp tiếp cận rủi ro ba cấp độ—các hệ thống quan trọng (y tế/giao thông/năng lượng), chứng nhận trước khi triển khai, công bố thông tin minh bạch hướng đến người tiêu dùng, đăng ký mục đích chung và kiểm tra bảo mật. Quy định chắp vá mà không có quyền ưu tiên của liên bang: các công ty đa quốc gia phải điều chỉnh các yêu cầu thay đổi. EU từ tháng 8 năm 2026: thông báo cho người dùng về tương tác AI trừ khi nội dung rõ ràng do AI tạo ra được gắn nhãn là có thể đọc được bằng máy.
Ngày 9 tháng 11 năm 2025

Quản lý những thứ không được tạo ra: Liệu châu Âu có nguy cơ mất đi sự liên quan về mặt công nghệ không?

Châu Âu chỉ thu hút được một phần mười đầu tư toàn cầu vào AI, nhưng lại tuyên bố áp đặt các quy tắc toàn cầu. Đây chính là "Hiệu ứng Brussels" - áp đặt các quy định toàn cầu thông qua sức mạnh thị trường mà không thúc đẩy đổi mới. Đạo luật AI có hiệu lực theo lịch trình so le cho đến năm 2027, nhưng các tập đoàn công nghệ đa quốc gia đang phản ứng bằng các chiến lược né tránh sáng tạo: viện dẫn bí mật thương mại để tránh tiết lộ dữ liệu đào tạo, đưa ra các bản tóm tắt tuân thủ kỹ thuật nhưng khó hiểu, sử dụng phương pháp tự đánh giá để hạ cấp hệ thống từ "rủi ro cao" xuống "rủi ro tối thiểu" và tham gia vào việc mua bán diễn đàn bằng cách chọn các quốc gia thành viên có quy định kiểm soát ít nghiêm ngặt hơn. Nghịch lý về bản quyền ngoài lãnh thổ: EU yêu cầu OpenAI tuân thủ luật pháp châu Âu ngay cả đối với việc đào tạo bên ngoài châu Âu - một nguyên tắc chưa từng thấy trong luật pháp quốc tế. "Mô hình kép" xuất hiện: các phiên bản giới hạn của châu Âu so với các phiên bản toàn cầu tiên tiến của cùng một sản phẩm AI. Rủi ro thực sự: Châu Âu trở thành một "pháo đài kỹ thuật số" bị cô lập khỏi đổi mới toàn cầu, với công dân châu Âu tiếp cận các công nghệ kém hơn. Tòa án Công lý đã bác bỏ lời biện hộ "bí mật thương mại" trong vụ kiện chấm điểm tín dụng, nhưng sự không chắc chắn trong diễn giải vẫn còn rất lớn—chính xác thì "tóm tắt chi tiết đầy đủ" nghĩa là gì? Không ai biết. Câu hỏi cuối cùng chưa được trả lời: EU đang tạo ra một con đường thứ ba đạo đức giữa chủ nghĩa tư bản Hoa Kỳ và sự kiểm soát của nhà nước Trung Quốc, hay chỉ đơn giản là xuất khẩu bộ máy quan liêu sang một lĩnh vực mà nó không cạnh tranh? Hiện tại: một quốc gia dẫn đầu thế giới về quy định AI, nhưng đang trong giai đoạn phát triển. Một chương trình khổng lồ.
Ngày 9 tháng 11 năm 2025

Ngoại lệ: Nơi khoa học dữ liệu gặp gỡ những câu chuyện thành công

Khoa học dữ liệu đã đảo ngược mô hình: các giá trị ngoại lệ không còn là "lỗi cần loại bỏ" mà là thông tin giá trị cần được hiểu. Một giá trị ngoại lệ đơn lẻ có thể làm biến dạng hoàn toàn mô hình hồi quy tuyến tính - thay đổi độ dốc từ 2 thành 10 - nhưng việc loại bỏ nó có thể đồng nghĩa với việc mất đi tín hiệu quan trọng nhất trong tập dữ liệu. Học máy giới thiệu các công cụ tinh vi: Rừng Cô lập cô lập các giá trị ngoại lệ bằng cách xây dựng cây quyết định ngẫu nhiên, Hệ số Ngoại lệ Cục bộ phân tích mật độ cục bộ, và Bộ mã hóa Tự động tái tạo dữ liệu bình thường và đánh dấu những gì chúng không thể tái tạo. Có các giá trị ngoại lệ toàn cầu (nhiệt độ -10°C ở vùng nhiệt đới), các giá trị ngoại lệ theo ngữ cảnh (chi 1.000 euro ở một khu dân cư nghèo) và các giá trị tập thể (lưu lượng mạng đạt đỉnh đồng bộ cho thấy có tấn công). Một điểm tương đồng với Gladwell: "quy tắc 10.000 giờ" đang bị tranh cãi - Paul McCartney đã nói, "Nhiều ban nhạc đã biểu diễn 10.000 giờ ở Hamburg mà không thành công; lý thuyết này không phải là hoàn hảo." Thành công toán học châu Á không phải do di truyền mà do văn hóa: Hệ thống số trực quan hơn của Trung Quốc, canh tác lúa đòi hỏi sự cải tiến liên tục so với sự bành trướng lãnh thổ của nền nông nghiệp phương Tây. Ứng dụng thực tế: Các ngân hàng Anh thu hồi 18% tổn thất tiềm ẩn thông qua phát hiện bất thường theo thời gian thực, sản xuất phát hiện các lỗi vi mô mà kiểm tra thủ công có thể bỏ sót, chăm sóc sức khỏe xác thực dữ liệu thử nghiệm lâm sàng với độ nhạy phát hiện bất thường trên 85%. Bài học cuối cùng: Khi khoa học dữ liệu chuyển từ loại bỏ các giá trị ngoại lai sang hiểu rõ chúng, chúng ta phải xem những nghề nghiệp phi truyền thống không phải là những bất thường cần được khắc phục mà là những quỹ đạo giá trị cần được nghiên cứu.