Việc OpenAI công bố " Strawberry " đã làm nổi bật một hạn chế cơ bản của các mô hình ngôn ngữ: chúng không có khả năng phân tích từng chữ cái trong từ. Điểm yếu này bộc lộ những khía cạnh sâu sắc về cách thức hoạt động của chúng.
Vấn đề đếm
Khi ChatGPT được yêu cầu đếm chữ 'r' trong từ 'strawberry' (dâu tây), mô hình thường thất bại. Lỗi này không phải do thiếu trí thông minh, mà là do cách các mô hình ngôn ngữ phân tích văn bản. Để hiểu lý do, bạn cần hiểu khái niệm tokenization (phân tích mã hóa).
Thế giới nhìn qua các token
Các mô hình ngôn ngữ không xem từ ngữ như một chuỗi ký tự, mà là các token—đơn vị ý nghĩa được chuyển đổi thành số. Giống như thể họ đang đọc một cuốn sách, trong đó mỗi từ được thay thế bằng một mã số. Ví dụ, từ "schoolbooks" được chia thành hai token riêng biệt: "school" và "books". Điều này giải thích tại sao mô hình gặp khó khăn trong việc đếm chính xác các chữ "o" trong từ này—nó không thực sự coi nó là một từ.
Một ví dụ minh họa
Hãy tưởng tượng việc học một ngôn ngữ mà từ "trường học" luôn được biểu thị bằng số "412". Nếu ai đó hỏi bạn có bao nhiêu chữ o trong "412", bạn sẽ không thể trả lời đúng nếu không nhìn thấy từ đó được viết ra. Các mô hình ngôn ngữ cũng ở trong tình huống tương tự: chúng xử lý ý nghĩa thông qua các con số, mà không cần tiếp cận cấu trúc theo nghĩa đen của từ.
Thách thức của từ ghép
Vấn đề trở nên tồi tệ hơn với các từ ghép. 'Timekeeper' bị chia thành các token riêng biệt, khiến mô hình khó xác định vị trí chính xác của các chữ cái 'e'. Sự phân mảnh này không chỉ ảnh hưởng đến việc đếm chữ cái mà còn ảnh hưởng đến việc hiểu cấu trúc bên trong của từ.
Giải pháp cho vấn đề dâu tây (có thể)
Mô hình sắp ra mắt của OpenAI, Strawberry, dự kiến sẽ khắc phục hạn chế này bằng cách giới thiệu một phương pháp xử lý văn bản sáng tạo. Thay vì chỉ dựa vào phương pháp mã hóa thông thường, mô hình này sẽ có khả năng phân tích từ ngữ đến từng chữ cái, cho phép đếm và phân tích chính xác hơn.
Những tác động trong tương lai
Tầm quan trọng của vấn đề này không chỉ dừng lại ở việc đếm chữ cái. Khả năng phân tích chi tiết này có thể cải thiện đáng kể khả năng hiểu ngôn ngữ của các mô hình AI, cho phép chúng giải quyết các vấn đề đòi hỏi phân tích văn bản chi tiết ở cấp độ ký tự.
Việc tích hợp công nghệ này theo kế hoạch sẽ tạo nên bước tiến lớn hướng tới các mô hình ngôn ngữ có khả năng "lý luận" tốt hơn về các chi tiết cơ bản của ngôn ngữ, chứ không chỉ là các mô hình thống kê.


