
Mỗi Chủ nhật, người dẫn NPR Will Shortz, chuyên gia xăm tròi của The New York Times, có cơ hội thử thách hàng ngàn người nghe trong một phần sóng dài có tên Góc câu hỏi Chủ nhật. Dù viết một cách có thể giải quyết được mà không cần biết trước quá nhiều, các câu đố thường thách thức ngay cả những thí sinh tài năng.
\n\nĐó là lý do này một số chuyên gia nghĩ rằng chúng là cách hứa hẹn để kiểm tra tới giới hạn khả năng giải quyết vấn đề của AI.
\n\nTrong một nghiên cứu mới, một nhóm nhà nghiên cứu đến từ Trường Đại học Wellesley, Trường Đại học Oberlin, Đại học Texas tại Austin, Đại học Đông Bắc và công ty khởi nghiệp Cursor đã tạo ra một thước đo AI bằng các câu đố từ các tập phim Góc câu hỏi Chủ nhật. Nhóm này cho biết bài kiểm tra của họ đã phát hiện ra những thông tin gây bất ngờ, như là các mô hình được gọi là luận lý — OpenAI’s o1, trong số những mô hình khác — đôi khi 'từ bỏ' và cung cấp những câu trả lời mà họ biết không đúng.
\n\n“Chúng tôi muốn phát triển một thước đo với các vấn đề mà con người có thể hiểu được chỉ với kiến thức chung,” Arjun Guha, một sinh viên khoa học máy tính tại Đại học Đông Bắc và một trong số các tác giả chính của nghiên cứu, cho biết với TechCrunch.
\n\nNgành công nghiệp AI hiện đang gặp phải một tình trạng khốn đốn trong việc đánh giá AI mô hình. Hầu hết các bài kiểm tra thường được sử dụng để đánh giá mô hình AI đều điều tra các kỹ năng, như là khả năng trên câu hỏi toán và khoa học cấp Tiến sĩ, mà không liên quan đến người dùng trung bình. Trong khi đó, nhiều thước đo — thậm chí là các thước đo được phát hành gần đây — đang nhanh chóng tiến đến điểm bão hòa.
\n\nƯu điểm của một trò chơi câu đố trên sóng radio công cộng như Góc câu hỏi Chủ nhật là nó không kiểm tra kiến thức khó hiểu, và các thách thức được đặt ra sao cho các mô hình không thể dựa vào 'học thuộc lòng' để giải quyết, Giọng Giang Guha giải thích.
\n\n“Tôi nghĩ điều làm cho những vấn đề này khó khăn là việc thực sự khó để thấy tiến triển có ý nghĩa trên một vấn đề cho đến khi bạn giải quyết nó — đó là khi mọi thứ nối kết lại cùng một lúc,” Guha nói. “Điều đó yêu cầu sự kết hợp giữa sáng suốt và quá trình loại trừ.”
\n\nTất nhiên không có thước đo nào là hoàn hảo. Góc câu hỏi Chủ nhật giới hạn ở Mỹ và chỉ bằng tiếng Anh. Và vì các câu hỏi này được công bố công khai, có thể mô hình được huấn luyện trên chúng và có thể 'gian lận' ở một ý nghĩa nào đó, tuy nhiên Guha nói rằng anh chưa thấy bằng chứng cho điều này.
\n\n“Câu hỏi mới được phát hành hàng tuần, và chúng ta có thể mong đợi các câu hỏi mới nhất sẽ thật sự không thể dự đoán,” Anh thêm. “Chúng tôi dự định tiếp tục giữ thước đo cập nhật và theo dõi cách mô hình thay đổi theo thời gian.”
\n\nTrên thước đo của những nhà nghiên cứu, bao gồm khoảng 600 câu đố Góc câu hỏi Chủ nhật, các mô hình luận lý như o1 và R1 của DeepSeek vượt trội hơn so với phần còn lại. Các mô hình luận lý kiểm tra lại cẩ thận trước khi đưa ra kết quả, điều này giúp họ tránh một số điểm yếu thường bắt gặp trong mô hình AI. Sự đánh đổi là các mô hình luận lý mất một chút thời gian hơn để đưa ra các giải pháp — thường là vài giây đến phút dài hơn.
\n\n\n\n
Các mô hình đưa ra những lựa chọn kỳ lạ khác, như đưa ra một câu trả lời sai chỉ để sau đó rút lại nó, cố gắng tìm ra một câu trả lời tốt hơn và thất bại một lần nữa. Họ cũng bị mắc kẹt 'nghĩ' mãi mãi và đưa ra giải thích vô lý cho các câu trả lời, hoặc họ đến với một câu trả lời đúng ngay lập tức nhưng sau đó tiếp tục xem xét các câu trả lời thay thế mà không có lý do rõ ràng.
\n\n"Trên các vấn đề khó, R1 buộc phải nói rằng nó đang 'nản lòng,'" Guha nói. “Thật buồn cười khi thấy một mô hình mô phỏng những gì mà một con người có thể nói. Vẫn còn chưa rõ tới đâu 'nản lòng' trong lý do có thể ảnh hưởng đến chất lượng của kết quả mô hình.”
\n\n
Mô hình hiện tại có hiệu suất tốt nhất trên thước đo là o1 với tỉ lệ 59%, tiếp theo là o3-mini mới được phát hành được đặt ở mức 'nỗ lực luận lý' cao (47%). (R1 đạt 35%.) Là bước tiếp theo, các nhà nghiên cứu dự định mở rộng việc thử nghiệm của họ cho các mô hình luận lý bổ sung, hy vọng sẽ giúp xác định những lĩnh vực mà những mô hình này có thể được tăng cường.
\n\n
“Bạn không cần có Tiến sĩ để giỏi về luận lý, vì vậy nên là có thể thiết kế các thước đo luận lý mà không cần kiến thức cấp Tiến sĩ,” Guha nói. “Một thước đo với quyền truy cập rộng lớn cho phép một số lượng lớn các nhà nghiên cứu hình thành và phân tích kết quả, có thể dẫn tới các giải pháp tốt hơn trong tương lai. Hơn nữa, khi mô hình tiên tiến đang ngày càng được triển khai trong các cài đặt ảnh hưởng đến mọi người, chúng tôi tin rằng mọi người nên có khả năng cảm nhận những gì những mô hình này có — và không có — khả năng làm được.”