
Tổ chức phi lợi nhuận Trung tâm An toàn AI (CAIS) và Scale AI, một công ty cung cấp nhiều dịch vụ gán nhãn dữ liệu và phát triển AI, đã phát hành một chỉ số thách thức mới cho các hệ thống AI tiên tiến.
Chỉ số được gọi là Kỳ thi cuối cùng của Nhân loại, bao gồm hàng nghìn câu hỏi được cung cấp bởi cộng đồng về các chủ đề như toán học, nhân văn và khoa học tự nhiên. Để làm cho việc đánh giá thêm khó khăn, các câu hỏi được đưa ra ở nhiều định dạng, bao gồm cả định dạng kết hợp sơ đồ và hình ảnh.
Trong một nghiên cứu sơ bộ, không một hệ thống AI mạnh mẽ nào có sẵn trên thị trường đã đạt được điểm số cao hơn 10% trên Kỳ thi cuối cùng của Nhân loại.
CAIS và Scale AI cho biết họ dự định mở chỉ số này cho cộng đồng nghiên cứu để các nhà nghiên cứu có thể 'đào sâu vào các biến thể' và đánh giá các mô hình AI mới.