Ai2 nói rằng mô hình AI mới của mình vượt qua một trong những model tốt nhất của DeepSeek

Quỳ xuong, DeepSeek. Có một bậc thầy AI mới tại thành phố - và họ là người Mỹ.

Vào ngày thứ Năm, Ai2, một viện nghiên cứu AI phi lợi nhuận đặt trụ sở tại Seattle, đã phát hành một mô hình mà họ tuyên bố vượt trội hơn DeepSeek V3, một trong những hệ thống hàng đầu của công ty AI Trung Quốc DeepSeek.

Mô hình của Ai2, được gọi là Tulu3-405B, cũng vượt qua chính GPT-4o của OpenAI trên một số tiêu chí AI, theo các bài kiểm tra nội bộ của Ai2. Hơn nữa, khác với GPT-4o (và thậm chí là DeepSeek V3), Tulu3-405B là mã nguồn mở, có nghĩa là tất cả các thành phần cần thiết để sao chép nó từ đầu đều miễn phí và được cấp phép một cách thoải mái.

Người phát ngôn của Ai2 cho biết với TechCrunch rằng phòng thí nghiệm tin rằng Tulu3-405B “khẳng định khả năng của Hoa Kỳ dẫn đầu trong việc phát triển các mô hình AI tạo ra giỏi nhất.”

“Bước mốc này là một thời điểm quan trọng cho tương lai của AI mã nguồn mở, củng cố vị trí của Hoa Kỳ là một nhà lãnh đạo trong các mô hình cạnh tranh, mã nguồn mở,” người phát ngôn nói. “Với sự ra mắt này, Ai2 đang giới thiệu một lựa chọn mạnh mẽ, được phát triển tại Hoa Kỳ, thay thế cho các mô hình của DeepSeek - đánh dấu một bước quan trọng không chỉ trong việc phát triển AI, mà còn là trong việc thể hiện rằng Hoa Kỳ có thể dẫn đầu với AI mã nguồn mở cạnh tranh độc lập với các tập đoàn công nghệ.”

Tulu3-405B là một mô hình khá lớn. Chứa 405 tỷ tham số, nó cần 256 GPU chạy song song để huấn luyện, theo Ai2. Các tham số tương ứng xấp xỉ với kỹ năng giải quyết vấn đề của một mô hình, và các mô hình có nhiều tham số thường thực hiện tốt hơn so với các mô hình có ít tham số.

Ai2 đã kiểm tra Tulu3-405B trên các tiêu chí phổ biến.Image Credits:Ai2

Theo Ai2, một trong những yếu tố quan trọng để đạt hiệu suất cạnh tranh với Tulu3-405B là một kỹ thuật gọi là học củng cố với phần thưởng có thể xác minh. Học củng cố với phần thưởng có thể xác minh, hoặc RLVR, huấn luyện mô hình trên các nhiệm vụ với các kết quả “có thể xác minh”, như giải quyết vấn đề toán học và tuân thủ hướng dẫn.

Ai2 cho biết trên bài kiểm tra PopQA, một bộ câu hỏi chuyên sâu gồm 14.000 câu hỏi kiến thức được lấy từ Wikipedia, Tulu3-405B không chỉ vượt qua DeepSeek V3 và GPT-4o, mà còn vượt qua mô hình Llama 3.1 405B của Meta. Tulu3-405B cũng có hiệu suất cao nhất trong lớp mô hình của nó trên GSM8K, một bài kiểm tra chứa các vấn đề toán cấp tiểu học.

Tulu3-405B có sẵn để thử nghiệm qua ứng dụng web chatbot của Ai2, và mã để huấn luyện mô hình có trên GitHub và nền tảng phát triển AI Hugging Face. Tải ngay trước khi mô hình AI mạnh mẽ tiếp theo vượt trội trên bất kỳ tiêu chí nào khác ra mắt.