Hugging Face tuyên bố các mô hình AI mới nhỏ nhất trong loại của họ

Một nhóm tại nền tảng phát triển AI Hugging Face đã phát hành những gì họ tuyên bố là những mô hình AI nhỏ nhất có thể phân tích ảnh, video ngắn và văn bản.

Các mô hình, SmolVLM-256M và SmolVLM-500M, được thiết kế để hoạt động tốt trên 'thiết bị hạn chế' như laptop với khoảng dưới 1GB RAM. Nhóm cho biết chúng cũng rất lý tưởng cho các nhà phát triển cố gắng xử lý lượng lớn dữ liệu một cách rất rẻ.

SmolVLM-256M và SmolVLM-500M chỉ là 256 triệu tham số và 500 triệu tham số về kích thước, tương ứng. (Tham số gần đây tương ứng với khả năng giải quyết vấn đề của một mô hình, chẳng hạn như hiệu suất của nó trên các bài kiểm tra toán học.) Cả hai mô hình đều có thể thực hiện các tác vụ như mô tả hình ảnh hoặc đoạn video và trả lời các câu hỏi về các tập tin PDF và các yếu tố bên trong chúng, bao gồm văn bản quét và biểu đồ.

Để huấn luyện SmolVLM-256M và SmolVLM-500M, nhóm Hugging Face sử dụng The Cauldron, một bộ sưu tập 50 bộ dữ liệu hình ảnh và văn bản 'chất lượng cao', và Docmatix, một bộ quét tệp được kết hợp với chú thích chi tiết. Cả hai đều được tạo ra bởi đội M4 của Hugging Face, phát triển công nghệ AI đa phương tiện.

Bảng đánh giá so sánh các mô hình SmolVLM mới với các mô hình nhiều chức năng khác. Tín dụng ảnh:SmolVLM

Nhóm tuyên bố rằng cả SmolVLM-256M và SmolVLM-500M đều vượt xa một mô hình lớn hơn nhiều, Idefics 80B, trên bảng đánh giá bao gồm AI2D, một bài kiểm tra khả năng của các mô hình để phân tích các sơ đồ khoa học cấp tiểu học. SmolVLM-256M và SmolVLM-500M có sẵn trên web cũng như để tải xuống từ Hugging Face dưới giấy phép Apache 2.0, có nghĩa là chúng có thể được sử dụng mà không có hạn chế nào.

Các mô hình nhỏ như SmolVLM-256M và SmolVLM-500M có thể rẻ tiền và linh hoạt, nhưng cũng có thể chứa những lỗi không rõ ràng như trong các mô hình lớn hơn. Một nghiên cứu gần đây từ Google DeepMind, Microsoft Research và Viện nghiên cứu Mila ở Québec phát hiện rằng nhiều mô hình nhỏ thực hiện kém hơn dự kiến trên các nhiệm vụ tư duy phức tạp. Các nhà nghiên cứu phỏng đoán rằng điều này có thể do các mô hình nhỏ nhận ra các mẫu tầm thường trên bề mặt dữ liệu, nhưng gặp khó khăn trong việc áp dụng kiến thức đó trong ngữ cảnh mới.