Công ty khởi nghiệp video AI tổng hợp Tavus gây quỹ 18 triệu USD để mang sao chép khuôn mặt và giọng nói vào bất kỳ ứng dụng nào

Tavus, một công ty khởi nghiệp AI tổng hợp ba năm tuổi giúp các công ty tạo ra bản sao kỹ thuật số của cá nhân cho các chiến dịch video cá nhân hóa tự động, đã xác nhận một khoản tiền mới là 18 triệu USD trong quỹ gây quỹ và tiết lộ rằng đang mở nền tảng của mình cho bên thứ ba tích hợp phần mềm của họ với công nghệ của công ty.

Báo cáo đã xuất hiện vào tháng 8 rằng Tavus đã gây quỹ khoảng 18 triệu USD, nhưng chi tiết không rõ ràng. Công ty hiện đã xác nhận với TechCrunch rằng họ đã thực sự gây quỹ 18 triệu USD trong một vòng A do Scale Venture Partners dẫn đầu - một VC giai đoạn sớm trước đây đã hỗ trợ như Box, HubSpot và DocuSign. Các nhà đầu tư đáng chú ý khác bao gồm Sequoia, đã dẫn đầu vòng gây quỹ 6,1 triệu USD của Tavus năm ngoái, tham gia cùng Y Combinator (YC) và HubSpot.

Tavus sử dụng AI tổng hợp để tạo video cá nhân với sao chép giọng nói và khuôn mặt

Video là trung tâm

Phong trào AI tổng hợp được minh họa tốt nhất bởi các công cụ tìm kiếm dựa trên văn bản như ChatGPT và các mô hình văn bản thành hình ảnh như DALL-E, mà OpenAI đang kết hợp thành một nền tảng chung. Nhưng nếu nhìn lại vài tháng qua, AI tổng hợp có thể đang ở bước ngoặt nhỏ khác, với video đang giữ trung tâm sân khấu.

OpenAI gần đây đã ra mắt Sora, một mô hình văn bản thành video có thể biến đổi ngành sáng tạo theo cách chúng ta biết. Nhưng đó không phải là một vài người chơi duy nhất, khi các ông lớn công nghệ như Google cũng đang làm việc vào các công cụ tương tự từ nhiều năm qua, chưa kể đến một loạt các công ty khởi nghiệp đã gây quỹ khá lớn trong năm qua cho các sáng tạo khác nhau về cách mà AI tổng hợp có thể giao cắt với video.

Tavus, trong phần của mình, làm việc với các khách hàng để tạo bản sao của cá nhân thông qua sao chép giọng nói và khuôn mặt. Ý tưởng là các nhóm bán hàng và tiếp thị có thể sử dụng Tavus để gửi video cá nhân cho khách hàng tiềm năng theo quy mô, hoặc có thể một nhóm sản phẩm tạo video hướng dẫn cá nhân hóa cho việc hướng dẫn khách hàng mới - tất cả thông qua các lời gợi ý dựa trên văn bản đơn giản sử dụng bản sao số phức tạp đã tạo trước đó. Và bằng cách tích hợp Tavus với các hệ thống của bên thứ ba như Salesforce hoặc Mailchimp, các công ty có thể tự động hóa phần lớn điều này - ví dụ, một khách hàng hoàn tất một biểu mẫu trực tuyến yêu cầu thêm thông tin về một sản phẩm có thể được gửi video ngay lập tức, với một nhân viên bán hàng đặt tên cho khách hàng và giải thích các bước tiếp theo.

Tavus đã quản lý được một số khách hàng có tên tuổi lớn trong giai đoạn ngắn của mình cho đến nay, bao gồm Salesforce và Meta của Facebook, mà cộng sự sáng lập và CEO Hassaan Raza nói rằng họ đang sử dụng nền tảng để tăng doanh số bán hàng cho khách hàng B2B của họ thông qua video demo cá nhân.

Tavus như một nền tảng

Cho đến nay, Tavus đã được cung cấp thông qua một ứng dụng SaaS, thông qua đó các khách hàng tạo các mẫu video AI của riêng họ. Quy trình nhập cảnh yêu cầu một cá nhân, như giám đốc điều hành hoặc giám đốc bán hàng, để quay một video 15 phút dựa trên kịch bản do Tavus cung cấp.

Việc sao chép của Tavus đang hoạt động. Ảnh từ: Tavus

Sau đó được sử dụng để huấn luyện AI, sau đó, người dùng đi đến trình soạn thảo web và chọn các phần của video mà họ muốn cá nhân hóa bằng cách xác định các biến - như vị trí, tên cấp cao, công ty hoặc sản phẩm. Bằng cách kết nối Tavus vào hệ thống CRM của họ, các công ty có thể điều chỉnh mỗi biến này tùy chỉnh cho một đoạn khúc khách hàng cụ thể, chẳng hạn như những người đã thể hiện sự quan tâm đến một sản phẩm cụ thể.

Chỉnh sửa biến. Ảnh từ: Tavus

Các công ty có thể tạo ra hàng trăm bản sao này với nhiều cá nhân tham gia, hoàn toàn khác nhau với nhiều nền tảng khác nhau cho các thị trường tiềm năng.

Thông qua trình soạn thảo trong ứng dụng, có thể tạo ra bất kỳ số lượng kịch bản khác nào để gắn vào mỗi trường hợp sử dụng - mà không cần phải quay lại bất kỳ video ban đầu nào.

Các avatar khác nhau của Tavus. Ảnh từ: Tavus

Mặc dù sản phẩm SaaS cốt lõi này không biến mất, Tavus đã hôm nay gỡ rào cản ra một phiên bản mới mạnh mẽ của công nghệ của mình cùng với phần đầu tiên của một bộ APIs cho phép bên thứ ba tích hợp Tavus vào ứng dụng của họ.

Sao chép

Mặt tiếp theo của nền tảng phát triển mới của Tavus là "API sao chép" của họ, với mục tiêu tạo ra các bản sao kỹ thuật số "chân thực" kèm theo sinh ra video từ văn bản. Với điều này, một công ty có thể sao chép một người (ví dụ; giám đốc tiếp thị hoặc CEO) bằng cách sử dụng một mô hình chủ quan mới được tạo ra bởi Tavus gọi là "Phoenix," dựa trên một phương pháp học sâu gọi là neural radiance field (NeRF). Điều này có thể tạo ra một cấu trúc 3D của một người từ hình ảnh 2D chỉ trong vài phút.

“Điều quan trọng là cho phép bạn tạo ra toàn bộ video chỉ với hai phút dữ liệu đào tạo, điều này là một bước tiến lớn từ cách chúng tôi trước đây đã làm cá nhân hóa ở quy mô,” Raza cho biết với TechCrunch. “Và vì vậy bây giờ bạn chỉ cần ghi âm hai phút dữ liệu đào tạo và nó sẽ tạo ra một bản sao đầy đủ của bạn. Và khi bạn có bản sao, bạn có thể tạo ra bất kỳ số lượng video nào mà bạn muốn - từ một, hai hoặc một ngàn kịch bản.”

Mô phỏng cho thấy cách Tavus ánh xạ khuôn mặt người dùng để tạo ra một bản sao chân thực. Ảnh từ: Tavus
Kết quả: Mô hình Phoenix của Tavus tạo ra một mô hình 3D bằng cách sử dụng đầu vào video 2D qua NeRF. Ảnh từ: Tavus

API sao chép đầu tiên trông về chức năng toàn bộ của mô hình Phoenix và ghi lại sự chuyển động của khuôn mặt của một cá nhân, bao gồm má, mũi, lông mày và môi.

“Chuyển động toàn bộ khuôn mặt đảm bảo sự chân thực, tự nhiên và chất lượng - khi bạn nói, khuôn mặt của bạn biểu lộ cảm xúc vượt ra ngoài việc môi chỉ di chuyển,” Raza giải thích. “Nếu bạn muốn tạo ra toàn bộ video từ một kịch bản - nơi bạn đang nói, một cái trông tự nhiên và chất lượng vô cùng - bạn sẽ muốn sử dụng API sao chép.”

Đồng thời, Tavus cũng đang phát triển một số API bổ sung, bao gồm một API riêng biệt cho lip-syncing, một cho phụ đề, và một cho chạy chiến dịch video cá nhân hàng loạt.

API lip-syncing sẽ có một "chi phí thấp" hơn, theo Raza, và phù hợp với các tình huống nơi "một mức độ chất lượng và chân thực cao không cần thiết.”

API phụ đề, trong khi đó, cũng sử dụng mô hình lip-syncing nhưng bao gồm cả sao chép giọng nói đa ngôn ngữ, nghĩa là người dùng có thể gửi các chiến dịch video bằng bất kỳ số lượng ngôn ngữ nào bằng giọng nói của họ. Trong trường hợp này, vì hầu hết phần video sẽ giữ nguyên, API cho phép thay thế đơn giản của các phần di chuyển môi để phù hợp với các âm thanh khác nhau từ miệng của người sử dụng. Điều này có thể hữu ích cho các nhà sản xuất phần mềm chỉnh sửa video, ví dụ, nơi họ muốn cho phép người dùng thêm lip-syncing, chỉnh sửa, và phụ đề vào video của họ.

Và API chiến dịch video cơ bản chỉ nén bọc API sao chép cùng một loạt công cụ bổ sung - như hosting, ánh xạ biến, hình ảnh xem trước và phân tích - dành cho những ai đang muốn ra mắt các chiến dịch video hàng loạt ở quy mô lớn.

“Chúng tôi đang mang đến khả năng người phát triển nào cung cấp một trải nghiệm chiến dịch video từ đầu đến cuối ngay trong giải pháp của họ,” Raza nói. “Trong khi API sao chép và lip-syncing hơn là 'mô hình-dưới-dạng-dịch-vụ,' API chiến dịch cung cấp cho bạn các công cụ xây dựng nền tảng chiến dịch video AI một cách dễ dàng.”

Raza giữ bí mật về người dùng sơ bộ của nền tảng Tavus là ai, nhưng anh ta nói rằng họ đang “làm việc với một trong những nền tảng video lớn nhất” cho sự kết nối khách hàng. “Họ muốn đưa điều này đến hàng triệu khách hàng của họ đang sử dụng nền tảng của họ để tạo video hàng ngày,” Raza nói.

Thách thức Deepfake

Có vẻ như các nền tảng như Tavus dễ bị lạm dụng - cuối cùng, điều gì ngăn cản bất kỳ ai đó tải lên một video tồn tại trước đó để tạo ra một bản sao kỹ thuật số? Deepfakes thực sự là một vấn đề ngày càng phát triển trong phong trào AI nổi bật, nhưng Raza nói rằ