Kuaishou "Khiêu chiến" OpenAI với Mô Hình Chuyển Văn Bản Thành Video Kling AI

Admin / July 14, 2024

Kuaishou, nền tảng video ngắn nổi tiếng của Trung Quốc (tương tự TikTok), vừa giới thiệu Kling, một mô hình chuyển văn bản thành video đầy ấn tượng. Những video được tạo bởi Kling đang gây sốt trên mạng xã hội với khả năng tái hiện chuyển động chân thực, tuân thủ các quy luật vật lý và tính sáng tạo. Vậy, điều gì tạo nên sức hút cho Kling, và liệu nó có đủ sức “khiêu chiến” Sora của OpenAI? Hãy cùng tìm hiểu!

Mặc dù Kuaishou chưa tiết lộ nhiều chi tiết kỹ thuật về mô hình, nhưng giống như Sora, Kling sở hữu những tính năng vượt trội so với các đối thủ khác. Điển hình là cơ chế chú ý không gian-thời gian 3D, cho phép Kling mô hình hóa hiệu quả các chuyển động phức tạp, tạo ra sự mượt mà và tự nhiên cho nội dung được tạo ra.

Khả năng mô phỏng vật lý thế giới thực của Kling cũng rất đáng kinh ngạc. Các video minh họa cho thấy sự tương tác chân thực với chất lỏng, phản xạ và bóng đổ, tất cả đều được thể hiện với độ trung thực cao.

Không chỉ dừng lại ở việc tạo ra nội dung chân thực, Kling còn kết hợp các khái niệm khác nhau để kiến tạo nên những khung cảnh đầy ấn tượng. Bằng cách thấu hiểu sâu sắc ngữ nghĩa văn bản và sử dụng kiến trúc máy biến đổi khuếch tán, Kling biến những ý tưởng tưởng tượng thành hình ảnh sống động. Hãy chiêm ngưỡng một số ví dụ:
  • Yêu cầu: Quay cận cảnh một ngọn núi lửa phun trào trong tách cà phê.
  • Yêu cầu: Một chú mèo trắng đang lái xe ô tô, băng qua con phố đông đúc ở trung tâm thành phố.
  • Yêu cầu: Một chú thỏ trắng đeo kính, ngồi trên ghế cà phê, đọc báo với tách cà phê nóng trên bàn.

Về chất lượng, Kling có khả năng tạo video 1080p với thời lượng lên đến 2 phút ở tốc độ 30 khung hình/giây. Mô hình hỗ trợ nhiều tỷ lệ khung hình linh hoạt, phù hợp với nhu cầu sáng tạo nội dung đa dạng, đặc biệt là trong lĩnh vực video ngắn mà Kuaishou đang dẫn đầu. Hơn nữa, Kling sử dụng 3D VAE (Variational Autoencoder) để mã hóa và giải mã video, nâng cao chi tiết hình ảnh và mang đến trải nghiệm xem mượt mà.

Ứng dụng Kuaiying của Kuaishou đã cho phép các nhà sáng tạo nội dung tham gia thử nghiệm bản beta của tính năng tạo video từ văn bản mới. Công ty cũng đang phát triển một số tính năng dựa trên nền tảng Kling:
  • AI Dance King: Tính năng này, hiện đã có trên ứng dụng Kuaishou và Kuaiying, cho phép người dùng tải lên ảnh toàn thân và “biến” người trong ảnh thành vũ công thực thụ với những điệu nhảy theo nhạc. Tính năng này sử dụng mô hình tạo video của Kling cùng với công nghệ tái tạo khuôn mặt 3D độc quyền và mô-đun ổn định và chuyển hướng nền để tạo ra các video nhảy múa sống động như thật.
  • AI Sing and Dance: Dự kiến ra mắt trong tương lai gần, tính năng này là phiên bản nâng cấp của AI Dance King, cho phép tạo video âm nhạc với nhân vật không chỉ nhảy mà còn hát theo lời bài hát với biểu cảm khuôn mặt và chuyển động cơ thể được điều khiển chỉ bằng một hình ảnh đầu vào.
  • Image-to-Video: Kuaishou đang chuẩn bị ra mắt tính năng chuyển ảnh tĩnh thành video trong ứng dụng Kuaiying, cho phép người dùng tạo video từ ảnh tĩnh bằng cách sử dụng khả năng của Kling.
Không thể phủ nhận, Kling là một thành tựu ấn tượng, đại diện cho mô hình chuyển văn bản thành video tiên tiến nhất đến từ Trung Quốc cho đến nay. Khả năng tạo chuyển động chân thực, mô phỏng các thuộc tính vật lý và hiện thực hóa những ý tưởng sáng tạo của Kling thực sự đáng kinh ngạc. Nỗ lực tích hợp khả năng của Kling vào nền tảng và khám phá các ứng dụng sáng tạo của Kuaishou cho thấy cam kết của công ty trong việc thúc đẩy ranh giới của nội dung do AI tạo ra.

Tuy nhiên, khi so sánh với Sora của OpenAI, rõ ràng mô hình của Mỹ vẫn đang giữ ngôi vương. Mặc dù Kling vượt trội ở nhiều khía cạnh, nhưng video do Sora tạo ra lại thể hiện đẳng cấp vô song về độ chân thực và chi tiết. Những sắc thái tinh tế trong biểu cảm khuôn mặt, cách ánh sáng tương tác với vật thể và sự kết hợp hài hòa tổng thể của các khung cảnh được tạo ra đã tạo nên sự khác biệt cho Sora. Mô hình của OpenAI dường như có khả năng hiểu sâu hơn về thế giới, cho phép nó tạo ra những video không chỉ ấn tượng về mặt hình ảnh mà còn mang nhiều ý nghĩa ngữ nghĩa hơn.

Điều này không có nghĩa là hạ thấp thành tựu của Kling, mà là để thấy rõ tốc độ phát triển chóng mặt của lĩnh vực này. Khi các công ty như Kuaishou tiếp tục đầu tư vào nghiên cứu và phát triển, chúng ta có thể mong đợi những mô hình ấn tượng hơn nữa sẽ xuất hiện từ Trung Quốc và trên toàn thế giới