Làn sóng AI tạo video từ văn bản hoặc hình ảnh đã được Sora của OpenAI khởi xướng từ tháng 2/2024. Tuy nhiên, phải đến nửa đầu năm 2025, thị trường này mới thực sự bùng nổ khi hàng loạt công cụ mới được giới thiệu, cùng lúc các nền tảng hiện có cũng được nâng cấp đáng kể về tính năng và chất lượng đầu ra. 


Kể từ đầu năm nay, nhiều tên tuổi lớn trong lĩnh vực AI đã lần lượt tung ra các công nghệ tạo video thế hệ mới. Tất cả đều hướng đến khả năng tạo video có độ chân thực cao, chuyển động mượt mà và khả năng hiểu ngữ cảnh vượt trội. Những đột phá này không chỉ làm tăng tốc độ ứng dụng AI trong lĩnh vực sáng tạo nội dung, mà còn định hình lại cách các thương hiệu, nhà làm phim và nhà sáng tạo tiếp cận quá trình sản xuất video. 


Cùng khám phá những mô hình AI tạo video mới ra mắt gần đây qua bài viết sau!


1. Midjourney V1: Hiện thực hoá ý tưởng nhanh chóng chỉ sau vài câu lệnh đơn giản


Ngày 19/06, Midjourney, cái tên quen thuộc trong lĩnh vực AI tạo hình ảnh, đã chính thức đánh dấu bước tiến mới khi ra mắt mô hình V1, mở rộng năng lực sáng tạo từ ảnh tĩnh sang video. Đây được xem là động thái chiến lược của Midjourney nhằm tham gia vào cuộc cạnh tranh đang “nóng” dần lên trong mảng video do AI tạo ra. 





V1 là mô hình chuyển đổi từ hình ảnh sang video (Image-to-video). Người dùng có thể tải lên hình ảnh có sẵn hoặc sử dụng chính các hình ảnh được tạo ra từ mô hình trước đó của Midjourney. Sau đó, V1 sẽ tạo ra 4 đoạn video, mỗi đoạn dài 5 giây, dựa trên nội dung gốc. Giống như các phiên bản tạo ảnh trước đây, V1 hiện chỉ hoạt động thông qua Discord và nền tảng web. 


Một trong những điểm nổi bật của V1 là khả năng tuỳ chỉnh linh hoạt. Người dùng có thể chọn chế độ tự động, để AI tự quyết định hướng chuyển động cho hình ảnh, hoặc sử dụng chế độ thủ công để mô tả bằng văn bản những hoạt ảnh cụ thể mà họ muốn đưa vào video. 



Bên cạnh đó, V1 còn cho phép điều chỉnh mức độ chuyển động của cả máy quay và chủ thể trong khung hình thông qua hai tuỳ chọn, là “Low-motion” (Chuyển động thấp) hoặc “High-motion” (Chuyển động cao). Mặc dù video ban đầu chỉ có độ dài 5 giây, người dùng có thể mở rộng thời lượng bằng cách sử dụng tính năng tạo thêm, tối đa 4 lần, mỗi lần 4 giây. Như vậy, một video có thể kéo dài tổng cộng 21 giây. 


Theo đánh giá của TechCrunch, V1 cho thấy tiềm năng sáng tạo đáng kể, dễ dàng nắm bắt được ý tưởng của người dùng chỉ sau một vài câu lệnh. Tuy nhiên, tốc độ xử lý video hiện vẫn còn hạn chế. Ngoài ra, Midjourney cho biết chi phí tạo video hiện tại cao hơn 8 lần so với tạo hình ảnh thông thường. Điều này đồng nghĩa với việc người dùng sẽ nhanh chóng tiêu tốn lượt sử dụng hàng tháng nếu tạo nhiều video. 


2. ByteDance Seedance 1.0: Tạo video chất lượng cao mà không cần đến câu lệnh chuyên sâu


Trước đó một ngày, ByteDance, công ty mẹ của TikTokDouyin, đã giới thiệu Seedance 1.0, công cụ trí tuệ nhân tạo (AI) có khả năng tạo video từ văn bản và hình ảnh. Đây được xem là cột mốc quan trọng đánh dấu bước tiến mới của tập đoàn công nghệ Trung Quốc trong cuộc cạnh tranh phát triển nền tảng sáng tạo nội dung ứng dụng AI. 


Theo đó, công cụ được thiết kế để biến các chỉ dẫn đơn giản thành video chất lượng cao, mà không cần đến kịch bản phức tạp hay câu lệnh chuyên sâu. Điểm nổi bật của Seedance 1.0 không chỉ nằm ở khả năng xử lý từng cảnh quay riêng lẻ, mà còn ở khả năng chuyển cảnh mượt mà, phối hợp nhiều góc quay và giữ được tính nhất quan của nhân vật xuyên suốt toàn bộ video.



ByteDance khẳng định Seedance 1.0 có nhiều ưu điểm vượt trội hơn các công cụ tạo video AI hiện có, đặc biệt ở khả năng bám sát ý tưởng đầu vào, chất lượng hình ảnh sắc nét và chuyển động nhân vật tự nhiên. 


Về mặt kỹ thuật, ByteDance tiết lộ Seedance 1.0 được huấn luyện trên một kho dữ liệu video khổng lồ, thu thập từ các nguồn công khai và có bản quyền. Toàn bộ dữ liệu huấn luyện đều trải qua quy trình kiểm duyệt nghiêm nhặt nhằm loại bỏ các nội dung bạo lực, nhạy cảm. 





Tuy hiện tại, Seedance 1.0 chỉ hỗ trợ tạo video có độ dài tối đa 5 giây, ghi điểm nhờ tốc độ xử lý nhanh ấn tượng, chỉ mất 41 giây để xuất video với độ phân giả Full HD. Dù vậy, một hạn chế là công cụ này vẫn chưa tích hợp khả năng tạo và lồng ghép âm thanh tự động như các đối thủ. 


Trong kế hoạch sắp tới, ByteDance dự kiến sẽ sớm phát hành Seedance 1.0 cho cả người dùng phổ thông và nhà sáng tạo nội dung chuyên nghiệp, nhằm phục vụ nhu cầu sản xuất video quảng cáo cũng như nội dung ngắn trên mạng xã hội. 


3. Google Veo 3: Tích hợp cả hiệu ứng âm thanh và lời thoại nhân vật vào video


Veo là công cụ AI do Google phát triển, cho phép tạo video từ câu lệnh (prompt). Với phiên bản mới nhất là Veo 3, ra mắt vào tháng 5 năm nay, công cụ này được bổ sung khả năng tích hợp âm thanh vào video, bao gồm cả lời thoại giữa các nhân vật và hiệu ứng âm thanh như tiếng động vật. Theo CNBC, đây là điểm nâng cấp nổi bật giúp Veo 3 khác biệt so với nhiều đối thủ, vốn chỉ tạo ra video không âm thanh hoặc chỉ có nền nhạc. 


Người dùng có thể trải nghiệm Veo 3 độc lập hoặc thông qua ứng dụng làm phim AI mang tên Flow. Ứng dụng này kết hợp công nghệ tạo ảnh từ văn bản Imagen và mô hình ngôn ngữ Gemini để dựng clip dài 8 giây từ lời nhắc, hình ảnh hoặc video. Ngoài ra, Flow còn đi kèm bộ công cụ xây dựng cảnh, cho phép ghép nối các đoạn phim ngắn thành một sản phẩm liền mạch và có chỉnh sửa tinh tế. 


Để sử dụng Veo 3, người dùng cần đăng ký gói Goolge AI Ultra trên trang web của Google, với mức phí 249,99 USD (khoảng 6,5 triệu đồng) mỗi tháng. Trong 3 tháng đầu, người dùng được hưởng ưu đãi 50%, chỉ còn 124,99 USD (khoảng 3,25 triệu đồng). Gói này cung cấp 12.500 token (đơn vị tính năng lực sử dụng công cụ), trong đó, một video dài 8 giây tiêu tốn khoảng 100 token. 


Theo đánh giá từ cộng đồng công nghệ, Veo 3 sở hữu nhiều ưu điểm vượt trội so với các mô hình tạo video hiện nay. Veo 3 không chỉ tạo ra phim nhanh mà còn đồng bộ âm thanh, lời thoại, khung hình và nhân vật một cách chi tiết và mượt mà. Đặc biệt, công cụ này duy trì sự nhất quán về nhân vật khi kết hợp nhiều cảnh quay. Đây là điểm yếu mà các mô hình trước đó thường gặp phải. 


Mọi nội dung do Veo 3 tạo ra đều được gắn nhãn bằng watermark SynthID, công nghệ nhận diện AI của Google Deepmind. Bên cạnh đó, hãng cũng cung cấp bộ hướng dẫn sử dụng an toàn nhằm khuyến khích cộng đồng khai thác công nghệ AI một cách có trách nhiệm và minh bạch. 


4. Runway Gen-4: Duy trì phong cách thị giác xuyên suốt từng khung hình 


Tháng 4 năm nay, Runway, đối thủ của OpenAI, đã chính thức ra mắt Gen-4, mô hình AI tạo video đầu tiên của hãng. Theo Runway, Gen-4 có khả năng tái hiện chính xác nhân vật, địa điểm và bối cảnh, đồng thời hỗ trợ người dùng tạo ra các đoạn video liền mạch bằng cách ghép các cảnh quay từ nhiều góc nhìn và vị trí khác nhau. Đặc biệt, công cụ này có thể duy trì phong cách thị giác, tâm trạng và các yếu tố điện ảnh xuyên suốt từng khung hình. 



Hiện tại, Gen-4 đang được triển khai cho người dùng trả phí và doanh nghiệp. Người dùng có thể truy cập nền tảng của Runway, tạo nội dung bằng câu lệnh văn bản hoặc hình ảnh tham chiếu, sau đó mô tả bố cục video mong muốn để hệ thống xử lý và dựng phim tự động. 


Dù Runway chưa tiết lộ chi tiết về quá trình huấn luyện Gen-4, hãng đã đăng tải loạt video dài 60 - 100 giây do AI thực hiện, với đa dạng thể loại, từ người thật đóng cho đến hoạt hình. Một ví dụ đáng chú ý là video về một người phụ nữ giữ nguyên diện mạo trong loạt cảnh quay với điều kiện ánh sáng và bối cảnh thay đổi liên tục. 



Theo đánh giá từ The Verge, các video do Gen-4 tạo ra thể hiện mức độ nhất quán và liền mạch vượt trội so với nhiều mô hình hiện tại, bao gồm cả Sora của OpenAI. 


Việc ra mắt Gen-4 diễn ra một năm sau khi Runway giới thiệu Gen 3 Alpha - phiên bản từng gây chú ý vì cho phép tạo video dài hơn 1 phút. Tuy nhiên, Gen 3 Alpha cũng từng vướng tranh cãi do bị nghi ngờ sử dụng dữ liệu huấn luyện từ hàng nghìn video trên YouTube và các kho phim mà không có sự cho phép rõ ràng từ chủ sở hữu bản quyền. 


5. Kuaishou Kling AI 2.0: Hỗ trợ chuyển động mượt mà cùng khả năng kiểm soát chi tiết


Tháng 2/2025, Kuaishou Technology, “gã khổng lồ” video ngắn đến từ Trung Quốc, đã tham gia vào cuộc đua phát triển mô hình tạo video bằng AI. Cụ thể, hãng đã công bố phiên bản nâng cấp Kling AI 2.0, được quảng bá là công cụ tạo video AI mạnh nhất hiện nay. 




Theo ông Gai Kun, Phó Chủ tịch Cấp cao của Kuaishou, kể từ khi được giới thiệu lần đầu vào giữa năm 2024, mô hình Kling đã thu hút hơn 22 triệu người dùng toàn cầu, tạo ra hơn 168 triệu video và 344 triệu hình ảnh. Kuaishou hiện đang nằm trong nhóm các công ty công nghệ Trung Quốc tích cực chạy đua với những tên tuổi lớn như ByteDace hay Alibaba Group để phát triển các nền tảng AI có khả năng sản xuất video cạnh tranh trực tiếp với các đối thủ khác. 


Phiên bản nâng cấp Kling AI 2.0 mang đến những cải tiến đáng kể trong khả năng làm theo chỉ dẫn, hiểu ngữ cảnh, chất lượng hình ảnh và chuyển động, cũng như tăng cường cảm giác chận thực và tính thẩm mỹ cho các đoạn phim được tạo ra. Một trong những tính năng nổi bật là hỗ trợ phạm vi chuyển động rộng hơn cùng khả năng kiểm soát chi tiết, giúp sản phẩm đầu ra trở nên sống động hơn. 



Hiện tại, Kling AI 2.0 đã chính thức được phát hành trên nền tảng trực tuyến của Kuaishou. Khác với các chatbot AI tại Trung Quốc vốn thường miễn phí, công cụ video AI như Kling hoạt động theo mô hình Freemium, cho phép dùng thử một số tính năng cơ bản và yêu cầu người dùng trả phí để mở khoá các chức năng nâng cao hơn. 


Như Quỳnh


Subscribe Newsletter của Advertising Vietnam để theo dõi nhiều tin tức hấp dẫn về ngành quảng cáo.