Cuối tuần trước, OpenAI đã khiến giới truyền thông rúng động khi ra mắt Sora - mô hình A.I có khả năng biến đổi văn bản thành video. Trên thực tế, đây không phải là ứng dụng trí tuệ nhân tạo đầu tiên có khả năng làm điều này. Vậy lý do nào khiến Sora “gây bão” trên khắp các trang mạng xã hội những ngày qua?


“Chiếm spotlight” nhờ khả năng tạo video chất lượng cao


Vào tháng 4/2023, một công ty startup tại New York có tên Runway AI đã tiết lộ một công cụ cho phép người dùng tạo video từ văn bản. Công nghệ này có thể tái tạo những hình ảnh thông thường, đơn cử như “dòng sông tĩnh lặng trong rừng” hay “một con mèo đang ngủ trên tấm thảm”. Ngoài ra, ứng dụng cũng có thể tạo ra những video thú vị một cách kỳ lạ như “một con bò trong bữa tiệc sinh nhật” chẳng hạn.


Hình ảnh được cắt ra từ video A.I do phần mềm của Runway tạo ra


Người dùng có thể nhanh chóng tạo ra video chỉ bằng một nút bấm, thế nhưng nếu phân tích kỹ, các video này chỉ dài bốn giây, đồng thời bị giật và mờ. Tuy vậy, công nghệ này vẫn được đánh giá cao. Đây là dấu hiệu rõ ràng cho thấy công nghệ trí tuệ nhân tạo có tiềm năng phát triển mạnh mẽ trong lĩnh vực video. Bà Susan Bonser - Tác giả và Nhà xuất bản ở Pennsylvania, người đã thử nghiệm những phiên bản đầu tiên cho biết: “Ngày xưa, để tạo được những video như vậy, chúng ta phải có máy ảnh, đạo cụ, đầu tư tiền của và thời gian. Thế nhưng hiện nay chúng ta không cần phải có những điều đó nữa. Việc của chúng ta là ngồi xuống và tưởng tượng.”


Vào tháng 11/2023, Runway AI được định giá 1,5 tỷ USD, đồng thời nhận được sự ủng hộ của các nhà đầu tư lớn bao gồm Google, Nvidia và Salesforce của Alphabet. Đến tháng 12/2023, công ty tuyên bố mối quan hệ hợp tác với Getty Images nhằm mang đến nhiều nội dung A.I mang tính tổng quát hơn cho quảng cáo, truyền thông, thậm chí là cả Hollywood. 


Hình ảnh minh hoạ cho sự hợp tác giữa Runway và Getty Images


Ngay sau đó, đối thủ của Runway AI xuất hiện. OpenAI - công ty từng gây bão với chatbot ChatGPT - lại một lần nữa khiến tất cả mọi người ngỡ ngàng với một hệ thống tạo video tức thời, có khả năng biến các văn bản thành một video chất lượng cao như thể được cắt ra từ các bộ phim Hollywood. OpenAI gọi công cụ này là “Sora” - trong tiếng Nhật có nghĩa là “bầu trời”. Các nhà nghiên cứu đã chọn cái tên này bởi vì nó “gợi lên suy nghĩ về khả năng sáng tạo vô hạn”.


Công ty cũng cho biết Sora có thể tạo ra những khung cảnh phức tạp có nhiều nhân vật, với đa dạng chuyển động, các chi tiết chính xác về chủ đề và hậu cảnh. Các video clip do Sora tạo ra được đăng tải trên trang web của OpenAI rất đa dạng về phong cách và chủ đề, từ những cảnh quay bằng máy bay không người lái phía trên một khu chợ đông đúc, cho đến một sinh vật hoạt hình giống thỏ đang nhảy trong khu rừng. 



Một số điểm nổi bật của mô hình Sora:

  • Tạo video dài tối đa một phút với chất lượng hình ảnh cao
  • Tuân thủ sát sao mô tả văn bản của người dùng
  • Tạo cảnh phức tạp với nhiều nhân vật, chuyển động và chi tiết chính xác
  • Hiểu ngôn ngữ và diễn giải lời nhắc chính xác
  • Tạo biểu cảm của nhân vật hấp dẫn, sinh động
  • Có thể tạo nhiều cảnh quay trong một video

Ngoài ra, Sora còn có khả năng tạo video từ ảnh tĩnh, điền vào các khung hình bị thiếu trong video, kéo dài video hiện có.


Có thể nói, sự xuất hiện của Sora là một sự đe dọa đối với vị thế của Runway. Do đó, ngay sau khi OpenAI thông báo ra mắt Sora, ông Cristóbal Valenzuela - Giám đốc Điều hành của Runway đã tweet: “Game on” (tạm dịch: Trò chơi bắt đầu).


Bài tweet của Giám đốc Điều hành Runway


Sự ra đời của Sora khiến công chúng đặt ra câu hỏi: Công nghệ này sẽ tạo ra sức ảnh hưởng tiêu cực hay tích cực?


Trang Fortune cho rằng, Sora đã nâng cao vị thế của OpenAI trong ngành công nghiệp vốn đã có tính cạnh tranh cao như trí tuệ nhân tạo, qua đó báo trước những thay đổi gần như chắc chắn sẽ làm rung chuyển ngành công nghiệp giải trí và sáng tạo nội dung. 


Mục tiêu của OpenAI không gì khác là tạo ra trí tuệ nhân tạo tổng hợp, một phiên bản A.I có thể thực hiện hầu hết các nhiệm vụ ngang bằng hoặc tốt hơn con người. Ban đầu, không phải ai cũng tin rằng một công nghệ siêu trí tuệ như vậy có thể xuất hiện. Thế nhưng tốc độ phát triển nhanh chóng của A.I đã được thể hiện rõ qua hàng loạt sản phẩm mới. Chỉ 14 tháng trước, OpenAI đã thay đổi ngành công nghệ bằng cách tung ra một chatbot có thể làm thơ, viết luận văn và thực hiện các cuộc trò chuyện gần như không thể phân biệt được với cuộc trò chuyện với con người. 


Chatbot ChatGPT có thể làm thơ, viết luận văn,... thay cho con người


Và mới đây, OpenAI lại tiếp tục trình làng Sora. Dù có khả năng tạo video chất lượng cao chỉ từ văn bản, hiện nay công cụ này vẫn còn mắc nhiều lỗi. Điều này có thể khiến Sora tạo ra điều gì đó phi logic (chẳng hạn như một người chạy sai hướng trên máy chạy bộ, cảnh một người ăn bánh quy nhưng chiếc bánh không hề có vết cắn), biến đổi đối tượng theo những cách không tự nhiên,...


Nhiều chuyên gia cho rằng Sora có thể là nơi tạo ra các thông tin sai lệch một cách nhanh chóng và dễ dàng, từ đó khiến việc phân biệt thông tin thật - giả trên Internet ngày càng trở nên khó khăn hơn. Sự xuất hiện của mô hình này hứa hẹn sẽ mang đến ảnh hưởng lớn đến ngành công nghiệp điện ảnh và đặt ra những vấn đề về deepfake (công nghệ tạo video giả mạo). 



Ông Basile Simon - Cựu nhà báo và hiện tại là nhà nghiên cứu của Đại học Stanford cho biết đã có “một bước nhảy vọt đáng sợ trong năm ngoái” khi nói đến A.I. Do đó, ông lo sợ những công cụ như vậy có thể bị lạm dụng trong các cuộc bầu cử và lo ngại công chúng sẽ “không còn biết phải tin vào điều gì nữa”.


Reid Southen - Nghệ sĩ ý tưởng phim ở Michigan bày tỏ: “Vào năm 2022, tất cả chúng tôi đều cười khi Midjourney lần đầu tiên ra mắt và nói: 'Ồ, thật dễ thương'. Thế nhưng bây giờ mọi người lại đang mất việc vì Midjourney.”


OpenAI từ chối cho biết Sora đã học được bao nhiêu video, những video này đến từ đâu. Thay vào đó, công ty chỉ cho biết dữ liệu đào tạo Sora là những nội dung đã được cấp phép hoặc có sẵn công khai. Theo The New York Times, công ty tiết lộ rất ít về dữ liệu được sử dụng để đào tạo Sora, rất có thể là vì họ muốn duy trì lợi thế so với các đối thủ cạnh tranh.


Trong một cuộc phỏng vấn, OpenAI chia sẻ rằng công ty vẫn chưa phát hành Sora ra công chúng là vì họ vẫn đang nỗ lực tìm hiểu những rủi ro và nguy hiểm của hệ thống. Thay vào đó, OpenAI đang chia sẻ công nghệ này với một nhóm nhỏ các học giả và nhà nghiên cứu khác để phân tích về mặt lợi/hại của Sora. Hiện vẫn chưa rõ khi nào Sora sẽ có sẵn cho công chúng hoặc liệu nó có miễn phí cho người dùng hay không.


Kim Ngọc