Công ty công nghệ ShengShu - AI và Đại học Thanh Hoa của Trung Quốc hôm 27/4 đã cho ra mắt mô hình trí tuệ nhân tạo (AI) chuyển văn bản thành video mang tên Vidu. Đây được cho là mô hình đầu tiên của Trung Quốc tương tự Sora, một mô hình chuyển văn bản thành video gây tiếng vang lớn của OpenAI (công ty mẹ của ChatGPT) vừa trình làng hồi tháng 2.

Mô hình AI mang tên Vidu này được ra mắt tại Diễn đàn Trung Quan Thôn (Zhongguancun) tổ chức ở Thủ đô Bắc Kinh. Vidu được thiết lập dựa trên cấu ​​trúc mô hình chuyển đổi hình ảnh tự phát triển có tên Universal Vision Transformer (U-ViT), tích hợp 2 tính năng chuyển văn bản Diffusion và Transformer thành video, với việc có thể tạo ra videoclip 1080P dài 16 giây chỉ bằng 1 cú nhấp chuột.

Mô hình chuyển văn bản thành video bằng AI đầu tiên này của Trung Quốc xuất hiện khoảng 2 tháng sau khi Sora, một mô hình tương tự do công ty OpenAI có trụ sở tại Mỹ phát hành và gây được tiếng vang lớn trên thế giới.

Ông Chu Quân, Giáo sư Đại học Thanh Hoa và là nhà khoa học trưởng của ShengShu-AI cho biết, Vidu có thể trực tiếp tạo ra các video chất lượng cao dài tối đa 16 giây từ các mô tả văn bản được cung cấp. Ngoài đột phá về thời lượng, Vidu còn đạt được những cải tiến đáng kể về hiệu ứng video, chủ yếu thể hiện ở việc mô phỏng thế giới vật lý thực, ngôn ngữ đa ống kính, tính nhất quán cao về không gian-thời gian và sự hiểu biết về các yếu tố Trung Quốc.

Hai cường quốc Mỹ và Trung Quốc hiện đang cạnh tranh nhau về nhiều mặt liên quan đến trí tuệ nhân tạo, từ công nghệ để thiết kế phần cứng và phần mềm AI, cho đến nguyên liệu thô cung cấp năng lượng cho hệ thống AI.

Các đây 7 năm, tức năm 2017, Trung Quốc đã công bố chương trình phát triển đầy tham vọng với mục tiêu trở thành “trung tâm đổi mới AI” toàn cầu vào năm 2030.