Нейросеть «Сбера» научилась генерировать анимационные видеоролики по текстовому описанию

В нейросети от «Сбера» Kandinsky 2.2 появилась возможность создавать

видеоролики в режиме анимации. По одному текстовому описанию генерируется

четырехсекундное видео c выбранным эффектом с частотой 24 кадра в секунду и

разрешением 640x640 пикселей. Синтез одной секунды видео в среднем занимает

около 20 секунд, сообщила пресс-служба компании.

Для того чтобы сгенерировать такое видео, необходимо описать текстом то, что

хочется увидеть. Далее бот предложит на выбор 16 вариантов анимации сцены, а

после этого нейросеть сгенерирует анимированный видеоролик. Также доступна

генерация составных сцен: пользователь может ввести несколько текстовых

описаний (до трех), затем выбрать для каждого свою механику анимации, а после

этого модель создаст «мини-фильм».

Сейчас генерация анимационных видеороликов работает в тестовом режиме и

доступна «самым активным пользователям Kandinsky 2.2», которые должны получить

приглашение в ближайшее время. До конца года доступ к нейросети откроется для

всех.

В основе для синтеза видео лежит модель генерации изображений по текстовым

описаниям Kandinsky 2.2. Для расширения ее возможностей были реализованы разные

виды анимации изображений, это позволило перемещать объекты, приближать,

отдалять их и оживлять статику. Режим анимации работает с помощью функции

image2image (перерисовка изображения по текстовому описанию) и

inpainting/outpainting (дорисовка части изображения внутри и за его пределами),

которые уже были реализованы в базовой модели.

В июле 2023 г. «Сбер»

представил новую версию нейросети Kandinsky 2.2, которая

позволяет создавать фотореалистичные изображения с более высоким

разрешением и изменять соотношение сторон при генерации.

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов

AdIndex