В нейросети от «Сбера» Kandinsky 2.2 появилась возможность создавать
видеоролики в режиме анимации. По одному текстовому описанию генерируется
четырехсекундное видео c выбранным эффектом с частотой 24 кадра в секунду и
разрешением 640x640 пикселей. Синтез одной секунды видео в среднем занимает
около 20 секунд, сообщила пресс-служба компании.
Для того чтобы сгенерировать такое видео, необходимо описать текстом то, что
хочется увидеть. Далее бот предложит на выбор 16 вариантов анимации сцены, а
после этого нейросеть сгенерирует анимированный видеоролик. Также доступна
генерация составных сцен: пользователь может ввести несколько текстовых
описаний (до трех), затем выбрать для каждого свою механику анимации, а после
этого модель создаст «мини-фильм».
Сейчас генерация анимационных видеороликов работает в тестовом режиме и
доступна «самым активным пользователям Kandinsky 2.2», которые должны получить
приглашение в ближайшее время. До конца года доступ к нейросети откроется для
всех.
В основе для синтеза видео лежит модель генерации изображений по текстовым
описаниям Kandinsky 2.2. Для расширения ее возможностей были реализованы разные
виды анимации изображений, это позволило перемещать объекты, приближать,
отдалять их и оживлять статику. Режим анимации работает с помощью функции
image2image (перерисовка изображения по текстовому описанию) и
inpainting/outpainting (дорисовка части изображения внутри и за его пределами),
которые уже были реализованы в базовой модели.
В июле 2023 г. «Сбер»
представил новую версию нейросети Kandinsky 2.2, которая
позволяет создавать фотореалистичные изображения с более высоким
разрешением и изменять соотношение сторон при генерации.
Свежие комментарии