Представлена система синтеза видео Stable Video Diffusion

22.11.2023 20:54

Компания Stability AI опубликовала модель машинного обучения Stable Video Diffusion, позволяющую генерировать короткие видео на основе изображений. Модель расширяет возможности проекта Stable Diffusion, ранее ограниченного синтезом статических изображений. Код инструментов для обучения нейронной сети и генерации изображений написан на языке Python с использованием фреймворка PyTorch и опубликован под лицензией MIT. Уже обученные модели открыты под пермиссивной лицензией Creative ML OpenRAIL-M, допускающей использование в коммерческих целях.

Для загрузки доступно два варианта модели: SVD (Stable Video Diffusion) для генерации 14 кадров с разрешением 576x1024 на основе заданного статического изображения и SVD-XT для генерации 25 кадров. Возможна генерация видео без движения или с очень медленным поворотом камеры, продолжительностью не более 4 секунд. Прямое управление моделью на основе текстового описания на естественном языке пока не поддерживается, но можно вначале подготовить исходное изображение при помощи старой модели Stable Diffusion 2.1, а затем преобразовать его в видео, используя модель SVD.

Качество видео пока не обеспечивает идеального фотореализма и гарантированно правильной отрисовки лиц и людей. По производительности предложенная открытая модель опережает проприетарные аналоги от компаний Runway и Pika Labs. Модель может легко адаптироваться для решения различных задач, например, может применяться для формирования объёмных фигур.

Также можно отметить публикацию инструментария машинного обучения Video-LLaVA, позволяющего создавать единое визуальное представление объекта, формируемое на основе использования при обучении одновременно фотографий и видеозаписей объектов. Система может применяться, например, для распознания наличия одних и тех же объектов на изображениях и видео. Код написан на Python и распространяется под лицензией Apache 2.0.

Дополнение: Компания Сбер опубликовала под лицензией Apache 2.0 модели Kandinsky Video и Kandinsky 3 для генерации коротких видео и изображений по текстовому описанию. Видео генерируется с разрешением 512x512, используя для генерации ключевых кадров модель Kandinsky 3.0 и связывая ключевые кадры в единую композицию при помощи темпоральных блоков.

исправить +26 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/60165-stablediffusion

Ключевые слова: stablediffusion, video

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (41)

1.1, Аноним (1), 21:54, 22/11/2023 [ответить] [﹢﹢﹢] [ · · · ]	+5 +/–
Ждём поддержки в a1111, comfyui и invokeai 🤩

1.2, Аноним (2), 22:08, 22/11/2023 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Пока к сожалению SD гораздо хуже чем DALL-E 3. Генерация чего-то сложнее рисованной девушки (Внезапно, это и есть 90% сгенерированных картинок) практически нереальна. Но, может, развитие нейросетей поможет поднять независимость от центра. Можно будет в лесу без интернета генерировать бесконечное количество музыки/историй. Посмотрим.

2.4, Нон (?), 22:53, 22/11/2023 [^] [^^] [^^^] [ответить]	+6 +/–
Зайди на civitai и выбирай модель для генерации чего угодно сложнее девушки по своему вкусу.

3.7, Аноним (2), 00:14, 23/11/2023 [^] [^^] [^^^] [ответить]	+1 +/–
Я имею небольшой (Пара вечеров) опыт использования SD, с разными моделями, LoRaми и т.д. Конечно, сказав про одних лишь девушек я приувеличил проблему, но сложные сцены даются ей крайне плохо. Возможно, это связано с промптом, я слышал (Не ручаюсь), чтов случае dall-e gpt перефразирует его, для лучшего понимания моделью.

4.24, Аноним (24), 03:57, 23/11/2023 [^] [^^] [^^^] [ответить]	+/–
А смысл сравнивать с DALLe? Он проприетарный, как работает не известно, на чем обучали - не известно, сколько ресурсов потребляет - неизвестно, сколько денег вбухали - непонятно. Возможно там армия индусов учила ещё пару нейросетей для отбраковки, а на запрос генерируется не одна картинка, а например тысяча с вариациями параметров и из них только одна показывается пользователю. С таким раскладом и SD будет сильно лучше. Ну и от модели сильно зависит. Одно дело обучать на плохо размеченных картинках из интернета с логотипа, скриншотами и пр, другое дело закидать стоки деньгами (ну или индусов нанять чтобы пособирали втихаря). Ну и DALLe не даст ничего сделать с настройками. Ни controlnet, ни читаемый текст, ни бесконечное количество плагинов вплоть до интеграциями с редакторами. Ну такое.

5.44, Аноним (44), 11:51, 23/11/2023 [^] [^^] [^^^] [ответить]	+1 +/–
> А смысл сравнивать с DALLe? Он проприетарный, как работает не известно, на чем обучали - не известно, сколько ресурсов потребляет - неизвестно, сколько денег вбухали - непонятно. Для программиста — смысла нет, для пользователя — смысл непосредственный.

5.51, Аноним (2), 17:28, 23/11/2023 [^] [^^] [^^^] [ответить]	+/–
Да, возможность дообучения и контроля программы (а ещё свобода промта) это важно. Но какая будет разница, если качество проприетарных сетей будут лучше даже круто настроенного SD? Даже если он будет требовать вагон серверов с 4090, сейчас он доступен то ли бесплатно, то ли за какую-то небольшую плату. OAI может даже в итоге этого обанкротиться, но пока они есть, зачем среднему пользователю выбирать худшую альтернативу?

4.57, Nourepide (?), 10:01, 24/11/2023 [^] [^^] [^^^] [ответить]	+/–
Подозреваю что проблема в том что модели по большему счёту сейчас лишь на 3B параметров, звучит много если не думать о том что текстовые модели на 3B только начинают связанно говорить

2.6, Аноньимъ (ok), 00:02, 23/11/2023 [^] [^^] [^^^] [ответить]

–2 +/–

> Можно будет в лесу без интернета генерировать бесконечное количество музыки/историй. Посмотрим.

В лесу без интернета можно генерировать бесконечное количество музыки/историй.

Качественных. Отличных.

И для этого ненужно бдь никаких ИИ.

3.8, Аноним (2), 00:15, 23/11/2023 [^] [^^] [^^^] [ответить]	+3 +/–
Боюсь, удовольствия от сгенерированного самим собой контента будет маловато.

4.61, Аноним (61), 03:46, 25/11/2023 [^] [^^] [^^^] [ответить]	+1 +/–
Ну это смотря насколько хорошо грибы народились. Иной раз так в лесу насочиняешь…

2.33, Аноним (33), 07:15, 23/11/2023 [^] [^^] [^^^] [ответить]	+1 +/–
Хочу возразить сразу по обоим пунктам. Во первых эти sd-бабы загадившие все хентай-сайты кроме священного гелбору, выглядят все однотипно и легко замечаются. А вот стилистические рисунки, которые с закосом под сказки, гравюры и тд - я реально порой не могу отличить от рукотворных. Во вторых в чем прикол генерировать истории или музыку, если весь их смысл в том чтобы волеизъявленный наратив передать от одного человека к другому, люди хотят узнать чем закончилась игра престолов именно в представлении джорджа мартина, а не читать фанфики.

3.39, Аноним (44), 09:26, 23/11/2023 [^] [^^] [^^^] [ответить]	+2 +/–
> Во первых эти sd-бабы загадившие все хентай-сайты кроме священного гелбору, выглядят все однотипно и легко замечаются. Потому что весь хентай и выглядит однотипно. Датасет же не с потолка взялся?

4.52, Аноним (-), 18:14, 23/11/2023 Скрыто ботом-модератором [к модератору]	–1 +/–

5.56, Аноним (44), 00:55, 24/11/2023 Скрыто ботом-модератором [к модератору]	+1 +/–

3.48, Аноним (48), 16:04, 23/11/2023 [^] [^^] [^^^] [ответить]	+/–
> люди хотят узнать чем закончилась игра престолов именно в представлении джорджа мартина, а не читать фанфики. Люди слишком общее понятие. Каждый хочет что бы игра (не)закочилась в меру его разбушевавшихся фантазий.

4.53, Аноним (-), 18:26, 23/11/2023 [^] [^^] [^^^] [ответить]	+/–
Ну напиши что джон сноу избранный, всех трахнул и победил, люди вроде как именно за него больше всех переживают, так что станешь толкиеном цифровой эпохи, что может пойти не так.

3.50, лютый арчешкольник... (?), 16:41, 23/11/2023 [^] [^^] [^^^] [ответить]	+/–
>sd-бабы загадившие все хентай-сайты на джойреакторе периодически пролетают фотореалистичные нейрогенерёные девки просто неописуемой крутоты. где-то ты не там и не то ищешь.

3.54, Аноним (2), 18:55, 23/11/2023 [^] [^^] [^^^] [ответить]	+/–
Это вкусовщина Но вопрос был не в генерации чего-то красивого реалистичного, а ... большой текст свёрнут, показать

4.55, Аноним (55), 22:12, 23/11/2023 [^] [^^] [^^^] [ответить]	+/–
Музыка нужна для мурашек и волос дыбом на коже, сосущего ощущения под ложечкой и между ног, взрыва гормонов как будто секс на американских горках, многолетних поисков того самого альбома и чтобы потом его рекомендовать по секрету всем друзьям как величайшее сокровище. Со всем остальным искусством плюс минус тоже самое.

1.3, Анонус (?), 22:48, 22/11/2023 [ответить] [﹢﹢﹢] [ · · · ]	–5 +/–
Жаль, что не нашлось места для новости о другой опенсорс нейронке для генерации видео https://huggingface.co/ai-forever/KandinskyVideo

2.34, ИмяХ (ok), 07:22, 23/11/2023 [^] [^^] [^^^] [ответить]	+1 +/–
Жаль, что у тебя не нашлось на это времени.

3.46, Анонус (?), 12:44, 23/11/2023 [^] [^^] [^^^] [ответить]	+2 +/–
> Жаль, что у тебя не нашлось на это времени. Я стесняюсь писать. Еще со времен школьных сочинений :(

4.49, Аноним (48), 16:05, 23/11/2023 [^] [^^] [^^^] [ответить]	+1 +/–
Используйте чатжпт.

1.9, Skullnet (ok), 00:36, 23/11/2023 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Для того чтобы в том же Stable Diffusion получить что-то годное приходится часами "рандомить" искать более качественные "мозги" для нейронки. При этом всё равно получается страшная рандомная хрень с неправильной симметрией, 10ю пальцами и прочее Даже impainting не помогает. Midjourney в разы лучше, что даже вызывает бугурт у художников, но он платный и нельзя на своей машине.

2.17, Аноним (17), 01:26, 23/11/2023 [^] [^^] [^^^] [ответить]	+3 +/–
Ну немного подождите. В сентябре была новость, что начали строить новый суперкомпьютер: https://www.datacenterdynamics.com/en/news/intel-and-dell-to-build-supercomput

3.22, Аноним (44), 03:33, 23/11/2023 [^] [^^] [^^^] [ответить]	+/–
Тут проблема отнюдь не в вычислительных мощностях, это не ChatGPT.

2.18, Аноним (18), 01:38, 23/11/2023 [^] [^^] [^^^] [ответить]	+/–
Попробуйте Fooocus, это локальный аналог MidJourney на базе Stable Diffusion

2.35, Аноним (35), 09:14, 23/11/2023 [^] [^^] [^^^] [ответить]	+1 +/–
Попробуй https://lexica.art/

2.41, Аноним (41), 09:54, 23/11/2023 [^] [^^] [^^^] [ответить]

+/–

> часами "рандомить"
> неправильной симметрией

Используй ControlNet, модель pose.

> 10ю пальцами

Используй ControlNet, модель pose, в качестве картинки с позой бери ту, на которой есть пальцы. Или сгенерируй ее сам через препроцессор. Иногда с пальцами помогает модель canny. А иногда -- модель depth. А лучше все вместе и сразу.

Также я заметил, что SD плохо генерит пальцы, если они слишком мелкие, то есть если персонаж находится слишком далеко от камеры, и при этом разрешение картинки в районе 512x512. Хорошие пальцы выходят, если они занимают скажем четверть картинки (допустим лицо мужика, который в раздумьях чешет подбородок).

1.10, Аноним (10), 00:54, 23/11/2023 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Квадратные зрачки и 6 больших пальцев на одной руке всё так же генерит?

2.21, iPony129412 (?), 03:27, 23/11/2023 [^] [^^] [^^^] [ответить]	+/–
Я PonyDiffusion использую, на такое не натыкался

2.25, Аноним (24), 04:00, 23/11/2023 [^] [^^] [^^^] [ответить]	+/–
От модели сильно зависит. А модели сильно улучшились. Теперь даже текст может получиться читабельный.

2.31, Аноним (-), 06:13, 23/11/2023 Скрыто ботом-модератором [к модератору]	+/–

2.58, Аноним (58), 15:47, 24/11/2023 [^] [^^] [^^^] [ответить]	+/–
Я не понимаю людей которые не хотят разбираться и дай все на хвляву. Почему бы не разобраться в этом вопросе для начала, а потом иметь какие-либо основания обвинять? У меня не генерит квадратные зрачки и 6 пальцев на руке.

1.12, Аноним (12), 01:00, 23/11/2023 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Подскажите, уже норм генерит видео, про которое одна часть говорит, что смотрит, а другая часть говорит, стране смотрит, но на самом деле смотрит?

2.26, Аноним (24), 04:01, 23/11/2023 [^] [^^] [^^^] [ответить]	+/–
Дайте угадаю: сосед/брат/сват интересуется?

3.29, Аноним (12), 06:00, 23/11/2023 [^] [^^] [^^^] [ответить]	+/–
Дед просит ссылку

2.32, nebularia (ok), 06:26, 23/11/2023 [^] [^^] [^^^] [ответить]	+/–
Видео любое сейчас на начальной стадии в виде нескольких секунд низкого качества, дайте нейронкам время, картинки всего за год прошли колоссальный путь, а тут он только начинается.

2.36, Аноним (35), 09:14, 23/11/2023 [^] [^^] [^^^] [ответить]	+/–
14 кадров это по твоему норм?

1.38, EuPhobos (ok), 09:20, 23/11/2023 [ответить] [﹢﹢﹢] [ · · · ]	+/–
https://ai-forever.github.io/kandinsky-video/static/videos/Meerkat_conv_attn_b Тот что справа суслик на терминатора Т-1000 похож.

игнорирование участников | лог модерирования

Добавить комментарий

Текст: