Google представила ИИ-генератор видео со звуком и пообещала новую эру

Google анонсировала запуск Veo 3 — генератора видео на базе искусственного интеллекта, который, как сообщили в компании, может создавать звуковые эффекты, фоновые шумы и диалоги.
Veo 3 можно назвать конкурентом генератора Sora от OpenAI, пишет CNBC, но отмечает, что ключевое отличие инструмента от Google заключается в его способности встраивать аудио в создаваемые им ролики.
Генеральный директор Google DeepMind (подразделение Alphabet, занимающееся разработкой ИИ) Демис Хассабис, представляя Veo 3, заявил, что «безмолвная эра» генерации видео при помощи искусственного интеллекта подходит к концу. «[Вы можете написать для Veo 3] инструкцию с описанием персонажей и окружающей их обстановки, а также предложить для них диалог с описанием того, как он должен звучать», — сказал он на пресс-конференции.
В DeepMind заявили, что используют собственную технологию SynthID, которая позволяет встраивать в сгенерированные ролики водяные знаки. Это нужно для снижения риска появления дипфейков. Как пишет TechCrunch, компания, вероятно, брала контент для обучения Veo 3 из YouTube.
Google также анонсировала ИИ-модель Imagen 4 для генерации изображений и сервис Flow для создания видеороликов.
У Google неоднозначная репутация в сфере разработки генераторов изображений, отмечает CNBC. Например, в прошлом году компания приостановила работу модели Imagen 3, ее пришлось перезапустить из-за жалоб пользователей на «неточности» и искаженный исторический контекст. Сооснователь Google Сергей Брин признал, что компания «определенно облажалась с генерацией изображений», назвав причиной «недостаточно тщательное тестирование».
Читайте РБК в Telegram.