Три года назад, запуская Gemini, компания Google стремилась создать универсальную мультимодальную большую языковую модель — единую нейронную сеть, способную обрабатывать и генерировать контент в различных форматах, включая текст, изображения, аудио и видео. Сегодня, на конференции разработчиков Google I/O, был сделан значительный шаг к этой цели с анонсом Gemini Omni — нового семейства мультимодальных моделей. По словам генерального директора Google Сундара Пичаи, эти модели смогут «создавать что угодно из любого входного сигнала».
На начальном этапе Omni сосредоточится на видео. Пользователи теперь смогут комбинировать изображения, аудио, видео и текст. Вместо простого объединения этих элементов, Omni анализирует их все вместе, чтобы создать целостный результат. Это позволяет получать высококачественные видеоролики, демонстрирующие понимание физики, культурных особенностей, истории и научных концепций.
Помимо этого, Omni предоставит возможность редактировать фотографии с помощью простых текстовых команд, исключая необходимость в сложном программном обеспечении. Эта функция схожа с возможностями внутреннего инструмента Google Nano Banana.
Содержание
Развитие видеогенерации и мультимодальности
У Google уже есть специализированная видеомодель Veo, позволяющая пользователям преобразовывать текст и изображения в видео, а также управлять цифровыми аватарами и настраивать их. Однако, как отмечает директор по управлению продуктами Google DeepMind Николь Бричтова, сегодняшний релиз является не просто обновлением Veo. Это следующий этап в объединении интеллекта Gemini с возможностями рендеринга медиамоделей Google.
В качестве примера, представленного журналистам на брифинге, главный технолог DeepMind Корай Кавукчоглу рассказал о реакции Omni на простой запрос «пластилиновая анимация, объясняющая сворачивание белка». Модель быстро сгенерировала покадровое видео с закадровым голосом, поясняющим: «Белки начинаются как цепочки аминокислот. Они сворачиваются в структуры, такие как альфа-спираль и плоские участки, называемые бета-листами, образуя идеальную трёхмерную форму».
Долгосрочная стратегия развития Omni значительно шире и предполагает использование модели для генерации изображений из аудио или аудио из видео.
Видение будущего: от текста к симуляции реальности
Во время брифинга Сундар Пичаи заявил, что с момента первого анонса Gemini она стала первой собственной мультимодальной моделью искусственного интеллекта. Обучение на комбинации текста, кода, аудио, изображений и видео позволило ей получить более глубокое понимание мира. С появлением так называемых «мировых моделей» искусственный интеллект переходит от прогнозирования текста к симуляции реальности. Gemini Omni является следующим шагом в этом направлении.
В рамках нового релиза пользователи также смогут создавать видеоролики со своими собственными цифровыми аватарами — функция, которую ранее популяризировала компания OpenAI* в своём приложении Sora* с помощью функции Cameos. Для предотвращения создания дипфейков, как сообщает Бричтова, пользователи должны будут пройти специальную процедуру регистрации, включающую запись себя и произнесение ряда чисел. Затем аватар сохраняется для дальнейшего использования.
Кроме того, все видео, созданные с помощью Omni, будут содержать цифровой водяной знак Google SynthID, который позволит пользователям убедиться в том, что видео было сгенерировано продуктами Gemini.
Gemini Omni Flash: доступность и потребительские сценарии
Первая модель в семействе — Gemini Omni Flash — станет доступна уже сегодня в приложении Gemini, YouTube Shorts и студии для творческих проектов Flow. Flash сможет генерировать видео длительностью до 10 секунд. По словам Николь Бричтовой, это не является ограничением модели, а скорее результатом решения, продиктованного желанием сделать её доступной для широкой аудитории и предположением, что большинство пользователей пока не нуждаются в гораздо более длинных видео. Тем не менее, более продолжительные видеоролики запланированы к выпуску в ближайшем будущем.
Google позиционирует Omni Flash как инструмент, ориентированный на массового потребителя. Примеры использования цифровых аватаров, приведённые Бричтовой и инженером-исследователем DeepMind Гейбом Бартом-Мароном в ходе беседы с изданием TechCrunch, были исключительно личными: создание видео с собой, получающим награду или отправляющимся на Луну, или удаление случайного прохожего из фонового видео, снятого в отпуске.
Барт-Марон упрощённо описал их как «персонализированные мемы».
Бричтова подчеркнула, что разработчики сосредоточились на простоте использования для потребителей: «Не многие видеомодели преодолели этот барьер в работе с массовым пользователем, поэтому это наша попытка сделать это».
Простота использования, однако, имеет свою оговорку. Бричтова и Барт-Марон отметили, что команды для редактирования должны быть очень точными, иначе Omni рискует чрезмерно отредактировать или непреднамеренно изменить элементы, которые пользователь хотел сохранить. С подобной проблемой могли столкнуться и пользователи Nano Banana.
Профессиональные возможности и будущие версии
Несмотря на краткосрочную ориентацию на потребителя, профессиональные и творческие возможности Omni очевидны. Google планирует предоставить доступ к Omni через API в ближайшие недели. Инструмент для создания аватаров, уже доступный в Shorts, как ожидается, будет востребован среди создателей контента. В более широком смысле, комплексный мультимодальный рабочий процесс может трансформировать подходы для рекламодателей и кинематографистов.
Стартап Luma AI разрабатывает нечто похожее — инструмент, который может сгенерировать целую рекламную кампанию на основе короткого брифа и изображения продукта, используя собственную «унифицированную» модель.
Николь Бричтова отметила, что разработчики гордятся возможностями модели по рендерингу текста, что чрезвычайно полезно для рекламной индустрии. Если требуется разместить продукт или просто слоган, он должен быть точным. В Google ожидают, что кинематографисты и другие создатели контента также будут активно использовать эту модель.
Для более профессиональных задач, вероятно, лучше подойдёт модель Omni Pro, которая должна демонстрировать превосходную производительность во всех задачах Omni. Google пока не анонсировала дату выпуска Pro, но Бричтова заявила, что это произойдёт, когда «разработчики почувствуют, что достигнут значительного прорыва по сравнению с Flash».
* — деятельность компании запрещена на территории РФ
Womenis.ru Для современной Женщины с большой буквы