Google представила Gemini Omni: универсальную нейросеть для работы с видео и текстом

Google представила Gemini Omni: универсальную нейросеть для работы с видео и текстом

На ежегодной конференции разработчиков Google I/O была официально представлена новая модель Gemini Omni. Название, происходящее от латинского слова omne («всё»), отражает главную особенность технологии: это первая по-настоящему нативная мультимодальная модель компании. Система способна обрабатывать и создавать контент любого типа — от текста и изображений до видео и аудио — в рамках единого интерфейса.

Технологический прорыв в мультимодальности

В отличие от предыдущих решений, где для разных задач использовались отдельные алгоритмы, Gemini Omni объединяет генерацию текста, графики и видео в общую фундаментальную модель. По словам обозревателей, такой архитектурный подход позволяет нейросети одновременно анализировать разные типы данных в одном цикле обработки. Это обеспечивает более высокую связность правок и отсутствие артефактов, характерных для систем, состоящих из цепочки разных нейросетей.

Одной из ключевых функций стала возможность диалогового редактирования видео. Пользователь может давать последовательные инструкции, которые учитывают контекст предыдущих правок. В обзорах отмечается, что модель демонстрирует значительно улучшенное понимание законов физики: гравитации, кинетической энергии и динамики жидкостей. Это позволяет создавать ролики, которые выглядят как реальные съемки, а не как типичная ИИ-генерация.

Доступность и стоимость для пользователей

На текущий момент модель Omni Flash стала доступна индивидуальным пользователям в США через приложение Gemini. Доступ предоставляется в рамках платных тарифов:

  • AI Plus — от 20 долларов в месяц (около 1850 рублей).
  • AI Ultra — новый тариф стоимостью 100 долларов в месяц (около 9200 рублей), ориентированный на разработчиков и профессиональных креаторов.

Для корпоративного сектора доступ через программный интерфейс (API) в рамках платформы Vertex AI ожидается в ближайшие недели. До появления API эксперты рекомендуют использовать инструмент для личного тестирования и подготовки прототипов.

Практическое применение в бизнесе

В обзоре подчеркивается, что Omni может заменить сложный рабочий процесс, ранее требовавший подписок на несколько разных сервисов. Источник выделяет несколько ключевых сценариев использования:

  • Продажи и маркетинг: оперативное создание вариантов рекламы и локализация контента без обращения в агентства.
  • Обучение и развитие персонала: создание обучающих видеороликов, вводных модулей и инструкций силами рядовых сотрудников.
  • Техническая поддержка: генерация динамических визуальных ответов на запросы клиентов.
  • Инженерия: визуализация симуляций и концепций интерфейсов.

Безопасность и правовые аспекты

Для руководителей ИТ-подразделений важным аспектом станет система защиты контента. Все видео, созданные Gemini Omni, получают цифровой водяной знак SynthID. Google также внедряет поддержку учетных данных контента C2PA, что позволяет проверять происхождение медиафайлов. Это решение направлено на соответствие строгим правилам регулирования синтетического контента, которые вводятся в различных регионах, включая страны Евросоюза.

Дополнительно представлена программа персональных аватаров, позволяющая создавать цифровые копии людей на основе коротких записей их голоса и внешности. Данная технология вступает в прямую конкуренцию с решениями от компании Synthesia, ориентированными на корпоративный сектор.

Риски и ограничения

Несмотря на технологическое преимущество, эксперты указывают на высокую конкуренцию в сегменте. Модели от стартапа Synthesia, китайские разработки вроде Kling AI и быстро развивающиеся проекты с открытым исходным кодом претендуют на ту же рыночную нишу. Также отмечается, что по данным предварительного тестирования, Google сохраняет весьма строгие фильтры контента, что в ряде случаев может ограничивать корпоративные сценарии использования.

Еще кое-что по теме: