Обновления и ключевые тренды в сфере ИИ.
Сентябрь-октябрь 2025 года

По материалам Eduson Academy

Сентябрь и октябрь 2025 года войдут в историю как одни из самых насыщенных месяцев в развитии искусственного интеллекта. Корпорации-гиганты буквально соревнуются в том, кто быстрее представит очередную разработку, и это соревнование играет нам на руку. Технологии, которые ещё год назад требовали многомиллионных бюджетов и команд специалистов, сегодня доступны по цене чашки кофе. В этом дайджесте мы рассмотрим главные события осени в области искусственного интеллекта.

OpenAI выпустила Sora 2
Sora 2 — новая версия видеогенеративной модели OpenAI. Если первая версия Sora показывала, что генерация видео нейросетью в принципе возможна, то Sora 2 приближается к уровню моделей, которые можно использовать в практической работе.

Ключевые улучшения
Во второй версии Sora значительно повысилось качество изображения. Текстуры, освещение и физика движений выглядят очень реалистично. Объекты реалистично взаимодействуют с окружающей средой: собака сбивает палки, вода реагирует на движения сёрфингиста, а тело человека движется в соответствии с законами физики.
Модель также научилась синхронно создавать звук. Теперь она генерирует не просто шумовое сопровождение, а полноценные диалоги, эффекты и атмосферные звуки, соответствующие происходящему на экране. Аудио создаётся одновременно с видеорядом, что обеспечивает естественную синхронизацию.
Ограничения
Главное ограничение модели — продолжительность роликов. На тарифах Free and Plus Sora 2 создаёт видео длиной до 10 секунд, на Plus — до 20 секунд. Этого достаточно для коротких клипов и социальных сетей, но для более длинных видео приходится соединять несколько фрагментов. При склейке могут появляться несоответствия: персонажи немного меняются, освещение смещается, а детали теряют согласованность. Таким образом, технология пока не позволяет создавать длинные сцены без швов.

Новое приложение
Одновременно с моделью OpenAI выпустила мобильное приложение для iPhone. Оно представляет собой ленту, в которой все видео созданы нейросетью. Пользователи могут генерировать собственные ролики, ремиксить чужие и делиться ими. По функциональности приложение напоминает TikTok, но весь контент в нём создаёт искусственный интеллект. Этот проект показывает, что Sora 2 уже сейчас можно использовать для пользовательского и развлекательного контента.
Функция Cameos
Одна из заметных функций Sora 2 — Cameos. Пользователи записывают короткое видео с собой, после чего модель вставляет их в любую сгенерированную сцену. Встроенный персонаж сохраняет голос, мимику и движения человека, что создаёт впечатление полноценного присутствия.

Возможности для бизнеса
Технология открывает новые возможности для маркетинга и производства контента. С помощью Sora 2 можно создавать десятки рекламных роликов с одним и тем же актёром или представителем бренда в разных локациях и ситуациях, без съёмок и дополнительной команды. Это снижает затраты и ускоряет производство, позволяет персонализировать видеоконтент для разных целевых аудиторий.

Руководство по промптингу
OpenAI опубликовала подробное руководство по работе с моделью — Sora 2 Prompting Guide. В нём рассказывают, как формулировать запросы для получения наилучших результатов и какие параметры влияют на качество видео. Изучите руководство, если планируете использовать Sora 2 для профессиональной работы с видео.

Доступ и распространение
Доступ к Sora 2 пока ограничен. Приложение работает только в США и Канаде и распространяется по инвайтам. Каждый пользователь может пригласить до четырёх новых участников. Такая схема позволяет контролировать темпы роста аудитории и постепенно масштабировать нагрузку на систему.

Релиз Sora 2 состоялся позже выхода конкурирующих моделей, таких как Veo 3 от Google и Kling 2.5. Из-за этого эффект новизны оказался ниже, чем ожидалось. При этом рынок видеогенерации развивается настолько быстро, что различия между лидирующими моделями становятся всё менее заметными. Они обеспечивают сопоставимое качество и функциональность и различаются в основном скоростью работы и стоимостью использования.

Google выпустила Veo 3.1
Google представила модель Veo 3.1 вскоре после релиза Sora 2 от OpenAI. Цель обновления — укрепить позиции компании в области генерации видео. Модель вышла в двух вариантах:
  • Veo 3.1 Quality — высокое качество;
  • Veo 3.1 Fast — ускоренная генерация.
Стоимость составляет 100 и 20 токенов за восемь секунд видео соответственно. Пользователи могут протестировать модель бесплатно: можно получить 100 токенов в сервисе Google Labs Flow.

Основные улучшения
Главное изменение — рост качества изображения и звука. Модель лучше понимает нарративные промпты, когда пользователь описывает последовательность действий, а не статичную сцену. При запросах вроде «кинематографичная сцена» Veo формирует видеоряд с правильной композицией кадра, освещением и движением камеры.
Уровень детализации значительно повысился. В официальных примерах передача текстур, света и теней выглядит естественно. Больше нет того «пластилинового» эффекта, характерного для ранних генеративных моделей видео.
Работа с кадрами и сценами
В Veo 3.1 улучшили обработку первых и последних кадров. Теперь можно создать статичное изображение в Midjourney или другом генераторе и анимировать его с помощью Veo. Также можно задать финальный кадр, чтобы направить развитие сцены. Это расширяет возможности управления структурой видео и делает процесс генерации более предсказуемым.
Функция Scene Extension позволяет продлевать ролики до одной минуты и дольше без потери стиля и согласованности. Раньше для продления использовались разные версии модели, что приводило к визуальным разрывам. Теперь продление выполняется внутри одной системы, и переходы между частями видео остаются плавными.

Звук и музыка
Veo 3.1 умеет генерировать музыку и звуковое сопровождение, которые синхронизируются с содержанием видео. Если в промпте указать тип музыки, модель подбирает соответствующую композицию. Например, для спокойных сцен создаётся эмбиент, для динамичных — энергичная мелодия, для напряжённых — драматичная.

Функции редактирования
Функция Ingredients to Video позволяет объединять несколько объектов или персонажей в одном ролике. Модель формирует композицию, где элементы взаимодействуют между собой, при этом сохраняют логичное пространство и освещение.
В видеоредакторе Google Flow появились продвинутые инструменты Insert и Remove, которые вставляют или удаляют элементы из видео. При этом модель автоматически корректирует освещение, тени и перспективу, чтобы добавленные объекты выглядели естественно.

Кинематографические пресеты
В Veo 3.1 появились кинематографические пресеты, которые упрощают настройку визуального стиля. Пользователь может выбрать готовый вариант — дрон-съёмку, панораму, зум, трекинг или определённый тип освещения — и модель применит соответствующий набор эффектов.

Каналы доступа и стоимость
Модель Veo 3.1 доступна через несколько платформ:
Она также интегрирована в сторонние сервисы — HiggsfieldLTX Studio и Freepik.
Ценовая модель прозрачна:
  • Fast-версия — $0.15 за секунду видео;
  • Standard-версия — $0.40 за секунду.

Пользователь может создавать видео в разрешении 720p или 1080p длительностью 4, 6 или 8 секунд, а также расширять их до 148 секунд через функцию Extend.

Положение на рынке
Первые отклики на модель различаются. Пользователи отмечают, что качество видео и звука, управления сценой значительно улучшилось. Вместе с этим сохраняются проблемы с единообразием персонажей при смене ракурсов — в этом аспекте Sora 2 показывает более стабильный результат. Также есть вопросы, почему 1080p не доступно для всех платных подписчиков Flow Pro.
Релиз Veo 3.1 демонстрирует активную конкуренцию между OpenAI и Google. Обе компании регулярно выпускают обновления, улучшают качество и скорость генерации. Пользователям такая конкуренция на руку — технологии развиваются быстрее, цены снижаются, доступность растёт.

OpenAI представила AgentKit
AgentKit — новый инструмент от OpenAI, который помогает создавать ИИ-агентов без навыков программирования. Например, такие агенты могут:
  • отвечать на вопросы клиентов;
  • искать информацию в документах компании;
  • обрабатывать данные из разных источников;
  • автоматически выполнять повторяющиеся действия — отправлять письма, обновлять таблицы.
Работа с AgentKit похожа на конструктор LEGO: берёте готовые блоки — «действия», «логика», «источники данных» — соединяете их мышкой, настраиваете и получаете готового помощника.
Как это работает
Внутри AgentKit несколько основных модулей.
  • Agent Builder — визуальный редактор, где собирается логика агента. Можно начать с пустого проекта или взять шаблон, например, «бот поддержки» или «ассистент для анализа документов».
  • Connector Registry — пространство, где подключаются сервисы и данные, например Google Drive, Dropbox, Teams и другие. Это позволяет агенту работать с реальной информацией.
  • ChatKit — готовый чат-интерфейс, через который пользователи взаимодействуют с агентом. Его можно встроить на сайт или в приложение без разработки с нуля.
  • Guardrails — система безопасности, которая предотвращает утечку персональных данных и некорректные ответы.
AgentKit работает на основе технологий OpenAI, поэтому легко интегрируется с другими продуктами компании, включая ChatGPT и GPT-модели.
AgentKit упрощает задачу создания умных помощников, которые могут выполнять реальные рабочие процессы — от поддержки клиентов до обработки заявок. Для бизнеса это значит меньше ручной работы и меньше затрат на разработку сложных систем автоматизации.

Чем AgentKit отличается от Zapier, n8n и Make
Платформы вроде Zapier и n8n давно позволяют связывать разные сервисы и автоматизировать рутину. Но они требуют технических знаний и не работают «из коробки» с ИИ.
AgentKit проще — в него уже встроен интеллект OpenAI, есть визуальный интерфейс и готовые шаблоны. Он не заменяет полностью Zapier, но закрывает большинство базовых сценариев и понятен даже новичкам.
Рынок автоматизации растёт — от 6,6 млрд долларов в 2024 году до прогнозируемых 15,5 млрд в 2030 году, по оценке Grand View Research. OpenAI теперь предлагает решение, которое объединяет в себе и интеллект, и интерфейс, и интеграции. AgentKit делает автоматизацию доступной не только разработчикам, но и менеджерам, маркетологам, консультантам — всем, кто хочет ускорить работу с помощью ИИ.

OpenAI представила Apps SDK
Apps SDK — инструмент для создания полноценных приложений внутри ChatGPT. Это не просто интеграции, а интерактивные мини-приложения со своим интерфейсом, логикой и возможностью обработки данных без выхода из чата.
Apps SDK позволяет разработчикам создавать и тестировать собственные решения прямо в ChatGPT. Текущая версия пока находится в бета-режиме.
Разработчикам уже доступны приложения от первых партнёров, например Booking.com, Canva, Coursera, Expedia, Figma, Spotify, Zillow, Notion, Asana. Позже появится каталог приложений с поиском, рекомендациями и возможностью публикации сторонних решений.

Как это работает
SDK превращает ChatGPT в рабочую среду, где можно выполнять действия напрямую через запросы. Например, по промпту «Создай презентацию в Canva на основе этого документа» модель выполнит задачу без перехода в другие вкладки или копирования данных.
Платформа поддерживает авторизацию и встроенные платежи, что позволяет создавать платные приложения и сервисы. Это открывает возможность монетизации внутри ChatGPT.
Некоторые коннекторы пока работают нестабильно. Даже интеграции с крупными сервисами, например Google Drive требуют доработки. SDK находится в активной стадии тестирования.
Apps SDK делает ChatGPT не просто инструментом общения, а платформой для работы и автоматизации. Пользователи смогут выполнять профессиональные задачи в одном окне, а разработчики — предлагать свои решения миллионам пользователей.

Codex стал основой разработки
OpenAI Codex — это специализированная модель от Open AI, которая понимает и пишет программный код. Она обучена на больших объёмах репозиториев и технической документации, поэтому может генерировать, исправлять и объяснять код на десятках языков программирования. По сути, Codex — это «виртуальный разработчик», который знает лучшие практики и может выполнять рутинные задачи быстрее человека.
Codex вышел из стадии бета-тестирования и стал общедоступным инструментом. Значительная часть внутреннего кода компании Open AI теперь создаётся с его помощью. Это подтверждает, что модель уже используется в реальной производственной среде.
В обновлении Codex добавили:
  • интеграцию со Slack — теперь можно вызывать Codex прямо из рабочих чатов для генерации или анализа кода;
  • Software Development Kit для разработчиков, с помощью которого Codex можно встроить в собственные продукты и процессы.
Использование Codex ускоряет процесс написания и поддержки кода, снижает количество ошибок и повышает производительность команд. Благодаря встроенной интеграции и контекстному пониманию проектов модель становится частью стандартного рабочего процесса разработчиков.

Qwen выпустила новые модели
Qwen — семейство открытых нейромоделей от Alibaba Cloud, сопоставимых по возможностям с GPT-4 и Claude. Они умеют писать тексты, понимать код, решать задачи, анализировать изображения и видео. Все модели доступны бесплатно, их можно использовать локально — без подключения к API или облачным сервисам.
15 октября разработчики представили Qwen3-VL-4B и Qwen3-VL-8B — компактные мультимодальные модели в версиях Instruct для обычных запросов и Thinking с цепочками рассуждений.
Несмотря на небольшой размер модели показывают результаты выше Gemini 2.5 Flash Lite и GPT-4 Nano, а по ряду тестов приближаются к прежнему флагману Qwen2.5-VL-72B.
Qwen3-VL поддерживает:
  • анализ изображений и видео с пониманием контекста;
  • распознавание текста на фото на 32 языках;
  • пространственное восприятие;
  • генерацию кода интерфейсов и диаграмм — HTML, CSS, Draw.io.
Контекстное окно — до 256 000 токенов с расширением до 1 млн, что позволяет работать с длинными документами и видео.
Модели можно установить на своём оборудовании и использовать без ограничений по запросам и без риска изменения условий API-провайдера. Для запуска подходят OllamaLM Studiollama.cpp и KTransformers — все бесплатные инструменты, которые не требуют программирования.
Модели Qwen распространяются под лицензией Apache 2.0, что позволяет использовать, изменять и встраивать их в коммерческие продукты без ограничений. Модели доступны на Hugging Face и ModelScope — платформах для хранения и обмена AI-моделями.

Qwen остаётся одной из самых доступных и функциональных альтернатив закрытым моделям. Компактные версии уже обеспечивают качество, сопоставимое с крупными системами, при этом полностью независимы от облаков.
Made on
Tilda