🤖 Google DeepMind учит роботов предсказывать будущее с помощью уже существующей видеомодели Veo

2049.news · 16.12.2025, 12:15:04

🤖 **Google DeepMind учит роботов предсказывать будущее с помощью уже существующей видеомодели Veo ** 😚Команда Gemini Robotics представила проект, который меняет подход к обучению роботов. Они использовали [Veo]( (свою генеративную видеомодель, аналог [Sora]( как «симулятор мира». **😶‍🌫️****В чем суть?** 😚😚Обычно роботов обучают в реальном мире (долго, дорого) или в 3D-симуляторах (сложно программировать физику). Google предложил третий путь: **General World Models**. **😶‍🌫️****Как это работает:** 1️⃣ Робот анализирует сцену. 2️⃣ Модели подают команды (например, "возьми кубик"). 3️⃣ [Veo]( генерирует видео, предсказывая, как изменится реальность после этого действия. **😶‍🌫️****Зачем это нужно?** 😚 Nominal Evaluation: Проверка навыков без участия реального железа. 😚 Смена декораций: Можно попросить нейросеть: «Представь, что стол красный» или «Добавь на фон игрушку». Робот учится не теряться в новых условиях. 😚 Тесты безопасности: Можно симулировать опасные ситуации (рука человека в рабочей зоне), не рискуя ничьими пальцами. 😗😙**:** Это шаг к тому, чтобы роботы обучались в "world model", прежде чем выйти в реальный мир. И конечно риски и слабые стороны такого подхода: 🥵**Галлюцинации физики**: Твердые объекты могут внезапно расплавиться, изменить форму или телепортироваться. 🥵**Неконсистентность моделей:** Если рука робота надолго закрывает предмет, он исчезнет, когда рука уберется. 🥵**Неточность контроля действий:** Робот на сгенерированном видео иногда игнорирует команды (например, продолжает двигаться, хотя должен был остановиться). 🥵**Размытие (Blur):** Мелкие детали иногда «плывут», из-за чего алгоритмам робота сложно захватить объект. Многие из этих вещей так же тормозят использование моделей в видео продакшене 🥲☺️😊

🤖 **Google DeepMind учит роботов предсказывать будущее с помощью уже существующей видеомодели Veo **

Похожие записи

🤖 Google DeepMind учит роботов предсказывать будущее с помощью уже существующей видеомодели Veo