404 Driver Not Found
前往频道在 Telegram
Канал об ML в автономном транспорте от специалистов из Яндекса: разбираем научные статьи, делимся интересными находками, обсуждаем горячие вопросы индустрии. Вопросы и предложения > @yandex_ml_brand
显示更多1 394
订阅者
+724 小时
+487 天
+23330 天
帖子存档
1 397
Occupancy Grid Prediction [2/2]
Продолжаем серию постов о 3D occupancy perception. В первой части обсудили особенности подхода и общие тренды, а сегодня разберём три актуальные работы.
Одна из особенностей Agent Occupancy Grid — воксели агентов движутся и в системе координат мира, и в системе эго-агента. Это значит, что можно предсказывать Occupancy Grid Flow — то есть, направление и скорость перемещения каждого вокселя.
Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction
Авторы предлагают решать задачи Occupancy Grid (OG) и Occupancy Grid Flow (OG Flow) prediction, не используя 3D-аннотации. Для этого они обращаются к данным изображений и Optical Flow, полученным из внешней модели.
В общих чертах это работает так:
🔴 2D→3D-энкодер извлекает признаки изображений и строит из них трёхмерный тензор благодаря проекциям на 3D-плоскости.
🔴 Temporal Fusion выравнивает признаки с учетом движения эго-агента, и с помощью deformable attention извлекает временные признаки для разных уровней высоты.
🔴 Rendering-Based Optimization — две разные головы предсказывают Semantic Occupancy Grid и Occupancy Grid Flow. Полученные результаты рендерят на плоскости камер с помощью NeuS и сравнивают с уже существующими изображениями Optical Flow и картами глубин.
🔴 Flow-Oriented Optimization разделяет оптимизацию динамических и статических областей для улучшения сходимости.
ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions
Архитектура для предсказания Occupancy Grid и Occupancy Grid Flow. Её главные элементы:
🔴 Adaptive Lifting. Это аналог LSS, но с учётом внутриобъектной и межобъектной окклюзий.
🔴 Semantic Prototype-Based Occupancy Head. В голове предсказания OG используют обучаемые векторы (прототипы), которые инвариантны к BEV- и 3D-представлениям.
🔴 Cost Volume-Based Flow Prediction Head. Для головы предсказания OG Flow вводят тензор, который содержит скалярные произведения всех сдвигов 3D-признаков относительно соседних таймстемпов. Это позволяет семантически сопоставить движущихся агентов в разные моменты времени.
UniOcc: A Unified Benchmark for Occupancy Forecasting and Prediction in Autonomous
Бенчмарк для всех задач Occupancy Grid. Авторы предлагают унифицированное представление данных и инструменты для конвертации открытых датасетов разных форматов.
Задачи условно делят на три категории: предсказание OG, OG Flow и OG/OG Flow с использованием парных проездов.
🔴 Для nuScenes и Waymo синтезировали псевдоразметку с помощью Occ3d, OpenOccupancy и SurroundOcc.
🔴Для движков симуляции Carla и openCOOD — нагенерировали сцен с точными ground truth.
Также авторы предлагают универсальный набор инструментов для задач детекции, трекинга и выравнивания объектов в OG и новые метрики: правдоподобность размеров объектов, временную консистеность формы объекта и фонового окружения.
А какие интересные статьи о 3D occupancy perception находили вы? Расскажите в комментариях!
Разбор подготовил ❣️ Антон Семенюта
404 driver not found
1 397
Occupancy Grid Prediction [1/2]
Сегодня начнём серию постов о 3D occupancy perception. В первой части обсудим особенности подхода и общие тренды, а в следующей — разберём несколько актуальных работ.
Для этого подхода сцену представляют плотной 3D-решёткой (вокселями) с семантикой и метками «занято» или «пусто». В отличие от BEV, в 3D occupancy perception явно моделируют высоту, что критично для сложных городских сцен. Например, для случаев, когда 3D occupancy справляется лучше, чем 2D: небольшие камни или куски мусора на дороге, которые проще пропустить между колёс, а не объезжать. Или края досок, вылезающие за пределы грузовика: если они достаточно высоко, легковой автономный автомобиль без проблем под ними проедет.
В общих чертах стек охватывает технологии:
🔴 от 2D→3D-преобразований (проекция из 3D на камеру и обратно с предсказанием глубины, кросс-аттеншн);
🔴 до пространственно-временного фьюжна признаков с нескольких камер и мультимодальной интеграции камеры, лидара и радара.
Среди популярных методов обучения — self-supervised, weak, strong. Среди метрик — IoU, MIoU и ray-MIoU (это IoU вдоль каждого луча камеры). Ключевыми датасетами считаются nuScenes, Waymo и SemanticKITTY.
Тренд последних лет — стремительный рост vision-centric-методов. Камеры дешевеют, текстуры улучшаются, а за счёт продвинутого 2D→3D и temporal fusion разница в качестве предсказаний на основе данных камер и лидаров стремительно сокращается. Но лидар по-прежнему обеспечивает наилучшую геометрию, а мультимодальные схемы ещё не всегда стабильно опережают одномодальные — потенциал фьюжна до сих пор не раскрыт.
При грамотной оптимизации (облегчённые головы, разреженные представления, ускорение инференса) можно получить ~10–13 FPS на Occ3D-nuScenes при MIoU около 40%. Это уже близко к практическим требованиям.
Главные вызовы подхода: реальное время на бортовом железе, робастность к погодным условиям, окклюзиям и отказам сенсоров, а также обобщение без дорогой плотной 3D-разметки. На горизонте — occupancy flow для моделирования динамики, модель мира и использование occupancy как единого представления для восприятия, предсказания и планирования.
В следующем посте разберём несколько актуальных работ, посвящённых 3D occupancy perception.
Разбор подготовил ❣️ Иван Лунев
404 driver not found
1 397
VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking
Классические dense-подходы, применяемые поверх воксельных featuremap’ов требуют большого количества вычислений и пост-процессинга (например, NMS). Сегодня разберём статью о попытках оптимизировать это.
Авторы предлагают решать задачу 3D-детекции на лидарных точках в fully-sparse режиме. Для построения такого детектора используют классический spconv-based лидарный бэкбон. Но с улучшениями:
🔴 В изначальный FPN добавили больше featuremap’ов в низком разрешении с последующим апсэмплом. Это значительно увеличило размер эффективного рецептивного поля.
🔴 В конец лидарного бэкбона добавили пуллинг по высоте. Вычислений стало меньше, но метрики не изменились.
🔴 Добавили spatially voxel pruning, «размазывающий» только воксели с достаточно большими магнитудами.
🔴 Кандидатов в боксы отбирали не NMS, а sparse-max-пуллингом. С точки зрения метрик это оказалось почти эквивалентной заменой.
В статье много ablation’ов по всем предложенным изменениям. По результатам замеров на nuScenes, подход позволяет получить сравнимое с лидерами качество 3D-детекции при значительно лучшем latency.
Разбор подготовил ❣️ Владимир Филипенко
404 driver not found
1 397
POV: ведём вас читать обзоры и лучшие статьи ICRA 2026
Сегодня заключительный день конференции. И вот что рассказали о ней наши коллеги:
➡️ Чем запомнился первый день ICRA 2026
➡️ И ещё одно мнение о первом дне в канале ML Underhood
➡️ Земной автомобиль, луноход или марсианский ровер — на ICRA 2026 припаркуются все
➡️ Заметки о втором дне в канале ML Underhood
➡️ Residual RL, генерация сложных сценариев поведения и безопасность движения: что обсуждали в третий день ICRA 2026
А вот работы, которые отметил оргкомитет ICRA 2026.
Награду Best Conference Paper Award получили две статьи:
🔴 SymSkill: Symbol and Skill Co-Invention for Data-Efficient and Reactive Long-Horizon Manipulation
Интересный не-ML-подход к манипуляционным задачам.
🔴 OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction
Обучение гуманоидов на человеческих демонстрациях — новый способ ретаргетинга, который сохраняет расстояния до объектов, точки контактов, связи с окружением.
В категорию Best paper in Robotic Learning попала одна работа:
Do You Know Where Your Camera Is? View-Invariant Policy Learning with Camera Conditioning
Необычный кондишенинг положения камер в VLA-моделях.
В качестве Best Perception paper отметили ещё одну интересную статью:
FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment
Exploration и mapping над пространством объектов. Робот ищет произвольный объект в неизвестной локации и по пути строит карту всего, что нашёл. Про каждый объект запоминает языковое описание, положение в пространстве, геометрию и визуальные признаки.
#YaICRA26
Говорили и показывали ❣️ Максим Спорышев и Егор Волков
404 driver not found
1 397
+4
Residual RL, генерация сложных сценариев поведения и безопасность движения: что обсуждали в третий день ICRA 2026
Продолжаем трансляцию с главной международной конференции о робототехнике и автоматизации. Сегодня в подборку самого интересного вошёл один доклад и пять постеров.
Residual Off-Policy RL for Finetuning Behavior Cloning Policies
Работа от Amazon Frontier AI & Robotics, посвящённая планированию движения. Проблематика рассматривается на роботах, но те же подходы можно применить к автономному транспорту.
Авторы отмечают, что для больших VLA хорошо работает behaviour cloning претрейн, но RL пока масштабируется плохо: недостаточно данных, сложно учиться на success rate длинных горизонтов, а пространства экшнов слишком большие (в статье упоминаются 29 DOF), чтобы покрывать их в RL.
Авторы предлагают учить Residual RL — политику, которая даёт небольшую добавку к экшну от BC. А ещё делятся рецептом реализации:
🔴Off-policy RL — показывают, что Residual PPO в 200 (!!!) раз менее эффективен, чем Residual off-policy.
🔴Много апдейтов на один роллаут.
🔴N-steps returns.
Learning to Annotate Delayed and False AEB events: a Practical System for Extreme Class Imbalance and Asymmetric Label Noise
Постер о том, как работает AEB в Lixiang. Говорят, что в проде используют и rule-based, и модель. Чаще срабатывает rule-based, модель тюнят для более сложных сценариев. Данные собирают по экстренным торможениям всех пользователей Lixiang. Датасетами, конечно же, не делятся.
Search3D: Hierarchical Open-Vocabulary 3D Segmentation
Второй постер о новом подходе к open vocabulary от ETH, Google и Stanford. Застать авторов, к сожалению, не получилось.
VL-DPO: Vision-Language-Guided Finetuning for Preference-Aligned Autonomous Driving
Третий постер — от Waymo. Взяли VLM, собрали преференсы, обучили DPO. Но не для end2end-, а для motion-LM-модели. На метриках open-loop стало лучше, на closed-loop не проверяли.
COMPASS: Cross-embOdiment Mobility Policy via ResiduAI RL and Skill Synthesis
Ещё один Residual RL на четвёртом постере: на этот раз от NVIDIA. Авторы пишут что обучение только в симуляторе хорошо работает в реальности без sim2real.
Conditional Flow-VAE for Safety-Critical Traffic Scenario Generation
Пятый постер — работа Waabi AI о генерации сложных сценариев поведения. Учат генеративную модель на обычных данных, потом на малом числе кейсов тренируют для неё флоуматчинг, который переводит оригинальное распределение в более safety critical.
#icra2026
Подсмотрел для вас интересное ❣️ Максим Спорышев
404 driver not found
1 397
+4
Земной автомобиль, луноход или марсианский ровер — на ICRA 2026 припаркуются все
Позади второй день конференции — продолжаем делиться самым интересным об автономном вождении. Слово Максиму Спорышеву:
Среди докладчиков были те, кто буквально делает космолёты. Они рассказали о локализации для lunar landing, навигации на Марсе и детекции аномалий в космосе — только представьте, какие у них байки про продакшн. Понравились три постера. Первый — от Waabi AI. Они реализовали 3D-реконструкцию в зоне, ближайшей к исходному треку. Хорошее решение для симуляции перестроения, но не подходящее для сложных разворотов и прокладывания нового маршрута. Тесты проводят на дистанциях 3, 4 и 5 метров от исходных положений камер: делают feedforward-рендеринг с помощью 3D Gaussian Splatting, добавляют шум и денойзят всё диффузией, которая училась восстанавливать изображения на дистанции 3 метра. Второй постер — об обучении через имитацию действий других участников дорожного движения. Чтобы собрать тренировочный датасет, авторы берут сцены на nuPlan, выбирают на них одного-двух хороших агентов и трансформируют их движение так, будто всё происходит от лица эго-агента. Плохие данные фильтруют по метрикам комфорта, пройденной дистанции и TTC. С ростом количества данных эффективность обучения падает: между первыми точками графика заметна большая разница, а ближе к 100 тысячам сцен её почти нет. Для проверки использовали модель PLUTO. На третьем постере — self-supervised-способ трекинга на лидарных облаках через кластеризации точек и фильтры Калмана. Жаль, что не удалось поймать авторов: они утверждают, что работают на уровне supervised-трекеров. Отдельно отмечу два доклада, номинированных на звание лучших работ. Do You Know Where Your Camera Is? View-Invariant Policy Learning with Camera Conditioning Статья о robotic manipulation, но решаемая в ней проблема актуальна и для автономного транспорта. Авторы показывают, что качество всех VLA сильно просаживается, если меняется положение камер: в сетапах с рандомным размещением success rate проседает в пару раз. Решение — подавать положение камер через Plücker ray-maps. То есть задавать луч камеры для каждого пикселя шестью дополнительными числами: дельтами и моментами. С таким кондишенингом на камеры авторы отыгрывают просадку: success rate становится в пару раз лучше, чем у обычных VLA. FP3: A 3D Foundation Policy for Robotic Manipulation Авторы критикуют vision-энкодеры в современных VLA и утверждают, что без трёхмерного представления о мире не обойтись. Взамен предлагают сетап обучения с Uni3D в качестве энкодера. Он показывает довольно высокие success rates: до 90% на некоторых тасках. Напоследок авторы показывают профит от масштабирования своего трансформера до 1,3B.Конференция продлится до 5 июня — ещё вернёмся с новой порцией наблюдений. #icra2026 404 driver not found
1 397
+5
Чем запомнился первый день ICRA 2026
С 1 по 5 июня в Вене идёт International Conference on Robotics & Automation. Хайлайтами первого дня поделился Максим Спорышев — руководитель службы поведения и предсказания движения в Автономном транспорте Яндекса.
Доклады
🔴Команда исследователей из Huawei, NVIDIA Research, OpenDriveLab b Shanghai AI Laboratory рассказала о своём пост-трейновом фреймворке World Engine: как он помог им проехать 200 км по Шанхаю без дизенгейджмента. Обещают выпустить в опенсорс — что-то уже доступно на GitHub. Работа показалась интересной с точки зрения генерации safety-critical-кейсов.
🔴 NVIDIA объявили, что вслед за недавним релизом модели Alpamayo 2 и симулятора выложат огромный датасет и запустят челендж AlpaSim. 25 стран, 2500 городов и 1700 часов проездов — звучит супермощно, очень ждём!
Постеры
🔴 Первые три фото — целый воркшоп о предикшне поведения пешеходов. Авторы рассуждают о самой острой проблеме: предсказать действия пешеходов довольно сложно, особенно в парадигме, что их поведение зависит от движения автономного транспорта. Но хороших решений пока нет.
🔴 На четвёртом фото постер о том, как подбустить персепшн в тумане. Результат работы авторы проверяли на датасете KITTI.
🔴 Пятый постер — ещё один способ токенизировать таргет, чтобы предсказывать движение автономного транспорта.
🔴 На шестом фото работа о подходе к обучению, актуальном для SDG. Авторы рассматривают пайплайн обучения с normalizing flows для задач манипуляции: IL➡️Critic offline Warmup➡️Offline RL➡️Online RL.
#icra2026
404 driver not found
1 397
Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model
Беспилотный транспорт в свой работе полагается на данные различных сенсоров: камер, лидаров, радаров. Для обработки этих данных — например, для детекции объектов на дороге — обычно используют нейросети. Вычислительная мощность железа на борту автомобиля ограничена, поэтому нейросети должны быть не только точными, но и быстрыми. Сегодня разберём статью о таком фреймворке на основе мощного бэкбона Mamba.
Подход space state models часто используют в LLM для моделирования длинных последовательностей. Авторы предлагают адаптировать этот подход для компьютерного зрения.
В основе архитектуры — deep-learning-модель Mamba. Визуальные данные чувствительны к взаимному расположению и контексту. Чтобы модель учитывала это и справилась с CV, авторы предложили добавить к ней новый блок Bidirectional Mamba с энкодером.
Архитектура Vision Mamba (или просто Vim) — на схеме. Входное изображение делится на патчи, которые превращаются в токены. Последовательность токенов подаётся на вход Vim-энкодеру. В отличие от Mamba, новый энкодер может перенаправлять токены не только вперёд, но и назад по флоу обработки.
Полученную модель можно использовать в качестве бэкбона для 2D-задач: для классификации, детекции и сегментации. Особенность Vision Mamba в том, что она растёт не квадратично от количества токенов как трансформеры, а линейно. А значит, хорошо подходит для задач CV на изображениях с высоким разрешением.
Vision Mamba немного превзошла по top-1 accuracy на ImageNet трансформенную модель DeiT и значительно обогнала её по скорости и потреблению памяти.
Познакомиться с новой моделью можно на GitHub авторов.
Разбор подготовил ❣️ Илья Кувыкин
404 driver not found
1 397
Distillation with time
Сегодня разберём сразу две статьи о дистилляции с учётом временного контекста.
RCTDistill: Cross-Modal Knowledge Distillation Framework for Radar-Camera 3D Object Detection with Temporal Fusion
Учитель — LiDAR-детектор, ученик — camera-radar-детектор с time fuse. У обоих BEVFusion-архитектура. Авторы рассматривают, как решить три проблемы дистилляции:
1. Специфика данных. Камеры плохо оценивают расстояние до объектов, а у радаров — низкое угловое разрешение.
Для решения предлагают использовать модуль Range-Azimuth KD (RAKD), который подобно BEVDistill взвешивает L2-лосс между BEV-фичами. Только здесь маска использует размеры объектов, расстояние до эго-машины и угол, формируя эллипсы.
2. Временное смещение динамических объектов. Простой time fuse (concat + conv) не моделирует пространственное смещение объектов между кадрами.
С этой проблемой борется Temporal KD (TKD), который также формирует эллипсоидную маску на BEV. Таким образом учитывают скорость и историю траектории объекта.
3. Неэффективное объединение модальностей. При наивном слиянии модальностей фичи переднего плана и фона смешиваются.
С этим помогает модуль Region-Decoupled KD (RDKD). В качестве лосса он использует матрицы косинусных расстояний векторов BEV'а по выбранным позициям, где у ученика больше heatmap score.
Distilling Future Temporal Knowledge with Masked Feature Reconstruction for 3D Object Detection
В этой работе учитель — SparseBEV с фреймами из прошлого и будущего. Ученик такой же, только без информации о будущем. Авторы разбираются, как грамотно передавать ученику информацию о будущем.
Две основные идеи:
1. Future-Aware Feature Reconstruction.
Сначала вводят Temporal Self-Attention (TSA) — чтобы учитель мог агрегировать информацию с фреймов будущего.
Потом для выхода ученика маскируют некоторую долю токенов, восстанавливают её генератором и считают лосс. Так ученик тренируется строить фичи, обогащённые знанием о будущем, не имея к нему прямого доступа.
Подобный генератор есть на уровне картиночных фичей (после FPN), а также на уровне BEV queries.
2. Future-guided Logit Distillation.
Лоссы классификации и регрессии минимизируют через венгерский алгоритм. Когда у учителя есть знания о будущем, он выдаёт больше true negative.
Авторы обеих статей утверждают, что их подходы помогают улучшить перфоманс, одновременно сэкономив вычислительные мощности и решив ключевые проблемы дистилляции для задачи мультимодальной 3D-детекции.
Разбор подготовила ❣️ Елизавета Мирова
404 driver not found
1 397
UniMotion: A Unified Motion Framework for Simulation, Prediction and Planning
Сегодня разберём статью о UniMotion — едином фреймворке на основе decoder-only-трансформерной архитектуры, который объединяет в себе сразу три задачи: симуляцию, предсказание и планирование.
Новый фреймворк позволяет одновременно обучать модель для генерации разнообразных движений и долгосрочного предсказания траекторий, при этом разделяя общие представления между задачами.
Для обучения авторы используют:
🔴 NTP (Next-Token Prediction) — симуляция.
🔴 LFR (Long-range Future Regression) — предсказание.
🔴 Комбинированный подход — планирование.
Чтобы специализировать модель для каждой из задач:
RL Fine-tuning для симуляции
GRPO-подобный подход. Генерируют n траекторий как группу, но градиент активируют только для одной, случайно выбранной, что позволяет экономить вычисления. Считают kinematic и collision reward для каждой из траекторий. Чтобы получить advantage A, нормализуют reward’ы внутри группы. А потом обновляют политики вождения с их учётом. В результате траектории становятся более реалистичными и физичными. А ещё — лучше укладываются в правила дорожного движения
Multi-modal Fine-tuning для предсказаний
LFR обеспечивает только одну траекторию. Но для multi-modal их нужно несколько, поэтому авторы добавляют легковесный трансформерный декодер. Он переводит фичи основной модели в локальную систему координат агента. А потом, используя якорные точки намерений intention points, генерирует траектории для разных намерений. Лосс для траекторий — Gaussian NLL, для классификации режимов — кросс-энтропийный. Благодаря учёту намерений движение становится разнообразнее.
Pred2Gen Fine-tuning для планирования
После основного обучения авторы учат модель предсказывать траектории окружающих её агентов. Для этого заменяют сильно ошибочные предсказания на ground truth, а сами плохие предсказания отправляют в модель, чтобы end-to-end дообучить генерацию эго-агента. Так модель адаптируется к реальному инференсу, где работает со своими же предсказаниями/
Авторы утверждают, что на момент публикации модель стабильно демонстрировала SoTA-результаты и может стать легко масштабируемым решением, помогающим разнообразить симуляцию, предсказание и планирование движения.
Разбор подготовила ❤️ Арина Ромашкина
404 driver not found
1 397
FastPillars: A Deployment-friendly Pillar-based 3D Detector
В BEV-based-детекторах часто используют sparse-свёртки. Но их не так-то просто перевести в формат, оптимизированный для инференса: развернуть, квантизировать и конвертировать в TRT.
Лидарный pillar-based-энкодер FastPillars не использует sparse-свёртки, не теряя при этом в скорости и точности. Сегодня разберём статью о том, как он устроен.
У архитектуры FastPillars четыре основных блока: MAPE, Backbone, Neck и Center-Head. Рассмотреть, как всё устроено, можно на схеме. Neck и Center-Head довольно стандартные. Бóльший интерес представляют первые два блока.
MAPE или Max-and-Attention Pillar Encoding — специальный энкодер для pillar’ов, который лучше учитывает локальную геометрию. Например, хорошо находит людей, спрятанных за объектами. А ещё обходится небольшими вычислительными мощностями и легче деплоится в embedded-приложениях.
Чтобы точнее определять объекты, MAPE, по сути, производит positional-энкодинг — рассчитывает для каждого pillar’а один feature-вектор: параллельно вычисляет два вектора и усредняет их. Один вектор получается с помощью MLP и max-энкодинга — просто max-pool по размерности количества точек. Другой вектор вычисляют так называемым аттеншн-энкодингом, который на самом деле представляет собой взвешивание фичей для точек pillar’а и их суммирование по той же размерности. В целом блок напоминает Squeeze-And-Excitation.
Для Backbone к обычному ResNet-34 авторы применили computation reallocation design: оказалось, что с бóльшим количеством слоёв начальные блоки лучше обрабатывают изображения. А для блоков ближе к концу разница не так заметна, можно оставить по одному слою. В итоге авторы увеличили количество слоёв в первых блоках и уменьшили в последних.
В Neck сфьюзили фичи из слоёв 8x и 16x как в PillarNet. Head — обычный center-based detection head. Чтобы лучше локализовывать объекты, дополнительно к типичным детекционным лоссам напрямую оптимизировали IoU-лосс.
Всего в FastPillars четыре лосса: фокальный, L1, регрессионный DIoU и отдельный для IoU.
На момент публикации, в 2023 году, FastPillars показывал SoTA-результаты на Waymo Open Dataset. Познакомиться с кодом детектора можно на GitHub авторов.
Разбор подготовил ❣️ Антон Семенюта
404 driver not found
1 397
Gigaflow: Robust Autonomy Emerges from Self-Play
Сегодня разберём статью о self-play-симуляторе для reinforcement learning (RL).
Авторы показывают, что с помощью симуляции можно относительно дёшево обучить простую модель, достигающую SoTA-результатов на большинстве closed-loop-бенчмарков.
Ключевая идея — добиться необходимого поведения можно и без ground-truth-данных. То есть, вместо разметки и записанных траекторий можно просто дать агентам взаимодействовать друг с другом в большом количестве сцен. У Gigaflow достаточно быстрый симулятор, чтобы за время обучения модель успевала «проехать» миллиарды виртуальных километров — это огромное разнообразие ситуаций.
Среда представляет собой набор карт, на которых случайным образом размещаются агенты (автомобили, велосипедисты, пешеходы). Для каждого агента задаётся последовательность waypoint’ов, через которые он должен проехать — каждая симуляция уникальна.
Чтобы приблизить симуляцию к реальности, вводят частичную наблюдаемость (агенты не знают полного состояния других участников), шум в состояниях и динамике. В результате без явного сценарного программирования возникают сложные взаимодействия: пробки, слияния потоков и нерегулируемые перекрёстки.
Одна и та же нейросетевая политика управляет всеми агентами в сцене. Чтобы разнообразить их поведение, используют кондишнинг: задают для каждого агента параметры, определяющие его тип, физические характеристики и предпочтения в поведении.
Обучение проводят с помощью алгоритма PPO. Функция награды включает несколько компонентов: достижение цели, соблюдение ПДД, комфортность вождения, а также штрафы за столкновения и другие нарушения. Интересная особенность — advantage filtering. Обучение фокусируется на наиболее информативных состояниях, в которых действие существенно влияет на результат, а простые ситуации постепенно отфильтровываются.
У Gigaflow лучшие метрики на трёх популярных бенчмарках: CARLA, nuPlan и Waymax. Причём все результаты получены в режиме zero-shot — модель не обучалась ни на одном из этих датасетов.
Разбор подготовил ❣️ Тимур Петров
404 driver not found
1 397
Diffusion-Based Planning for Autonomous Driving with Flexible Guidance
Современные learning-based подходы к планированию часто не могут сбалансировать конкурирующие цели обучения и требования к безопасности движения из-за ограниченной адаптивности и сложностей с пониманием мультимодальных форм поведения, типичных для людей. К тому же, результаты обучения находятся в зависимости от резервной стратегии с предопределёнными правилами.
Авторы сегодняшней статьи попробовали решить проблему мультимодальности, планируемой траектории и соблюдения требований безопасности переходом на диффузионный планнер. Они используют архитектуру на базе DiT, которая учится предсказывать траектории эго и агентов. Чтобы генерировать более безопасные траектории (примеры потенциалов: signed distance между эго и агентами, отклонение скорости от заданного коридора, jerk) исследователи используют classifier guidance с заранее заданными потенциалами.
Обучаются на nuPlan. При этом на довольно небольшой архитектуре получается SOTA на nuPlan среди learning-based подходов. Если же добавить refine, получается SOTA среди всех. Авторы утверждают, что в качестве refine используют готовый модуль из STR-2, который добавляет оффсеты к выходам модели и скорит траектории, используя PDM.
В diffusion-based planning используются аугментации current_state'а: исследователи заменяют положение, угол, скорость и ускорение на дельту из равномерного. Потом прибегают к quintic interpolation, чтобы перестроить GT. Данные переводят в эгоцентрическую систему координат и применяют z-score нормализацию к x-координатам и пропорционально скейлят y-координаты.
Для дополнительного сравнения команда проекта собрала собственный датасет, который состоит из 200 часов реальных данных работы автономного доставщика, которому можно ездить по велодорожкам, поэтому чаще всего он взаимодействует с пешеходами и велосипедистами. Результаты этого масштабного теста подтвердили, что Diffusion Planner обеспечивает производительность на уровне SOTA в различных стилях вождения.
Разбор подготовил ❣️ Марк Нужнов
404 driver not found
1 397
+1
Две статьи о дистилляции для 3D-детекции с разнородными данными
Разные сенсоры автономного транспорта дают модели неоднородную информацию о сцене: лидар — разреженную геометрию, камеры — плотное визуальное представление. Сегодня разберём сразу две статьи о том, как в таком случае дистиллировать модели для задач 3D-детекции.
BEVDistill: Cross-Modal BEV Distillation For Multi-View 3d Object Detection
Фреймворк BEVDistill решает две важные проблемы дистилляции в BEV:
🔴 преобладание на feature maps маловажного фона, который слабо помогает обучению;
🔴 риск передать студенту ошибки — ложные срабатывания учителя.
Для этого авторы предлагают два взаимодополняющих компонента.
Первый, Dense Feature Distillation, фокусирует студента на областях BEV-карты, которые содержат критически важную информацию о реальных объектах. Это достигается путём построения гауссиан вокруг центров GT 3D-боксов.
Гауссианы объединяются в карту весов, где ячейкам вблизи объектов присваиваются высокие значения, а фоновым областям — низкие. Эта карта взвешивает лосс между BEV feature maps учителя и студента и способствует тому, что студент внимательнее согласовывает свои признаки с учителем именно в релевантных для объектов локациях.
Второй, Sparse Instance Distillation (SID), решает проблему потенциального вреда от дистилляции на основе ошибочных предсказаний учителя. SID сознательно фокусируется не на всех предсказанных учителем объектах, а только на надёжных.
Для предсказаний вычисляются веса, и дистилляционный лосс взвешивается этими значениями. Это гарантирует, что студент учится перенимать паттерны только из корректных предсказаний учителя, меньше обращая внимание на его ложные срабатывания.
Рассмотреть весь фреймворк можно на первой схеме, познакомиться с решением поближе — на GitHub авторов.
Representation Disparity-aware Distillation for 3D Object Detection
Авторы этой статьи подводят нас к проблеме селективности в дистилляции с другой, более фундаментальной стороны. Они сосредоточились на явлении рассогласования представлений (representation disparity) — различиях в распределениях признаков учителя и студента.
Стандартная дистилляция не учитывает, что это рассогласование неоднородно по пространству feature map. Ключевая идея RDD — явно измерить локальное расхождение (disparity) между признаками учителя и студента в областях предсказаний (в областях, где был предсказан объект).
На второй схеме видно: области с высоким значением указывают на значительное несоответствие, означающее, что студенту сложнее перенять знания учителя именно в этих местах. RDD использует эти веса для дистилляционного лосса, что фокусирует обучение на тех зонах, где студент сильнее всего отклоняется от учителя.
Авторы утверждают, что на момент выхода статьи их подход позволил повысить mAP для CP-Voxel-S с 54,0% до 57,1% на датасете nuScenes. Этот результат лучше, чем у модели-учителя, хотя cтудент использует лишь около 41,6% её FLOPs.
Разбор подготовила ❣️ Елизавета Мирова
404 driver not found
1 397
MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection
Модели с Lift Splat Shoot (LSS) хороши, но у них есть ограничения. Главное из них заключается в том, что при удалении от эго-агента точность и плотность BEV-фичей падает. А значит, ухудшается качество моделей, основанных на BEV. Методы с нелинейным BEV частично решают эту проблему, но они, как правило, упираются в потолок скорости работы при увеличении расстояния, на которое должна «видеть» машина.
Query-based-подходы, не формирующие BEV, позволяют создавать быстрые и точные модели, однако объединять фичи разных модальностей в такой постановке гораздо сложнее. Сегодня разберём статью об одной из реализаций — SOTA-модели для мультимодальной 3D-детекции.
MV2DFusion — perception-модель, использующая query-based-парадигму. Она фьюзит модальности, прогоняя предикты детекций из разных модальностей через один Deformable DETR, но учитывая особенности этих модальностей:
🔴 Для 2D-детекций она отдельно предсказывает категориальное распределение их глубин, как в LSS — свойство query на всё время работы модели, которое особым образом учитывается в Self- и Cross-Attention.
🔴 Лидарные 3D-детекции на основе облака точек она считает обычными точками в пространстве.
Потом все детекции конкатенируют и пропускают через трансформер. Темпоральность авторы реализовали путём добавления top-K query из T последних таймстепов в Self-Attention. Подробнее рассмотреть архитектуру модели можно на схеме.
Авторы утверждают, что гибкость MV2DFusion позволяет интегрироваться с любыми детекторами на основе изображений и облаков точек. По сравнению с BEVFusion (w/ CenterPoint), этот метод заметно улучшает качество, особенно на датасете Argoverse2 с long-range-предсказаниями на 204 метра. При этом MV2DFusion в 2 раза быстрее и использует в 3 раза меньше памяти.
Разбор подготовил ❣️ Тимур Ахмадуллин
404 driver not found
1 397
π0: A Vision-Language-Action Flow Model for General Robot Control
Сегодня разберём статью о важной для self-driving теме из смежной области — как делать large-scale pre-training, если обучающих данных исчезающе мало.
У ребят, которые создают автономных роботов, обучающих датасетов ещё меньше, чем у нас. Авторы из команды Physical Intelligence предлагают решение: прикручивают flow-matching-декодер для экшнов к VLM, натренированной на internet-scale-датасете.
Архитектурно эта система устроена следующим образом:
1. Изображения с камер и текст задания попадают в префикс, проходят через VLM (PaliGemma 3B на базе Gemma 2) — получается KV-кэш.
2. В получившуюся последовательность после префикса добавляют эмбеддинг текущего состояния — вектора Q из 18 float-значений.
3. Траекторию на H=50 шагов, предсказывают с помощью flow-matching-декодера на 300M параметров, используя KV-кэш из 1 и 2.
Если у робота меньше трёх камер, вместо недостающих изображений указывают нули. Аналогично, если размерность стейта меньше 18, дополняют вектор нулями до 18 значений.
При этом у аттеншна блочно-каузальная маска:
🔴 префикс учитывает только собственные данные,
🔴 вектор состояния Q ориентируется и на себя, и на префикс,
🔴 траектория опирается и на собственные значения, и на Q, и на префикс,
🔴 внутри каждого блока маска полная: все смотрят на всех.
Так как префикс лежит в KV-кэше, важно, чтобы у декодера траектории были те же количество слоёв и размерность слоя. Но можно уменьшить размерность в MLP: именно так удаётся получить 300M параметров в декодере траектории при 3B в VLM.
Сначала модель претрейнят на составном датасете:
🔴 9,1% разнообразных опенсорс-данных — Oxe Magic Soup (2 Гц + 10 Гц),
🔴 остальные 90% (903M таймстепов на 68 заданий для single-/dual-arm роботов) — π0-dataset,
🔴 чтобы избежать дисбаланса, каждую task-robot-пару взвешивают с весом n⁰˒⁴³.
Потом обучают все части модели: image-backbone, VLM, Action-Expert. А во время пост-трейнинга каждый Action-Expert файнтюнится на своём task-specific-датасете.
В инференсе 10 шагов интегрирования (денойзинга). Он работает 73 мс на RTX 4090 (86 мс с задержкой сети). Для 20-герцовых роботов инференс делают каждые 0,8 секунды (после 16 шагов), для 50 Гц роботов — каждые 0,5 секунды (после 25 шагов). Для траекторий пробовали добавлять temporal ensembling, но результаты получились хуже чем open-loop.
Авторы утверждают, что на момент публикации были в топе всех популярных бенчмарков.
Разбор подготовил ❣️ Сергей Репьевский
404 driver not found
1 397
π0: A Vision-Language-Action Flow Model for General Robot Control
Сегодня разберём статью о важной для self-driving теме из смежной области — как делать large-scale pre-training, если обучающих данных исчезающе мало.
У ребят, которые создают автономных роботов, обучающих датасетов ещё меньше, чем у нас. Авторы из команды Physical Intelligence предлагают решение: прикручивают flow-matching-декодер для экшнов к VLM, натренированной на internet-scale-датасете.
Архитектурно эта система устроена следующим образом:
1. Изображения с камер и текст задания попадают в префикс, проходят через VLM (PaliGemma 3B на базе Gemma 2) — получается KV-кэш.
2. В получившуюся последовательность после префикса добавляют эмбеддинг текущего состояния — вектора Q из 18 float-значений.
3. Траекторию на H=50 шагов, предсказывают с помощью flow-matching-декодера на 300M параметров, используя KV-кэш из 1 и 2.
Если у робота меньше трёх камер, вместо недостающих изображений указывают нули. Аналогично, если размерность стейта меньше 18, дополняют вектор нулями до 18 значений.
При этом у аттеншна блочно-каузальная маска:
🔴 префикс учитывает только собственные данные,
🔴 вектор состояния Q ориентируется и на себя, и на префикс,
🔴 траектория опирается и на собственные значения, и на Q, и на префикс,
🔴 внутри каждого блока маска полная: все смотрят на всех.
Так как префикс лежит в KV-кэше, важно, чтобы у декодера траектории были те же количество слоёв и размерность слоя. Но можно уменьшить размерность в MLP: именно так удаётся получить 300M параметров в декодере траектории при 3B в VLM.
Сначала модель претрейнят на составном датасете:
🔴 9,1% разнообразных опенсорс-данных — Oxe Magic Soup (2 Гц + 10 Гц),
🔴 остальные 90% (903M таймстепов на 68 заданий для single-/dual-arm роботов) — π0-dataset,
🔴 чтобы избежать дисбаланса, каждую task-robot-пару взвешивают с весом n⁰˒⁴³.
Потом обучают все части модели: image-backbone, VLM, Action-Expert. А во время пост-трейнинга каждый Action-Expert файнтюнится на своём task-specific-датасете.
В инференсе 10 шагов интегрирования (денойзинга). Он работает 73 мс на RTX 4090 (86 мс с задержкой сети). Для 20-герцовых роботов инференс делают каждые 0,8 секунды (после 16 шагов), для 50 Гц роботов — каждые 0,5 секунды (после 25 шагов). Для траекторий пробовали добавлять temporal ensembling, но результаты получились хуже чем open-loop.
Авторы утверждают, что на момент публикации были в топе всех популярных бенчмарков.
Разбор подготовил ❣️ Сергей Репьевский
404 driver not found
1 397
Openpilot 0.11 — первый робо-агент, обученный только на симуляциях
Команда Comma.ai опубликовала интересный пост, где утверждает, что впервые в истории индустрии выпустила на дороги робо-агент, полностью обученный в вымышленной нейросетями симуляции.
Немного контекста: в Comma.ai разрабатывают систему помощи водителю, совместимую со многими моделями автомобилей. Система работает на втором уровне автономности — умный лейн-кипинг в широком спектре сценариев. Эта задача гораздо проще, чем полностью автономное вождение, что позволяет Comma.ai экспериментировать.
В то время как Waymo и британская команда Wayve интегрируют модели мира в свои пайплайны, Comma.ai идёт ещё дальше и отказывается от всего, кроме модели мира. Похожую идею предлагали учёные из Беркли в классической для робототехники статье DayDreamer — интересно, что этот подход удалось адаптировать для автономного вождения.
Вот что предлагают создатели Openpilot 0.11:
Шаг 1. Собрать 40 тысяч часов интересных видео, записанных флотом автономного транспорта и разбить их на сцены по 10 секунд с частотой 5 Гц.
Шаг 2. Обучить на этом датасете двухголовую модель мира:
🔴 первая голова предсказывает по видеоконтексту следующее действие эго-агента,
🔴 вторая — генерирует следующий кадр по видеоконтексту и только что полученному следующему действию.
Потом к контексту добавляется сгенерированный кадр, и процесс повторяется.
Секретный ингредиент — подавать на вход модели не только две секунды истории, но и последнюю секунду в эпизоде. Так ей понадобится предсказывать только промежуточную траекторию — это значительно улучшает сходимость. В итоге получается достаточно реалистичный симулятор вождения, который генерирует следующий кадр по двум секундам видео и действию эго.
Шаг 3. Обучить в полученном симуляторе небольшую модель-водителя, которая должна сходиться в финальное состояние по одному лишь видео, не видя последний кадр. Щедро насыпать шум на всех стадиях для устойчивости.
Openpilot 0.11 обучали on-policy — модель много едет по сгенерированной ей самой траектории, что выгодно отличает подход от обычного imitation learning.
При этом награды или штрафы не задавались явно — по опыту reinforcement learning, конструирование наград иногда всё только портит. Авторы усвоили горький урок: для того чтобы всё сошлось, достаточно увеличить количество данных и размер модели.
Единственная проблема, которая остаётся, — модель-водитель может научиться ломать симуляцию непредсказуемыми способами. Авторы утверждают, что это решается за счёт гипотезы большого мира: одновременно увеличивать и модель мира, и размеры водителя так, чтобы мир всегда был на порядок больше.
В парадигме Level 2 получается хороший результат — агент держит линию и расстояние до других, объезжает запаркованные авто. Но вопрос, будет ли это скейлиться на более сложные задачи, остаётся открытым.
Разбор подготовил ❣️ Кирилл Федянин
404 driver not found
1 397
+1
EMMA: End-to-End Multimodal Model for Autonomous Driving
Сегодня разберём статью об EMMA — end-to-end модели на основе LLM для задач автономного вождения.
Верхнеуровнево архитектуру EMMA можно рассмотреть на схеме. В качестве LLM авторы используют Gemini. На входы модели подают изображения с камер (camera-only), историю ego и подсказки маршрутизатора. HD-карты не используются.
Chain-of-thought начинается с описания сцены (scene description), потом модель выделяет участников движения (critical objects) и переходит к описанию их поведения (behavior description of critical objects). А в конце — принимает решение, как управлять транспортным средством (meta driving decision).
Задачи перспешна (3D object detection, road graph estimation, scene understanding) решает Gemini — по изображениям с камер и соответствующим им промптам. Чтобы выбрать лучшую моду, модель считает попарные L2-расстояния между всеми траекториями. Топ-1 становится траектория с наименьшим средним L2.
Из плюсов EMMA — неплохие значения ADE по сравнению с Wayformer и MotionLM. Но недостатков у модели много:
🔴 повышенные вычислительные требования,
🔴 необходимость адаптировать сетку для обработки данных с лидаров,
🔴 сложности оценки модели в closed-loop,
🔴 небольшое число обрабатываемых изображений с камер.
EMMA — один из примеров того, как можно применять LLM для задач автономного вождения, выбивая при этом неплохие значения метрик open-loop. В целом, end-to-end подходы набирают всю большую популярность. Думаю, дальнейшие исследования будут направлены на преодоление вычислительных ограничений и внедрение симуляции сенсоров в closed-loop.
Разбор подготовил ❣️ Павел Лукьянов
404 driver not found
1 397
GaussianLSS — Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting
Авторы сегодняшней статьи предлагают альтернативу LSS. Для этого от задачи классификации распределения глубины они переходят к регрессии параметров распределения (среднего и дисперсии). В результате точно так же предсказывается распределение, но лоссы считаются иначе.
В GaussianLSS вместо BEVPool или BEVPoolv2 используется классическая растеризация через diff-gaussian-rasterization (как в компьютерных играх: проецируем полигоны/гауссианы на камеру/BEV). Именно так авторы получают BEV-фичи для прикладных задач, при этом увеличивая FPS за счёт diff-gaussian-rasterization. По FPS они побеждают всех конкурентов на бенчмарках, не сильно теряя в качестве.
Распределение вероятности по бинам предсказывается аналогично стандартному LSS. Но затем авторы считают среднее, поскольку знают, на каком расстоянии находится каждый бин, и дисперсию. Получаются точки в системе координат камеры (каждый пиксель — u,v и глубина для него — d). Они перегоняются в мировые координаты через внешние и внутренние матрицы калибровок.
Откуда вообще берётся распределение глубины? Как мы помним, в классическом LSS есть волшебный DepthNet, который предсказывает распределение глубины каждого пикселя и новые фичи. Авторы ещё немного модифицируют его так, чтобы получать ещё и opacity. Кажется, это сделано, потому что того требуют библиотеки для растеризации гауссиан. Но этот параметр можно как-нибудь использовать. Например, вы не хотите видеть бесполезное для ваших задач небо на BEV-фичах — благодаря opacity от него можно избавиться.
Итого, авторы получают в 3D-пространстве точки, у каждой из которых есть координата, матрица ковариаций (на самом деле немного вырожденная, потому что гауссиана растянута вдоль «луча», проходящего через пиксель камеры), а кроме того — opacity и фичи. Дальше можно просто взять и отрендерить гауссианы. У оригинальной diff-gaussian-rasterization не очень хорошая лицензия, но есть и «народная» реализация этой библиотеки.
После растеризации получаются стандартные BEV-фичи, которые можно использовать привычным способом.
Разбор подготовил ❣️ Денис Глазов
404 driver not found
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
