Заметки Computer Vision инженера
Открыть в Telegram
Мои статьи из разных мест. Моя телега - @wk_zb Про консультации - https://telegra.ph/Pro-konsultacii-03-19 Про рекламу - https://telegra.ph/Pro-reklamu-v-bloge-03-19 Про политоту - https://telegra.ph/Pro-politiku-na-kanale-vo-izbezhanie-bana-04-11
Больше5 934
Подписчики
-224 часа
+127 дней
+2330 день
Архив постов
В последнее время я часто использую OneShot модели. И мне захотелось понять какие у каких ограничения и что где лучше работает. Думаю следующее видео сделаю про них. А пока расскажите что вы используете. А то вдруг что-то забыл.
Сделал коротенькое видео про то что сверху:
1) Добавил несколько примеров того где трекинг ломается/как себя ведёт
2) Рассказал с какими платами камера отказывается работать а с какими нет.
Думаю плюс-минус полезно если где-то хотите использовать
https://youtu.be/mTF31gjOXkk
Мне нравиться как прогрессируют не только VLM, но и классические алгоритмы. Вот это вот SLAM из коробки, на борту Insight9 камеры. Про камеру я рассказывал несколько месяцев назад.
Очень круто что это становится как-будто бы "отдельным модулем". Понятно, что пока что всё не так просто. Но по сравнению с тем как SLAM настраивался 5 лет назад - это прямо небо и земля.
То что на видео - это побаловаться. В нормальных проектах у нас тоже есть, но иначе.
А у вас где-то на практике SLAM используется?
Мне давным-давно любопытно было потестить китайские GPU платы. Насколько оно сейчас PyTorch френдли, какие проблемы с инференсом и обучением, и.т.д.
Но я ни знаю ни одного сервиса где есть какая-то аренда такого инстанса. Желательно почасовая. Ни immers.cloud ни salad.com ни vast.ai и никто известный их нее предлагает.
Когда-то пробовал чатгпт запрячь. Он нашёл пару сервисов, но там без китайского номера никак. Да и контракты там надо было брать по месяцу а то и больше.
Короче:
1) А вы тестили? Насколько оно всё любопытно? Насколько сейчас работает? Когда догонят и обгонят?
2) Знаете ли вы где-нибудь сервис где можно задёшево потыкать пальцем?
3) Может у вас есть свои GPU-шки и вы можете прокинуть SSH на них? Если сделаю ролик - обещаю там благодарностей натыкать:)
Как и обещал - основное видео.
Меня, конечно, поражает прогресс который произошёл в последние пол года. Не то что нельзя делать то чего было нельзя. Но насколько удобнее!
https://youtu.be/W_tR3qSTD4I
Завтра-послезавтра сделаю видео про то какая сетка One-shot-detection с visual prompting из зэ бест. А пока что коротенькое превью:)
Наконец добрался протестировать DeepX плату. Давно хотел.
В целом неплохая, но нет какого-то "прорыва" и отличия от рынка. Возможно кроме цены, ибо плата достаточно дешевая.
https://youtu.be/fNuI3ayaDgQ
А что думаете вы? Тестировали ли уже?
Когда мы уехали из России в 2022 году, мы стали думать, куда в Европе хотим перебраться. Внезапно по совокупности факторов в нашей пятёрке появилась Греция. А грецию мы любим.
На тот момент там была удобная номадская виза.
Но, как видно на этой картинке, вся суть Греции — в соседних противоречащих друг другу параграфах.
Тогда было, что самый простой способ получить номадскую визу — въехать в Грецию по туристической визе, а уже потом начать оформлять номадскую. Но туристические визы греки в тот момент практически перестали выдавать россиянам. В итоге с этим вариантом мы обломались и поехали в Норвегию.
Сейчас у меня неделя отпуска, и мы как раз ездим по Греции. Но каждый раз, когда я снова вижу такую комбинацию знаков или чего-то похожего — а тут такого много, — мне вспоминается та самая история.
Любопытно: есть ли среди подписчиков те, кто в итоге получил греческую номадскую визу?
Сам я переезжать не собираюсь, но любопытно, удалось ли кому-то пройти этот квест.
Собственно сегодняшнее видео - опять тирлист (прошлый неплохо зашёл, но не отвечал на вопрос полностью). Но на этот раз я попробовал больше сфокусироваться на том какие платы более предпочтительны для робототехники и почему. Ещё, наверное, я сделаю один тирлист для "инференса для камерах". Но это скорее через пару видео доберусь.
https://youtu.be/cykGngPqzro
Что-то в последний месяц меня много народу спрашивали что надо сделать чтобы переехать в разные другие страны (доки, и.т.д.). Я подумал что надо на мой второй канал бахнуть на эту тему видео чтобы в будущем просто его присылать. Собственно краткий рассказ про базовый комплект доков которые лучше подготовить заранее (хейтеры скажут чтобы бы не делать, только бы ВПН не настраивать!) 😁. Так как опыта переезда в разные страны достаточно, возможно кому-нибудь поможет. Сам был очень благодарен что мне когда-то эти базовые вещи проговорили.
Ну и да. Если вопросы есть - спрашивайте в треде, попробую ответить.
https://youtu.be/r2wpX6Off_0
Нормальное видео выложу завтра + одну любопытную плату тестирую, надеюсь до отпуска что-нибудь ещё выложу.
Давно не рассказывал что с RemBrain. Четыре года назад мы хотели делать мозги для роботов. "Интегрируем мозг в ваш проект". Потом поняли что это не работает. Долго экспериментировали, но кажется нашли рабочую нишу. С осени уже три интеграции. Сборка медицинских девайсов, сборка электроники. Главное что поняли - надо делать решение на уровне "воткнул в розетку - работает". Стандартизация всего и все. Максимальное упрощение интерфейсов.
А дальше поверх этого можно и классический CV втыкать и VLA и вообще без моделей работать. По сути железка - это средство доставки мозгов.
Чуть подробнее можно почитать в one pager.
Есть серьезное подозрение что в робототехнике это единственный подход. Как только появляется интегратор или посредник он сразу начинает думать "а зачем тут мне кто-то ещё, сейчас я сделаю все сам и заберу прибыль". И, естественно, все проваливает.
Видео выше - демка с последней выставки.
+1
Меньше года назад я уже писал про галлюцинации и куда это на заведёт. Кажется что галлюцинации становятся все более эпичными и сложными. С другой стороны - люди тоже галюцинируют. Может просто модели поднимутся до их уровня?
На картинках:
1) текущее качество чатгпт
2) текущее качество нанобананы
Второе куда ближе, но и ошибки эпичнее:)
Какую галюцинацию вы пытались пофиксить дольше всего?
Завтра и послезавтра буду на выставке про роботов в Ставангере https://erf2026.eu/
Если кто то там окажется, пишите/подходите!
Сегодня уникальное видео
https://youtu.be/HI47y_-Af3U
Looper Robotics прислали мне их камеру на обзор до официального старта продаж.
И надо сказать что это определённо одна из самых интересных 3д камер сейчас на рынке:) Это не значит что она лучшая, это значит что они попробовали перепридумать парадигму. Получится у них или нет - не знаю, но выглядит круто.
так же сделал статью
https://medium.com/p/7965df470f60
Вчера решил таки послушаться ботов и посмотреть, не починили ли плату Radxa NIO 12L про которую у меня когда-то уже было видео на канале. Все же было бы круто если бы MediaTek тоже включился в гонку. Radxa за это время на удивление даже обновила прошивку, выложила Ubuntu сборку для ядра. Но... Там не было предустановлено никаких NPU драйверов.
Так что для меня все так же и остаётся загадкой. Для кого вообще сделан NeuroPilot? На какой плате он должен работать? Кажется кроме радксы больше плат нет.
Вообще есть ли у кого-то опыт с не-андроид MediaTek NPU? Расскажите!
Вчера я выложил видео про World Models.
Прогресс огромный - не только в World Models, но и в VLA. Но… действительно ли это препятствует внедрению роботов? Низкое качество моделей?
И да, и нет.
Когда модели научатся делать всё, что умеют люди, это откроет путь гуманоидным роботам. Но человечество пока далеко. Есть проблемы с грипперами, сенсорами, механикой и с самими моделями.
При этом 95% задач уже могут быть автоматизированы сейчас. Но в большинстве случаев это просто невыгодно экономически.
Например, в супермаркете нет человека, который занимается только «раскладкой». Сотрудник может убирать магазин, принимать товары, работать на кассе — и выполнять ещё множество других задач. Если поставить в такой магазин робота для раскладки товара, это будут дополнительные расходы, потому что человека всё равно нельзя будет уволить.
Если же где-то есть сотрудник, который всё время занят только одним, тогда его уже можно автоматизировать. Но для этого гуманоидные роботы не нужны — и к тому же они слишком дороги.
Давно хотел сделать видео про World Models.
А тут ещё недавно статья неплохая от Nvidia была. Пожалуй хороший повод.
Между прочим, почему-то именно в робототехнике Nvidia лидер OpenSource сейчас. Многие прошлые вещи которые они выпускали были сомнительные. Ну да, можно использовать, но обычно не понятно зачем, если есть конкурирующие сети с State-of-the-art уровнем.
А с роботами прямо во многих вещах State-of-the-art только у Nvidia
https://youtu.be/6hDSWPb0_Rc
Сделал небольшое видео по вопросу который у меня часто спрашивают. На удивление много народу до сих пор не разобрались когда надо использовать OpenRouter а когда самохостить:)
Я не поднимаю тут вопрос про секьюрити из прошлого поста. Но про остальное достаточно подробно.
Я думаю вы сегодня уже видели этот ресерч от OpenAI 😆🤣😌. Если что, там даже пропагандисты засветились, наряду с вашим умершим дядюшкой из Нигерии.
Короче, всё достаточно предсказуемо.
Когда я ходил и показывал всем SnitchBench - все ржали и никто не верил что это будет внедрено в реальности.
Но да, внедрено будет. Но не надо бегать кругами и кричать "the end in near! 🔔" и отказываться от AI. Разве что если у вас есть много денег и сил.
А для нищебродов типа нас надо грамотно разделать сущности:
▪️Для личного использования - используйте что хотите, до момента пока вы не грузите личные документы / компрометирующие вас сведения / свои бизнес планы. Вы не сможете сделать результат лучше чем OpenAI/Antropic из коробки. И глупо не использовать эту мощь.
▪️Для корпоративного использования:
🔹Минимальная предосторожность - корпоративная подписка. OpenAI / Antropic / Gemini мамой клянутся что не будут использовать ваши данные для обучения. Но вот стучать.... Хз-хз. Не должны. Но вы сами помните как Antropic отрубал всем налево и направо подписку. Уверен это было не на бесплатном тире.
🔹Чуть лучше - использовать через корпоративные AWS / Azure аккаунты. Они типа как "SOC compliance". Я не лазил глубоко в эти дебри. Есть кто-то кто знает - могут ли как-то понять что происходит или нет? Подозреваю что могут.
🔹Идеально - самохостинг. Но тут цена минимальная.
▪️Что делать точно не надо в бизнесе?
🔹Наши сотрудники сами купят себе подписки / пусть сами разбираются. НЕТ, НЕТ, НЕТ. Стратегия использования должна быть согласована на уровне компании. Начиная с 5 человек. Вы же не хотите чтобы ваши сотрудники использовали бесплатный Qwen для ваших секретиков?
🔹Ща сделаем всё через Open Agent и Open Router через открытые модели! Нет! Вы не знаете кто эти модели хостит и что делает с вашими промптами!
▪️Вы делаете что-то сомнительное / goverment-related? Только самохостинг:) Все кто таким занимается - должны страдать.
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
