ru
Feedback
Заметки Computer Vision инженера

Заметки Computer Vision инженера

Открыть в Telegram

Мои статьи из разных мест. Моя телега - @wk_zb Про консультации - https://telegra.ph/Pro-konsultacii-03-19 Про рекламу - https://telegra.ph/Pro-reklamu-v-bloge-03-19 Про политоту - https://telegra.ph/Pro-politiku-na-kanale-vo-izbezhanie-bana-04-11

Больше
5 934
Подписчики
-224 часа
+127 дней
+2330 день
Архив постов
В последнее время я часто использую OneShot модели. И мне захотелось понять какие у каких ограничения и что где лучше работает. Думаю следующее видео сделаю про них. А пока расскажите что вы используете. А то вдруг что-то забыл.

Сделал коротенькое видео про то что сверху: 1) Добавил несколько примеров того где трекинг ломается/как себя ведёт 2) Рассказал с какими платами камера отказывается работать а с какими нет. Думаю плюс-минус полезно если где-то хотите использовать https://youtu.be/mTF31gjOXkk

Мне нравиться как прогрессируют не только VLM, но и классические алгоритмы. Вот это вот SLAM из коробки, на борту Insight9 камеры. Про камеру я рассказывал несколько месяцев назад. Очень круто что это становится как-будто бы "отдельным модулем". Понятно, что пока что всё не так просто. Но по сравнению с тем как SLAM настраивался 5 лет назад - это прямо небо и земля. То что на видео - это побаловаться. В нормальных проектах у нас тоже есть, но иначе. А у вас где-то на практике SLAM используется?

Мне давным-давно любопытно было потестить китайские GPU платы. Насколько оно сейчас PyTorch френдли, какие проблемы с инферен
Мне давным-давно любопытно было потестить китайские GPU платы. Насколько оно сейчас PyTorch френдли, какие проблемы с инференсом и обучением, и.т.д. Но я ни знаю ни одного сервиса где есть какая-то аренда такого инстанса. Желательно почасовая. Ни immers.cloud ни salad.com ни vast.ai и никто известный их нее предлагает. Когда-то пробовал чатгпт запрячь. Он нашёл пару сервисов, но там без китайского номера никак. Да и контракты там надо было брать по месяцу а то и больше. Короче: 1) А вы тестили? Насколько оно всё любопытно? Насколько сейчас работает? Когда догонят и обгонят? 2) Знаете ли вы где-нибудь сервис где можно задёшево потыкать пальцем? 3) Может у вас есть свои GPU-шки и вы можете прокинуть SSH на них? Если сделаю ролик - обещаю там благодарностей натыкать:)

Как и обещал - основное видео. Меня, конечно, поражает прогресс который произошёл в последние пол года. Не то что нельзя делать то чего было нельзя. Но насколько удобнее! https://youtu.be/W_tR3qSTD4I

Завтра-послезавтра сделаю видео про то какая сетка One-shot-detection с visual prompting из зэ бест. А пока что коротенькое превью:)

Наконец добрался протестировать DeepX плату. Давно хотел. В целом неплохая, но нет какого-то "прорыва" и отличия от рынка. Возможно кроме цены, ибо плата достаточно дешевая. https://youtu.be/fNuI3ayaDgQ А что думаете вы? Тестировали ли уже?

Когда мы уехали из России в 2022 году, мы стали думать, куда в Европе хотим перебраться. Внезапно по совокупности факторов в
Когда мы уехали из России в 2022 году, мы стали думать, куда в Европе хотим перебраться. Внезапно по совокупности факторов в нашей пятёрке появилась Греция. А грецию мы любим. На тот момент там была удобная номадская виза. Но, как видно на этой картинке, вся суть Греции — в соседних противоречащих друг другу параграфах. Тогда было, что самый простой способ получить номадскую визу — въехать в Грецию по туристической визе, а уже потом начать оформлять номадскую. Но туристические визы греки в тот момент практически перестали выдавать россиянам. В итоге с этим вариантом мы обломались и поехали в Норвегию. Сейчас у меня неделя отпуска, и мы как раз ездим по Греции. Но каждый раз, когда я снова вижу такую комбинацию знаков или чего-то похожего — а тут такого много, — мне вспоминается та самая история. Любопытно: есть ли среди подписчиков те, кто в итоге получил греческую номадскую визу? Сам я переезжать не собираюсь, но любопытно, удалось ли кому-то пройти этот квест.

Собственно сегодняшнее видео - опять тирлист (прошлый неплохо зашёл, но не отвечал на вопрос полностью). Но на этот раз я попробовал больше сфокусироваться на том какие платы более предпочтительны для робототехники и почему. Ещё, наверное, я сделаю один тирлист для "инференса для камерах". Но это скорее через пару видео доберусь. https://youtu.be/cykGngPqzro

Что-то в последний месяц меня много народу спрашивали что надо сделать чтобы переехать в разные другие страны (доки, и.т.д.). Я подумал что надо на мой второй канал бахнуть на эту тему видео чтобы в будущем просто его присылать. Собственно краткий рассказ про базовый комплект доков которые лучше подготовить заранее (хейтеры скажут чтобы бы не делать, только бы ВПН не настраивать!) 😁. Так как опыта переезда в разные страны достаточно, возможно кому-нибудь поможет. Сам был очень благодарен что мне когда-то эти базовые вещи проговорили. Ну и да. Если вопросы есть - спрашивайте в треде, попробую ответить. https://youtu.be/r2wpX6Off_0 Нормальное видео выложу завтра + одну любопытную плату тестирую, надеюсь до отпуска что-нибудь ещё выложу.

Давно не рассказывал что с RemBrain. Четыре года назад мы хотели делать мозги для роботов. "Интегрируем мозг в ваш проект". Потом поняли что это не работает. Долго экспериментировали, но кажется нашли рабочую нишу. С осени уже три интеграции. Сборка медицинских девайсов, сборка электроники. Главное что поняли - надо делать решение на уровне "воткнул в розетку - работает". Стандартизация всего и все. Максимальное упрощение интерфейсов. А дальше поверх этого можно и классический CV втыкать и VLA и вообще без моделей работать. По сути железка - это средство доставки мозгов. Чуть подробнее можно почитать в one pager. Есть серьезное подозрение что в робототехнике это единственный подход. Как только появляется интегратор или посредник он сразу начинает думать "а зачем тут мне кто-то ещё, сейчас я сделаю все сам и заберу прибыль". И, естественно, все проваливает. Видео выше - демка с последней выставки.

Меньше года назад я уже писал про галлюцинации и куда это на заведёт. Кажется что галлюцинации становятся все более эпичными
+1
Меньше года назад я уже писал про галлюцинации и куда это на заведёт. Кажется что галлюцинации становятся все более эпичными и сложными. С другой стороны - люди тоже галюцинируют. Может просто модели поднимутся до их уровня? На картинках: 1) текущее качество чатгпт 2) текущее качество нанобананы Второе куда ближе, но и ошибки эпичнее:) Какую галюцинацию вы пытались пофиксить дольше всего?

Завтра и послезавтра буду на выставке про роботов в Ставангере https://erf2026.eu/ Если кто то там окажется, пишите/подходите!

Сделал видео и статью про топовые платы для VLM и LLM. В первую очередь фокусировался на том что имело NPU, но немного в GPU
Сделал видео и статью про топовые платы для VLM и LLM. В первую очередь фокусировался на том что имело NPU, но немного в GPU + RISK-V тоже!

Сегодня уникальное видео https://youtu.be/HI47y_-Af3U Looper Robotics прислали мне их камеру на обзор до официального старта продаж. И надо сказать что это определённо одна из самых интересных 3д камер сейчас на рынке:) Это не значит что она лучшая, это значит что они попробовали перепридумать парадигму. Получится у них или нет - не знаю, но выглядит круто. так же сделал статью https://medium.com/p/7965df470f60

Вчера решил таки послушаться ботов и посмотреть, не починили ли плату Radxa NIO 12L про которую у меня когда-то уже было виде
Вчера решил таки послушаться ботов и посмотреть, не починили ли плату Radxa NIO 12L про которую у меня когда-то уже было видео на канале. Все же было бы круто если бы MediaTek тоже включился в гонку. Radxa за это время на удивление даже обновила прошивку, выложила Ubuntu сборку для ядра. Но... Там не было предустановлено никаких NPU драйверов. Так что для меня все так же и остаётся загадкой. Для кого вообще сделан NeuroPilot? На какой плате он должен работать? Кажется кроме радксы больше плат нет. Вообще есть ли у кого-то опыт с не-андроид MediaTek NPU? Расскажите!

Вчера я выложил видео про World Models. Прогресс огромный - не только в World Models, но и в VLA. Но… действительно ли это препятствует внедрению роботов? Низкое качество моделей? И да, и нет. Когда модели научатся делать всё, что умеют люди, это откроет путь гуманоидным роботам. Но человечество пока далеко. Есть проблемы с грипперами, сенсорами, механикой и с самими моделями. При этом 95% задач уже могут быть автоматизированы сейчас. Но в большинстве случаев это просто невыгодно экономически. Например, в супермаркете нет человека, который занимается только «раскладкой». Сотрудник может убирать магазин, принимать товары, работать на кассе — и выполнять ещё множество других задач. Если поставить в такой магазин робота для раскладки товара, это будут дополнительные расходы, потому что человека всё равно нельзя будет уволить. Если же где-то есть сотрудник, который всё время занят только одним, тогда его уже можно автоматизировать. Но для этого гуманоидные роботы не нужны — и к тому же они слишком дороги.

Давно хотел сделать видео про World Models. А тут ещё недавно статья неплохая от Nvidia была. Пожалуй хороший повод. Между прочим, почему-то именно в робототехнике Nvidia лидер OpenSource сейчас. Многие прошлые вещи которые они выпускали были сомнительные. Ну да, можно использовать, но обычно не понятно зачем, если есть конкурирующие сети с State-of-the-art уровнем. А с роботами прямо во многих вещах State-of-the-art только у Nvidia https://youtu.be/6hDSWPb0_Rc

Сделал небольшое видео по вопросу который у меня часто спрашивают. На удивление много народу до сих пор не разобрались когда
Сделал небольшое видео по вопросу который у меня часто спрашивают. На удивление много народу до сих пор не разобрались когда надо использовать OpenRouter а когда самохостить:) Я не поднимаю тут вопрос про секьюрити из прошлого поста. Но про остальное достаточно подробно.

Я думаю вы сегодня уже видели этот ресерч от OpenAI 😆🤣😌. Если что, там даже пропагандисты засветились, наряду с вашим умершим дядюшкой из Нигерии. Короче, всё достаточно предсказуемо. Когда я ходил и показывал всем SnitchBench - все ржали и никто не верил что это будет внедрено в реальности. Но да, внедрено будет. Но не надо бегать кругами и кричать "the end in near! 🔔" и отказываться от AI. Разве что если у вас есть много денег и сил. А для нищебродов типа нас надо грамотно разделать сущности: ▪️Для личного использования - используйте что хотите, до момента пока вы не грузите личные документы / компрометирующие вас сведения / свои бизнес планы. Вы не сможете сделать результат лучше чем OpenAI/Antropic из коробки. И глупо не использовать эту мощь. ▪️Для корпоративного использования: 🔹Минимальная предосторожность - корпоративная подписка. OpenAI / Antropic / Gemini мамой клянутся что не будут использовать ваши данные для обучения. Но вот стучать.... Хз-хз. Не должны. Но вы сами помните как Antropic отрубал всем налево и направо подписку. Уверен это было не на бесплатном тире. 🔹Чуть лучше - использовать через корпоративные AWS / Azure аккаунты. Они типа как "SOC compliance". Я не лазил глубоко в эти дебри. Есть кто-то кто знает - могут ли как-то понять что происходит или нет? Подозреваю что могут. 🔹Идеально - самохостинг. Но тут цена минимальная. ▪️Что делать точно не надо в бизнесе? 🔹Наши сотрудники сами купят себе подписки / пусть сами разбираются. НЕТ, НЕТ, НЕТ. Стратегия использования должна быть согласована на уровне компании. Начиная с 5 человек. Вы же не хотите чтобы ваши сотрудники использовали бесплатный Qwen для ваших секретиков? 🔹Ща сделаем всё через Open Agent и Open Router через открытые модели! Нет! Вы не знаете кто эти модели хостит и что делает с вашими промптами! ▪️Вы делаете что-то сомнительное / goverment-related? Только самохостинг:) Все кто таким занимается - должны страдать.