Запрети мне псевдолейблить

رفتن به کانال در Telegram

Канал о пути к Kaggle competitions (теперь уже) GrandMaster и поте, которым обливаешься в процессе Последний авторский канал про мл, претендующий на искренность и позволяющий ставить клоунов Для контакта пишите в сообщения канала, они бесплатные

نمایش بیشتر

روسيا147 486 بازی‌ها20 384

3 572

مشترکین

+224 ساعت

+477 روز

+18330 روز

4 399

نمایش های پست

~ 1 21024 ساعت

~ 1 40348 ساعت

123.19%

نرخ مشارکت

اطلاعاتی وجود ندارد

پست های در روز

Ads index

beta

آرشیو پست ها

3 578

Последний сабмит в соревнование сделал. Молимся Горку и Морку о удачном броске вверх и ждем ночной прокрас прайвета. Вы можете присоединиться ко мне, а можете поставить клоунов, не помню как вам там больше нравится

3 578

Ну раз H1b больше не получишь, придется вам тоже фармить кгм и надеяться получить о1 визу

3 578

Repost from Information Retriever

RecSys Challenge 2025. Я уже рассказывал, что в этом году мы заняли четвертое место на RecSys Challenge. В июле подали статью на воркшоп соревнования, который проходит на самой конфе RecSys. Статью приняли! Мы доделали camera-ready версию, и с сегодняшнего дня подробное описание нашего решения можно почитать на arXiv. От ревьюверов есть strong accept и комментарий “goldmine of practical insights” :) Пригодится как разработчикам рексистем, так и участникам всевозможных соревнований по рекомендашкам. Ссылочка — https://arxiv.org/abs/2508.06970

3 578

Еще немножко соревновательного контента

3 578

E-CUP возвращается. Реальные данные. Масштабные проекты. Большие призы E-CUP 2025 — соревнование, где Everything as code. Решай ML-задачи в стиле Ozon Tech. Призовой фонд — 7 200 000 рублей 🔥 🗓 Регистрация: https://cnrlink.com/ecup25pseudolabel 💻 Формат участия: онлайн 👥 Команда: от 1 до 5 человек 🎯 Для кого: Data Scientists, ML-специалисты, аналитики данных, дата-инженеры, специалисты Big Data и разработчики, которые интересуются ML/DS. Что вас ждёт: 🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России. 🔹 Призовой фонд — 7 200 000 рублей для девяти сильнейших команд. 🔹 Обмен опытом с экспертами Ozon Tech. 🔹 Эксклюзивный мерч и подарки. 🔹 Питчинг — онлайн или очно на конференции E-CODE. Финалистам Ozon Tech предоставит билеты и оплатит поездку. Регистрация открыта до 17 августа включительно

3 578

А я думал что вот это было грязно

3 578

Пока я мало пишу в канал про свои соревнования, позволю себе украсть вдохновение у @abacabadabacaba404 и предложить вам почитать классный блогпост про КФ. Автор дважды брал золото IOI и в этом году взял серебро: https://codeforces.com/blog/entry/142591 Отправьте своим школьникам и первокурсникам, если они хотят быть лучшими

3 578

Дуров включил принудительные платные лайки, мне это не нравится. Слишком навязчиво. Волчат уволили из Газпром медиа. Потешно, что за год никто не заметил разницы, но это скорее говорит о самом работодателе, чем о работниках. Хотя я уже давно заметил, что лучшие наймы- это когда ты знакомых с прошлых работ кандидата спросил про то, какой он человек и инженер. Always has been https://t.me/rockyourdata/5344

3 578

Папищики, бесплатная реклама Rust тулзами: Вместо того, чтобы использовать по большим файлам

grep

, можно установить себе

ripgrep

и пользоваться мультитредингом, чтобы искать по патерну в N раз быстрее 😡 А то мне тут понадобилось поискать по логам на 200 гб в формате txt и это оказывается может быть долго

3 578

Пора создать канал в мессенджере, где можно вычислять ставящих клоунов по госуслугам? Да 🥹 Нет 🥸

3 578

Видимо единственный способ избежать бутылки- это занятьтретье место

3 578

Топ-1 в #BirdClef2025 от Никиты Бабича запретите ему псевдолйблить Никита всё соревнование доминировал — был на первом или втором месте. Я лично не видел его ниже чем на втором. Данные Дополнительные птицы Докачал из архива Xeno ещё 5 489 записей по тем же классам, что и в трейне. Дополнительные лягушки и насекомые из других таксонов 17 197 записей насекомых и амфибий, в том числе не входящих в лейблы для соревнования. Амфибии и насекомые имеют высокую частоту повторяющихся специфичных звуков, что сильно отличается от птиц — отлично прокачивает модель на низкочастотных и “других” классах. SED-модели (Sound Event Detection). Прошлые участники тоже их использовали, но я хотел именно тут объяснить что за SED такой. Классическая классификация говорит «что это за звук», а SED ещё и «где он начинается и где кончается». На шумных данных, где вокруг слышно несколько видов на одной записи, это был ключ к успеху вместе с псевдолейблингом. По сути это мост от per-sample к per-frame разметке, похожий на MIL-задачу. Сильно мне напоминает MIL модели, которые делают что-то похожее, но на картинках На картинке пример инференса SED: как и почему он помогает на шуме. Валидация Нормальной валидации не нашлось, поэтому Никита валидировался по ЛБ. :chad: Многоэтапное обучение Бейзлайн 15 эпох, Cross-Entropy, AdamW, Cosine Scheduler backbone’ы: EfficientNet-0 + RegNetY-8 LB: 0.872 Псевдолейблинг I + MixUp Генерим псевдолейблы на неразмеченной части. Смешиваем MixUp: настоящие лейблы + псевдолейблы (малый вес последних). Добавляем StochasticDepth (drop whole conv-блоки, p=0.15). StochasticDepth- это когда у нас есть дропауты, которые выкидывают целые блоки из бекбона и глубина получается недетерминированной. Тренируем 25–35 эпох. LB: 0.872 → 0.898 Power Scaling + псевдолейблинг II Просто в лоб вторая итерация давала слишком шумные псевдолейблы, которые нельзя было повторно переиспользовать. Решение: new_preds_i = preds_i^(1/power_c) / sum(preds_j^(1/power_c)) Это позволило пройти 4 раунда псевдолейблинга с улучшением качества. LB: 0.898 → 0.930 Отдельный пайплайн для насекомых и амфибий Тренируем классификатор на этих данных. Берём предикты по нужным классам из трейна и заменяем ими результаты в основном ансамбле. LB: 0.930 → 0.933 В конечно итоге собираем ансамбль: EfficientNet-l0, B4, B3 (3 раунда псевдолейблинга) RegNetY-016 (2 штуки, 4 раунда) RegNetY-008 (1 штука, 1 раунд) Отдельный EfficientNet-B0 для классификации насекомых и амфибий Из этого решения наверно для себя самыми горячими идеям вынесу: 1. PowerTransform для псевдолейблов, чтобы идти в несколько раундов. Идея будто даже похожая на жесткие псевдолейблы чем-то 2. SED как способ уточнить разметку на псевдолейблах

3 578

Топ-2 в #BirdClef2025 В этот раз опытне птичники, у которых в команде чел с первым местом в 2022 и 2023 годах! 📊 Данные Использовали данные из прошлых соревнований, что собственно и помогала в прошлые года + Подтянули дополнительно записи из Xeno Archive. Тут помог баг, который был обнаружен еще в 2023: API Xeno Archive выдаёт максимум 500 семплов на вид — большинство команд этого не учли. Багу два года, и его никто не чинит. Кто знает- тот знает 🎛️ Предобработка Для обучения берём первые 7 секунд каждого файла и рандомно вырезаем 5 секунд. Баланс между разнообразием данных и интуицией: голос птицы чаще слышен в начале записи. 🛠️ Архитектура и оптимизация tf_efficientnetv2_s + RAdam eca_nfnet_l0 + AdamW Обе модели тренировали 50 эпох Loss: Focal + BCE Scheduller: Cosine LR ⚖️ Веса семплов Учли с весами, чтобы компенсировать дисбаланс классов:


python
sample_weights = (
    all_primary_labels.value_counts() / 
    all_primary_labels.value_counts().sum()
) ** (-0.5)

🚀 Ключевые бусты 1. Предтренинг на всём Xeno Archive Вычистили низкочастотные классы и текущее тесто-трейн Предобучили на задаче классификации и получили бекбон с глубоким пониманием спектрограмм записей животных Результат: 0.84 → 0.87 2. Псевдолейблинг (запрещенная техника) Предсказываем на неразмеченных данных → pseudo1 Оставляем только скоры > 0.5 → pseudo2 Зануляем слабые метки (< 0.1): pseudo2[pseudo2 < 0.1] = 0 Обучаем модель на таргет pseudo2 и повторяем цикл После двух итераций: 0.87 → 0.89 → 0.91 (третий круг не даёт профита) 3. TTA Сдвигали записи в Test time augmentation на 2.5 секунды влево и вправо, а потом усредняли предсказания. 0.91 -> 0.922

3 578

Без багов кстати не обошлось: Из-за изменения системы учета лайков на ноутбук, циферки теперь расходятся: В профиле я бывал максимум 283, а судя по графику бывал и повыше

3 578

Вчера все верно догадались: Кагл убрал дискашны насовсем. Теперь осталась только ачивка Kaggle Legacy discussion Master/GM. А еще он убрал Novice/Contributor и оставил просто Unranked/Expert/master/GM И это отлично. Каглу уже давно пора воровать элементы вовлечения у другого популярного сайта и толкать аналитику катализируюшую гиперфокус. Только не за подписку, а ради вовлечения пользователей и удержания. Теперь можно посмотреть, как менялся ваш рейтинг во времени. Верю, что ASI построят все равно кагглеры, а не резерчеры. Из открытий- ранкинг не так быстро падает, как я ожидал. Все еще есть смысл концентрироваться на циферках. А еще теперь апвоуты ноутбуков считаются только от экспертов и форк ноутбуков автоматически ставит на него палец вверх.

3 578

А еще, видимо из-за наплыва Индийских грандмастеров в дискашнах, медальки в дискашнах исчезли

3 578

Теперь на каггле дают 'предупреждения' за то, что выкладываешь даталик в паблик. Два предупреждения- бан https://www.kaggle.com/competitions/neurips-open-polymer-prediction-2025/discussion/588565 🤡️️️️🤡️️️️🤡️️️️

3 578

У вас вообще появились продакты потому, что Мэнти Кейган написал о том, какие они полезные в книге »Inspired«. При этом он опирался на свой десятилетний опыт работы инженером в HP с 1980 по 1990. После этого он еще 10 лет совмещал роли CTO и CPO в Netscape и Ebay. И в 2002 (за 15 лет до публикации), он ушел в консалтеры и продает свой ценнейший опыт за почасовую оплату. Смог бы ваш продакт буквально придумать объекто-ориентированное программирование в лабе HP? Надеюсь, да Скелетрон пока не вернется, я так книжки не успеваю быстро читать

3 578

Ваш проект называют стартапом-внутри-компании не из-за его перспективности и инновационности, а потому что Эрику Рису в »Lean Startup« нужно было продать свою книжку не только предпринимателям, но и менеджерам среднего звена без специального образования. Скелетрон вернется с умными мыслями завтра

3 578

У вас митинги на работе не полчаса, а 25 минут, не для экономии времени, а потому, что в книжке »Сам себе MBA. Самообразование на 100%. Джош Кауфман« написано, что это способ сэкономить время менеджеров. Причем вообще-то эта идея предложена для оптимизации кастдева и сапорта Скелетрон вернется с умными мыслями завтра