Запрети мне псевдолейблить

Open in Telegram

Канал о пути к Kaggle competitions (теперь уже) GrandMaster и поте, которым обливаешься в процессе Последний авторский канал про мл, претендующий на искренность и позволяющий ставить клоунов Для контакта пишите в сообщения канала, они бесплатные

Russia137 897 Games19 004

3 831

Subscribers

No data24 hours

+567 days

+38730 days

4 056

Post views

~ 99724 hours

~ 1 21548 hours

105.90%

Engagement rate

No data

Posts per day

Ads index

beta

Posts Archive

3 831

Бот лудоман, часть 2 Первая проблема, конечно, решается парсингом. Ходим на условную страницу <здесь могла бы быть реклама вашего букмейкера> и парсим данные раз в час. К сожалению не очень многие букмейкеры дают открытый API, но с помощью кодекса это легко исправить. А вообще мотивация не давать API не очень ясна, ведь сейчас самое время покорять рынок MCP агентов-лудиков. Вторая проблема решается очень красиво и математично- критерием Келли. Это формула расчета доли банка, которую нужно ставить, основываясь на истинной вероятностной модели исходов. Такой истинной вероятностной моделью считаем раддар-ноутбук. Для критерия доказана асимптотическая математическая оптимальность скорости роста портфеля. Проще говоря, если играть бесконечное число матчей по этой стратегии и у тебя хороший алгоритм предсказания матчей, то в долгосрочной перспективе будешь обгонять все прочие стратегии. Более того, банк будет расти экспоненциально. К сожалению, в баскетболе не бесконечное число матчей, так что алгоритм для бота следующий: 1. Подтягиваем коэффициенты и матчи, на которые можно ставить. Мапим к ним оценки вероятностей. 2. Для матчей расcчитываем матожидание профита. Если матожидание меньше 10% ставки- отметаем такой матч. Этот костыль нужен потому, что я хоть и верю в несмещенность раддар-ноутбука, но не верю в его абсолютную непогрешимость. Так что нам нужен тот самый, талебовский, запас надежности. 3. Для матчей, которые остались- ищем новости о командах-участниках. Codex гуглит все последние обновления составов/травмы/трансферы и решает, достаточное ли это основание для изменения шансов на победу. Если достаточное- отметаем. 4. Подтягиваем текущий объем банка и на его основе расчитываем оптимальный объем ставки:

(c * p - 1) —————— = bet_coef. (c - 1)

Тут с- коэф бука, p- вероятность из нашей модели и bet_coef- доля банка для ставки 5. Ставим. Если мы на этот матч уже ставили и коэффициенты стали еще более выгодными, то расчитываем сколько еще нужно добавить. Общий банк был ~40к рублей, так что риск хоть и не слишком большой, но эмоциональную вовлеченность генерящий. Из интересных происшествий и наблюдений: 1. В какой-то момент бот сам себе сломал метчинг имен и поставил на матч, в котором должен был проиграть. На вопрос 'Ты что, просто решил проиграть?' он честно признался, что ошибся и 'уже ничего не исправить'. Пришлось пересчитывать матожидание и учить бота продавать ставки букмейкеру назад, когда математически выгоднее продать, чем гемблить. Считаем по той же формуле, что в пункте 4 и сравниваем с комиссией за продажу. Она обычно фикс в ~10%, так что можем ограничить ненужный риск. 2. Есть наблюдение, что на 'открытии торгов' коэфы наиболее неэффективны и потом постепенно ползут к оптимальному соотношению. Надо будет в следующем году вам количественное исследование сделать. 3. Иногда выгодно ставить на андердога, потому что именно на него появляется наибольший Edge. Это создает небывалое чувство спокойствия- выиграешь либо в рейтинге на каггле, либо получишь денежную компенсацию. 4. Одновременно может быть несколько матчей, на которые можно эффективно заключить пари. Поэтому важно каждый раз подтягивать размер банка, чтобы добавлять денег в зависимости от исходов матчей. Я решил, что убавлять не нужно, потому что исходы параллельных матчей можно считать независимыми, а значит и вероятность резкого банкротства сильно мала. 5. В постанализе я оценил вероятности того, что бот мог потерять деньги и закончить с банком ниже изначального. Вышло довольно неплохо: тотальный шанс закончить в минус был 15%, а внутридневной порог потери денег опустился ниже 20% всего один раз. И именно потому, что было две большие недооценки андердога со стороны 'рынка'. Опыт интересный, обожаю истории про выигрышь у казино. Кажется за попытками дистанцироваться от ставок на спорт, я попал в сети ставок на алгоритмы.

3 831

Бот лудоман, часть 1 March Mania на то и мания, что вскрывает все человеческие пороки. Вместо того, чтобы надеяться стать лучше всех в этом соревновании, я решил сделать еще большую ставку на правильность своей модели и заставил codex выигрывать и заключать пари. Несмотря на все апсеты, получилось заработать +15% к депозиту за неделю с помощью Codex и данных об исторических играх университетских команд NCAA. Беттинг-платформы зарабатывают на спреде вероятностей, занижая выигрышные коэффициенты: Если команды абсолютно равны и побеждают с вероятностью 50%, то букмейкер никогда не даст коэффициент x2 на победу, скорее всего этот коэффициент для обеих команд будет 1.9-1.95 в зависимости от жадности букмейкера. Тогда комиссия букмейкера за организацию игры будет (1 - (1.9 * 0.5)) = 0.1 = 10%. Выставляемые коэффициенты зависят от нескольких факторов, кроме маржи: 1. Предсказания внутренней модели букмейкера. Обычно используется как инициализация для изначальных коэффициентов 2. Объем ставок на каждую из команд. Это условная 'уверенность толпы'. Он считается околоэффективной и лучше отражающей соотношение шансов, в том числе изменения новостей. Для совсем разгромных матчей пари часто просто не заключаются. Из этого можно сделать вывод: букмейкер не соревнуется с нами в точности предсказаний, он в любом случае остается в плюсе и зарабатывает на объемах ставок. Базовая идея: Предсказания турнира NCAA крайне близки к эффективным. За столько лет проведения убито множество датасаентисто-часов в попытки построить оптимальные модели предсказания исхода матчей. Из этого делаем вывод, что условный Raddar notebook можно использовать как 'честный источник вероятностей исходов'. В нем даже калибровка из коробки есть. Если каждый матч- это подбрасывание монетки, то Raddar Notebook выдает честное отношение шансов на исходы. Тогда можно использовать коэффициенты букмейкера и считать матожидание прибыли от ставки, опираясь на 'честные вероятности исходов'. Остается еще несколько проблем: 1. Как автоматически подтянуть коэффициенты от букмейкера? 2. Как менеджерить портфолио, чтобы не разориться? Банк имеет конечный размер и у букмейкера есть минимальный размер ставки, так что надо контролировать риск и выстраивать стратегию.

3 831

Repost from feel the agi | AI & ML

Несколько дней назад закончилось Kaggle-соревнование March Machine Learning Mania, в котором мы с @makarbaderko заняли 7-е место и выиграли золотую медаль, а также $5,000 призовых. По результатам этого соревнования Макар получил статус Kaggle Competitions Expert, а я – Kaggle Competitions Master. В решении мы опирались на хороший бейзлайн от @pseudolabeling и raddar. Мы использовали продвинутый feature engineering вместе с градиентным бустингом, что дало нам хорошее итоговое решение. Более подробно ознакомиться с решением можно в нашем write-up. Благодарим всех тех, кто поддерживал нас!

3 831

Добрым словом и кодексом можно добиться большего, чем просто кодексом

3 831

Беспилотники ВСË Соревнование по детекции объектов с авиации от компании, производящей боевые вертолеты и ударные дроны отменено. Кагл стафф проверили датасеты, ничего опасного там не нашли и подтвердили, что 'использованы только симулированные данные пригодные только для гражданских поисковых миссий'. Видимо тот человек на снимках выше 'споткнулся' и 'упал гражданским образом'. Это первое соревнование на каггле, которое реально отменили по этическим причинам, хоть кагл и не признается. Раньше по этическим причинам пытались отменить соревнование по распознаванию лиц с камер видеонаблюдения в 2019 году. Кажется, было уже поздновато, потому что findface стартовал аж в 2016. Отмена featured competition вообще редкое явление с одним (ну или может двумя) примерами: Google Cloud & NCAA® ML Competition 2020-NCAAM Баскетбол 2020 года был отменен из-за ковида вместе со всеми играми. Формально, это были два соревнования: Одно для женской лиги и одно для мужской, но теперь кагл стал скуп на медали и проводит только объединенное соревнование, о котором я жаловался вам в прошлом посте.

3 831

Баскетбол кончился, делитесь страданием в комментах Я вот улетел на 726 место

3 831

Профессиональные кагглеры делятся опытом о том, как радостно избили детей с помощью нейронок https://www.kaggle.com/competitions/playground-series-s6e3/writeups/1st-place-gpt5-4-gemini3-1-claudeopus4-6-kgm

3 831

https://t.me/seeallochnaya/3491 А ято думаю, почему фундаментальную библиотеку мгу не оцифровывают. А все для того, чтобы ортогональные советские стакинги биморфов не палить идеалогическому врагу

3 831

tinygrad это конечно хорошо, но через ThunderBolt (даже 5) максимальная скорость передачи данных это 8GB/s. В стойке через PCIe 4.0 x16 будет 31.5 гб. Т.е. для заполнения видеокарты один раз надо будет ждать 5 секунд против одной. История исключительно для локального инференса

3 831

Раст разрабы бывают двух типов

3 831

А не, фолсаларм. Там еще больше кринжа просто добавили

3 831

Repost from DziS Science | Data Science

Привет всем!👋 Шутки шутками, а соревнование разблокировали. #соревнования

3 831

И ничего не написали. Просто молча анлокнули. Качаем датасет, ищем людей

3 831

Repost from adapt compete evolve or die

отличная статья от победителя game ai cup (и активного топ-участника lux ai), RL всех победил, но это не просто

3 831

Я все еще не оставляю надежд на новый LUX

3 831

На Kaggle новая драма — соревнование по разметке данных для боевых дронов https://www.kaggle.com/competitions/leonardo-airborne-object-recognition-challenge Официально задача звучит так: нужно построить модель, которая будет находить и классифицировать объекты на съемке с летательных аппаратов. В списке классов: 1. люди 2. летательные аппараты 3. дроны 4. машины 5. корабли 6. препятствия для самого носителя камеры — башни, скалы и т.д. Проблема в том, что все и так прекрасно понимают, для чего сегодня особенно востребованы такие платформы с видео- и фотосъемкой и опцией подсветки снизу. В датасете почти сразу нашли несколько довольно интересных последовательных кадров — они как раз приложены к посту. После того как началось публичное возмущение, Kaggle на время притормозил соревнование. Сейчас к нему уже нельзя подключиться заново, но те, кто успел зайти и что-то засабмитить, по-прежнему могут продолжать. Отдельно стоит посмотреть на заказчика — Leonardo Helicopters, итальянскую многоцелевую компанию. Во-первых, 30% компании принадлежит правительству Италии. Во-вторых, Leonardo участвует в сотрудничестве с Baykar: у них совместное предприятие 50/50, а сама Baykar — производитель Bayraktar. Из этого для россиян вытекают и вполне конкретные правовые риски. В действующей редакции статьи 275 УК РФ государственная измена — это не только шпионаж или передача гостайны, но и оказание иностранному государству, международной или иностранной организации финансовой, материально-технической, консультационной либо иной помощи в деятельности, направленной против безопасности РФ. Отдельно статья 275.1 УК РФ наказывает за конфиденциальное сотрудничество с иностранной организацией в целях такого содействия. А статья 189 УК РФ отдельно криминализует незаконную передачу иностранному лицу технологий, работ или услуг, если на них распространяется экспортный контроль. Ну и в целом все это выглядит как жалкая пародия: несравненный оригинал на эту тему уже когда-то проводила ЧВК «Вагнер». Мое мнение кстати простенькое: Кагл хорошая платформа для поиска новых идей, но детекция/классификация объектов тема изъезженная. Думаю тут сорева нужен для хаеринга, а не топ решений/идей. Были бы нужны топ решения/идеи- на инференс давали бы больше ограничений, чем 9 GPU/Hours. Правда, есть и приз за быстродействие, но он считается среди топ участников отдельно.

3 831

@Kaggle_monitor_bot Сделал подписчикам бота со статистикой по баскетболу и March Mania. Приходите и получайте Бот работает быстрее кагла и шлет апдейты по тому, как сыграли команды Send your Kaggle submission CSV as a document. The newest upload becomes your active submission. Кнопки: 📌 Status - Текущий саб и его бриер скор 🏆 Rank - ваш ранг среди псевдолейблеров 🏁 Results - как вы предсказали уже прошедшие игры 🏀 Today - Игры на сегодня 🌙 Yesterday - Игры за вчера

3 831

Мой сабмишн вот такой, лудка пошла. Со своим сабмишном можно поиграть вот здесь: https://marksmath.org/visualization/data/NCAABrackets/KaggleBrackets/ Сайт обновляется с лагом примерно в 10 часов, но прогресс трекать позволяет зачастую лучше, чем кагл В комментах призываю поделиться своими сетками и поспорить, кто самый большой лудоман. Ну и поныть/радоваться после первых сетов матчей

3 831

Это сообщение- ваше последнее напоминание засабмитить в Санту

3 831

Перевыложил многострадальный лоторейный билетик Никому его не показывайте плз. Такие сильные ноутбуки нельзя выкладывать, когда до конца соревы так мало времени