en
Feedback
Запрети мне псевдолейблить

Запрети мне псевдолейблить

Open in Telegram

Канал о пути к Kaggle competitions (теперь уже) GrandMaster и поте, которым обливаешься в процессе Последний авторский канал про мл, претендующий на искренность и позволяющий ставить клоунов Для контакта пишите в сообщения канала, они бесплатные

Show more
3 831
Subscribers
No data24 hours
+567 days
+38730 days
Posts Archive
Бот лудоман, часть 2 Первая проблема, конечно, решается парсингом. Ходим на условную страницу <здесь могла бы быть реклама
Бот лудоман, часть 2 Первая проблема, конечно, решается парсингом. Ходим на условную страницу <здесь могла бы быть реклама вашего букмейкера> и парсим данные раз в час. К сожалению не очень многие букмейкеры дают открытый API, но с помощью кодекса это легко исправить. А вообще мотивация не давать API не очень ясна, ведь сейчас самое время покорять рынок MCP агентов-лудиков. Вторая проблема решается очень красиво и математично- критерием Келли. Это формула расчета доли банка, которую нужно ставить, основываясь на истинной вероятностной модели исходов. Такой истинной вероятностной моделью считаем раддар-ноутбук. Для критерия доказана асимптотическая математическая оптимальность скорости роста портфеля. Проще говоря, если играть бесконечное число матчей по этой стратегии и у тебя хороший алгоритм предсказания матчей, то в долгосрочной перспективе будешь обгонять все прочие стратегии. Более того, банк будет расти экспоненциально. К сожалению, в баскетболе не бесконечное число матчей, так что алгоритм для бота следующий: 1. Подтягиваем коэффициенты и матчи, на которые можно ставить. Мапим к ним оценки вероятностей. 2. Для матчей расcчитываем матожидание профита. Если матожидание меньше 10% ставки- отметаем такой матч. Этот костыль нужен потому, что я хоть и верю в несмещенность раддар-ноутбука, но не верю в его абсолютную непогрешимость. Так что нам нужен тот самый, талебовский, запас надежности. 3. Для матчей, которые остались- ищем новости о командах-участниках. Codex гуглит все последние обновления составов/травмы/трансферы и решает, достаточное ли это основание для изменения шансов на победу. Если достаточное- отметаем. 4. Подтягиваем текущий объем банка и на его основе расчитываем оптимальный объем ставки:
(c * p - 1) —————— = bet_coef. (c - 1)
Тут с- коэф бука, p- вероятность из нашей модели и bet_coef- доля банка для ставки 5. Ставим. Если мы на этот матч уже ставили и коэффициенты стали еще более выгодными, то расчитываем сколько еще нужно добавить. Общий банк был ~40к рублей, так что риск хоть и не слишком большой, но эмоциональную вовлеченность генерящий. Из интересных происшествий и наблюдений: 1. В какой-то момент бот сам себе сломал метчинг имен и поставил на матч, в котором должен был проиграть. На вопрос 'Ты что, просто решил проиграть?' он честно признался, что ошибся и 'уже ничего не исправить'. Пришлось пересчитывать матожидание и учить бота продавать ставки букмейкеру назад, когда математически выгоднее продать, чем гемблить. Считаем по той же формуле, что в пункте 4 и сравниваем с комиссией за продажу. Она обычно фикс в ~10%, так что можем ограничить ненужный риск. 2. Есть наблюдение, что на 'открытии торгов' коэфы наиболее неэффективны и потом постепенно ползут к оптимальному соотношению. Надо будет в следующем году вам количественное исследование сделать. 3. Иногда выгодно ставить на андердога, потому что именно на него появляется наибольший Edge. Это создает небывалое чувство спокойствия- выиграешь либо в рейтинге на каггле, либо получишь денежную компенсацию. 4. Одновременно может быть несколько матчей, на которые можно эффективно заключить пари. Поэтому важно каждый раз подтягивать размер банка, чтобы добавлять денег в зависимости от исходов матчей. Я решил, что убавлять не нужно, потому что исходы параллельных матчей можно считать независимыми, а значит и вероятность резкого банкротства сильно мала. 5. В постанализе я оценил вероятности того, что бот мог потерять деньги и закончить с банком ниже изначального. Вышло довольно неплохо: тотальный шанс закончить в минус был 15%, а внутридневной порог потери денег опустился ниже 20% всего один раз. И именно потому, что было две большие недооценки андердога со стороны 'рынка'. Опыт интересный, обожаю истории про выигрышь у казино. Кажется за попытками дистанцироваться от ставок на спорт, я попал в сети ставок на алгоритмы.

Бот лудоман, часть 1 March Mania на то и мания, что вскрывает все человеческие пороки. Вместо того, чтобы надеяться стать луч
Бот лудоман, часть 1 March Mania на то и мания, что вскрывает все человеческие пороки. Вместо того, чтобы надеяться стать лучше всех в этом соревновании, я решил сделать еще большую ставку на правильность своей модели и заставил codex выигрывать и заключать пари. Несмотря на все апсеты, получилось заработать +15% к депозиту за неделю с помощью Codex и данных об исторических играх университетских команд NCAA. Беттинг-платформы зарабатывают на спреде вероятностей, занижая выигрышные коэффициенты: Если команды абсолютно равны и побеждают с вероятностью 50%, то букмейкер никогда не даст коэффициент x2 на победу, скорее всего этот коэффициент для обеих команд будет 1.9-1.95 в зависимости от жадности букмейкера. Тогда комиссия букмейкера за организацию игры будет (1 - (1.9 * 0.5)) = 0.1 = 10%. Выставляемые коэффициенты зависят от нескольких факторов, кроме маржи: 1. Предсказания внутренней модели букмейкера. Обычно используется как инициализация для изначальных коэффициентов 2. Объем ставок на каждую из команд. Это условная 'уверенность толпы'. Он считается околоэффективной и лучше отражающей соотношение шансов, в том числе изменения новостей. Для совсем разгромных матчей пари часто просто не заключаются. Из этого можно сделать вывод: букмейкер не соревнуется с нами в точности предсказаний, он в любом случае остается в плюсе и зарабатывает на объемах ставок. Базовая идея: Предсказания турнира NCAA крайне близки к эффективным. За столько лет проведения убито множество датасаентисто-часов в попытки построить оптимальные модели предсказания исхода матчей. Из этого делаем вывод, что условный Raddar notebook можно использовать как 'честный источник вероятностей исходов'. В нем даже калибровка из коробки есть. Если каждый матч- это подбрасывание монетки, то Raddar Notebook выдает честное отношение шансов на исходы. Тогда можно использовать коэффициенты букмейкера и считать матожидание прибыли от ставки, опираясь на 'честные вероятности исходов'. Остается еще несколько проблем: 1. Как автоматически подтянуть коэффициенты от букмейкера? 2. Как менеджерить портфолио, чтобы не разориться? Банк имеет конечный размер и у букмейкера есть минимальный размер ставки, так что надо контролировать риск и выстраивать стратегию.

Несколько дней назад закончилось Kaggle-соревнование March Machine Learning Mania, в котором мы с @makarbaderko заняли 7-е ме
Несколько дней назад закончилось Kaggle-соревнование March Machine Learning Mania, в котором мы с @makarbaderko заняли 7-е место и выиграли золотую медаль, а также $5,000 призовых. По результатам этого соревнования Макар получил статус Kaggle Competitions Expert, а я – Kaggle Competitions Master. В решении мы опирались на хороший бейзлайн от @pseudolabeling и raddar. Мы использовали продвинутый feature engineering вместе с градиентным бустингом, что дало нам хорошее итоговое решение. Более подробно ознакомиться с решением можно в нашем write-up. Благодарим всех тех, кто поддерживал нас!

Добрым словом и кодексом можно добиться большего, чем просто кодексом

Беспилотники ВСË Соревнование по детекции объектов с авиации от компании, производящей боевые вертолеты и ударные дроны отмен
Беспилотники ВСË Соревнование по детекции объектов с авиации от компании, производящей боевые вертолеты и ударные дроны отменено. Кагл стафф проверили датасеты, ничего опасного там не нашли и подтвердили, что 'использованы только симулированные данные пригодные только для гражданских поисковых миссий'. Видимо тот человек на снимках выше 'споткнулся' и 'упал гражданским образом'. Это первое соревнование на каггле, которое реально отменили по этическим причинам, хоть кагл и не признается. Раньше по этическим причинам пытались отменить соревнование по распознаванию лиц с камер видеонаблюдения в 2019 году. Кажется, было уже поздновато, потому что findface стартовал аж в 2016. Отмена featured competition вообще редкое явление с одним (ну или может двумя) примерами: Google Cloud & NCAA® ML Competition 2020-NCAAM Баскетбол 2020 года был отменен из-за ковида вместе со всеми играми. Формально, это были два соревнования: Одно для женской лиги и одно для мужской, но теперь кагл стал скуп на медали и проводит только объединенное соревнование, о котором я жаловался вам в прошлом посте.

Баскетбол кончился, делитесь страданием в комментах Я вот улетел на 726 место
Баскетбол кончился, делитесь страданием в комментах Я вот улетел на 726 место

Профессиональные кагглеры делятся опытом о том, как радостно избили детей с помощью нейронок https://www.kaggle.com/competiti
+2
Профессиональные кагглеры делятся опытом о том, как радостно избили детей с помощью нейронок https://www.kaggle.com/competitions/playground-series-s6e3/writeups/1st-place-gpt5-4-gemini3-1-claudeopus4-6-kgm

https://t.me/seeallochnaya/3491 А ято думаю, почему фундаментальную библиотеку мгу не оцифровывают. А все для того, чтобы ортогональные советские стакинги биморфов не палить идеалогическому врагу

tinygrad это конечно хорошо, но через ThunderBolt (даже 5) максимальная скорость передачи данных это 8GB/s. В стойке через PCIe 4.0 x16 будет 31.5 гб. Т.е. для заполнения видеокарты один раз надо будет ждать 5 секунд против одной. История исключительно для локального инференса

Раст разрабы бывают двух типов
Раст разрабы бывают двух типов

А не, фолсаларм. Там еще больше кринжа просто добавили
А не, фолсаларм. Там еще больше кринжа просто добавили

Привет всем!👋 Шутки шутками, а соревнование разблокировали. #соревнования
Привет всем!👋 Шутки шутками, а соревнование разблокировали. #соревнования

И ничего не написали. Просто молча анлокнули. Качаем датасет, ищем людей

отличная статья от победителя game ai cup (и активного топ-участника lux ai), RL всех победил, но это не просто
отличная статья от победителя game ai cup (и активного топ-участника lux ai), RL всех победил, но это не просто

Я все еще не оставляю надежд на новый LUX

На Kaggle новая драма — соревнование по разметке данных для боевых дронов https://www.kaggle.com/competitions/leonardo-airbor
+1
На Kaggle новая драма — соревнование по разметке данных для боевых дронов https://www.kaggle.com/competitions/leonardo-airborne-object-recognition-challenge Официально задача звучит так: нужно построить модель, которая будет находить и классифицировать объекты на съемке с летательных аппаратов. В списке классов: 1. люди 2. летательные аппараты 3. дроны 4. машины 5. корабли 6. препятствия для самого носителя камеры — башни, скалы и т.д. Проблема в том, что все и так прекрасно понимают, для чего сегодня особенно востребованы такие платформы с видео- и фотосъемкой и опцией подсветки снизу. В датасете почти сразу нашли несколько довольно интересных последовательных кадров — они как раз приложены к посту. После того как началось публичное возмущение, Kaggle на время притормозил соревнование. Сейчас к нему уже нельзя подключиться заново, но те, кто успел зайти и что-то засабмитить, по-прежнему могут продолжать. Отдельно стоит посмотреть на заказчика — Leonardo Helicopters, итальянскую многоцелевую компанию. Во-первых, 30% компании принадлежит правительству Италии. Во-вторых, Leonardo участвует в сотрудничестве с Baykar: у них совместное предприятие 50/50, а сама Baykar — производитель Bayraktar. Из этого для россиян вытекают и вполне конкретные правовые риски. В действующей редакции статьи 275 УК РФ государственная измена — это не только шпионаж или передача гостайны, но и оказание иностранному государству, международной или иностранной организации финансовой, материально-технической, консультационной либо иной помощи в деятельности, направленной против безопасности РФ. Отдельно статья 275.1 УК РФ наказывает за конфиденциальное сотрудничество с иностранной организацией в целях такого содействия. А статья 189 УК РФ отдельно криминализует незаконную передачу иностранному лицу технологий, работ или услуг, если на них распространяется экспортный контроль. Ну и в целом все это выглядит как жалкая пародия: несравненный оригинал на эту тему уже когда-то проводила ЧВК «Вагнер». Мое мнение кстати простенькое: Кагл хорошая платформа для поиска новых идей, но детекция/классификация объектов тема изъезженная. Думаю тут сорева нужен для хаеринга, а не топ решений/идей. Были бы нужны топ решения/идеи- на инференс давали бы больше ограничений, чем 9 GPU/Hours. Правда, есть и приз за быстродействие, но он считается среди топ участников отдельно.

@Kaggle_monitor_bot Сделал подписчикам бота со статистикой по баскетболу и March Mania. Приходите и получайте Бот работает быстрее кагла и шлет апдейты по тому, как сыграли команды Send your Kaggle submission CSV as a document. The newest upload becomes your active submission. Кнопки: 📌 Status - Текущий саб и его бриер скор 🏆 Rank - ваш ранг среди псевдолейблеров 🏁 Results - как вы предсказали уже прошедшие игры 🏀 Today - Игры на сегодня 🌙 Yesterday - Игры за вчера

Мой сабмишн вот такой, лудка пошла. Со своим сабмишном можно поиграть вот здесь: https://marksmath.org/visualization/data/NCA
+1
Мой сабмишн вот такой, лудка пошла. Со своим сабмишном можно поиграть вот здесь: https://marksmath.org/visualization/data/NCAABrackets/KaggleBrackets/ Сайт обновляется с лагом примерно в 10 часов, но прогресс трекать позволяет зачастую лучше, чем кагл В комментах призываю поделиться своими сетками и поспорить, кто самый большой лудоман. Ну и поныть/радоваться после первых сетов матчей

Это сообщение- ваше последнее напоминание засабмитить в Санту

Перевыложил многострадальный лоторейный билетик Никому его не показывайте плз. Такие сильные ноутбуки нельзя выкладывать, ког
Перевыложил многострадальный лоторейный билетик Никому его не показывайте плз. Такие сильные ноутбуки нельзя выкладывать, когда до конца соревы так мало времени