cookie

Мы используем файлы cookie для улучшения сервиса. Нажав кнопку «Принять все», вы соглашаетесь с использованием cookies.

avatar

Блог о Data Science 💻

Привет, это мой блог о науке о данных.✌️ Рассказываю про best practice, делюсь своим опытом и анализирую рынок труда в DS! t.me/notedatasciencechat По вопросам: @travelwithtagir

Больше
Рекламные посты
4 113
Подписчики
-124 часа
-27 дней
+2730 дней

Загрузка данных...

Прирост подписчиков

Загрузка данных...

01:18
Видео недоступноПоказать в Telegram
🔄Обучаем нейросеть проходить змейку в терминале Вы когда-нибудь хотели обучить модель проходить змейку? Я — нет, а вот некий Bones-ai в двух проектах показал, как это работает. С помощью генетического алгоритма модель достигает идеальных результатов в змейке, а видео к посту — наглядная визуализация процесса обучения 🪩 В архитектуре нейросети используется 24 инпута. Эти инпуты предоставляют информацию о состоянии окружающей среды и самой змейки, что позволяет модели принимать решения о следующем движении📀 Обучение модели занимает около 30 минут и осуществляется через генетический алгоритм, который эволюционирует популяцию из 1000 агентов, каждый из которых представляет уникальную конфигурацию весов нейросети: 🔗Инициализация популяции: Начальная популяция агентов создаётся с случайными весами. 🔗Оценка производительности: Каждый агент оценивается по его способности собирать пищу и избегать столкновений. 🔗Отбор: Лучшие агенты выбираются для размножения на основе их "приспособленности" — чем дольше агент выживает и чем больше собирает пищи, тем выше его шансы быть выбранным для следующего поколения. 🔗Кроссовер и мутации: Веса выбранных агентов комбинируются и мутируют с небольшой вероятностью (0.1), создавая новое поколение агентов, которое потенциально наследует успешные стратегии своих предшественников. Если хотите подробнее ознакомиться с проектом, то здесь можно найти его первую версию, здесь — вторую, а вот тут находится тред на Reddit, где автор отвечает на вопросы🖼️ Рассказывайте в комментариях, что вы думаете о таких проектах? Как вы думаете, для чего автору это нужно?🎬
Показать все...
ssstwitter.com_1719948437434.mp43.19 MB
🐳 11 6 1
Фото недоступноПоказать в Telegram
Магистратура по Data Science и машинному обучению В прошлом году ко мне приходили с предложением поступить в магистратуру и учиться параллельно с бакалавриатом на третьем курсе. Я отказался, потому что фуллтайм работы и учебы мне хватало, но магистратура интересная — об этом и пост 🖥 Центральный университет — современный вуз, созданный при поддержке ведущих технологичных компаний России: Т-Банка, Авито, Сбера и других. Идея в том, чтобы адаптировать высшее образование к потребностям рынка 🚙 После выпуска студенты получают диплом магистра в области математики и компьютерных наук. Обучение проходит на основе реальных кейсов ведущих IT-компаний у профессоров из МГУ, МФТИ, РЭШ и практиков из индустрии 👉 Пары проходят вечером и на выходных. Помимо возможности начать учиться на третьем курсе бакалавриата, при наличии опыта в DS и ML можно пропустить блок базового обучения и закончить магистратуру за 3 семестра 🙀 У каждого студента будет: 🗣Личный ментор по траектории обучения 🗣Доступ к карьерному центру с коучами и консультантами 🗣Опыт работы в проектах партнеров уже во время обучения Помимо программы по Data Science и машинному обучению там есть направления продуктовой аналитики, продакт менеджмента и Backend-разработки. А еще есть возможность получить один из 150 грантов на обучение до 1.200.000р 💲 Больше подробностей про университет, программу и гранты по этой ссылке 🖱 Реклама, АНО ВО «Центральный университет», ИНН 7743418023, erid:2VtzquyGP6Y
Показать все...
🐳 6 2😢 2 1
Фото недоступноПоказать в Telegram
Статья, которая чуть не осталась за кулисами Недавно статья авторов Ravid Shwartz-Ziv и Amitai Armon "Tabular Data: Deep Learning is Not All You Need" достигла более 1000 цитирований. По такому поводу Ravid написал пост, в котором рассказал, как они чуть НЕ не опубликовали статью 🐱 Статья показала, что традиционные методы машинного обучения, такие как XGBoost, часто работают лучше для табличных данных, чем сложные модели глубокого обучения. Авторы столкнулись с проблемой: их выводы казались слишком очевидными, поэтому несколько воркшопов отклонили их работу из-за "недостатка новизны" 😌 Тем не менее, в 2021 году они решили разместить статью на arXiv. Само собой, дальше к ним посыпались предложения от изданий опубликовать их исследование, и статья получила широкое признаний 🐱 В конце поста Ravid отмечает, что даже "очевидные" результаты могут быть важны. Важно делиться всем, что вы находите в своей работе, даже если это кажется простым или уже известным 🙏 Что думаете про этот случай? Часто ли вы бракуете свои идеи из-за того, что они уже были реализованы? 😴😴
Показать все...
14🐳 5❤‍🔥 2
Фото недоступноПоказать в Telegram
Графы в рекомендательных системах [часть 1] Недавно Даня Картушов писал научную статью с AIRI по графовым рекомендательным системам. В процессе исследования он записывал небольшие черновики про графы, которые теперь хочет превратить в серию статей 💡 Сегодня на Хабре вышла первая статья из этой серии, в которой он рассматривает базовые понятия, концепции и простые модели с их ключевыми особенностями 🙂 Вторую часть напишут ребята из WildRecSys, где они расскажут о lightGCN и поделятся своим опытом использования этой модели 🚀 В статье мне особенно понравились три вещи: отсылка к человеку-пауку, красивые визуализации и супер приятные объяснения – какие-то концепции вообще раскрываются на примере World of Warcraft 😊 Заваривайте чай и переходите читать статью по этой ссылке 🧠
Показать все...
🔥 16❤‍🔥 4 3 2
Самый главный пост. Что это за канал? Привет! Я Тагир Хайрутдинов, аналитик в Яндекс Плюс ⚡️, студент НИУ ВШЭ программы «Компьютерная лингвистика» и автор каналов Тагир Анализирует и Журнал «Зарплатник». Раньше я делал аналитику в Альфа-Банке🐤 и в Ozon💙 Раньше этот канал вел Даня Картушов, который теперь пишет много интересного в @persecond300k, а я с недавнего времени — новый владелец и автор этого канала. Сейчас канал проходит этап перестройки, но уже скоро здесь будет интересный регулярный контент 🗣Для кого этот канал? Вам стоит подписаться, если вы интересуетесь Data Science и технологиями вокруг этой сферы. В канале будут публиковаться посты про применение DS в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных Уже скоро в канале выйдут посты про собеседования в FAANG, использование AI для научных работ, realtime-матчинг в одном маркетплейсе и тематические подкасты 🗣Ссылки на соседние каналы @tagir_analyzes – аналитика, датавиз и новости индустрии @zarplatnik_analytics – анонимные истории с зарплатами специалистов из аналитики и Data Science @persecond300k – релизы и новости из AI вместе с обзорами на статьи по RecSys, LLM, System Design
Показать все...
❤‍🔥 28 6 5😢 3
Фото недоступноПоказать в Telegram
🔄Активные денежные соревнования на Kaggle Собрал для вас подборку из 9 соревнований на Kaggle, к которым еще можно присоединиться. Призовой фонд в каждом из них — от $50.000 до $1.100.000. Некоторые соревнования заканчиваются уже совсем скоро, а некоторые запустили пару дней назад 🤡 Вот сами соревнования с ссылками: 🗣Learning Agency Lab - Automated Essay Scoring 2.0 | ссылка Цель: Улучшение алгоритмов оценки эссе для повышения образовательных результатов студентов. Количество команд: 2694. Дата завершения: 1 июля 2024. 🗣NeurIPS 2024 - Predict New Medicines with BELKA | ссылка Цель: Прогнозирование взаимодействий малых молекул с белками с использованием BELKA. Количество команд: 1835. Дата завершения: 9 июля 2024. 🗣LEAP - Atmospheric Physics using AI (ClimSim) | ссылка Цель: Симуляция высокого разрешения атмосферных процессов с использованием климатической модели. Количество команд: 449. Дата завершения: 16 июля 2024. 🗣USPTO - Explainable AI for Patent Professionals | ссылка Цель: Помощь патентным специалистам в понимании результатов ИИ через привычный язык запросов. Количество команд: 315. Дата завершения: 25 июля 2024. 🗣LMSYS - Chatbot Arena Human Preference Predictions | ссылка Цель: Прогнозирование предпочтений пользователей. Количество команд: 929. Дата завершения: 29 июля 2024. 🗣LLM 20 Questions | ссылка Цель: Угадать секретное слово в сотрудничестве. Количество команд: 362. Дата завершения: 29 июля 2024. 🗣ISIC 2024 - Skin Cancer Detection with 3D-TBP | ссылка Цель: Определение рака кожи на обрезанных фотографиях из 3D-снимков всего тела. Количество команд: 129. Дата завершения: 29 августа 2024. 🗣RSNA 2024 Lumbar Spine Degenerative Classification | ссылка Цель: Классификация дегенеративных состояний поясничного отдела позвоночника. Количество команд: 519. Дата завершения: 29 сентября 2024. 🗣ARC Prize 2024 | ссылка Цель: Разработка ИИ-систем, способных эффективно осваивать новые навыки и решать открытые задачи без полагания исключительно на обширные наборы данных. Количество команд: 315. Дата завершения: 29 октября 2024. Пишите в комментариях, планируете ли вы участвовать в каком-то из соревнований. Если у вас есть интерес к какому-то из соревнований, я готов подробнее рассказать о нем в отдельном посте. С вас — реакции 🐳
Показать все...
🐳 10❤‍🔥 3 1
VWE (Variance Weighted Estimator) - как еще один метод снижения дисперсии. 🚙 Зачем это нужно? Мы хотим по-прежнему снизить дисперсию для преобразования метрики к более чувствительной. Как следствие - снижение длительности эксперимента. 💡 Основная идея Дать пользователям с меньшей дисперсией метрики больший вес для снижения общей дисперсии эффекта. 🖥 Как реализовать? Предположим, мы хотим оценить ARPU и применить к выручке на пользователя для того чтобы снизить дисперсию. Основная реализация заключается в том, что мы смотрим на то, как изменялась метрика в предпериоде и тем самым мы знаем ее дисперсию и как следствие вес. Затем, мы берем вес для метрики на пользователя, равный 1 / дисперсию, тем самым становится очевидно, что при больших дисперсиях вес становится меньше и затем рассчитываем среднее в группе A и группе B. Код который можно реализовать у себя ниже при сплите 50 / 50 с историей в 21 день (это также можно поресерчить, например, если у нас есть бОльшая история по пользователям, будет меньшее смещение, как мне кажется). Чем-то похоже на стратификацию, где каждой страте мы присваиваем вес, только здесь вес рассчитывается на истории пользователя:
import numpy as np
import pandas as pd

n_users = 1000
days = 21 
pre_experiment_revenue = np.random.normal(loc=5, scale=2, size=(n_users, days))

control_group_revenue = np.random.normal(loc=5, scale=2, size=500)
treatment_group_revenue = np.random.normal(loc=5.5, scale=2, size=500)

pre_experiment_df = pd.DataFrame(pre_experiment_revenue, columns=[f'day_{i+1}' for i in range(days)])
pre_experiment_df['user_id'] = np.arange(n_users)

experiment_df = pd.DataFrame({
    'user_id': np.arange(n_users),
    'group': ['control'] * (n_users // 2) + ['treatment'] * (n_users - n_users // 2),
    'revenue': np.concatenate([control_group_revenue, treatment_group_revenue])
})

data = pd.merge(experiment_df, pre_experiment_df, on='user_id')
data['user_variance'] = data[[f'day_{i+1}' for i in range(days)]].var(axis=1)
data['weight'] = 1 / data['user_variance']
data['weighted_revenue'] = data['revenue'] * data['weight']
👎 Минусы VWE: Аномалии могут поломать оценку Метод может быть чувствителен к аномальным значениям в предэкспериментальных данных, что может привести к некорректным оценкам весов Необходима история по пользователям, должна быть богатая история по действиям, например, когда замеряем CTR VWE требует значительного объема предэкспериментальных данных для точного расчета дисперсий и весов. В случае недостатка данных, результаты могут быть менее надежными Может давать смещение При расчете в оценке среднего мы можем получить небольшое смещение из-за перевзвешивания. Другая задача - это получение несмещенной оценки (например, как корректировка средним значением в преэкспериментальной группе при CUPED Можно использовать с CUPED с уже перевзвешенными значениями. В статье от Facebook удалось добиться следующих результатов по снижению дисперсии в %. CUPED only - 37,24% VWE only - 17,31% CUPED + VWE - 48,38% На стратификации не смотрели, как я понимаю, но можно было бы еще, наверное снизить либо есть какие-то ограничения про которые я не знаю. А с Ratio-метрикой так вообще прикол: линеаризируем, VWE, CUPED, стратификацию Этот метод еще освещался на Avito Analytics Meetup + был разбор статьи на YouTube 😉 Ставьте реакции, если пост был полезен, пишите комментарии. Дальше разберем стратификацию и линеаризиацию
Показать все...
Заскуль питона

🆎 CUPED как метод сокращения дисперсии для проведения A/B экспериментов. 🤭 Всем привет! В этом посте хочу рассказать о том что такое CUPED, зачем он нужен? 🤩 CUPED (Controlled-experiment Using Pre-Experiment Data) - один из методов сокращения дисперсии при проведении экспериментов, используемый в индустрии на основе данных предэкспериментального периода. Обычно метрику, которая используется до эксперимента, называется ковариатой. 🔨 Предположим, мы дизайним эксперимент, рассчитываем MDE (Minimum Detectable Effect) и Sample Size (необходимый размер выборки для проведения A/B теста). Рассмотрим стандартную формулу для нахождения MDE подробней: MDE = (F(1-alpha / 2) + F(1 - beta)) * sqrt(Var(X)) / sqrt(sample_size) F(1-alpha / 2) - квантильная функция для 1 - ошибки первого рода (двусторонняя гипотеза) aka критическое значение для H0 F(1 - beta) - квантильная функция для мощности Var(X) - дисперсия метрики sample_size - размер выборки (обычно рассчитывается на основе трафика, целевых действий) 🕺 Обычно в экспериментах…

🔥 10❤‍🔥 1 1 1
🔄Рекомендации аудиокниг в Spotify Недавно Spotify представил пользователям аудиокниги. Новый тип контента требует новых алгоритмов персонализированных рекомендаций. В своей новой статье AI рисерчеры из компании рассказывают о том, как они решали эту задачу 🎵 Аудиокниги, в отличие от музыки и подкастов, требуют более точных рекомендаций, так как пользователи не могут прослушать их перед покупкой. Здесь же возникает еще больше проблем с данными, потому что большинство пользователей ещё не знакомы с аудиокнигами на платформе 👋 В Spotify разработали систему рекомендаций 2T-HGNN. Используя гетерогенные графовые нейронные сети и Two Tower model, они улучшили точность рекомендаций. Этот подход уменьшает сложность модели и повышает её скорость 🙂 Текущие результаты: +46% к числу новых запусков аудиокниг и +23% к общему времени прослушивания. Более того, модель положительно повлияла и на уже знакомые пользователям подкасты 🤣 Пишите в комментариях, что вы думаете о таком подходе? Какие сложности вы видите при работе с рекомендациями аудиокниг? Ставьте реакции китов 🐳 @notedatascience
Показать все...
7🐳 5❤‍🔥 4🔥 2 1👨‍💻 1
Repost from PER SECOND 300K
Фото недоступноПоказать в Telegram
🦜 Сегодня в 12:00 ➡️ Как подключиться: Страница https://app.spatial.chat/s/ods Пароль: festfinaleparrot
Показать все...
🔥 1
Repost from PER SECOND 300K
🦜 2 июня 2024 с 12:00 до 12:30 мск онлайн-секция Reliabe ML На треке @Reliable ML Иры и Димы, я поделюсь нашим опытом использования дизайн-документов. Рассмотрим, почему важно заполнять дизайн-документы, их преимущества, а также наш опыт их составления. Также расскажу о нашем вкладе в шаблон дизайн-документа, созданный ребятами из @Reliable ML. Хочется немного прорекламировать, что проект о котором я буду рассказывать был создан в рамках Симулятора МЛ, и заполнение дизайн документа является неотъемлемой часть любого проекта. Это систематизация от хаотичного движения к какой-то структуре. В прошлый раз другая команда из SimML, рассказывала про свой дизайн-документ на их треке. Проект так-же проходил ревью в AI Tallent Hub, поэтому рассказать есть о чем. А я буду очень рад вас видеть и ответить на ваши вопросы! Из книги Валеры и Арсения:
It s safe to say that close to 100% of ML projects which hadn’t had a well-written design document failed, whereas a sweeping majority of those systems that had been thoroughly planned found success.
➡️ Когда? 2 июня 2024 с 12:00 до 12:30 ➡️ Как подключиться: Страница https://app.spatial.chat/s/ods Пароль: festfinaleparrot
Показать все...
❤‍🔥 4
Выберите другой тариф

Ваш текущий тарифный план позволяет посмотреть аналитику только 5 каналов. Чтобы получить больше, выберите другой план.