Записки дата-шрушера (Ppilif)

@ppilif_chanel

Канал Ппилифа Ульянкина (@ppilif) с его никому нахер ненужными мыслями

The country is not specifiedRussian110 963Technologies & Applications16 043

Advertising posts

3 842

Subscribers

-224 hours

+117 days

+20130 days

4 705

Post views

~ 1 75224 hours

~ 1 85048 hours

122.49%

Engagement rate

45.6%24 hours

48.2%48 hours

Mentions

No data7 days

No data30 days

No data

Posts per day

~ 129

Reactions

~ 19

Comments

~ 108

Reposts

Subscribers
Post coverage
ER - engagement ratio

Data loading in progress...

🔥 62🍾 30❤‍🔥 2

Все слова будут удалены.

Show all...

🥴 23💊 3🗿 2

Repost from Книги для программистов

📚数学分析的问题集和解决方案 ✍️作者: Б.П. Демидович 📃页数: 482 Знаменитая math книга лучший версия частью одна. Learning много, учить цифры анализ. Обучение statistic страдание мало полезный решение. Информация новый всегда, полезный skill получать, переезд Китай великий работа получать. Кошка жена миска риса great wall коллектив всегда. Поставил нравлюсь, если лучший продолжать! 下载一本书

Show all...

🔥 132🥴 30🗿 8💩 2👀 2🍾 1💊 1

Немного забавного про Китай Я сейчас в Китае, еду по его центральной части на поездах из Пекина в Гонконг и останавливаюсь в разных городах с интересностями. Китайцы, знающие английский, часто спрашивают: "Where are you from? Are you an American?" Таких разговоров у меня уже было около десяти. Добрая треть из них с рандомными чуваками, которые захотели со мной сфоткаться на улице. Такое происходит со всеми европейцами в Китае. Я знал это заранее и взял с собой пачку наклеек с яндекс.ровером и русской надписью “ЧТО?”. Эта надпись для китайца, как для нас иероглифы. Каждому, кто просит сфоткаться, я торжественно вручаю эту наклейку ☺️ Сегодня я встретил первого человека, который знает где Россия. Он подошёл сфоткаться и узнав что я русский, очень удивился. Ещё я сегодня одной девушке пытался показать после её вопроса, где находится Россия на карте. Она быстро поняла, где Китай, уточнила, он ли это на карте, я подтвердил. Тогда она выдала: “Значит ты из страны, которая следующая после Монголии!” Я прям опешил. Надо будет следующего, кто спросит, американец ли я, попросить показать на карте мира США 😄

Show all...

🔥 113🥴 19👀 9🤗 9🍓 6💩 2🫡 2🍾 1

В одном из AI чатов я увидел полную версию lena.png, моя жизнь больше никогда не будет прежней

Show all...

🍌 50🔥 23🫡 15👀 8🥴 7🍓 3

Хочется подушнить. Чуваки из X5 написали статью о том, как они выводили для лог-нормального распределения точный критерий. АБ-тесты на маленьких выборках. С одной стороны — они молоднцы. Идея построить распределение по историческим данным — прикольная. Есть вопросики к теоретической базе и к зоне применимости теста. Например, я не понимаю разваливается ли он, если наже изменение поменяло форму распределения в тестовой выборке и она стала какой-нибудь бимодальной тк мнение людей поляризовалось. С другой стороны, они это делают с кучей грубых ошибок. В статье опять дичь про t-тест. Именно по этому поводу я и буду жёстко душнить. Ну и попутно рекламировать свои лекции. Автор пишет:

Будем генерировать выборки размера 10 из логнормального распределения и проверять гипотезу о равенстве средних тестом Стьюдента.

А зачем тут вообще использовать критерий Стьюдента? В его предпосылках явно сказано, что выборка должна быть нормальной, а дисперсии выборок должны совпадать. Иначе тест разваливается. Для ситуации, когда речь идёт про два средних из нормальных выборок с разными дисперсиями, вообще не существует точного распределения. Есть приближение в виде теста Уэлча. То есть мы берём тест, который заведомо не работает в этой ситуации и собираемся сравниваться с ним как бейзлайном. Зачем? Если ты сразу знаешь, что предпосылки сломаны, надо искать более адекватную альтернативу. Если в выборке есть хотябы сотня наблюдений (по версии статьи даже 10к это ещё маленькая выборка), и мы знаем что столкнулись с логнормальным распределением, можно попытаться родить критерий для средних теста отношения правдоподобий. Он будет асимптотическим и для 10 наблюдений тоже не очень хорош, но тем не менее некорректно используемый t-тест в AA побьёт. По-аналогии можно и через дельта-метод собрать. Мы же знаем как средние lnX связаны со средними логнормальной выборки, есть формулы. На их базе довольно просто построить критерий. Он также будет асимптотическим, но он хотябы будет удовлетворять предпосылкам, которые авторы строят. Дальше:

При выводе теста Стьюдента используется предположение о нормальности распределения средних.

Мой любимый миф, который широко разошёлся в народ. Нельзя использовать тест Стьюдента, опираясь на нормальность средних. Когда так пишут, обычно, t-тест путают с z-тестом и подразумевают, что мы оказались в условиях ЦПТ, где среднее имеет асимптотически нормальное распределение. Тут автор явно использует квантили из t-распределения для 10 наблюдений, то есть не путает t-тест с z-тестом, а ошибается в предпосылках. Нормальности средних мало. Средние должны быть независимы от выборочных дисперсий + наблюдентя должны быть нормальными. Только тогда выполняется лемма Фишера и в знаменатели дроби будет стоять хи-квадрат распределение, которое будучи независимым от нормального распределения в числителе даст t-статистику. Более структурированно я душнил на эту тему в одной из своих последних лекций по матстату. Дальше по-мелочи:

Статистическая мощность — вероятность отклонения нулевой гипотезы в случае, когда альтернативная гипотеза верна.

Тут дано определение ошибки второго рода. Мощность это когда мычили из 1 эту ошибку. Мощность это полнота критерия, если говорить в терминах классификации. Про то, как для АБ можно строить рок-кривые и сравнивать тесты между собой тоже есть лекция. Отдельно орнул с (н.о.р.с.в.). Это так импортозаместили iid.

Show all...

🔥 59🗿 27🫡 7❤‍🔥 5🥴 2🤗 2

Неплохая статья про АБ-тесты на маленьких выборках. Очень понравилось определение малой выборки.

Маленькая выборка — понятие относительное. Дадим неформальное определение, которое будем использовать в рамках этой статьи. Будем называть выборку маленькой, если распределение её среднего также имеет скошенное распределение.

Из грубых ошибок: 1. Авторы используют критерий Стьюдента для данных, которые пришли не из нормального распределения. Любой тест — это теорема со своими предпосылками. Тут они разваливаются на уровне процесса порождения данных и применять T-тест некорректно. Нужно брать квантили из z-теста и распределения N(0,1). Да, я душнила. Да, z-тест тоже разваливается из-за того, что выборка маленькая и асимптотики нет. Да, t(n) сходится к N(0,1) и на бесконечности нет разницы какие квантили использовать. Проблема в том, что тут нет разницы и t-test выплювывает на 10 наблюдениях pvalue = 0.418, z-test pvalue = 0.407

Show all...

А/Б тестирование на маленьких выборках. Построение собственного критерия

Хабр, привет! Сегодня рассмотрим кейс, в котором классические статистические критерии не работают, и разберёмся, почему так происходит. Научимся строить свои собственные критерии по историческим...

ШАД обновил свой учебник по ML, добавили очень много про нейросети, появился полноценный раздел про рекомендации https://education.yandex.ru/handbook/ml На мой взгляд, это конечно справочник, а не учебник. Читать его как самодостаточное произведение, чтобы погрузиться в ML — очень сложно. Но если хочется освежить знания либо почитать что-то параллельно с прохождением более структурированного курса по ML, чтиво очень хорошее.

Show all...

Учебник по машинному обучению

Онлайн-учебник по машинному обучению от ШАД — для тех, кто не боится математики и хочет разобраться в технологиях ML.

🔥 79

Про процедуру Бокса-Дженкинса и SARMA Обычно, когда читают курс по эконометрике или временным рядам, там всегда рассказывают процедуру Бокса-Дженкинса для подбора числа лагов в SARMA(p, q). Процедура заключается в том, что мы смотрим на ACF и PACF глазами и понимаем порядок модели по значимым корреляциям (тест Льюнга-Бокса aka Q-тест), а сезонность по цикличности. Меня эта процедура всегда напрягала. На курсе эконометрики параллельно рассказывали про то, что критерий Шварца (BIC) выводит тебя на состоятельную SARMA модель, если процесс порождения данных и правдо описывается этой моделью. Соответственно, при большом числе наблюдений ты можешь перебрать разные лаги, посмотреть где BIC максимален и остановиться на них. Я не понимал зачем нужна процедура Бокса-Дженкинса в этом курсе и почему они вообще придумали смотреть на графики глазами. Обычно у тебя очень много временных рядов и для каждого нужна модель. Смотреть глазами — не масштабируемая штука. Когда я заботал ML и узнал про кросс-валидацию со скользящим окном, я в принципе перестал понимать эту процедуру. При этом во многих современных лекциях по ML я её постоянно встречал. Сегодня в личке с Борисом Демешевым мне открылась правда, и он теперь соавтор этого поста, а ниже его цитата :3

Бокс и Дженкинс написали книгу в 1970. Компьютеры занимают комнату, о персональных компьютерах речи нет ещё лет 7, кажется. До доклада Акаике о критерии на конференции ещё целый год, а до публикации статьи Акаике — целых четыре года. Выходит, что Бокс и Дженкинс физически не могли рекомендовать ни автоматический перебор кучи моделей по прогнозной силе (хотя эта идея тривиальна), ни использовать Акаике. Дальше больше! Тест Дики Фуллера появился в 1979 году. KPSS тест в 1992 году. Тест Льюнг-Бокса — в 1979. Статья с предшественником теста Льюнг-Бокса (тест Бокса-Пирса) появилась в 1970, то есть одновременно с учебником Бокса-Дженкинсона. Получается, что помимо графиков и (возможно) идеи теста Бокса-Пирса у Бокса и Дженкинсона ничего в арсенале практически нет. Что из этого следует? Мои размышления такие. Во-первых, что Бокс и Дженкинс — гениальные чуваки, при полном отсутствии техники предложили понятную процедуру: перейди к стационарному ряду, подбери p и q, проверь всё ли ок. Во-вторых, стоит обратить внимание, что методология Бокса и Дженкинсона субъективная и здорово опирается на графики. В-третьих, алгоритм Хандакара-Хайнмана можно считать её актуальной автоматической объективной реализацией. Он не смотрит на графики, не делает шаг "проверь, что остатки красивые", но объективно (а не по графикам) выполняет первые два шага: переходит к стационарному ряду по тесту, затем подбирает p и q. И, я только сейчас осознал, что все графики ACF, PACF они рисовали от руки! Считали нужные числа на шкафах и дальше лапками рисовали!

P.S. Наши лекции про временные ряды можно найти вот тут 🙂

Show all...

🔥 86❤‍🔥 9

Вписался в этом семестре в парочку новых для меня проектов. Один из них — искать лекторов в Вышку на ИАД. ИАД это майнор в Вышке для всех студентов вуза. Внутри линейка из четырёх курсов по анализу данных. Там есть питон, ML, DL и финальный курс из кучи мелких сюжетов, которые не влезли в другие курсы, но важны. На последнем курсе, в прошлом году, я читал гостевые лекции про АБ и CUPED, а в этом ищу лекторов для него. Ну и попутно веду семинары. Искать лекторов прикольно, но очень назойливо. Каждому надо заранее предложить прочитать лекцию, убедиться что он не забыл. Пингануть за неделю до лекции, за сутки до лекции, за 20 минут до лекции. Мне очень некомфортно надоедать людям своими пингованиями. Как мы выяснили опытным путем, если это не делать, можно оказаться в ситуации, когда приглашенный лектор поставил вместо лекции рабочую встречку, потому что забыл про лекцию 😭 Пока получается звать классных лекторов. Я дико благодарен каждому из тех, кто соглашается прочитать лекции. 🤗🤗🤗 Вот даже хочу поделиться с вами нашим открытым плейлистом из лекций с первого куска курса. Каждый лектор даёт какое-то введение в рассматриваемый кусок ML-я, а дальше можно уже копать самостоятельно, если область понравилась. 🥛 Кусочек про генеарацию картинок от Миши Гущина и 3D-реконструкцию от Кирилла Струминского: 1. GAN-ы 2. Дифузионные модели 3. Нормализационные потоки 4. 3D-реконструкция Кажется, что тут не хватило небольшой вставочки про вариационные автокодировщики (VAE). Если хочется погрузиться в него, можно посмотреть лекцию Жени Соколова из 2021 года с этого же курса. Если хочется подробнее погрузиться в диффузионные модели, можно разобрать курс от Hugging Face. А ещё на ФКН есть курс с подробной математикой. На вики можно найти записи. Если кратко, там много стохастических дифуров и разных моделей на их базе. 🥛 Кусочек про аудио от Макса Каледина: 5. Введиние в DL в аудио 6. Разделение источников и денойзинг Углубиться подробнее в DL в аудио, можно на курсе Макса на ФКН. На гите можно найти ссылки на все лекции и семинары. 🥛 Кусочек про современные LLM-ки от Игоря Котенкова: 7. State of the LLM Landscape 8. Some Notes on LLMs in the Wild Если хочется подробнее углубиться в современный LLM-ки, можно посмотреть на канале Игоря его свежий курс с подробным разбором истории семейства GPT. Если хочется более системно погрузиться в NLP, я всем очень рекомендую курс ШАДа и лекции Лены Войты. В каждой неделе есть ссылка на лекцию на русском языке. Лена бесподобно читает лекции и влюбляет всех оркужающих в своё дело. По мотивам курса у неё есть бесподобный интерактивный учебник. Более того, в этом году у неё в курсе появилась свежая огромная часть про LLM-ки. А ещё можно залезть в NLP-курс от Hugging Face 🙂 Первый блок курса довольно DL-ный. Второй блок будет ближе к классическому ML :3 P.S. Все материалы на гите

Show all...

🔥 109❤‍🔥 18🍓 9🍾 2