uk
Feedback
Дата канальи — дата / ML / AI / корпжиза

Дата канальи — дата / ML / AI / корпжиза

Відкрити в Telegram

Корпжиза аналитиков и DS. Если хотите анонимно поделиться историей на широкий круг -- го в личку @NikitaZelinskiy, аналогично по остальным вопросам

Показати більше
6 020
Підписники
+324 години
+477 днів
+16730 день

Триває завантаження даних...

Схожі канали
Немає даних
Виникли проблеми? Будь ласка, оновіть сторінку або зверніться до нашого support-менеджера.
Вхідні та вихідні згадування
---
---
---
---
---
---
Залучення підписників
липень '26
липень '26
+6
в 0 каналах
червень '26
+218
в 6 каналах
Get PRO
травень '26
+108
в 3 каналах
Get PRO
квітень '26
+60
в 3 каналах
Get PRO
березень '26
+96
в 1 каналах
Get PRO
лютий '26
+268
в 7 каналах
Get PRO
січень '26
+163
в 5 каналах
Get PRO
грудень '25
+1 056
в 7 каналах
Get PRO
листопад '25
+735
в 11 каналах
Get PRO
жовтень '25
+170
в 6 каналах
Get PRO
вересень '25
+240
в 61 каналах
Get PRO
серпень '25
+215
в 6 каналах
Get PRO
липень '25
+1 412
в 30 каналах
Get PRO
червень '25
+351
в 58 каналах
Get PRO
травень '25
+39
в 1 каналах
Get PRO
квітень '25
+84
в 2 каналах
Get PRO
березень '25
+2 102
в 3 каналах
Get PRO
лютий '250
в 10 каналах
Get PRO
січень '250
в 5 каналах
Get PRO
грудень '24
+159
в 7 каналах
Дата
Залучення підписників
Згадування
Канали
01 липня+6
Дописи каналу
Банк N26 успешно отсыпал агентов в потные ручонки HR. Такое вот письмо с заголовком "Head of Data Science - Generative AI Int
Банк N26 успешно отсыпал агентов в потные ручонки HR. Такое вот письмо с заголовком "Head of Data Science - Generative AI Interview Follow-Up" пришло на днях товарищу

2
#ML Поймал тут за руку лида, который не знал как negative sampling связан с метриками — и при обучении огромного трансформера
#ML Поймал тут за руку лида, который не знал как negative sampling связан с метриками — и при обучении огромного трансформера на даунстрим-задачах у него было "все хорошо". Многие слышали что при огромном дисбалансе классов (event rate, например, в рекламе или антифроде вполне может быть 1 на миллион) roc_auc (или gini что почти то же самое: gini = 2*roc_auc - 1) становятся непоказательными. Но насколько? Давайте проверим — сделаем вид что у нас уже есть откалиброванная модель и по ней уже получен бинарный предикт (чтобы не возиться со скорами и трешхолдами): y_true= np.zeros(1_000_000, dtype=int) y_pred = y_true.copy() y_true[1:51] = 1 y_pred[1:20] = 1 # 19 из 50 мы угадали = TP y_pred[99:120] = 1 # еще 21 пометили зазря = FP А теперь давайте после после последнего, назначенного единичкой, элемента, добавлять нолики — которые модель верно определила ноликами. Что произойдет с метриками? У нас в этом примере нет скоров — только бинарные ответы Gini начнет расти до своего теоретического предела — recall. Precision и recall не поменяются. Вайбкод для картинки А что произойдет с метриками если все же будет модель, которая будет выдавать скоры? Тогда вместо одного трешхолда полезнее смотреть качество в верхнем сегменте: precision@k, recall@k, lift@k, где k выбирается как фиксированное число или как доля объектов. Например, можно брать k = event_rate * n, то есть выбирать top-k объектов по скору И вот тут ROC-AUC/Gini особенно легко вводят в заблуждение: они оценивают глобальное ранжирование всех positive-negative пар, а бизнесу часто важна только самая верхушка скоринга Что делать чтобы меньше возиться? Можно начать с площадью под кривой precision-recall
1 528
3
#субботние пет-проекты https://pomoex-66.ru/ Парни навайбкодили для инвесторов в акции график индекс vs ВВП, терминал впечатляет
1 791
4
Никогда раньше не видел вживую
Никогда раньше не видел вживую
2 529
5
#кейсы #ML #корпжиза Есть два типа ML-кейсов: в одних полностью автоматизируется принятие решений — например , выдача кредита
#кейсы #ML #корпжиза Есть два типа ML-кейсов: в одних полностью автоматизируется принятие решений — например , выдача кредита, открытие расчетного счета, выявление дефектов и пр. А в другом после работы моделей (а часто достаточно сложных систем из десятков моделей, эвристик и бизнес-правил) решение принимает все же человек — сотрудник или клиент — в целом не так важно. Те, кто работает с рекомендациями и поиском отлично знают про разные biases — selection bias, position bias, popularity bias и прочее и прочее Но есть еще один тип bias который не так популярен в публикациях на открытых датасетах — «уважаемый человек попросил». Самое близкое к этому по смыслу — промотируемые объявления / позиции (как раз надежда поэксплуатировать positional bias чтобы срубить еще денег) — все вы видели в публичных поисковиках или классифайдах на верхних позициях не самые релевантные, зато проплаченные объявления. Сейчас расскажу как он возникает Вызывает как-то шеф с задачей — давай сфокусируем продажников так чтобы продавали только те продукты, которые вот прям сейчас нужны клиентам и при этом принесут хорошую маржу. В постановке ничего удивительного — любой бизнесмен хочет чтобы и выручка и прибыль росли. Как это реализовать? Например, сделать в интерфейсе сотрудника окошко с самыми приоритетными задачами и объяснением почему они приоритетные и чего сам сотрудник с этого заработает. А приоритетность уж модели определят. Осталось только согласовать с HR схему мотивации и провести обучение. Идея вроде на поверхности, но результат показал только четвертый A/B (зато сразу рост конверсии с 3% до 12% и среднего чека в полтора раза). А почему? Ну потому как опытный менеджер шеф показал сие чудо другим топам. И каждый уважаемый Сан Саныч попросил чтобы его задачи (по продуктам его бизнес-вертикали) — не важно насколько его продукт хорош или подходит этому конкретному клиенту — тоже попали в это приоритетное чудо-окошко. Когда компании, занимающейся выловом сельди в Атлантическом океане предлагают застраховать всю ее ресурсную базу (то есть всю селедку в океане) — такие рекомендации доверие у сотрудников не повышают. Только после трех (!) прощальных пилотов удалось убедить шефа что так мы денег не заработаем и промо надо отдельным окошком (и отдельной строкой в мотивации продажников). Интерфейс получился достаточно красивый чтобы наш департамент получил американскую Gold Stewie Award (там кстати есть ссылка на ролик с самим приложением сотрудника) Только вот тайминг подвел — над чем громко посмеялся аж Financial Times PS Нужен ваш совет и вовлеченность Задаюсь вопросом почему в linkedin посты заходят гораздо хуже чем здесь. Проведем пару экспериментов — буду писать там и оставлять здесь ссылку, буду благодарен реакциям и набросам в комментах. Или лучше другая англоязычная площадка? Substack? Medium? Цель — интересно поделать ML-кейсов на широком рынке — обогатиться знаниями о повадках каналий в других странах (хотя несколько кейсов — Англии и Канады как минимум — в канале уже есть)
2 324
6
брендированная панамка для х для реакций) а вообще вся эта история мне напомнила один кейс
брендированная панамка для х для реакций) а вообще вся эта история мне напомнила один кейс
1 397
7
Тут ребята собрали подборку каналов про AI и IT — и мне она, честно, зашла. Говорят, что прогоняли это всё через Claude: чист
Тут ребята собрали подборку каналов про AI и IT — и мне она, честно, зашла. Говорят, что прогоняли это всё через Claude: чистили каналы-пустышки, которые просто перепечатывают одни и те же новости, и оставляли авторов, у которых есть прикладной опыт — внедрение ИИ, автоматизация, вайб-кодинг, нейрогенерация и вот это всё. Сама подборка выглядит весьма полезной. Тем паче туда включили и мой канал, что приятно 😇 В любом случае рекомендую посмотреть и подписаться на тех, кто вам ближе по темам. Думаю, каждый найдёт что-то полезное. Подписка в 1 клик https://t.me/addlist/wjXN1mA-D21jODIy
1 491
8
#ML Как и 60 лет назад, нейронки начали часто сравнивать с мозгом, а у мозга есть психологи (хотя и у нейронов уже появляются
#ML Как и 60 лет назад, нейронки начали часто сравнивать с мозгом, а у мозга есть психологи (хотя и у нейронов уже появляются исследователи настроений). И как и в любой другой области знаний, у психологов есть свой собственный глоссарий, и я решил составить первый словарь по переводу с психологического на язык MLE. Меня осенило когда читал статью Kahneman-Tversky Optimisation — это же идея обесценивание в чистом виде) Итак, первый в мире словарь Psychologist — Machine Learning Engineer: Выборочное внимание (selective attention) — Attention // комментарии излишни, эту статью знают все Выгорание — Vanishing Gradients // градиент ещё где-то есть, но до полезного обновления уже не доходит Газлайтинг — Label Corruption Attack // истинные метки подменены, модель больше не доверяет собственному датасету Гиперконтроль — Hard Attention // фокус в точку Границы личности — Constrained Attention // у каждого входа есть предел влияния на твой hidden state Диссоциация — Stop-Gradient Operation // событие вроде обрабатывается, но связь с чувством “это происходит со мной” разорвана Защитная реакция — Robustness Patch Under Distribution Shift // не исправляет внутреннюю модель, но помогает не развалиться на новых входах Избегание — Early Stopping // обучение прекращается ровно перед тем батчем, где могло стать полезно, но неприятно Катастрофизация — Worst-Case Data Augmentation // из каждого обычного примера генерируем самый страшный out-of-distribution сценарий Накопленная обида — Gradient Accumulation // градиенты копятся несколько шагов, а параметры не обновляются Навязчивые мысли — Neural Text Degeneration // модель застревает в повторяющихся нежелательных продолжениях Низкая самооценка (почти то же что и Синдром самозванца) — In-Distribution Underconfidence // даже на знакомых примерах модель отвечает “вероятно, я ошибаюсь” Обесценивание — Kahneman-Tversky Optimisation // минимум наград за успехи, максимум штрафов за ошибки Отрицание — Missing Data Imputation // значения нет, но система подставляет приемлемую замену и продолжает как ни в чём не бывало Пассивная агрессия — Low-Rank Hostility Adapter // базовая модель вежливая, но маленькая LoRA добавляет токсичный стиль Перфекционизм — Overfitting // модель не готова к деплою, пока loss не станет метафизически равен нулю Потребность в одобрении — RLHF // модель учится через внешнюю человеческую оценку того, “хороший” ли был ответ Прокрастинация — Learning Rate Warmup // Начнем с раскачки Проекция — Transfer Learning (negative transfer) // модель переносит старое представление на новый домен, хотя там оно уже искажает реальность Психологическая устойчивость — Robust Generalization Under Distribution Shift // мир вокруг меняется Рационализация — Post-hoc Explainability // сначала модель выдала странный ответ, потом уверенно объяснила, что так и было задумано Ревность — Triplet Loss // держи чужого подальше от семьи) Руминация — Repetition Loops in Neural Text Generation // модель застревает в повторяющемся цикле и снова генерирует то же самое содержание Самокритика — есть Self-critical Sequence Training и еще Adversarial Self-Supervised Contrastive Learning // Модель сравнивает сэмплированный ответ со своим же baseline-выводом Самосаботаж — Reward Hacking // агент нашёл reward, но выбрал действие, которое ломает собственную функцию полезности Созависимость — Co-adaptation // один feature detector становится полезным только в присутствии других и теряет самостоятельность Травматический опыт — Outlier-weighed Layerwise Sampling for LLM Fine-tuning // один пример получил слишком большой вес и теперь портит всю функцию потерь Тревожность — Noise Memorization // Система начинает видеть значимый сигнал в шуме и переобучается на случайные паттерны Эмоциональное подавление — Gradient Clipping // слишком сильные эмоции обрезаются до допустимой нормы Эмоциональные качели — Training Instability // обучение нестабильно: сигнал то исчезает, то взрывается. Продолжение следует
8 741
9
#ML Обожаю кликбейт в рисече: Superintelligent Retrieval Agent: The Next Frontier of Agentic Retrieval Источник Настолько sup
#ML Обожаю кликбейт в рисече: Superintelligent Retrieval Agent: The Next Frontier of Agentic Retrieval Источник Настолько super-прорыв что авторам прямо в аннотации приходится оправдываться что это не обычный query expansion а немного докрученный: SIRA does not merely ask what terms are relevant to the query; it asks which terms are likely to separate the desired evidence from corpus-level confusers. On the corpus side, an LLM enriches each document offline with missing search vocabulary; on the query side, it predicts evidence vocabulary omitted by the query; and corpus statistics are used as tool calls to filter proposed terms that are absent, overly common, or unlikely to create retrieval margin. The final retrieval step is a single weighted BM25 call combining the original query with the validated expansion. А мб и правда надо быть максимально нескромным чтобы заметили ? 🤔
2 470
10
#southhub Сегодня пил кофе с HR, они все спрашивали как сделать так чтобы данные опросов можно было использовать для аналитик
#southhub Сегодня пил кофе с HR, они все спрашивали как сделать так чтобы данные опросов можно было использовать для аналитики. А я им на примере кликов и лонгкликов в рекламе объяснял логику выбора прокси-событий и и разницу между Вилларибо (опрашивали) и Виллабаджо (измеряли). Если ту же логику применить к конференциям, то вместо опросов и отзывов можно посмотреть на факт: добраться до (и тем паче выбраться из) Сочи — это лютый кошмар. Тем не менее, сотни С-levels приехали на SouthHub — никто не жаловался, не отступил, не ныл — а ведь некоторые с детьми и потратили на дорогу в одну сторону больше суток. Поэтому абсолютно ожидаемо что на самой конфе я встретил открытых и дружелюбных людей со всей страны, у которых (что большая редкость для конференций) действительно позиция совпадала с опытом и знаниями настолько что хотелось слушать не отрываясь (искренне прошу прощения тех кого по три часа не отпускал задавая миллионы вопросов - но было дико интересно). Отдельное спасибо VK за рыбалку на херабуну, Авито за полосатика, X5 за бомбовые коктейли, Альфе за глинтвейн когда я замерзал, Магниту за бургеры в 12 ночи, и само собой МТС и оргам конфы — за все) Невероятно душевно, не знал что так бывает в таком масштабе и с такой концентрацией корпоратов)
2 717
11
Давно тут рыбы не было. Как связаны VK и золотая форель?
Давно тут рыбы не было. Как связаны VK и золотая форель?
2 864
12
Необычная реклама сегожня попалась, однако мысли писать докторскую точно не было, хотя один коллега на SH признался что он до
Необычная реклама сегожня попалась, однако мысли писать докторскую точно не было, хотя один коллега на SH признался что он доктор. Ну и какой же у докторанта научный руководитель? Научный консультант скорее 🤔
2 866
13
🕒 Синдром «Серебряной пули» История про «эффективного менеджера» направления CVM (customer value management) Задача ребят — продавать доп. услуги клиентам и повышать конверсию. Вводные от заказчика прекрасны: «Мы тут ходили к другой команде, они нам собрали фичу — "лучшее время отправки SMS". Мы полгода крутили пилот, получили нулевой результат. Хотим, чтобы вы сделали то же самое, но лучше». Начинаем копать от бизнес-задачи. Выясняется: конверсия низкая. Почему? Ну, логично же: мы просто отправляем SMS не в то время! 🤡 Дальше — диалог, достойный войти в учебники по «продукт-менеджменту»: — Вы же уже проверили гипотезу на пилоте, результат нулевой. Зачем развивать безнадежную идею? — Мы в это верим. — Мы работали со многими крупными компаниями, решали эту задачу. Вы первые, кто просит именно эту фичу. — Мы переиграем рынок. — Ок, если я получу ваш пуш в 10:00 вместо 12:00, реально есть вера, что конверсия взлетит? — Разве это не очевидно? Тут мы немного выпали в осадок, но решили узнать, как устроена сегментация и выборка клиентов. — А как вы понимаете, кому слать? Есть функция ранжирования (uplift-модели, скоринг)? — Не понял вопрос. — Ну как вы понимаете, кто сконвертится лучше или хуже? — А-а-а, никак. Просто случайно выбираем из сегмента. Они же ВСЕ заинтересованы в продукте! — То есть ваш сегмент — это просто жесткие бизнес-правила (условия типа ЕСЛИ/ИЛИ)? — Если упрощенно, то да. Мы строим гипотезы и тестируем их через А/Б! То есть ребята делают А/Б тест на абсолютно случайной выборке внутри кастомного сегмента, не умеют в предсказание оттока/конверсии, но верят в тайминг. Пытаемся нащупать омниканальность. У них есть SMS, пуши и звонки. — А не пробовали выстроить каскадную стратегию? Например: сначала SMS, через день — звонок? — Ну и чем это кончится? — Оптимизацией стратегии... *(Повисла неловкая пауза)* — У нас либо звонки, либо SMS! ❌ Итог: Мы рассказали, как строим нормальный ML-пайплайн для CVM у других заказчиков (с моделированием, склонностью к покупке и оптимизацией стратегии). Продукту не зашло. Ведь у нас нет самого главного — алгоритма, который высчитывает идеальную секунду для отправки SMS человеку, которому это предложение вообще не всралось. Как называется эта болезнь? В медицине не знаем, но в ИТ это «карго-культ фичи». Когда команда игнорирует базовую математику, отсутствие нормальной сегментации и кривую коммуникацию, но свято верит, что одна «модная» фича переиграет рынок. Сталкивались с такими «верующими» заказчиками? Какую самую дикую фичу у вас просили завернуть в ML? 👇
2 561
14
Влад поделился историей в духе канала , не могу пройти мимо )
2 109
15
Тренировки по ML ➖➖➖➖➖➖ 6️⃣ июня состоится семнадцатая встреча в рамках тренировок по машинному обучению ❤️ Что будет на встр
Тренировки по ML ➖➖➖➖➖➖ 6️⃣ июня состоится семнадцатая встреча в рамках тренировок по машинному обучению ❤️ Что будет на встрече: ⚪️Orbit Wars как первое RL соревнование на Kaggle в эпоху coding agents 📢 Спикер: Дмитрий Руденко, Kaggle Competition Master, самый активный участник соревновательного сообщества. Автор @pseudolabeling 📆 Когда: 6 июня в 18:10 🗺️ Где: онлайн ❤️ ссылка на подключение Подробнее про челленджи 🐭 По организационным вопросам вы можете обращаться к Марии ↩️ #анонсы #студенты #ии
3 078
16
подключайтесь!
3 007
17
#кейсы Про независимые измерения качества таргетирования рекламы Представьте что вы рекламное агентство, ваши клиенты-рекламо
#кейсы Про независимые измерения качества таргетирования рекламы Представьте что вы рекламное агентство, ваши клиенты-рекламодатели заказывают рекламные кампании (РК) на сотни тысяч и миллионы человек, все прекрасно. Однако, оказывается, что их чудесные оловянные втулки для перьевых ручек продаются примерно никак. И в низких CTR рекламных кампаний виноваты именно ваши DS, которые, неучи такие, плохо попадают в аудиторию - мальчиков и девочек, взрослых и детей и пр. Делал как-то сореву по такой задаче Как клиенту обосновать свою позицию? На его счастье есть «независимый измеритель качества таргетирования рекламы» (точность работы такого измерения приложен картинкой к посту): 20 тысячам добровольцев устанавливается мобильное приложение (с этого момента их зовут пантеистами — от survey panel), а затем результаты показа вашей рекламной кампании им экстраполируются (с магическим перевзвешиванием! — каждый панелист представляет собой какую-то группу населения) на миллионные аудитории РК. Но не будем, как часто бывает в канале, токсично обсуждать недостатки подхода (а некоторые ML-команды тратят годы на то чтобы улучшить «попадание» в этот генератор псевдослучайных чисел). Давайте о достоинствах, тут понадобится немного фантазии Если бы у вас был каким-то волшебным образом добыт список из этих 20 тыс панелистов то достаточно было бы заказать колл-центру обзвон их обзвон с одним-единственным вопросом : датой рождения (пол по голосу относительно надежно определяется). Ура! — точность таргетирования при следующей тестовой РК достигает 95%+ согласно «независимому измерителю» достигнута, вопросы клиентов снялись. Да, список панелистов постеgпенно расширяется / измеряется, но и способы его добычи не стоят на месте ) PS: в рекламном мире много забавных терминов — МММ, возвратные комиссии, подмешивание панелистов, мы настолько окружены рекламой что любому нелишне подразобраться в этом мире
3 441
18
Clickhouse для программистов, аналитиков и инженеров данных Перестаньте ждать, пока считается аналитика. Научитесь использова
Clickhouse для программистов, аналитиков и инженеров данных Перестаньте ждать, пока считается аналитика. Научитесь использовать ClickHouse — СУБД, которая превращает минутные аналитические запросы в ответы за доли секунды. С первого дня — доступ к инфраструктуре для практики. 🌐 Чему вы научитесь: 🤩 Архитектура одиночных и кластерных инсталляций ClickHouse: как устроена система изнутри и как масштабировать её под реальные нагрузки 🤩 Хранение данных: движки MergeTree, партиционирование и сжатие — как держать терабайты аналитических данных при минимальных затратах на инфраструктуру. 🤩 Обработка миллиардов строк за секунды: построение эффективных запросов, агрегаций и материализованных представлений. 🤩 ClickHouse в продакшене: использование в приложениях, продуктовой аналитике и типичные грабли, на которые наступают почти все 🤩 Живая практика без отрыва от работы: не более 2-3 часов в неделю, разбор задач с экспертом в групповом чате. 🥸 Кто мы: R&D-центр Devhands. Автор курса — Алексей Белозерский, Chief Data Officer в inSales (СБЕР 2В), ex: VK Tech, М.Видео, Эльдорадо 🗓 Старт курса: 11 июня, 6 недель обучения. Изучить программу и записаться можно здесь. Ждем вас! Реклама. ИП Рыбак А.А. ИНН 771407709607 Erid: 2VtzqxNnFKA
3 280
19
Еду на SouthHub 10 июня (как и другие 500 c-levels), нет времени на раздумья и изучение программы — регистрируйтесь, приезжайте — пообщаемся, потусим, сходим в горы немножко Вся инфа, тут канал: https://t.me/sthhb сайт: https://southhub.ru/southub/ Советую полистать, тк каждая компания-участник предлагает свой шатер с активностями (кому-то ближе гвоздестояние, а я вот спиннинги возьму) — несложно найти дело по душе в компании коллег не с улицы
3 570
20
Не фанат выставок и «культурного» досуга, но на эту стену залипал долго и с удовольствием
Не фанат выставок и «культурного» досуга, но на эту стену залипал долго и с удовольствием
3 507