Дата канальи

前往频道在 Telegram

Данные / ML / AI / аналитика в корпорациях. Для связи @NikitaZelinskiy (реклама и консультации по AI/ML для бизнеса)

显示更多

俄罗斯98 033 技术与应用16 865

6 034

订阅者

+324 小时

+137 天

+19230 天

3 277

帖子浏览量

~ 1 25124 小时

~ 1 37848 小时

54.31%

参与率

无数据

每日帖子数

Ads index

beta

数据加载中...

相似频道

无数据

有任何问题？请刷新页面或联系我们的客服。

进出提及

---

吸引订阅者

七月 '26

+30

在2个频道中

六月 '26

+218

在6个频道中

Get PRO

五月 '26

+108

在3个频道中

Get PRO

四月 '26

+60

在3个频道中

Get PRO

三月 '26

+96

在1个频道中

Get PRO

二月 '26

+268

在7个频道中

Get PRO

一月 '26

+163

在5个频道中

Get PRO

十二月 '25

+1 056

在7个频道中

Get PRO

十一月 '25

+735

在11个频道中

Get PRO

十月 '25

+170

在6个频道中

Get PRO

九月 '25

+240

在61个频道中

Get PRO

八月 '25

+215

在6个频道中

Get PRO

七月 '25

+1 412

在30个频道中

Get PRO

六月 '25

+351

在58个频道中

Get PRO

五月 '25

+39

在1个频道中

Get PRO

四月 '25

+84

在2个频道中

Get PRO

三月 '25

+2 102

在3个频道中

Get PRO

二月 '250

在10个频道中

Get PRO

一月 '250

在5个频道中

Get PRO

十二月 '24

+159

在7个频道中

日期	订阅者增长	提及	频道
09 七月	0
08 七月	+3
07 七月	+2
06 七月	+1
05 七月	+3
04 七月	+5
03 七月	+5
02 七月	+4
01 七月	+7

频道帖子

#кейсы #ML ML System Design учит что начинать желательно с какого-н бейзлайна Часто внедрение такого бейзлайна требует определенной наглости Например, cамая простая стратегия ценообразования: 1. Поднимаешь цены всем клиенты (на дельту с небольшой окрестностью) 2. Возвращаешь нормальные тем кто жалуется / встал на лыжи 3. Обучаешь модель определения «нечувствительных к цене» (далекий предок эластичности — кривой-то у нас нет) 4. В дальнейшем повышаешь только им А теперь наглость — как такой подход выглядит в отчете аудиторам:

Проблема: Ежедневный пересчет депозитных ставок по формуле (ETC - ФОР - АСВ - Opex - EVA) создает естественную волатильность, к которой клиенты уже адаптировались. Проведенный анализ клиентского поведения выявил сегмент, демонстрирующий низкую чувствительность к колебаниям процентных ставок. Для таких клиентов возможно применение пониженных ставок относительно рекомендованного казначейством уровня без риска оттока. При этом сохраняется возможность оперативной корректировки условий в случае изменения рыночной конъюнктуры. Данный подход позволяет оптимизировать стоимость фондирования, создавая дополнительный маржинальный доход, в то время как клиенты, для которых ставка остается ключевым фактором, продолжают получать конкурентные условия. Важно отметить, что подобная практика требует регулярного мониторинга клиентской реакции и своевременной адаптации параметров предложения. Задача: снизить эффективную ставку по привлечению не допустив оттока клиентов и просадок в ликвидности. Решение: На первом этапе был проведен эксперимент по сбору данных, в рамках которого выборочно предлагалась пониженная депозитная ставка для части клиентов. Это позволило сегментировать клиентскую базу на две группы: нечувствительных к изменению ставки (согласившихся на пониженные условия) и чувствительных (отказавшихся от предложения). На основе этих данных была построена Look-a-Like модель, которая выявляет клиентов с характеристиками, аналогичными нечувствительной группе. Для таких клиентов впоследствии применялась ставка ниже рекомендованной казначейством, что позволило оптимизировать стоимость привлечения ресурсов без потери клиентской базы. При этом сохранялся принцип прозрачности - клиенты заранее информировались о возможных колебаниях ставки, а сама модель регулярно пересматривалась с учетом новых данных о поведении клиентов. Такой подход создает баланс между доходностью для банка и приемлемыми условиями для лояльных клиентов, демонстрирующих низкую чувствительность к изменениям процентных ставок. Деньги: удалось стат. значимо снизить эффективную ставку привлечения на 0.02%

На оборотах крупного банка за год — это сотни миллионов рублей

2	Давние читатели канала помнят, что когда-то в древние времена мы с Валерой написали книжку про ML design. Это было так давно, что люди тогда умели не только читать по диагонали, но еще иногда писать, а книги были значимым артефактом для упаковки знаний. С тех пор утекло немало воды, работу делают агенты, и книгам они предпочитают скиллы. И вот мы с клодом наконец добрались перепаковать одно в другое: ML system design в форме скилла с набором рубрик для ревью. Устанавливается одной командой через skills.sh, умеет ревьювить дизайн-доки и ML проекты лучше агента из коробки и чесать нам эго ненавязчиво ссылаться на авторов как могучих авторитетов.	978
3	Друг в соседнем чате глаза открыл на советские космические лазерные пистолеты, которыми вооружали космонавтов — до сих пор под впечатлением, думал только в фантастике такое	1 688
4	Кто-то уже понял как оно работает? Долго казалось что foundation model для табличек это оксюморон (по временным рядам про FM тоже был скепсис , хоть я и сам читал по ним лекции и пробовал в деле) https://research.google/blog/introducing-tabfm-a-zero-shot-foundation-model-for-tabular-data/	2 359
5	Отрицательный рост акций в 7 раз за пару лет	2 568
6	#корпжиза Как вам интервью ген директора Диасофта? Каналья или нет?	2 453
7	Банк N26 успешно отсыпал агентов в потные ручонки HR. Такое вот письмо с заголовком "Head of Data Science - Generative AI Interview Follow-Up" пришло на днях товарищу	2 739
8	#ML Поймал тут за руку лида, который не знал как negative sampling связан с метриками — и при обучении огромного трансформера на даунстрим-задачах у него было "все хорошо". Многие слышали что при огромном дисбалансе классов (event rate, например, в рекламе или антифроде вполне может быть 1 на миллион) roc_auc (или gini что почти то же самое: gini = 2roc_auc - 1) становятся непоказательными. Но насколько? Давайте проверим — сделаем вид что у нас уже есть откалиброванная модель и по ней уже получен бинарный предикт (чтобы не возиться со скорами и трешхолдами): y_true= np.zeros(1_000_000, dtype=int) y_pred = y_true.copy() y_true[1:51] = 1 y_pred[1:20] = 1 # 19 из 50 мы угадали = TP y_pred[99:120] = 1 # еще 21 пометили зазря = FP А теперь давайте после после последнего, назначенного единичкой, элемента, добавлять нолики — которые модель верно определила ноликами. Что произойдет с метриками? У нас в этом примере нет скоров — только бинарные ответы Gini начнет расти до своего теоретического предела — recall. Precision и recall не поменяются. Вайбкод для картинки А что произойдет с метриками если все же будет модель, которая будет выдавать скоры? Тогда вместо одного трешхолда полезнее смотреть качество в верхнем сегменте: precision@k, recall@k, lift@k, где k выбирается как фиксированное число или как доля объектов. Например, можно брать k = event_rate n, то есть выбирать top-k объектов по скору И вот тут ROC-AUC/Gini особенно легко вводят в заблуждение: они оценивают глобальное ранжирование всех positive-negative пар, а бизнесу часто важна только самая верхушка скоринга Что делать чтобы меньше возиться? Можно начать с площадью под кривой precision-recall	2 643
9	#субботние пет-проекты https://pomoex-66.ru/ Парни навайбкодили для инвесторов в акции график индекс vs ВВП, терминал впечатляет	2 378
10	Никогда раньше не видел вживую	3 002
11	#кейсы #ML #корпжиза Есть два типа ML-кейсов: в одних полностью автоматизируется принятие решений — например , выдача кредита, открытие расчетного счета, выявление дефектов и пр. А в другом после работы моделей (а часто достаточно сложных систем из десятков моделей, эвристик и бизнес-правил) решение принимает все же человек — сотрудник или клиент — в целом не так важно. Те, кто работает с рекомендациями и поиском отлично знают про разные biases — selection bias, position bias, popularity bias и прочее и прочее Но есть еще один тип bias который не так популярен в публикациях на открытых датасетах — «уважаемый человек попросил». Самое близкое к этому по смыслу — промотируемые объявления / позиции (как раз надежда поэксплуатировать positional bias чтобы срубить еще денег) — все вы видели в публичных поисковиках или классифайдах на верхних позициях не самые релевантные, зато проплаченные объявления. Сейчас расскажу как он возникает Вызывает как-то шеф с задачей — давай сфокусируем продажников так чтобы продавали только те продукты, которые вот прям сейчас нужны клиентам и при этом принесут хорошую маржу. В постановке ничего удивительного — любой бизнесмен хочет чтобы и выручка и прибыль росли. Как это реализовать? Например, сделать в интерфейсе сотрудника окошко с самыми приоритетными задачами и объяснением почему они приоритетные и чего сам сотрудник с этого заработает. А приоритетность уж модели определят. Осталось только согласовать с HR схему мотивации и провести обучение. Идея вроде на поверхности, но результат показал только четвертый A/B (зато сразу рост конверсии с 3% до 12% и среднего чека в полтора раза). А почему? Ну потому как опытный менеджер шеф показал сие чудо другим топам. И каждый уважаемый Сан Саныч попросил чтобы его задачи (по продуктам его бизнес-вертикали) — не важно насколько его продукт хорош или подходит этому конкретному клиенту — тоже попали в это приоритетное чудо-окошко. Когда компании, занимающейся выловом сельди в Атлантическом океане предлагают застраховать всю ее ресурсную базу (то есть всю селедку в океане) — такие рекомендации доверие у сотрудников не повышают. Только после трех (!) прощальных пилотов удалось убедить шефа что так мы денег не заработаем и промо надо отдельным окошком (и отдельной строкой в мотивации продажников). Интерфейс получился достаточно красивый чтобы наш департамент получил американскую Gold Stewie Award (там кстати есть ссылка на ролик с самим приложением сотрудника) Только вот тайминг подвел — над чем громко посмеялся аж Financial Times PS Нужен ваш совет и вовлеченность Задаюсь вопросом почему в linkedin посты заходят гораздо хуже чем здесь. Проведем пару экспериментов — буду писать там и оставлять здесь ссылку, буду благодарен реакциям и набросам в комментах. Или лучше другая англоязычная площадка? Substack? Medium? Цель — интересно поделать ML-кейсов на широком рынке — обогатиться знаниями о повадках каналий в других странах (хотя несколько кейсов — Англии и Канады как минимум — в канале уже есть)	2 747
12	брендированная панамка для х для реакций) а вообще вся эта история мне напомнила один кейс	1 397
13	Тут ребята собрали подборку каналов про AI и IT — и мне она, честно, зашла. Говорят, что прогоняли это всё через Claude: чистили каналы-пустышки, которые просто перепечатывают одни и те же новости, и оставляли авторов, у которых есть прикладной опыт — внедрение ИИ, автоматизация, вайб-кодинг, нейрогенерация и вот это всё. Сама подборка выглядит весьма полезной. Тем паче туда включили и мой канал, что приятно 😇 В любом случае рекомендую посмотреть и подписаться на тех, кто вам ближе по темам. Думаю, каждый найдёт что-то полезное. Подписка в 1 клик https://t.me/addlist/wjXN1mA-D21jODIy	1 491
14	#ML Как и 60 лет назад, нейронки начали часто сравнивать с мозгом, а у мозга есть психологи (хотя и у нейронов уже появляются исследователи настроений). И как и в любой другой области знаний, у психологов есть свой собственный глоссарий, и я решил составить первый словарь по переводу с психологического на язык MLE. Меня осенило когда читал статью Kahneman-Tversky Optimisation — это же идея обесценивание в чистом виде) Итак, первый в мире словарь Psychologist — Machine Learning Engineer: Выборочное внимание (selective attention) — Attention // комментарии излишни, эту статью знают все Выгорание — Vanishing Gradients // градиент ещё где-то есть, но до полезного обновления уже не доходит Газлайтинг — Label Corruption Attack // истинные метки подменены, модель больше не доверяет собственному датасету Гиперконтроль — Hard Attention // фокус в точку Границы личности — Constrained Attention // у каждого входа есть предел влияния на твой hidden state Диссоциация — Stop-Gradient Operation // событие вроде обрабатывается, но связь с чувством “это происходит со мной” разорвана Защитная реакция — Robustness Patch Under Distribution Shift // не исправляет внутреннюю модель, но помогает не развалиться на новых входах Избегание — Early Stopping // обучение прекращается ровно перед тем батчем, где могло стать полезно, но неприятно Катастрофизация — Worst-Case Data Augmentation // из каждого обычного примера генерируем самый страшный out-of-distribution сценарий Накопленная обида — Gradient Accumulation // градиенты копятся несколько шагов, а параметры не обновляются Навязчивые мысли — Neural Text Degeneration // модель застревает в повторяющихся нежелательных продолжениях Низкая самооценка (почти то же что и Синдром самозванца) — In-Distribution Underconfidence // даже на знакомых примерах модель отвечает “вероятно, я ошибаюсь” Обесценивание — Kahneman-Tversky Optimisation // минимум наград за успехи, максимум штрафов за ошибки Отрицание — Missing Data Imputation // значения нет, но система подставляет приемлемую замену и продолжает как ни в чём не бывало Пассивная агрессия — Low-Rank Hostility Adapter // базовая модель вежливая, но маленькая LoRA добавляет токсичный стиль Перфекционизм — Overfitting // модель не готова к деплою, пока loss не станет метафизически равен нулю Потребность в одобрении — RLHF // модель учится через внешнюю человеческую оценку того, “хороший” ли был ответ Прокрастинация — Learning Rate Warmup // Начнем с раскачки Проекция — Transfer Learning (negative transfer) // модель переносит старое представление на новый домен, хотя там оно уже искажает реальность Психологическая устойчивость — Robust Generalization Under Distribution Shift // мир вокруг меняется Рационализация — Post-hoc Explainability // сначала модель выдала странный ответ, потом уверенно объяснила, что так и было задумано Ревность — Triplet Loss // держи чужого подальше от семьи) Руминация — Repetition Loops in Neural Text Generation // модель застревает в повторяющемся цикле и снова генерирует то же самое содержание Самокритика — есть Self-critical Sequence Training и еще Adversarial Self-Supervised Contrastive Learning // Модель сравнивает сэмплированный ответ со своим же baseline-выводом Самосаботаж — Reward Hacking // агент нашёл reward, но выбрал действие, которое ломает собственную функцию полезности Созависимость — Co-adaptation // один feature detector становится полезным только в присутствии других и теряет самостоятельность Травматический опыт — Outlier-weighed Layerwise Sampling for LLM Fine-tuning // один пример получил слишком большой вес и теперь портит всю функцию потерь Тревожность — Noise Memorization // Система начинает видеть значимый сигнал в шуме и переобучается на случайные паттерны Эмоциональное подавление — Gradient Clipping // слишком сильные эмоции обрезаются до допустимой нормы Эмоциональные качели — Training Instability // обучение нестабильно: сигнал то исчезает, то взрывается. Продолжение следует	10 183
15	#ML Обожаю кликбейт в рисече: Superintelligent Retrieval Agent: The Next Frontier of Agentic Retrieval Источник Настолько super-прорыв что авторам прямо в аннотации приходится оправдываться что это не обычный query expansion а немного докрученный: SIRA does not merely ask what terms are relevant to the query; it asks which terms are likely to separate the desired evidence from corpus-level confusers. On the corpus side, an LLM enriches each document offline with missing search vocabulary; on the query side, it predicts evidence vocabulary omitted by the query; and corpus statistics are used as tool calls to filter proposed terms that are absent, overly common, or unlikely to create retrieval margin. The final retrieval step is a single weighted BM25 call combining the original query with the validated expansion. А мб и правда надо быть максимально нескромным чтобы заметили ? 🤔	2 957
16	#southhub Сегодня пил кофе с HR, они все спрашивали как сделать так чтобы данные опросов можно было использовать для аналитики. А я им на примере кликов и лонгкликов в рекламе объяснял логику выбора прокси-событий и и разницу между Вилларибо (опрашивали) и Виллабаджо (измеряли). Если ту же логику применить к конференциям, то вместо опросов и отзывов можно посмотреть на факт: добраться до (и тем паче выбраться из) Сочи — это лютый кошмар. Тем не менее, сотни С-levels приехали на SouthHub — никто не жаловался, не отступил, не ныл — а ведь некоторые с детьми и потратили на дорогу в одну сторону больше суток. Поэтому абсолютно ожидаемо что на самой конфе я встретил открытых и дружелюбных людей со всей страны, у которых (что большая редкость для конференций) действительно позиция совпадала с опытом и знаниями настолько что хотелось слушать не отрываясь (искренне прошу прощения тех кого по три часа не отпускал задавая миллионы вопросов - но было дико интересно). Отдельное спасибо VK за рыбалку на херабуну, Авито за полосатика, X5 за бомбовые коктейли, Альфе за глинтвейн когда я замерзал, Магниту за бургеры в 12 ночи, и само собой МТС и оргам конфы — за все) Невероятно душевно, не знал что так бывает в таком масштабе и с такой концентрацией корпоратов)	3 181
17	Давно тут рыбы не было. Как связаны VK и золотая форель?	3 346
18	Необычная реклама сегожня попалась, однако мысли писать докторскую точно не было, хотя один коллега на SH признался что он доктор. Ну и какой же у докторанта научный руководитель? Научный консультант скорее 🤔	3 286
19	🕒 Синдром «Серебряной пули» История про «эффективного менеджера» направления CVM (customer value management) Задача ребят — продавать доп. услуги клиентам и повышать конверсию. Вводные от заказчика прекрасны: «Мы тут ходили к другой команде, они нам собрали фичу — "лучшее время отправки SMS". Мы полгода крутили пилот, получили нулевой результат. Хотим, чтобы вы сделали то же самое, но лучше». Начинаем копать от бизнес-задачи. Выясняется: конверсия низкая. Почему? Ну, логично же: мы просто отправляем SMS не в то время! 🤡 Дальше — диалог, достойный войти в учебники по «продукт-менеджменту»: — Вы же уже проверили гипотезу на пилоте, результат нулевой. Зачем развивать безнадежную идею? — Мы в это верим. — Мы работали со многими крупными компаниями, решали эту задачу. Вы первые, кто просит именно эту фичу. — Мы переиграем рынок. — Ок, если я получу ваш пуш в 10:00 вместо 12:00, реально есть вера, что конверсия взлетит? — Разве это не очевидно? Тут мы немного выпали в осадок, но решили узнать, как устроена сегментация и выборка клиентов. — А как вы понимаете, кому слать? Есть функция ранжирования (uplift-модели, скоринг)? — Не понял вопрос. — Ну как вы понимаете, кто сконвертится лучше или хуже? — А-а-а, никак. Просто случайно выбираем из сегмента. Они же ВСЕ заинтересованы в продукте! — То есть ваш сегмент — это просто жесткие бизнес-правила (условия типа ЕСЛИ/ИЛИ)? — Если упрощенно, то да. Мы строим гипотезы и тестируем их через А/Б! То есть ребята делают А/Б тест на абсолютно случайной выборке внутри кастомного сегмента, не умеют в предсказание оттока/конверсии, но верят в тайминг. Пытаемся нащупать омниканальность. У них есть SMS, пуши и звонки. — А не пробовали выстроить каскадную стратегию? Например: сначала SMS, через день — звонок? — Ну и чем это кончится? — Оптимизацией стратегии... (Повисла неловкая пауза) — У нас либо звонки, либо SMS! ❌ Итог: Мы рассказали, как строим нормальный ML-пайплайн для CVM у других заказчиков (с моделированием, склонностью к покупке и оптимизацией стратегии). Продукту не зашло. Ведь у нас нет самого главного — алгоритма, который высчитывает идеальную секунду для отправки SMS человеку, которому это предложение вообще не всралось. Как называется эта болезнь? В медицине не знаем, но в ИТ это «карго-культ фичи». Когда команда игнорирует базовую математику, отсутствие нормальной сегментации и кривую коммуникацию, но свято верит, что одна «модная» фича переиграет рынок. Сталкивались с такими «верующими» заказчиками? Какую самую дикую фичу у вас просили завернуть в ML? 👇	2 670
20	Влад поделился историей в духе канала , не могу пройти мимо )	2 513

查看所有帖子