es
Feedback
Дата канальи — дата / ML / AI / корпжиза

Дата канальи — дата / ML / AI / корпжиза

Ir al canal en Telegram

Корпжиза аналитиков и DS. Если хотите анонимно поделиться историей на широкий круг -- го в личку @NikitaZelinskiy, аналогично по остальным вопросам

Mostrar más
5 993
Suscriptores
-224 horas
+1237 días
+15530 días

Carga de datos en curso...

Atraer Suscriptores
junio '26
junio '26
+193
en 6 canales
mayo '26
+108
en 3 canales
Get PRO
abril '26
+60
en 3 canales
Get PRO
marzo '26
+96
en 1 canales
Get PRO
febrero '26
+268
en 7 canales
Get PRO
enero '26
+163
en 5 canales
Get PRO
diciembre '25
+1 056
en 7 canales
Get PRO
noviembre '25
+735
en 11 canales
Get PRO
octubre '25
+170
en 6 canales
Get PRO
septiembre '25
+240
en 61 canales
Get PRO
agosto '25
+215
en 6 canales
Get PRO
julio '25
+1 412
en 30 canales
Get PRO
junio '25
+351
en 58 canales
Get PRO
mayo '25
+39
en 1 canales
Get PRO
abril '25
+84
en 2 canales
Get PRO
marzo '25
+2 102
en 3 canales
Get PRO
febrero '250
en 10 canales
Get PRO
enero '250
en 5 canales
Get PRO
diciembre '24
+159
en 7 canales
Fecha
Crecimiento de Suscriptores
Menciones
Canales
27 junio+2
26 junio+1
25 junio+22
24 junio+8
23 junio+27
22 junio+57
21 junio+6
20 junio+12
19 junio+9
18 junio+2
17 junio+4
16 junio+4
15 junio+2
14 junio+1
13 junio+4
12 junio+11
11 junio0
10 junio+2
09 junio+2
08 junio0
07 junio0
06 junio0
05 junio0
04 junio+3
03 junio+7
02 junio+2
01 junio+5
Publicaciones del Canal
Никогда раньше не видел вживую
Никогда раньше не видел вживую

2
#кейсы #ML #корпжиза Есть два типа ML-кейсов: в одних полностью автоматизируется принятие решений — например , выдача кредита
#кейсы #ML #корпжиза Есть два типа ML-кейсов: в одних полностью автоматизируется принятие решений — например , выдача кредита, открытие расчетного счета, выявление дефектов и пр. А в другом после работы моделей (а часто достаточно сложных систем из десятков моделей, эвристик и бизнес-правил) решение принимает все же человек — сотрудник или клиент — в целом не так важно. Те, кто работает с рекомендациями и поиском отлично знают про разные biases — selection bias, position bias, popularity bias и прочее и прочее Но есть еще один тип bias который не так популярен в публикациях на открытых датасетах — «уважаемый человек попросил». Самое близкое к этому по смыслу — промотируемые объявления / позиции (как раз надежда поэксплуатировать positional bias чтобы срубить еще денег) — все вы видели в публичных поисковиках или классифайдах на верхних позициях не самые релевантные, зато проплаченные объявления. Сейчас расскажу как он возникает Вызывает как-то шеф с задачей — давай сфокусируем продажников так чтобы продавали только те продукты, которые вот прям сейчас нужны клиентам и при этом принесут хорошую маржу. В постановке ничего удивительного — любой бизнесмен хочет чтобы и выручка и прибыль росли. Как это реализовать? Например, сделать в интерфейсе сотрудника окошко с самыми приоритетными задачами и объяснением почему они приоритетные и чего сам сотрудник с этого заработает. А приоритетность уж модели определят. Осталось только согласовать с HR схему мотивации и провести обучение. Идея вроде на поверхности, но результат показал только четвертый A/B (зато сразу рост конверсии с 3% до 12% и среднего чека в полтора раза). А почему? Ну потому как опытный менеджер шеф показал сие чудо другим топам. И каждый уважаемый Сан Саныч попросил чтобы его задачи (по продуктам его бизнес-вертикали) — не важно насколько его продукт хорош или подходит этому конкретному клиенту — тоже попали в это приоритетное чудо-окошко. Когда компании, занимающейся выловом сельди в Атлантическом океане предлагают застраховать всю ее ресурсную базу (то есть всю селедку в океане) — такие рекомендации доверие у сотрудников не повышают. Только после трех (!) прощальных пилотов удалось убедить шефа что так мы денег не заработаем и промо надо отдельным окошком (и отдельной строкой в мотивации продажников). Интерфейс получился достаточно красивый чтобы наш департамент получил американскую Gold Stewie Award (там кстати есть ссылка на ролик с самим приложением сотрудника) Только вот тайминг подвел — над чем громко посмеялся аж Financial Times PS Нужен ваш совет и вовлеченность Задаюсь вопросом почему в linkedin посты заходят гораздо хуже чем здесь. Проведем пару экспериментов — буду писать там и оставлять здесь ссылку, буду благодарен реакциям и набросам в комментах. Или лучше другая англоязычная площадка? Substack? Medium? Цель — интересно поделать ML-кейсов на широком рынке — обогатиться знаниями о повадках каналий в других странах (хотя несколько кейсов — Англии и Канады как минимум — в канале уже есть)
1 321
3
брендированная панамка для х для реакций) а вообще вся эта история мне напомнила один кейс
брендированная панамка для х для реакций) а вообще вся эта история мне напомнила один кейс
1 397
4
Тут ребята собрали подборку каналов про AI и IT — и мне она, честно, зашла. Говорят, что прогоняли это всё через Claude: чист
Тут ребята собрали подборку каналов про AI и IT — и мне она, честно, зашла. Говорят, что прогоняли это всё через Claude: чистили каналы-пустышки, которые просто перепечатывают одни и те же новости, и оставляли авторов, у которых есть прикладной опыт — внедрение ИИ, автоматизация, вайб-кодинг, нейрогенерация и вот это всё. Сама подборка выглядит весьма полезной. Тем паче туда включили и мой канал, что приятно 😇 В любом случае рекомендую посмотреть и подписаться на тех, кто вам ближе по темам. Думаю, каждый найдёт что-то полезное. Подписка в 1 клик https://t.me/addlist/wjXN1mA-D21jODIy
1 491
5
#ML Как и 60 лет назад, нейронки начали часто сравнивать с мозгом, а у мозга есть психологи (хотя и у нейронов уже появляются
#ML Как и 60 лет назад, нейронки начали часто сравнивать с мозгом, а у мозга есть психологи (хотя и у нейронов уже появляются исследователи настроений). И как и в любой другой области знаний, у психологов есть свой собственный глоссарий, и я решил составить первый словарь по переводу с психологического на язык MLE. Меня осенило когда читал статью Kahneman-Tversky Optimisation — это же идея обесценивание в чистом виде) Итак, первый в мире словарь Psychologist — Machine Learning Engineer: Выборочное внимание (selective attention) — Attention // комментарии излишни, эту статью знают все Выгорание — Vanishing Gradients // градиент ещё где-то есть, но до полезного обновления уже не доходит Газлайтинг — Label Corruption Attack // истинные метки подменены, модель больше не доверяет собственному датасету Гиперконтроль — Hard Attention // фокус в точку Границы личности — Constrained Attention // у каждого входа есть предел влияния на твой hidden state Диссоциация — Stop-Gradient Operation // событие вроде обрабатывается, но связь с чувством “это происходит со мной” разорвана Защитная реакция — Robustness Patch Under Distribution Shift // не исправляет внутреннюю модель, но помогает не развалиться на новых входах Избегание — Early Stopping // обучение прекращается ровно перед тем батчем, где могло стать полезно, но неприятно Катастрофизация — Worst-Case Data Augmentation // из каждого обычного примера генерируем самый страшный out-of-distribution сценарий Накопленная обида — Gradient Accumulation // градиенты копятся несколько шагов, а параметры не обновляются Навязчивые мысли — Neural Text Degeneration // модель застревает в повторяющихся нежелательных продолжениях Низкая самооценка (почти то же что и Синдром самозванца) — In-Distribution Underconfidence // даже на знакомых примерах модель отвечает “вероятно, я ошибаюсь” Обесценивание — Kahneman-Tversky Optimisation // минимум наград за успехи, максимум штрафов за ошибки Отрицание — Missing Data Imputation // значения нет, но система подставляет приемлемую замену и продолжает как ни в чём не бывало Пассивная агрессия — Low-Rank Hostility Adapter // базовая модель вежливая, но маленькая LoRA добавляет токсичный стиль Перфекционизм — Overfitting // модель не готова к деплою, пока loss не станет метафизически равен нулю Потребность в одобрении — RLHF // модель учится через внешнюю человеческую оценку того, “хороший” ли был ответ Прокрастинация — Learning Rate Warmup // Начнем с раскачки Проекция — Transfer Learning (negative transfer) // модель переносит старое представление на новый домен, хотя там оно уже искажает реальность Психологическая устойчивость — Robust Generalization Under Distribution Shift // мир вокруг меняется Рационализация — Post-hoc Explainability // сначала модель выдала странный ответ, потом уверенно объяснила, что так и было задумано Ревность — Triplet Loss // держи чужого подальше от семьи) Руминация — Repetition Loops in Neural Text Generation // модель застревает в повторяющемся цикле и снова генерирует то же самое содержание Самокритика — есть Self-critical Sequence Training и еще Adversarial Self-Supervised Contrastive Learning // Модель сравнивает сэмплированный ответ со своим же baseline-выводом Самосаботаж — Reward Hacking // агент нашёл reward, но выбрал действие, которое ломает собственную функцию полезности Созависимость — Co-adaptation // один feature detector становится полезным только в присутствии других и теряет самостоятельность Травматический опыт — Outlier-weighed Layerwise Sampling for LLM Fine-tuning // один пример получил слишком большой вес и теперь портит всю функцию потерь Тревожность — Noise Memorization // Система начинает видеть значимый сигнал в шуме и переобучается на случайные паттерны Эмоциональное подавление — Gradient Clipping // слишком сильные эмоции обрезаются до допустимой нормы Эмоциональные качели — Training Instability // обучение нестабильно: сигнал то исчезает, то взрывается. Продолжение следует
7 046
6
#ML Обожаю кликбейт в рисече: Superintelligent Retrieval Agent: The Next Frontier of Agentic Retrieval Источник Настолько sup
#ML Обожаю кликбейт в рисече: Superintelligent Retrieval Agent: The Next Frontier of Agentic Retrieval Источник Настолько super-прорыв что авторам прямо в аннотации приходится оправдываться что это не обычный query expansion а немного докрученный: SIRA does not merely ask what terms are relevant to the query; it asks which terms are likely to separate the desired evidence from corpus-level confusers. On the corpus side, an LLM enriches each document offline with missing search vocabulary; on the query side, it predicts evidence vocabulary omitted by the query; and corpus statistics are used as tool calls to filter proposed terms that are absent, overly common, or unlikely to create retrieval margin. The final retrieval step is a single weighted BM25 call combining the original query with the validated expansion. А мб и правда надо быть максимально нескромным чтобы заметили ? 🤔
2 235
7
#southhub Сегодня пил кофе с HR, они все спрашивали как сделать так чтобы данные опросов можно было использовать для аналитик
#southhub Сегодня пил кофе с HR, они все спрашивали как сделать так чтобы данные опросов можно было использовать для аналитики. А я им на примере кликов и лонгкликов в рекламе объяснял логику выбора прокси-событий и и разницу между Вилларибо (опрашивали) и Виллабаджо (измеряли). Если ту же логику применить к конференциям, то вместо опросов и отзывов можно посмотреть на факт: добраться до (и тем паче выбраться из) Сочи — это лютый кошмар. Тем не менее, сотни С-levels приехали на SouthHub — никто не жаловался, не отступил, не ныл — а ведь некоторые с детьми и потратили на дорогу в одну сторону больше суток. Поэтому абсолютно ожидаемо что на самой конфе я встретил открытых и дружелюбных людей со всей страны, у которых (что большая редкость для конференций) действительно позиция совпадала с опытом и знаниями настолько что хотелось слушать не отрываясь (искренне прошу прощения тех кого по три часа не отпускал задавая миллионы вопросов - но было дико интересно). Отдельное спасибо VK за рыбалку на херабуну, Авито за полосатика, X5 за бомбовые коктейли, Альфе за глинтвейн когда я замерзал, Магниту за бургеры в 12 ночи, и само собой МТС и оргам конфы — за все) Невероятно душевно, не знал что так бывает в таком масштабе и с такой концентрацией корпоратов)
2 447
8
Давно тут рыбы не было. Как связаны VK и золотая форель?
Давно тут рыбы не было. Как связаны VK и золотая форель?
2 603
9
Необычная реклама сегожня попалась, однако мысли писать докторскую точно не было, хотя один коллега на SH признался что он до
Необычная реклама сегожня попалась, однако мысли писать докторскую точно не было, хотя один коллега на SH признался что он доктор. Ну и какой же у докторанта научный руководитель? Научный консультант скорее 🤔
2 652
10
🕒 Синдром «Серебряной пули» История про «эффективного менеджера» направления CVM (customer value management) Задача ребят — продавать доп. услуги клиентам и повышать конверсию. Вводные от заказчика прекрасны: «Мы тут ходили к другой команде, они нам собрали фичу — "лучшее время отправки SMS". Мы полгода крутили пилот, получили нулевой результат. Хотим, чтобы вы сделали то же самое, но лучше». Начинаем копать от бизнес-задачи. Выясняется: конверсия низкая. Почему? Ну, логично же: мы просто отправляем SMS не в то время! 🤡 Дальше — диалог, достойный войти в учебники по «продукт-менеджменту»: — Вы же уже проверили гипотезу на пилоте, результат нулевой. Зачем развивать безнадежную идею? — Мы в это верим. — Мы работали со многими крупными компаниями, решали эту задачу. Вы первые, кто просит именно эту фичу. — Мы переиграем рынок. — Ок, если я получу ваш пуш в 10:00 вместо 12:00, реально есть вера, что конверсия взлетит? — Разве это не очевидно? Тут мы немного выпали в осадок, но решили узнать, как устроена сегментация и выборка клиентов. — А как вы понимаете, кому слать? Есть функция ранжирования (uplift-модели, скоринг)? — Не понял вопрос. — Ну как вы понимаете, кто сконвертится лучше или хуже? — А-а-а, никак. Просто случайно выбираем из сегмента. Они же ВСЕ заинтересованы в продукте! — То есть ваш сегмент — это просто жесткие бизнес-правила (условия типа ЕСЛИ/ИЛИ)? — Если упрощенно, то да. Мы строим гипотезы и тестируем их через А/Б! То есть ребята делают А/Б тест на абсолютно случайной выборке внутри кастомного сегмента, не умеют в предсказание оттока/конверсии, но верят в тайминг. Пытаемся нащупать омниканальность. У них есть SMS, пуши и звонки. — А не пробовали выстроить каскадную стратегию? Например: сначала SMS, через день — звонок? — Ну и чем это кончится? — Оптимизацией стратегии... *(Повисла неловкая пауза)* — У нас либо звонки, либо SMS! ❌ Итог: Мы рассказали, как строим нормальный ML-пайплайн для CVM у других заказчиков (с моделированием, склонностью к покупке и оптимизацией стратегии). Продукту не зашло. Ведь у нас нет самого главного — алгоритма, который высчитывает идеальную секунду для отправки SMS человеку, которому это предложение вообще не всралось. Как называется эта болезнь? В медицине не знаем, но в ИТ это «карго-культ фичи». Когда команда игнорирует базовую математику, отсутствие нормальной сегментации и кривую коммуникацию, но свято верит, что одна «модная» фича переиграет рынок. Сталкивались с такими «верующими» заказчиками? Какую самую дикую фичу у вас просили завернуть в ML? 👇
2 446
11
Влад поделился историей в духе канала , не могу пройти мимо )
2 017
12
Тренировки по ML ➖➖➖➖➖➖ 6️⃣ июня состоится семнадцатая встреча в рамках тренировок по машинному обучению ❤️ Что будет на встр
Тренировки по ML ➖➖➖➖➖➖ 6️⃣ июня состоится семнадцатая встреча в рамках тренировок по машинному обучению ❤️ Что будет на встрече: ⚪️Orbit Wars как первое RL соревнование на Kaggle в эпоху coding agents 📢 Спикер: Дмитрий Руденко, Kaggle Competition Master, самый активный участник соревновательного сообщества. Автор @pseudolabeling 📆 Когда: 6 июня в 18:10 🗺️ Где: онлайн ❤️ ссылка на подключение Подробнее про челленджи 🐭 По организационным вопросам вы можете обращаться к Марии ↩️ #анонсы #студенты #ии
2 747
13
подключайтесь!
2 666
14
#кейсы Про независимые измерения качества таргетирования рекламы Представьте что вы рекламное агентство, ваши клиенты-рекламо
#кейсы Про независимые измерения качества таргетирования рекламы Представьте что вы рекламное агентство, ваши клиенты-рекламодатели заказывают рекламные кампании (РК) на сотни тысяч и миллионы человек, все прекрасно. Однако, оказывается, что их чудесные оловянные втулки для перьевых ручек продаются примерно никак. И в низких CTR рекламных кампаний виноваты именно ваши DS, которые, неучи такие, плохо попадают в аудиторию - мальчиков и девочек, взрослых и детей и пр. Делал как-то сореву по такой задаче Как клиенту обосновать свою позицию? На его счастье есть «независимый измеритель качества таргетирования рекламы» (точность работы такого измерения приложен картинкой к посту): 20 тысячам добровольцев устанавливается мобильное приложение (с этого момента их зовут пантеистами — от survey panel), а затем результаты показа вашей рекламной кампании им экстраполируются (с магическим перевзвешиванием! — каждый панелист представляет собой какую-то группу населения) на миллионные аудитории РК. Но не будем, как часто бывает в канале, токсично обсуждать недостатки подхода (а некоторые ML-команды тратят годы на то чтобы улучшить «попадание» в этот генератор псевдослучайных чисел). Давайте о достоинствах, тут понадобится немного фантазии Если бы у вас был каким-то волшебным образом добыт список из этих 20 тыс панелистов то достаточно было бы заказать колл-центру обзвон их обзвон с одним-единственным вопросом : датой рождения (пол по голосу относительно надежно определяется). Ура! — точность таргетирования при следующей тестовой РК достигает 95%+ согласно «независимому измерителю» достигнута, вопросы клиентов снялись. Да, список панелистов постеgпенно расширяется / измеряется, но и способы его добычи не стоят на месте ) PS: в рекламном мире много забавных терминов — МММ, возвратные комиссии, подмешивание панелистов, мы настолько окружены рекламой что любому нелишне подразобраться в этом мире
2 958
15
Clickhouse для программистов, аналитиков и инженеров данных Перестаньте ждать, пока считается аналитика. Научитесь использова
Clickhouse для программистов, аналитиков и инженеров данных Перестаньте ждать, пока считается аналитика. Научитесь использовать ClickHouse — СУБД, которая превращает минутные аналитические запросы в ответы за доли секунды. С первого дня — доступ к инфраструктуре для практики. 🌐 Чему вы научитесь: 🤩 Архитектура одиночных и кластерных инсталляций ClickHouse: как устроена система изнутри и как масштабировать её под реальные нагрузки 🤩 Хранение данных: движки MergeTree, партиционирование и сжатие — как держать терабайты аналитических данных при минимальных затратах на инфраструктуру. 🤩 Обработка миллиардов строк за секунды: построение эффективных запросов, агрегаций и материализованных представлений. 🤩 ClickHouse в продакшене: использование в приложениях, продуктовой аналитике и типичные грабли, на которые наступают почти все 🤩 Живая практика без отрыва от работы: не более 2-3 часов в неделю, разбор задач с экспертом в групповом чате. 🥸 Кто мы: R&D-центр Devhands. Автор курса — Алексей Белозерский, Chief Data Officer в inSales (СБЕР 2В), ex: VK Tech, М.Видео, Эльдорадо 🗓 Старт курса: 11 июня, 6 недель обучения. Изучить программу и записаться можно здесь. Ждем вас! Реклама. ИП Рыбак А.А. ИНН 771407709607 Erid: 2VtzqxNnFKA
3 182
16
Еду на SouthHub 10 июня (как и другие 500 c-levels), нет времени на раздумья и изучение программы — регистрируйтесь, приезжайте — пообщаемся, потусим, сходим в горы немножко Вся инфа, тут канал: https://t.me/sthhb сайт: https://southhub.ru/southub/ Советую полистать, тк каждая компания-участник предлагает свой шатер с активностями (кому-то ближе гвоздестояние, а я вот спиннинги возьму) — несложно найти дело по душе в компании коллег не с улицы
3 512
17
Не фанат выставок и «культурного» досуга, но на эту стену залипал долго и с удовольствием
Не фанат выставок и «культурного» досуга, но на эту стену залипал долго и с удовольствием
3 507
18
#корпшиза Про синьоров и вилки На скрине две свежие вакансии в одну команду Одна Junior — с верхней вилкой 360 (+20% премии)
#корпшиза Про синьоров и вилки На скрине две свежие вакансии в одну команду Одна Junior — с верхней вилкой 360 (+20% премии) Другая Senior — с нижней границей 300 По реакциям в том канале вижу что многие восприняли это негативно Сейчас объясню почему для меня это выглядит как позитив Дисклеймер: не знаю точно как устроено в конкретной компании на экране Зато расскажу почему такое возможно, откуда берутся все эти Junior, Senior и какие выводы можно сделать Итак, почему и откуда берутся все эти лычки 1. Хотят финансисты — удобнее и точнее бюджетировать и планировать когда не просто DS с вилкой от 150 и до миллиона, а что-то более гранулярное (пусть и с пересекающимися вилками) 2. Сотрудники (!) думают что карьерный рост можно превратить в сдачу экзаменов на квалификацию. Знания и навыки — необходимый (часто), но недостаточный пререквизит для роста. Используют лычки как трекинг что все движется в верном направлении. 3. HR — пытаются тоже как-то в этом всем поучаствовать, надеясь формализовать плохо формализуемое и воспрепятствовать (зачем?) тем НМ (нанимающим менеджерам) которые садят хорошего джуна на ставку синьора потому что проект горит и работать кому-то надо По факту варианта 2: — все либо переругаются, сломаются процессы найма, повышений и ротации — либо придут к компромиссам: признают что синьор в прайсинге может быть джуном в S2T или в RecSys (и наоборот), что вилка в моменте может зависеть от срочности и критичности задачи, от локальных колебаний рынка, от выстроенного процесса работы с будущими коллегами со школы, университета и тд. И раз вилки так сильно пересекаются — значит, в компании вариант 2 и люди как-то смогли между собой договориться, что очень здорово. Какие выводы можно сделать? — в резюме все эти «Middle», «Senior» и пр можно смело опустить — пишите просто DS или MLE — информативность лычек по сути никакая. О вас сделают вывод по масштабу задач, которыми вы занимались. Более того, регулярно в резюме / линкедине, а теперь часто и в паблике (по недосмотру PR-отделов) можно увидеть «CTO», «Head of AI», «CDS», «CDO» и прочих людей, вписывающих громкие должности — а по факту руководящих группой 2-20 чел в каком-то кусочке компании. Спросите у такого через сколько уровней он от CEO и все быстро станет ясно Я бы назвал это кризисом доверия, и он начался задолго до «волков». HR-инфоцыгане и кадровые агентства советовали и советуют своим клиентам «позиционироваться» — то есть врать — в духе «если вы техлид команды, напишите что вы CTO» и пр. Поэтому не переживайте так за лычки — они не очень сильно связаны с уровнем дохода и вашим восприятием на рынке — переживайте за задачи — чтобы они были классные, интересные, масштабные. И это обязательно конвертируется в тч в карьерный рост и доход. PS А вообще, опытным и рукастым DS везде рады — прямо сейчас несколько знакомых из разных компаний (мы, Авито, ДЗО Сбера, Т1 и пр) активно ищет себе синьорных DS или хотя бы middle+ — если актуально, пишите в личку вместе с CV
4 868
19
Tesseract живее всех живых, vllm-ocr видимо еще не прижились
Tesseract живее всех живых, vllm-ocr видимо еще не прижились
2 655
20
Друзья просят помощи — вдруг кто-то едет в июне на CVPR и согласится постер с собой взять ? А то у парней публикация сгорит п
Друзья просят помощи — вдруг кто-то едет в июне на CVPR и согласится постер с собой взять ? А то у парней публикация сгорит по правилам конфы (( Пишите в личку
3 288