Интересное что-то
رفتن به کانال در Telegram
Материалы и мысли, понадерганные отовсюду Блог: https://t.me/asisakov_channel Чат: https://t.me/youknowds_chat
نمایش بیشتر585
مشترکین
اطلاعاتی وجود ندارد24 ساعت
+17 روز
+430 روز
آرشیو پست ها
Repost from DziS Science | Data Science
Привет всем!👋
Как и обещал ранее, сегодня расскажу про интересную штуку, о которой, вы вероятно не знали.
Как известно, основным способом улучшения нейронных сетей является два основных метода: дообучение уже существующей модели (обучение архитектуры с инициированными ненулевыми весами, полученными ранее) или Transfer Learning (ярким примером является дообучение BERT'ов, где мы обучаем поверх уже существующего эмбеддера полносвязный слой 'голову' на нужный нам таргет). И в целом, я тут вам Америку не открыл.
-Но знали ли вы, что аналогичные финты ушами можно проводить с моделями градиентного бустинга?
Если нет, то давайте расскажу.
Прежде всего я хотел бы ответить на вопрос "а зачем такое надо? ". Нередко, особенно в рисках, например в моделях скоринга, модели имеют схожий домен и таргет, но при этом обучаются и значит используются на разных бизнес сегментах. Если в более крупном сегменте по выручке мы имеем недостаток данных или целевых наблюдений (мало компаний, низкий Default Rate), то тогда мы можем взять наработки более мелкого сегмента и переиспользовать на более крупный, путем дообучения.
Глобально, метода дообучения два: у вас имеется базовая модель и имеется базовый скор. Оба имеют свои плюсы и свои минусы. Давайте поподробнее поговорим о них.
🔸🔠🔠🔠🔠🔠🔠🔠 🔠🔠🔠🔠🔠🔠
Это сценарий, когда ранее была использована модель градиентного бустинга и теперь мы можем дообучить ее, технически добавляя деревьев в уже существующий бустинг.
🔠🔠🔠🔠🔠⬇️
➕Простота вывода. Результат - единая модель бустинга, не требующая дополнительных вызовов базовой модели.
➕Экономия вычислительной мощности. Ваша базовая модель уже с какой-то точностью умеет предсказывать целевую метку, вам не нужно строить модель с нуля.
🔠🔠🔠🔠🔠🔠⬇️
〰️ Ограничение выбираемой реализации. Дообучая XGBoost, вы получите бустинг, написанный на XGBoost. Другого не дано.
〰️Ограничение базовых параметров. Большинство параметров дерева в бустинге, наследуются от базовой модели.
Интересный факт: В Catboost можно изменять learning_rate, но при этом большинство параметров, включая способ кодирования категориальных признаков, наследуется от базовой модели.🔠🔠🔠🔠🔠🔠🔠⬇️ 🔸XGBoost:
xgb.train(data=data, xgb_model=old_model)
🔸LightGBM:
lgb.train(train_set=train_new, init_model=old_model)
🔸Catboost:
model.fit(X_new, y_new, init_model=old_model)
🔸🔠🔠🔠🔠🔠🔠🔠 🔠🔠🔠🔠
Это сценарий, когда вместо базовой модели мы получаем на вход предсказания уже готовой модели и строим уже на них модель бустинга, уточняющую предсказание старой модели.
Важно: Предсказания в случае бинарной классификации должны подаваться не в формате предсказаний вероятности, а именно логитов, т.е предсказания до сигмоидального преобразования!🔠🔠🔠🔠🔠⬇️ ➕Свобода выбора базовой модели. В данной конфигурации мы воспринимаем базовую модель в формате black box, то есть нам не важна ее архитектура. 🔠🔠🔠🔠🔠🔠⬇️ 〰️ Сложность вывода. Базовый скор необходимо откалибровать на выборке дообучения, т.е построить простейшую линейную модель. Также нам необходимо в продовом инференсе использование инференса базовой модели, то нам необходимо реализовать где-то рядом с дообученной моделью вызов базовой модели. 〰️Итоговая модель - не финальная. Основной сложностью данного подхода является то, что дообученная модель дает лишь смещение и для получения итоговой вероятности модели нам нужно смешать скоры базовой и дообученной модели и после этого прогнать через сигмоидальное преобразование. 🔠🔠🔠🔠🔠🔠🔠⬇️ 🔸XGBoost:
xgb.train(data=data, base_margin=init_logits)
🔸LightGBM:
lgb.train(train_set=train_new, init_score=init_score)
🔸Catboost:
model.fit(X_new, y_new, baseline=init_logits)
На этом все, подробнее познакомится с данными техниками призываю самостоятельно, ставь 🔥, если понравилось!
#ds_лайфхакиRepost from Тимлид Очевидность | Евгений Антонов
Проговори вслух
Недавно я начал обучение у Саши Брызгаловой по ТОС, где она нас неоднократно просила вслух проговаривать те логические связи, которые мы пишем.
Я вспомнил Максима Дорофеева с его «логическими улитками». Он тоже настаивает на озвучивании вслух.
А ещё я неоднократно видел (да и сам был главным героем) ситуации, когда человек готовил какое-то обоснование или хотел объяснить проблему, но в середине проговаривания сам понимал, что фигня какая-то получается.
Метод резинового утенка
Если вдруг кто не знал, есть такой метод, который говорит, что если хочешь разобраться в проблеме и никого нет рядом, то попробуй объяснить какому-либо неодушевлённому предмету (например, резиновому утенку, кукле, вазе со мхом в виде головы Грута, которую подарила любимая жена), и высок шанс, что сам придёшь к решению, пока объясняешь.
Почему так происходит?
Внутренняя речь фрагментарна: мозг «понимает себя с полуслова», пропуская иной раз неясные места, и живёт ощущением «я в целом понимаю».
Проговаривание вслух заставляет развернуть это «в целом»: объяснить контекст, определить термины, привести аргументы, факты и разъяснить логику причинно-следственной связи. В момент, когда ты не можешь чётко сформулировать какой-то кусок из своего обоснования, проявляется зона, где понимания на самом деле нет.
А еще речь замедляет мышление. В голове ты можешь пробежать рассуждение за секунды и не заметить разрывов (ставь ⚡, если помнишь мем про «НИ ЕДИНОГО РАЗРЫВА!!!»). Вслух ты «исполняешь» ход мысли последовательно, как при пошаговой отладке: «делаю А, потом Б, потом В… стоп, а что между Б и В, а точно из А следует Б?» Ошибки часто прячутся именно в этих переходах.
Когда проговариваешь логику вслух, ты слышишь свою идею как будто от другого человека. Появляется роль внутреннего слушателя, который оценивает: «звучит нелогично», «слишком размыто», «тут точно не покатит», «это слабая аргументация», и это усиливает критичность мышления.
Итог
Когда надо придумать решение какой-то запутанной проблемы, оптимизацию процесса, структуру для доклада, аргументацию для защиты оценок своих соколов на перф-ревью, я люблю проговаривать это вслух помногу раз, пока не щелкнет в голове какая-нибудь полезная идея.
Еще люблю при этом расхаживать взад-вперед и крутить что-то в руках – подбрасывать мячик, например. Но это уже другая история. Подозреваю, что это скорее успокаивает моего внутреннего тревожника, отводя его энергию в эти движения и оставляя ресурс для концентрации именно на необходимом решении.
Repost from Yandex for Analytics
🎲 Сыграем в игру с кубиком?
Майские уже не за горами! В преддверии праздников мы принесли вам немного полезных квестов, которые можно выполнить в свободное время. А какой из них достанется вам — решит удача:
🔵 Бросайте кубик 🎲 в комментах
🔵 Запоминайте результат
🔵 Открывайте спойлер для выпавшего числа
🔵 Держите квест на выходные 📝
⬇️ Список заданий
1️⃣ Послушать подкаст «Доверительный интервал». Награда: 500 XP и клад лайфхаков, которые помогут справиться со срочными задачами
2️⃣ Почитать настольные книги аналитика. Награда: 1000 XP и сундук с классикой о системном анализе, математике и подходах к метрикам: тут подборка 2025-го, а здесь — 2026-го
3️⃣ Выяснить, как поставить эксперимент без A/B-теста. Награда: 500 XP и новое заклинание — Propensity Score Matching
4️⃣ Порешать задачки. Награда: 300 XP и +1 к теории вероятностей. А если войдёте во вкус — переходите по хештегу #задачи_для_аналитиков
5️⃣ Посмотреть доклады с Data Driven 2025. Награда: 500 XP и способность трансмутировать данные в артефакты и инсайты. Плейлисты по трекам: Data to Artifacts (ютуб и VK Видео), Data to Insights (ютуб и VK Видео)
6️⃣ Завести пет-проект. Награда: 1000 XP и верный компаньон, который поможет в приключениях (и в поиске работы квестов, за которые платят голдой 💰)
Подписывайтесь:
💬 @Yandex4Analytics
Недавно прошел интенсив от Школы Анализа данных Яндекса - Agents week. Лекции будут полезны для понимания всего цикла создания мультиагентной системы (МАС) и нюансов в этом цикле, в т.ч. про проверку МАС и бенчмарки. Рекомендую для просмотра, часть идей забрал для своей мультиагентной системы. Также в части QA есть интересные вопросы и рассуждения про использование и применимость Мультиагентных систем от команды Яндекса.
1. Лекции 1.1 и 1.2
Intro to AI Agents и Tools. MCP
Алёна Зайцева, руководитель службы ИИ-сервисов Яндекс Лавки
VK: Лекция 1.1, Лекция 1.2
YouTube: Лекция 1.1, Лекция 1.2
2. Лекция 2 и Семинар 2
Memory and Guardrails in LLM-Powered Agents
Кирилл Мищенко, руководитель группы ML-разработки в Яндекс Браузере
VK: Лекция 2, Семинар 2
YouTube: Лекция 2, Семинар 2
3. Лекция 3 и Семинар 3
Agent Workflow Multi-Agent Systems Multimodality
Софья Проскурина, разработчик платформы для внутренних ИИ-агентов Яндекс Лавки
VK: Лекция 3, Семинар 3
YouTube: Лекция 3, Семинар 3
4. Лекция 4 и Семинар 4
Agent Evaluation: From Metrics to Managed Quality
Сергей Купцов, отвечает за развитие агентных решений в Алисе и Умных устройствах
VK: Лекция 4, Семинар 4
YouTube: Лекция 4, Семинар 4
5. Лекции 5.1 и 5.2
Production Engineering for LLM Agents
Даниил Артамонов, отвечает за платформу внутренних ИИ-агентов в Яндекс Лавке
Кирилл Власов, отвечает за развитие генеративных моделей Yandex AI Studio
VK: Лекция 5.1, Лекция 5.2
YouTube: Лекция 5.1, Лекция 5.2
6. QA со спикерами интенсива
P.S. Примеры показаны в Google Colab ноутбуках (ссылки под видео) на LangGraph.
P.P.S. Презентации есть в описаниях
Repost from Записки MLEшника
Полезный режим был в ChatGPT — Study Mode
Пока собрался про него написать, его уже убрали 💀
Но сам подход мне прям зашёл. Отлично вскрывает иллюзии понимания.
Я использую очень просто:
“погоняй меня по X”
И дальше модель начинает задавать вопросы, копать глубже, цепляться к формулировкам.
Часто уже после 3–4 вопросов понимаешь, что на самом деле не понимаешь.
Неплохо работает:
— когда учишь новую тему
— перед собесами
Он пропал в ChatGPT, но я сделал проект с системным промптом отсюда и получил такое же поведение
Repost from Quant Researcher
💙 Материалы из НИУ ВШЭ
Делимся лекциями, готовимся к запуску магистратуры и наших курсов. Все объявим отдельно! До встречи.
Quant Researcher
Repost from N/a
Кстати, насчёт слитого кода Claude Code: многие нахваливали систему за очень хорошую память и были приятно удивлены, что она не переполняется.
Может просто контекстное окно большое?Нет. Тут разрабы из Anthropic внедрили четырёхуровневeю когнитивную архитектуру памяти. Структура хранится в виде локальных файлов Markdown внутри проекта (.claude/memory/): 1 слой: файл CLAUDE.md, где прописаны пользовательские инструкции, правила. Файл загружается в каждую сессию. 2 слой: файл MEMORY.md. Это заметки, которые агент делает в ходе сессии, а потом обращается к ним через точные совпадения (не семантический поиск!). Примерно 200 строк (25 кб). 3 слой: Память сессии. Непрерывность текущего диалога с применением микро-компрессии контекстного окна. 4 слой: autoDream. Это механизм переупаковки и дефрагментации ВСЕЙ накопленной информации. Больше всего нас интересует 4 слой, а точнее механизм autoDream. По сути это сон Клода, аналогия того как мозг человека во время сна в глубокой фазе перерабатывает всю информацию, полученную за день. Главная проблема агентов с памятью заключается в том, что они запоминают слишком много устаревшей информации. Например если год назад ты жил в Питере, а сейчас в Москве, то в памяти будут храниться оба факта, которые будут путать агента. В моменты простоя, Claude Code запускает отдельного подагента. Но чтобы его запустить, одновременно должны быть открыты трое ворот: 1. Time gate: С момента последнего запуска autoDream должно пройти не менее 24 часов, чтобы лишний раз не тратить деньги. 2. Session Gate: Должно накопиться как минимум 5 новых сессий, формирующих достаточный объем инфы для осмысления. 3. Lock Gate: Подагент обязан захватить файл блокировки (mutex), что исключает состояние гонки, если сразу запущено несколько экземпляров Claude Code. Как только все условия выполнены, подагент, наделенный правами доступа к bash только на чтение, начинает четырехфазный процесс консолидации памяти: Фаза 1: Orient. Подагент выполняет команду ls в директории памяти, читает файл MEMORY.md и смотрит заголовки существующих тематических файлов. Это формирует базовую карту текущих знаний. Фаза 2: Gather. Система ищет данные, достойные сохранения. В приоритете дневные логи. Потом подагент осуществляет узконаправленный поиск (с использованием утилиты grep) по объемным JSONL-файлам транскриптов сессий. Система избегает полного считывания транскриптов для экономии токенов, извлекая только те фрагменты, которые касаются измененных фактов. Фаза 3: Consolidate. Существующие файлы памяти обновляются или переписываются. Выполняется перевод относительных дат (например, «вчера») в точные временные метки («30.03.2026»). Противоречащие факты (старые) удаляются, а дубликаты сливаются в единые топики. Фаза 4: Prune & Index. Обновленный MEMORY.md обрезается до лимита в 200 строк и 25 КБ. Устаревшие ссылки уничтожаются, гарантируя, что при следующей сессии индекс загрузится в контекстное окно мгновенно и без переполнения. Это называется Skeptical Memory, когда агент рассматривает свою память как подсказки.
Очень крутой архитектурный паттерн, который можно применять для своих цифровых двойников, чтобы для каждого пользователя иметь предысторию, даже если общение происходит уже на протяжении долгого времени.#playbook #research #agentic
Repost from Быкова про стартапы и право
Где IT-бизнесу жить хорошо в 2026 году
С 2026 года планируют отменить часть привычных льгот для IT, подробно рассказала выше.
Вы проголосовали за пост о налогах в других юрисдикциях. Не смею отказывать 👇
🇦🇪 ОАЭ. Подходит: экспортные IT-компании и SaaS с зарубежными клиентами.
Плюсы:
• 0 % на прибыль до 375 000 AED, выше — 9 %;
• НДС 5 %, нет НДФЛ и соцвзносов;
• фризоны (порядка 20 например, для IT Dubai Silicon Oasis, DSOA) дают полное освобождение от налогов при экспорте услуг
Минусы:
• высокая стоимость содержания (офис, аудит, бухучет);
• нужен физический офис или арендованный коворкинг;
• комплаенс и банковский контроль строже, чем в СНГ.
🇦🇲Армения. Подходит: малые команды, фриланс в разработке, с 2025 года и микроэлектроника.
Плюсы:
• очень простая и быстрая регистрация, можно открыть ИП онлайн;
• налог с оборота 1% и НДФЛ 10 % для аккредитованных IT;
• программы инкубаторов и акселераторов;
• русскоязычная среда, понятное регулирование.
Минусы:
• НДС 20 % при работе на внутренний рынок;
• ограниченный рынок труда и высокая аренда в Ереване.
🇰🇿 Казахстан. Astana Hub. Подходит: средние IT-компании, экспорт и финтех.
Плюсы:
• 0 % корпоративный налог, НДС, НДФЛ соцвзносам;
• льготы закреплены до 2043 года;
• допускается 100 % иностранное владение;
• визы без квот, логистика с РФ.
Минусы:
• сложнее открыть счета для нерезидентов;
• растущий валютный контроль;
• бюрократия вне Astana Hub.
🇺🇿Узбекистан. Подходит: компании с экспортной выручкой и локальными командами.
Плюсы:
• IT Park — 0 % налог на прибыль, НДС и соцналоги;
• НДФЛ 7,5 %;
• льготы на импорт оборудования и ПО;
• простая онлайн-регистрация.
Минусы:
• слабая валютная инфраструктура;
• возможны бюрократические задержки;
🇰🇬Кыргызстан. Подходит: микробизнес и фриланс-команды.
Плюсы:
• IT-парк — 0 % прибыль и НДС, 5 % с зарплат, 0 % взносы;
• Россиянам без виз, простое ИП;
• низкая стоимость ведения бизнеса.
Минусы:
• слабый банковский сектор;
• нестабильность налоговых правил;
• сложно нанимать иностранцев вне СНГ.
Важно понимать, что «переезд» компании подходит не всем. Если вашими ключевыми заказчиками являются субъекты критической информационной инфраструктуры (КИИ) или государственные корпорации, от идеи смены юрисдикции стоит отказаться сразу. Компания с иностранным участием потеряет доступ к госзакупкам, требующим регистрации ПО в российском реестре (РРПО), а также лишится региональных льгот, например, по налогу на имущество.
Принятие решения о смене юрисдикции — это сложный процесс, где нет универсального ответа. Ключ к успеху — в деталях вашего бизнеса: оценки важности налогового резидентства, географии клиентов, локации команды и стабильности банковской системы. Чтобы во всем разобраться - @spbykova, составим индивидуальный план, который поможет вашему IT-бизнесу уверенно чувствовать себя в 2026🤝
Очень жду ❤️ если полезно
Repost from Варим МЛ
Форкнули с Тоником нашу внутреннюю базу знаний по внедрению ИИ в разработку, вырезали оттуда совсем внутрянку и получилась первая версия AI Coding Playbook.
Особенности:
- Основано только на практике, не теоретические советы, а то, что мы пробовали/пробуем в Цельсе
- Настройки и советы заточены под Claude Code, потому что это наш основной инструмент. Их можно в теории перенести и в Codex, и в Cursor, но чаще всего придётся погуглить или спросить ваш инструмент, как его правильно настроить. Само собой, процессные/командные штуки от инструмента зависят слабо
- У нас небольшая техкоманда (25 человек), поэтому некоторые штуки будут неактуальны для бигтеха. например, вопросы безопасности там обычно решаются по-другому (скажем, через единый прокси)
Если есть какой-то фидбек или желание поучаствовать в проекте - пишите мне в Телегу.
#Жека #management #llm
Repost from Awesome DL
История о том, как штука для рисования треугольников стала самым важным чипом на планете
Мы все каждый день используем GPU, но мало кто копался в том, какая история за ними стоит. Я решил разобраться с нуля — и больше всего меня зацепила красота инженерных решений: каждое следующее — прямое следствие предыдущего.
отрисовка треугольников → параллелизм → SIMD → unified cores → CUDA → ML → Tensor Cores
Ни одно звено не случайно. Когда видишь эту цепочку целиком — понимаешь, почему GPU устроен именно так.
Лонгрид на ~20 минут с интерактивными демками.
→ anvilarth.github.io/gpu-story.html
Enjoy!
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
