ch
Feedback
Data Scientist | IT

Data Scientist | IT

前往频道在 Telegram

Добро пожаловать в клуб. Полезные материалы из мира DS & ML на регулярной основе. По всем вопросам: @godinmedia

显示更多
1 931
订阅者
+124 小时
-27
-1330
帖子存档
LLM модели: зарубежные VS отечественные #почитать Когда команда выбирает LLM для продакшена, «сравнение по бенчмаркам» — это
LLM модели: зарубежные VS отечественные #почитать Когда команда выбирает LLM для продакшена, «сравнение по бенчмаркам» — это лишь первый фильтр. Для CTO ключевой вопрос звучит иначе: какую комбинацию качества, стоимости, стабильности API, юридических ограничений и интеграций мы получим на реальной нагрузке. Я разобрал популярные модели через призму двух контуров: качество/бенчмарки и инфраструктурная пригодность. ✅Читать статью

От MNIST к Transformer. Hello CUDA. Основы, Setup и наше первое ядро #почитать Мы живем в эпоху, когда ИИ стал доступен каждо
От MNIST к Transformer. Hello CUDA. Основы, Setup и наше первое ядро #почитать Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией PyTorch скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным ящиком. Я хочу запустить большой цикл статей От MNIST к Transformer, цель которого пошагаво пройти путь от простого CUDA ядра до создания архитектуры Transformer - фундамента современных LLM моделей. Мы не будем использовать готовые высокоуровневые библиотеки. Мы будем разбирать, как все устроено под капотом, и пересобирать их ключевые механизмы своими руками на самом низком уровне. Только так можно по настоящему понять как работают LLM и что за этим стоит. Приготовьтесь, будет много кода на C++ и CUDA, работы с памятью и погружения в архитектуру GPU. И конечно же математика что за этим стоит. ✅Читать статью

Лидеры по работе с данными и ИИ из Альфа-Банка, Сбера, X5 Tech, Т-Банка, Ozon Fintech, Банка России, Дикси, Ситидрайва, Lamod
Лидеры по работе с данными и ИИ из Альфа-Банка, Сбера, X5 Tech, Т-Банка, Ozon Fintech, Банка России, Дикси, Ситидрайва, Lamoda, Черкизово и других компаний расскажут, как данные и искусственный интеллект помогают ускорять бизнес в финтехе, ритейле, промышленности, транспорте и агросекторе. 9 июля на форуме Data Day 2026: 💰 Тренды AI и данных «из первых уст». На какие технологии и подходы делают ставку лидеры рынка? 💰 Как превратить хаос данных в надежный бизнес-навигатор и сделать данные стратегическим активом компании. 💰 Практика внедрения AI и data-driven подходов в финтехе, ритейле, логистике, промышленности и агросекторе. 💰 Как находить новые точки роста, используя опыт цифровых лидеров и сильные data-команды. 💰 AI-hub: выставка и центр экспертизы готовых AI-решений и автономных агентов для бизнеса. Выступают:Руслан Булатов, Банк России. Директор Департамента финансовых технологий. – Дмитрий Криволапов, Lamoda. Директор департамента по данным и аналитике. – Алексей Бондаренко, Газпромбанк. Вице-президент — начальник департамента управления данными. – Дмитрий Рузанов, Альфа-Банк. Директор департамента разработки моделей. – Павел Денисенко, X5 Tech. Директор департамента развития платформы больших данных. – Артём Летин, ВТБ. Начальник управления моделирования КИБ и СМБ, вице-президент. – Валерий Поляков, Т-Банк. Лидер по данным группы Т-Технологии (Chief Data Officer). – Александр Лукьянов, ДОМ РФ Технологии. Генеральный директор. – Валентина Рудик, Ozon Fintech. Руководитель розничного кредитования. – Андрей Скачёк, М.Видео, Директор по маркетингу И другие. Вас ждет самый масштабный Data Day: 🔥 5 отраслевых треков (Финтех, Агропром, Путешествия и Транспорт, Ритейл, Персональная эффективность) 🔥 1500+ участников 🔥 60+ спикеров 9 июля, «Бизнес. Техноград», ВДНХ, Москва. Присоединяйтесь! Форум соберет экспертов по данным и AI из банков, ритейла, телекома, транспорта, агропрома, ИТ-компаний и индустриальных лидеров. 👉 Программа и регистрация Реклама. ООО «Регламент». ИНН 7708323273. erid:2W5zFJJ3D6q

Трансформер своими руками: с нуля до Numpy реализации и обучения #почитать В этой статье пойдет речь об одной из самых сложны
Трансформер своими руками: с нуля до Numpy реализации и обучения #почитать В этой статье пойдет речь об одной из самых сложных и интересных архитектур — трансформере, лежащей в основе современных моделей от OpenAI и Google DeepMind. И это не научпоп для обывателя с наивным уровнем объяснения, а полноценный учебный материал, который поможет вам понять работу трансформера на фундаментальном уровне без черных ящиков типа TensorFlow и Pytorch. А для того чтобы лучше вникнуть, давайте напишем настоящий мини-трансформер на процедурном Python и обучим его! Данный материал можно изучать в разных режимах: * Как объяснение архитектуры для общего представления; * Как полноценный гайд с чтением кода и самостоятельной практикой; * Как основу для собственных экспериментов. Вы сами можете выбрать тот режим, который нужен для ваших целей на данный момент. Наш трансформер будет довольно простым: со статическим графом и одноблочными энкодером и декодером. Сам код написан в парадигме процедурного программирования (за исключением некоторых модулей) и может быть прочитан на любом уровне и без знания ООП. И все же это будет полноценный обучаемый трансформер с мультиголовым вниманием, батчами данных, параллельным вычислением и множеством параметров. Для закрепления материала, выполните Домашнее задание, которое ждет вас в конце статьи. ✅Читать статью

Как мы оцениваем качество ИИ с помощью ИИ #почитать Заказчиками для ИИ инструментов часто выступают профильные специалисты (о
Как мы оцениваем качество ИИ с помощью ИИ #почитать
Заказчиками для ИИ инструментов часто выступают профильные специалисты (от науки или из мира бизнеса), которые не настолько погружены в работу моделей, чтобы легко оперировать метриками ROC-AUC (способность модели различать классы) или Precision (насколько точными являются положительные предсказания модели). Мы подумали, если большие языковые модели способны разъяснить сложные вещи ― например, смету и планы ― то их вполне можно использовать и для оценки самих систем ИИ. почему бы им не показать, что сами системы ИИ работают хорошо или не очень? Наша команда разработала инструмент, который позволяет осуществлять оценку и контроль качества моделей ИИ. Он может оценивать качество данных, сравнивать разные модели и потенциал их дообучения, а также подсказывать свои модели с помощью интегрированного инструмента AutoML от наших коллег из Института ИИ ИТМО, экономя время разработки.
Читать статью

Модели, гипотезы и планирование: хроники ML-инженера на крупнейшем хакатоне #почитать В прошлом году наша команда неожиданно
Модели, гипотезы и планирование: хроники ML-инженера на крупнейшем хакатоне #почитать
В прошлом году наша команда неожиданно для себя стала призером на хакатоне «Лидеры Цифровой трансформации». В этой части мы расскажем технические детали решения задачи по распознаванию поврежденных и больных деревьев в городской среде.
Читать статью

От MNIST к Transformer. Часть 2. Основы работы с памятью #почитать Это вторая статья из цикла От MNIST к Transformer, цель ко
От MNIST к Transformer. Часть 2. Основы работы с памятью #почитать Это вторая статья из цикла От MNIST к Transformer, цель которого пошагово пройти путь от простого CUDA ядра до создания архитектуры Transformer - фундамента современных LLM моделей. Мы не будем использовать готовые высокоуровневые библиотеки. Мы будем разбирать, как все устроено под капотом, и пересобирать их ключевые механизмы своими руками на самом низком уровне. Только так можно по настоящему понять как работают LLM и что за этим стоит. В этой статье разберем основы работы с памятью и две простые математические операции с точки зрения математики, но не такие простые с точки зрения CUDA ядер. Приготовьтесь, будет много кода на C++ и CUDA, работы с памятью и погружения в архитектуру GPU. И конечно же математика что за этим стоит. ✅Читать статью

Онлайн-оценка рекомендательных систем: метрики, которые говорят сейчас #почитать Меня зовут Василий Калинин, я senior-аналити
Онлайн-оценка рекомендательных систем: метрики, которые говорят сейчас #почитать
Меня зовут Василий Калинин, я senior-аналитик в отделе ML-аналитики музыкального сервиса Звук. Мой сегодняшний рассказ будет посвящен метрикам онлайн-оценки рекомендательных систем, использующихся в нашей компании.
Читать статью

ТОП-15 бесплатных сервисов для генерации изображений в 2026 году #почитать Сразу оговорка: у большинства платформ free-режимы
ТОП-15 бесплатных сервисов для генерации изображений в 2026 году #почитать Сразу оговорка: у большинства платформ free-режимы и лимиты периодически меняются (кредиты, очередь, доступные модели), поэтому я ориентировался на актуальные условия на момент подготовки статьи и официальные страницы сервисов. ✅Читать статью

Семантический компьютер на 64 нейронах и обучение на шуме #почитать В предыдущей статье о машинном обучении как алхимии я гов
Семантический компьютер на 64 нейронах и обучение на шуме #почитать
В предыдущей статье о машинном обучении как алхимии я говорил о том, что можно найти новые решения, не используя GPU или дорогие видеокарты. В этой статье я расскажу, о том, как я экспериментировал с continual learning и композициональностью мышления на микронейросетях, и причем здесь философ Лев Выготский.
Читать статью

Как развернуть OpenClaw и не слить ему все свои данные #почитать OpenClaw (ex. Moltbook и Clawdbot) мощно взорвал начало года
Как развернуть OpenClaw и не слить ему все свои данные #почитать
OpenClaw (ex. Moltbook и Clawdbot) мощно взорвал начало года. Все бросились устанавливать себе агента, и я понимаю, почему получился такой хайп. Ведь это первый в мире опен сорсный персональный AI-ассистент, которого можно подключить к мессенджеру, почте, календарю и практически чему угодно еще и он будет управлять моей личной жизнью. Ему можно поручить покупку билетов в кино, бронь столика в любимом кафе или внести важную встречу в календарь. Другая сторона хайпа — вопросы к безопасности агента, здесь шумихи не меньше. То исследователи Gen Threat Labsнашли 18 000 открытых инстансов OpenClaw, к которым можно подключиться и управлять уже не своей, а чужой личной жизнью. То Касперский пишет, что каталог «навыков» агента стал рассадником вредоносного кода. Или вспомнить историю о том, что OpenClaw сливал данные своих пользователей через Moltbook (соцсеть для нейронок). И что теперь, совсем нельзя пользоваться этим агентом? Я считаю, что пользоваться можно, но осторожно и лучше в облаке. Расскажу, как это сделать безопасно.
Читать статью

Anthropic против OpenAI: два разных подхода к «быстрому режиму» #почитать Anthropic и OpenAI почти одновременно запустили «бы
Anthropic против OpenAI: два разных подхода к «быстрому режиму» #почитать Anthropic и OpenAI почти одновременно запустили «быстрый режим» для своих моделей — и за одинаковым названием скрываются принципиально разные подходы к ускорению инференса. В одном случае это реальная модель с уменьшенным батчингом, в другом — отдельная, более компактная версия на специализированных чипах Cerebras. Разбираемся, что именно стоит за цифрами «2.5×» и «1000 токенов в секунду», где компромисс по качеству и что это значит для разработчиков на практике. ✅Читать статью

Я обучил модель на 10 000 код-ревью, чтобы отсеять мусор. Она начала предсказывать увольнения #почитать Я хотел решить просту
Я обучил модель на 10 000 код-ревью, чтобы отсеять мусор. Она начала предсказывать увольнения #почитать Я хотел решить простую инженерную задачу: отсеять «шум» в комментариях на код-ревью. Обучил модель на 10 000 примеров, получил точность 87%. Потом открыл список ошибок. Оказалось, модель научилась предсказывать увольнения сотрудников за два месяца до того, как они принесут заявление. Рассказываю, как «пустые» комментарии выдают выгорание и почему данные иногда знают о нас больше, чем мы сами. ✅Читать статью

152-ФЗ на практике: как найти и контролировать ПДн в базах данных 🔎 Персональные данные сегодня есть практически в каждой ко
152-ФЗ на практике: как найти и контролировать ПДн в базах данных 🔎 Персональные данные сегодня есть практически в каждой корпоративной системе: CRM, ERP, DWH, BI, служебных таблицах и выгрузках. Но в большинстве компаний отсутствует прозрачность: где именно хранятся персональные данные, кто имеет к ним доступ, сколько существует «теневых» копий, используются ли эти данные вообще и какие риски это создает для бизнеса. 📆 26 мая в 11:00 МСК приглашаем на бесплатный онлайн-вебинар: «Управление персональными данными: как выстроить контроль в базах данных и снизить риски по 152-ФЗ» На вебинаре разберем: 📊 что 152-ФЗ говорит про ПДн в СУБД и DWH 📊 как автоматически находить и классифицировать ПДн 📊 как выявлять лишние копии и неиспользуемые данные 📊 зачем нужен мониторинг использования ПДн 📊 как выстроить системный процесс контроля 📊 как снизить нагрузку на ИБ- и data-команды за счет автоматизации Также покажем практический сценарий мониторинга ПДн в СУБД — от сканирования базы до автоматических рекомендаций по снижению рисков. 👥 Вебинар будет полезен руководителям ИБ, архитекторам и руководителям DWH / BI, администраторам СУБД. 🎁 Бонус участникам — чек-лист по контролю персональных данных в СУБД и DWH. 🔗 Регистрация по ссылке

От чат-бота к AI агенту: собираем локальную систему на LibreChat, Langflow и MCP #почитать В прошлой статье мы строили локаль
От чат-бота к AI агенту: собираем локальную систему на LibreChat, Langflow и MCP #почитать В прошлой статье мы строили локальную систему для транскрибации аудио, а сегодня пойдём дальше и соберём локальную агентную AI-систему — без облаков и с контролем над данными. В этой статье я покажу, как собрать связку из трёх ключевых компонентов: 1. LibreChat — UI для работы с LLM 2. Langflow — low-code платформа и визуальный редактор 3. MCP — стандарт для подключения инструментов Статья построена по принципу «по нарастающей», где каждый новый уровень — это рабочий инструмент. Можно остановиться на любом этапе, а можно пройти все и тогда получите связку UI + инструменты + централизованная логика (и дальше ее можно развивать под свои сценарии). ✅Читать статью

🌐Python Pydantic Tutorial: Complete Data Validation Course #посмотреть In this video, we'll be learning how to use Pydantic,
🌐Python Pydantic Tutorial: Complete Data Validation Course #посмотреть In this video, we'll be learning how to use Pydantic, Python's most popular data validation library. Pydantic uses type hints to validate data at runtime, ensuring that the data coming into your application meets your expectations. We'll cover everything from basic model creation and field validation to custom validators, type coercion, nested models, and model configurations. We'll also see why Pydantic is so widely used in libraries like FastAPI, data processing pipelines, and AI tools. If you've ever struggled with messy manual validation code or data that isn't the right type or format, Pydantic will make your life much easier. ✅Смотреть на Ютубе ⏱️3 часа

🦾 Препарируем рекомендательные системы методами машинного обучения На открытом уроке разберём, как работают рекомендательные
🦾 Препарируем рекомендательные системы методами машинного обучения На открытом уроке разберём, как работают рекомендательные системы и какие подходы используются в машинном обучении. Покажем, как формируется рекомендация и как реализовать один из методов на практике с помощью Python. Вы не просто послушаете теорию, а соберёте свою первую рекомендательную модель. 👨‍💻🛠👨🏻‍💻 Урок подойдёт тем, кто начинает путь в машинном обучении и хочет разобраться в одной из самых востребованных задач. Встречаемся 20 мая в 18:00 МСК в преддверии старта курса «Машинное обучение. Специализация». ➡️ Принять участие бесплатно: https://vk.cc/cXUqAm Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

Повторяй промт дважды — и нейросеть станет умнее. Это реально работает #почитать Ещё раз: повторяй свой промт дважды (и даже
Повторяй промт дважды — и нейросеть станет умнее. Это реально работает #почитать Ещё раз: повторяй свой промт дважды (и даже трижды) — и нейросеть станет умнее. Это реально работает! ✅Читать статью

Лес под прицелом нейросетей: сравниваем модели для выявления рубок со спутника #почитать Ханты-Мансийский автономный округ (Х
Лес под прицелом нейросетей: сравниваем модели для выявления рубок со спутника #почитать Ханты-Мансийский автономный округ (ХМАО) – это не только 50% российской нефти, но и 530 тыс. кв. км лесов. Развитие инфраструктуры месторождений и интенсивные заготовки требуют жесткого контроля вырубок. С 2014 года здесь ведут мониторинг по снимкам со спутников, собрав базу из 15000 записей, включающих информацию о выявленных лесных рубках, но есть проблема: ручное дешифрирование происходит слишком долго и дорого. ✅Читать статью

Динамический полиморфизм для свободных функций: еще одна практика из С++ для машинного обучения #почитать Я Кирилл Колодяжный
Динамический полиморфизм для свободных функций: еще одна практика из С++ для машинного обучения #почитать
Я Кирилл Колодяжный, разработчик систем хранения данных в YADRO и ML-энтузиаст. Продолжаю рассказывать о паттернах С++, которые легко адаптировать под задачи машинного обучения. В этой части поговорим о динамическом полиморфизме — технологии, которая помогает объединить интерфейс для запуска вычислений с разными условиями. Ссылку на первую часть найдете в конце статьи.
Читать статью