uk
Feedback
Data Science | Machinelearning [ru]

Data Science | Machinelearning [ru]

Відкрити в Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Показати більше

📈 Аналітичний огляд Telegram-каналу Data Science | Machinelearning [ru]

Канал Data Science | Machinelearning [ru] (@devsp) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 20 077 підписників, посідаючи 6 731 місце в категорії Технології та додатки та 33 728 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 20 077 підписників.

За останніми даними від 11 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -38, а за останні 24 години на 40, загальне охоплення залишається високим.

  • Статус верифікації: Не верифікований
  • Рівень залученості (ER): Середній показник залученості аудиторії становить 7.58%. Протягом перших 24 годин після публікації контент зазвичай збирає 4.23% реакцій від загальної кількості підписників.
  • Охоплення публікацій: В середньому кожен допис отримує 1 521 переглядів. Протягом першої доби публікація в середньому набирає 849 переглядів.
  • Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 6.
  • Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, nvidia, контекст, openai, архитектура.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Завдяки високій частоті оновлень (останні дані отримано 12 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

20 077
Підписники
+4024 години
+457 днів
-3830 день
Архів дописів
Как эффективно работать с базами данных Есть проблемы с производительностью, отказоустойчивостью или соблюдением требований р
Как эффективно работать с базами данных Есть проблемы с производительностью, отказоустойчивостью или соблюдением требований регуляторов при работе с базами данных? Приглашаем на вебинар «Как Postgres Pro помогает работать с данными, обеспечивать отказоустойчивость и соблюдать требования регуляторов», где расскажем, как Postgres Pro может улучшить безопасность данных и минимизировать риски потерь. В программе: • Преимущества Postgres Pro перед PostgreSQL • Proxima: балансировщик нагрузки • BiHA: высокая доступность и отказоустойчивость • Средства бэкапа Postgres Pro • PPEM: графическая платформа для управления • Доработки Postgres Pro для решений 1С 📅 11 марта в 11:00 Зарегистрироваться на вебинар Перейти на сайт #реклама 16+ my.mts-link.ru О рекламодателе

Edge AI: видеокамеры с искусственным интеллектом Введение в Edge AI Edge AI — это технология, позволяющая обрабатывать данные непосредственно на устройствах, расположенных на периферии сети, таких как видеокамеры, без необходимости передачи информации в облако. Это обеспечивает более быструю обработку данных и снижает задержки, что критично для приложений реального времени. Преимущества видеокамер с Edge AI Внедрение искусственного интеллекта в видеокамеры позволяет анализировать видео в реальном времени, повышая эффективность систем видеонаблюдения. Это снижает нагрузку на центральные серверы и уменьшает затраты на передачу данных. Кроме того, такие камеры могут работать автономно, обеспечивая непрерывный мониторинг даже при отсутствии подключения к сети. Применение в различных отраслях Видеокамеры с Edge AI находят применение в различных сферах: от промышленности до здравоохранения. В промышленности они используются для контроля качества продукции и обеспечения безопасности на производственных площадках. В здравоохранении такие камеры помогают в мониторинге пациентов и обеспечении безопасности медицинских учреждений. Технологические достижения Современные видеокамеры с Edge AI оснащены мощными процессорами и специализированными нейронными сетями, что позволяет им выполнять сложные задачи машинного зрения непосредственно на устройстве. Это включает в себя распознавание лиц, обнаружение аномалий и анализ поведения в реальном времени. Будущие перспективы Ожидается, что к 2032 году рынок Edge AI достигнет 35,26 миллиарда долларов США, демонстрируя среднегодовой темп роста 12,35% с 2025 года. Это свидетельствует о растущем спросе на устройства с локальной обработкой данных и их интеграции в различные отрасли. Факты 👉 К 2032 году рынок Edge AI достигнет 35,26 миллиарда долларов США с CAGR 12,35% с 2025 года 👉 Внедрение Edge AI в видеокамеры снижает задержки обработки данных и повышает эффективность систем видеонаблюдения ❗️Видеокамеры с Edge AI представляют собой значительный шаг вперед в области видеонаблюдения, обеспечивая быструю и эффективную обработку данных непосредственно на устройстве, что открывает новые возможности для различных отраслей. Источники Edge AI 2025: Тренды и кейсы внедрения искусственного интеллекта на периферии. Edge AI в 2025 году: как локализованный интеллект открывает новые горизонты для бизнеса. Видеонаблюдение с Edge AI: меньше затрат, больше возможностей.

Repost from xCode Journal
😭 «Меньше 200 тыс. в Москве — лютейшая нищета» Разраб создал проект Salary Tiers, который разбивает зарплаты по городам и вы
😭 «Меньше 200 тыс. в Москве — лютейшая нищета» Разраб создал проект Salary Tiers, который разбивает зарплаты по городам и выдает жестокую правду о том, на каком ты уровне жизни. Смотрим и плачем здесь ✖️ xCode Journal

Станьте Deep Learning Engineer с дипломом 👍 Голосовые помощники, распознавание лиц, рекомендации в приложениях, медицинская
Станьте Deep Learning Engineer с дипломом 👍 Голосовые помощники, распознавание лиц, рекомендации в приложениях, медицинская диагностика — нейросети используются уже во всех сферах бизнеса. Компании ищут DL-специалистов, чтобы точнее обучать и настраивать нейросети под свои запросы. Освоить Deep Learning самостоятельно сложно, но ребята из Simulative нашли решение, где учёба становится понятной и структурированной, а все темы разбираются на практике 🔥 Simulative запускает программу профессиональной переподготовки «Инженер глубокого обучения нейросетей». По итогам обучения вы получите:
🎓 Диплом гособразца
Официальный диплом о профессиональной переподготовке с квалификацией «Специалист по большим данным».
💯 Практика
Более 40 практических работ в формате симуляции реальной работы DL-инженера — всё пойдёт в портфолио.
🙌🏽 Онлайн обучение
Учитесь из любой точки мира, совмещая с работой, а доступ к материалам останется навсегда. Курс подходит для специалистов любого уровня: новичок, аналитик, ML-инженер или выпускник — на программе опытные менторы помогут выстроить вашу персональную траекторию роста в Deep Learning. Что вы освоите: 🟠Создание и обучение нейросетей с нуля 🟠Компьютерное зрение (Computer Vision) 🟠NLP (обработка текста) 🟠Генеративные модели 🟠MLOps и продакшн-подход 🕖 Старт обучения — 12 марта, количество мест на поток ограничено Бронируйте место на курсе прямо сейчас и получите скидку 30% 😶ПОЛУЧИТЬ СКИДКУ НА КУРС

Repost from xCode Journal
😱 Человек больше не различает фото настоящих людей от сгенерированных К такому выводу пришли австралийские исследователи. В
😱 Человек больше не различает фото настоящих людей от сгенерированных К такому выводу пришли австралийские исследователи. В эксперименте (125+ участников) людей просили определить, где реальное лицо, а где созданное ИИ. В результате точность оказалась близка к случайному угадыванию. А все дело в том, что искусственные лица нередко кажутся более реальными — из-за симметрии и усреднённой привлекательности. ✖️ xCode Journal

Укротить машинное обучение — миссия выполнима 💪 В 2026 перед бизнесом стоит задача: окупить расходы на машинное обучение. То
Укротить машинное обучение — миссия выполнима 💪 В 2026 перед бизнесом стоит задача: окупить расходы на машинное обучение. Точно не обойтись без знаний по MLOps. На помощь приходит мини-курс по машинному обучению от Академии Selectel. Эксперты подробно рассказали: - как работать с артефактами в MLOps, - что нужно бизнесу от Feature Store, - как работать с ML-моделями на open source-платформах. 🔝 Проходите уроки бесплатно по ссылке: Хотите быть в курсе трендов и реальной практики машинного обучения? Присоединяйтесь к сообществу профессионалов: @mlpathway 👈 Эксперты Selectel поделятся тем, как развить надежную ИТ-инфраструктуру для ресурсоемких задач и инференса моделей.

Repost from xCode Journal
🤬 Google Chrome захламляет ПК нейросетями без вашего ведома Браузер втихую загружает на систему локальную версию Gemini и ск
🤬 Google Chrome захламляет ПК нейросетями без вашего ведома Браузер втихую загружает на систему локальную версию Gemini и скрыто запускает, когда надо. Если хотите освободить память:
— Вписываем в браузер адрес chrome://flags/; — Находим параметр Optimization Guide On Device Model и отключаем его; — Повторяем с пунктом Prompt API; — Находим на диске по пути AppData/Local/Google/Chrome/User Data/OptGuideOnDeviceModel/ файл весом в 4 ГБ и удаляем его.
Не благодарите ✖️ xCode Journal

Курсы повышения квалификации при МГУ "Машинное обучение. Искусственные нейронные сети и генетические алгоритмы" Заканчивается прием заявок на прохождение курсов повышения квалификации "Машинное обучение. Искусственные нейронные сети и генетические алгоритмы", проводимых НИИ ядерной физики имени Д.В.Скобельцына Московского Государственного Университета имени М.В.Ломоносова. Окончившим курсы МГУ выдаёт удостоверение установленного образца о повышении квалификации на бланке строгого учёта с подписью проректора и гербовой печатью МГУ, в твёрдом переплёте. Внимание! Занятия будут проходить в двойном формате - очно на территории МГУ на Воробьевых горах с возможностью подключения через zoom, что позволяет обучаться лицам из любого региона РФ. Занятия будут проходить два раза в неделю в вечернее время. Начало занятий 27 февраля 2026 г. Получить более подробную информацию о программе обучения и подать заявку для прохождение курсов Вы можете по этому адресу.

Transformer простыми словами Если объяснить максимально просто: Transformer — это модель, которая понимает контекст через мех
Transformer простыми словами Если объяснить максимально просто: Transformer — это модель, которая понимает контекст через механизм внимания. Именно на ней построены современные LLM. Проблема старых моделей
До Transformer были: 👉 RNN 👉 LSTM 👉 GRU Они читали текст последовательно — слово за словом. Проблемы: 👉 плохо запоминали длинный контекст 👉 обучались медленно 👉 не параллелились Нужно было что-то принципиально другое.
Главная идея Transformer — Attention
Transformer не читает текст по порядку. Он смотрит на всё предложение сразу и решает, какие слова важны друг для друга. Например: «Я положил ноутбук на стол, потому что он был тяжёлый» Что значит «он»? Transformer вычисляет, к какому слову это относится, через механизм внимания. Это называется Self-Attention.
Что такое Self-Attention интуитивно
Представь, что каждое слово: 👉 смотрит на остальные слова 👉 решает, кому доверять больше 👉 взвешивает их влияние Математически это: 👉 Query 👉 Key 👉 Value 👉 Softmax 👉 взвешенная сумма Интуитивно — это просто умное распределение внимания.
Почему это революция
👉 модель видит весь контекст сразу 👉 можно обучать параллельно 👉 отлично работает с длинными последовательностями 👉 хорошо масштабируется Именно поэтому после статьи Attention Is All You Need всё изменилось.
Из чего состоит Transformer
Если сильно упростить: 👉 Embedding 👉 Positional Encoding 👉 Multi-Head Attention 👉 Feed Forward Network 👉 Residual + LayerNorm И всё это повторяется много раз слоями.
Почему LLM — это просто большой Transformer
Потому что если: 👉 увеличить количество слоёв 👉 увеличить размерность 👉 увеличить объём данных получается модель, способная: 👉 писать код 👉 объяснять физику 👉 переводить языки 👉 вести диалог
В одном предложении Transformer — это архитектура, которая понимает текст через внимание ко всему контексту сразу.

Бесплатный доступ к онлайн-доскам от МТС Линк Оставаться на Miro — потеря ИБ-контроля, наработок и бордов. Мигрируйте на росс
Бесплатный доступ к онлайн-доскам от МТС Линк Оставаться на Miro — потеря ИБ-контроля, наработок и бордов. Мигрируйте на российскую платформу в 3 клика, без багов и остановки процессов. Полный перенос данных, 50+ шаблонов для agile-команд и 2 недели бесплатного доступа ко всем функциям онлайн-досок от МТС Линк. Гайд «Год без Miro в РФ: оставаться или заменить?» в подарок при регистрации. Попробовать #реклама 16+ mts-link.ru О рекламодателе

Repost from xCode Journal
😎 Сеньор-разработчик перепрыгивает с созвона одной валютной удаленки на созвон другой валютной удаленки: 💥 xCode Journal

Приглашаем в телеграм-канал AI Inside Канал для тех, кто использует искусственный интеллект в работе. Здесь нет абстрактных т
Приглашаем в телеграм-канал AI Inside Канал для тех, кто использует искусственный интеллект в работе. Здесь нет абстрактных теорий — только прикладные решения. Что вас ждет: - Технологии: расскажем, как ИИ решает реальные бизнес-задачи — от автоматизации до аналитики. - Кейсы: покажем успешные примеры внедрения и использования ИИ-инструментов. - Экспертиза: объясним сложные технологии простым языком с фокусом на практическую пользу. Наша цель – дать конкретные идеи, которые можно применить уже сегодня. Присоединяйтесь к сообществу практиков! Подписаться #реклама 16+ О рекламодателе

Project Genie: Google даёт поиграться с генеративными мирами Google запустили Project Genie — и это первая нормальная возможность для обычных пользователей потрогать Genie-3 руками. По сути, это генератор интерактивных миров: ты отдельно задаёшь промпт для окружения и для персонажа (или просто кидаешь картинку), сначала получаешь превью мира от Nano Banana, правишь детали, а уже потом «заходишь» внутрь. Фантазия вообще ничем не ограничена — можно, например, сделать мир “34th Street–Penn Station” и играть за “Discarded pack of cigarettes”, буквально управляя пачкой сигарет в метро. Плюс есть ремиксы: берёшь персонажа из одного мира, окружение из другого, или копаешься в галерее чужих миров и перекраиваешь их под себя. В итоге это выглядит как песочница между игрой, генеративным артом и прототипированием будущих виртуальных миров — залипнуть реально легко. Единственный минус: доступ пока только для подписчиков Ultra за $250, так что это скорее взгляд в будущее, чем массовый релиз. Data Science

Accuracy - худшая метрика в классификации Accuracy - самая популярная метрика в ML. И одновременно - самая опасная. Звучит пр
Accuracy - худшая метрика в классификации Accuracy - самая популярная метрика в ML. И одновременно - самая опасная. Звучит провокационно? Давай разберёмся. Почему все любят Accuracy?
Формула максимально простая: Accuracy = (количество правильных предсказаний / общее количество объектов) Если модель угадывает 90% объектов - кажется, что всё отлично. Но есть одна проблема 👇
Когда Accuracy полностью врёт
Представим задачу: 👉 1000 клиентов 👉 950 — не уйдут (класс 0) 👉 50 — уйдут (класс 1) Модель, которая всегда предсказывает «0», получит: 👉 950 правильных предсказаний 👉 Accuracy = 95% 95% — звучит круто. Но модель вообще не находит тех 50 клиентов, ради которых бизнес запускал проект. Она бесполезна.
Проблема №1 — дисбаланс классов
Accuracy не чувствительна к перекосу данных. В задачах: 👉 Fraud detection 👉 Churn prediction 👉 Medical diagnosis дисбаланс — это норма, а не исключение. И accuracy начинает вводить в заблуждение.
Проблема №2 — разные ошибки стоят по-разному
В медицине: 👉 False Negative → пациент болен, модель сказала «здоров» 👉 False Positive → пациент здоров, модель сказала «болен» Цена ошибок совершенно разная. Accuracy этого не учитывает.
Что использовать вместо Accuracy?
Зависит от задачи. Если важен поиск редкого класса: 👉 Recall 👉 Precision 👉 F1-score Если важен баланс: 👉 ROC-AUC 👉 PR-AUC Если классы несбалансированы: 👉 Balanced Accuracy
Когда Accuracy всё-таки можно использовать? 👉 Когда классы сбалансированы 👉 Когда стоимость ошибок одинакова 👉 Когда это baseline Во всех остальных случаях - это иллюзия качества. Вывод Accuracy - не плохая метрика. Плохой - слепой выбор метрики. Метрика должна соответствовать бизнес-задаче. Иначе вы оптимизируете красивую цифру, а не реальную пользу.

Станьте Deep Learning Engineer с дипломом 👍 Голосовые помощники, распознавание лиц, рекомендации в приложениях, медицинская
Станьте Deep Learning Engineer с дипломом 👍 Голосовые помощники, распознавание лиц, рекомендации в приложениях, медицинская диагностика — нейросети используются уже во всех сферах бизнеса. Компании ищут DL-специалистов, чтобы точнее обучать и настраивать нейросети под свои запросы. Освоить Deep Learning самостоятельно сложно, но ребята из Simulative нашли решение, где учёба становится понятной и структурированной, а все темы разбираются на практике 🔥 Simulative запускает программу профессиональной переподготовки «Инженер глубокого обучения нейросетей». По итогам обучения вы получите:
🎓 Диплом гособразца
Официальный диплом о профессиональной переподготовке с квалификацией «Специалист по большим данным».
💯 Практика
Более 40 практических работ в формате симуляции реальной работы DL-инженера — всё пойдёт в портфолио.
🙌🏽 Онлайн обучение
Учитесь из любой точки мира, совмещая с работой, а доступ к материалам останется навсегда. Курс подходит для специалистов любого уровня: новичок, аналитик, ML-инженер или выпускник — на программе опытные менторы помогут выстроить вашу персональную траекторию роста в Deep Learning. Что вы освоите: 🟠Создание и обучение нейросетей с нуля 🟠Компьютерное зрение (Computer Vision) 🟠NLP (обработка текста) 🟠Генеративные модели 🟠MLOps и продакшн-подход 🕖 Старт обучения — 12 марта, количество мест на поток ограничено Бронируйте место на курсе прямо сейчас и получите скидку 30% 😶ПОЛУЧИТЬ СКИДКУ НА КУРС

Accuracy - худшая метрика в классификации Accuracy - самая популярная метрика в ML. И одновременно - самая опасная. Звучит пр
Accuracy - худшая метрика в классификации Accuracy - самая популярная метрика в ML. И одновременно - самая опасная. Звучит провокационно? Давай разберёмся. Почему все любят Accuracy?
Формула максимально простая: Accuracy = (количество правильных предсказаний / общее количество объектов) Если модель угадывает 90% объектов - кажется, что всё отлично. Но есть одна проблема 👇
Когда Accuracy полностью врёт
Представим задачу: 👉 1000 клиентов 👉 950 — не уйдут (класс 0) 👉 50 — уйдут (класс 1) Модель, которая всегда предсказывает «0», получит: 👉 950 правильных предсказаний 👉 Accuracy = 95% 95% — звучит круто. Но модель вообще не находит тех 50 клиентов, ради которых бизнес запускал проект. Она бесполезна.
Проблема №1 — дисбаланс классов
Accuracy не чувствительна к перекосу данных. В задачах: 👉 Fraud detection 👉 Churn prediction 👉 Medical diagnosis дисбаланс — это норма, а не исключение. И accuracy начинает вводить в заблуждение.
Проблема №2 — разные ошибки стоят по-разному
В медицине: 👉 False Negative → пациент болен, модель сказала «здоров» 👉 False Positive → пациент здоров, модель сказала «болен» Цена ошибок совершенно разная. Accuracy этого не учитывает.
Что использовать вместо Accuracy?
Зависит от задачи. Если важен поиск редкого класса: 👉 Recall 👉 Precision 👉 F1-score Если важен баланс: 👉 ROC-AUC 👉 PR-AUC Если классы несбалансированы: 👉 Balanced Accuracy
Когда Accuracy всё-таки можно использовать? 👉 Когда классы сбалансированы 👉 Когда стоимость ошибок одинакова 👉 Когда это baseline Во всех остальных случаях - это иллюзия качества. Вывод Accuracy - не плохая метрика. Плохой - слепой выбор метрики. Метрика должна соответствовать бизнес-задаче. Иначе вы оптимизируете красивую цифру, а не реальную пользу.

Галлюцинации LLM: где модель помогает, а где уверенно врёт Большие языковые модели выглядят как всезнающие эксперты. Текст гл
Галлюцинации LLM: где модель помогает, а где уверенно врёт Большие языковые модели выглядят как всезнающие эксперты. Текст гладкий, уверенный, логичный. Ровно до тех пор, пока не выясняется, что все это были галлюцинации. Давай разберёмся, где галлюцинации — это ожидаемое поведение модели, а где они quietly превращаются в серьёзную проблему.
1. Где галлюцинации — это «нормально» Модель не знает, она продолжает LLM — это не база фактов, а сверхмощный автодополнитель. Её цель — сгенерировать правдоподобное продолжение, а не истину. Недостаток или неоднозначность данных Если вопрос редкий, свежий или нишевый, модель просто заполняет пробелы. Она не умеет сказать «я не знаю» без отдельного обучения. Креативные задачи В сторителлинге и брейншторме галлюцинации — это не баг, а фича. Проблемы начинаются, когда тот же режим включается в фактах и коде. 2. Где начинаются проблемы Фактические вопросы Чат-бот уверенно сообщает неверные даты, имена и события. И пользователь принимает это за правду. Генерация кода • Функции, которых не существует. • API, которых никогда не было. • Код выглядит правильно — пока не запускаешь. Критические домены Юриспруденция, медицина, финансы. Здесь «звучит убедительно» = потенциальная катастрофа. Уверенный тон без знаний Самое опасное — модель не сомневается. Она не краснеет, не делает пауз, не оговаривается. 3. Что реально снижает галлюцинации RAG (привязка к данным) Модель отвечает не «из головы», а по конкретным документам. Есть источник — меньше фантазий. Дообучение и выравнивание RLHF, domain fine-tuning, обучение говорить «я не уверен». Модель учат быть осторожной, а не болтливой. Чёткие инструкции: — отвечай только по контексту — если не знаешь — скажи — обоснуй каждый шаг Иногда этого уже достаточно. • Пост-проверки и правила • Тесты для кода • Проверка ссылок • Фильтры на запрещённые паттерны Попросить модель: — проверить себя — оценить уверенность — пересмотреть ответ 4. Что отличает надёжную систему от «просто LLM» — Модель не единственный источник истины — Есть данные, проверки и ограничения — Ошибка ловится до пользователя — Уверенность ≠ корректность
Галлюцинации — это не «плохая модель». Это следствие того, что LLM всегда старается ответить. И если не обложить её контекстом, проверками и правилами, она будет стрелять в ногу ровно так же уверенно, как и рассуждать. Data Science

Ищем Data Scientist специалиста в команду RecSys в 2ГИС Делаем рекомендательные сервисы для всех продуктов компании: — рекоме
Ищем Data Scientist специалиста в команду RecSys в 2ГИС Делаем рекомендательные сервисы для всех продуктов компании: — рекомендации заведений на карте — улучшение поиска по категориям — персональные подборки для пользователей Что будешь делать: • Писать сервисы для команды рекомендательных систем; • Разрабатывать системы мониторинга качества рекомендательных систем; • Настраивать мониторинг и алертинг качества данных; • Писать unit тесты (pytest), тесты для различных участков ML пайплайна, участвовать в код ревью. Что важно: • 3+ года опыта полного ML-цикла • Сильный Python и SQL • Классический ML + один из DL-фреймворков (torch / tensorflow / keras) • Понимание RecSys: подходы, метрики, A/B-тесты • Опыт с инструментами разработки и CI/CD Удалёнка или офис. Аккредитованная IT-компания, белая зарплата, конференции, свобода в технологиях. 👉 Откликайся Другие инженерные инсайты от 2ГИС → в Telegram-канале RnD

Данные для обучения ИИ в 2026 Идея «интернет как бесконечный датасет» больше не работает. Графики по StackExchange и Stack Ov
Данные для обучения ИИ в 2026 Идея «интернет как бесконечный датасет» больше не работает. Графики по StackExchange и Stack Overflow выглядят тревожно: поток новых вопросов рос до середины 2010-х, потом застыл, а после 2022–2023 начал резко падать. А ведь именно Q&A-площадки были идеальным топливом для LLM: вопрос → контекст → решение → обсуждение → правки. Давай разберёмся, на чём нейросети будут учиться в 2026-м и где данные всё ещё тащат, а где quietly превращаются в проблему.
Где данные всё ещё — это win • Очищенный веб вместо «сырого интернета» CommonCrawl никуда не делся, но в обучение идут уже не сырые скрейпы, а сильно отфильтрованные корпуса. Примеры вроде FineWeb и FineWeb-Edu на Hugging Face показывают новый стандарт: меньше объёма, больше смысла, жёсткая дедупликация и фильтрация AI-мусора. • Код и инженерные следы Даже если вопросов становится меньше, разработчики продолжают писать код. Репозитории, PR, issue-дискуссии, changelog’и и migration-гайды — стабильный источник свежего прикладного знания, особенно для reasoning и tool-use. • Книги и архивы public domain Происходит тихий разворот к «старым» источникам. Они качественнее случайного веба и юридически безопаснее. Например, корпус public-domain книг от Harvard University — это почти учебник для будущих моделей. • Логи взаимодействий с продуктами Диалоги пользователей с ассистентами, оценки «полезно / не полезно», исправления — золото для instruction-tuning и RL. Именно здесь появляется знание о том, как моделью реально пользуются. Где начинаются выстрелы в ногу • Исчезновение бесплатных Q&A Знания уходят в закрытые чаты, корпоративные базы, Slack и Discord. Публичный слой интернета беднеет, а модели теряют источник «живых» инженерных кейсов. • AI-засорение веба Самоповторы, SEO-копипаст и синтетика поверх синтетики. Без жёсткой фильтрации это прямой путь к деградации качества. • Синтетические данные без тормозов Синтетика дёшева и удобна, но перекорм приводит к замыканию на собственных ошибках и стилю «копия копии». Рабочие пайплайны держатся только на смеси: реальное + синтетика + фильтры. • Юридические риски Компании всё меньше готовы «скрейпить и разбираться потом». Лицензирование и партнёрства становятся нормой — как у OpenAI с Stack Overflow. Что отличает устойчивые датасеты будущего — Курирование вместо гонки за объёмом — Model-based filtering и дедупликация — Чёткое происхождение данных — Смесь источников, а не ставка на один — Версионирование и воспроизводимость
Будущее обучения ИИ — это меньше данных, но больше инженерии вокруг них. И если раньше узким местом были модели, то в 2026-м им станет именно качество и происхождение датасетов. Data Science

Офер за 2 дня в Яндекс 28 февраля–1 марта проводим Weekend Offer Analytics — мероприятие быстрого найма для продуктовых, data
Офер за 2 дня в Яндекс 28 февраля–1 марта проводим Weekend Offer Analytics — мероприятие быстрого найма для продуктовых, data-аналитиков и data scientists с опытом работы от 3 лет на Python. Как всё устроено: 🔵Зарегистрируйтесь на сайте до 25 февраля. 🔵Пройдите две технические секции 28 февраля. 🔵Познакомьтесь с командами и получите офер 1 марта. Присоединяйтесь, чтобы создавать и улучшать продукты, которыми пользуются миллионы пользователей каждый день. На сайте собрали все подробности — читайте по ссылке и регистрируйтесь: https://yandex.ru/project/events/wo-analytics-0226