en
Feedback
Data Science | Machinelearning [ru]

Data Science | Machinelearning [ru]

Open in Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Show more

📈 Analytical overview of Telegram channel Data Science | Machinelearning [ru]

Channel Data Science | Machinelearning [ru] (@devsp) in the Russian language segment is an active participant. Currently, the community unites 20 077 subscribers, ranking 6 731 in the Technologies & Applications category and 33 728 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 20 077 subscribers.

According to the latest data from 11 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -38 over the last 30 days and by 40 over the last 24 hours, overall reach remains high.

  • Verification status: Not verified
  • Engagement rate (ER): The average audience engagement rate is 7.58%. Within the first 24 hours after publication, content typically collects 4.23% reactions from the total number of subscribers.
  • Post reach: On average, each post receives 1 521 views. Within the first day, a publication typically gains 849 views.
  • Reactions and interaction: The audience actively supports content: the average number of reactions per post is 6.
  • Thematic interests: Content is focused on key topics such as llm, nvidia, контекст, openai, архитектура.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Thanks to the high frequency of updates (latest data received on 12 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

20 077
Subscribers
+4024 hours
+457 days
-3830 days
Posts Archive
Как эффективно работать с базами данных Есть проблемы с производительностью, отказоустойчивостью или соблюдением требований р
Как эффективно работать с базами данных Есть проблемы с производительностью, отказоустойчивостью или соблюдением требований регуляторов при работе с базами данных? Приглашаем на вебинар «Как Postgres Pro помогает работать с данными, обеспечивать отказоустойчивость и соблюдать требования регуляторов», где расскажем, как Postgres Pro может улучшить безопасность данных и минимизировать риски потерь. В программе: • Преимущества Postgres Pro перед PostgreSQL • Proxima: балансировщик нагрузки • BiHA: высокая доступность и отказоустойчивость • Средства бэкапа Postgres Pro • PPEM: графическая платформа для управления • Доработки Postgres Pro для решений 1С 📅 11 марта в 11:00 Зарегистрироваться на вебинар Перейти на сайт #реклама 16+ my.mts-link.ru О рекламодателе

Edge AI: видеокамеры с искусственным интеллектом Введение в Edge AI Edge AI — это технология, позволяющая обрабатывать данные непосредственно на устройствах, расположенных на периферии сети, таких как видеокамеры, без необходимости передачи информации в облако. Это обеспечивает более быструю обработку данных и снижает задержки, что критично для приложений реального времени. Преимущества видеокамер с Edge AI Внедрение искусственного интеллекта в видеокамеры позволяет анализировать видео в реальном времени, повышая эффективность систем видеонаблюдения. Это снижает нагрузку на центральные серверы и уменьшает затраты на передачу данных. Кроме того, такие камеры могут работать автономно, обеспечивая непрерывный мониторинг даже при отсутствии подключения к сети. Применение в различных отраслях Видеокамеры с Edge AI находят применение в различных сферах: от промышленности до здравоохранения. В промышленности они используются для контроля качества продукции и обеспечения безопасности на производственных площадках. В здравоохранении такие камеры помогают в мониторинге пациентов и обеспечении безопасности медицинских учреждений. Технологические достижения Современные видеокамеры с Edge AI оснащены мощными процессорами и специализированными нейронными сетями, что позволяет им выполнять сложные задачи машинного зрения непосредственно на устройстве. Это включает в себя распознавание лиц, обнаружение аномалий и анализ поведения в реальном времени. Будущие перспективы Ожидается, что к 2032 году рынок Edge AI достигнет 35,26 миллиарда долларов США, демонстрируя среднегодовой темп роста 12,35% с 2025 года. Это свидетельствует о растущем спросе на устройства с локальной обработкой данных и их интеграции в различные отрасли. Факты 👉 К 2032 году рынок Edge AI достигнет 35,26 миллиарда долларов США с CAGR 12,35% с 2025 года 👉 Внедрение Edge AI в видеокамеры снижает задержки обработки данных и повышает эффективность систем видеонаблюдения ❗️Видеокамеры с Edge AI представляют собой значительный шаг вперед в области видеонаблюдения, обеспечивая быструю и эффективную обработку данных непосредственно на устройстве, что открывает новые возможности для различных отраслей. Источники Edge AI 2025: Тренды и кейсы внедрения искусственного интеллекта на периферии. Edge AI в 2025 году: как локализованный интеллект открывает новые горизонты для бизнеса. Видеонаблюдение с Edge AI: меньше затрат, больше возможностей.

Repost from xCode Journal
😭 «Меньше 200 тыс. в Москве — лютейшая нищета» Разраб создал проект Salary Tiers, который разбивает зарплаты по городам и вы
😭 «Меньше 200 тыс. в Москве — лютейшая нищета» Разраб создал проект Salary Tiers, который разбивает зарплаты по городам и выдает жестокую правду о том, на каком ты уровне жизни. Смотрим и плачем здесь ✖️ xCode Journal

Станьте Deep Learning Engineer с дипломом 👍 Голосовые помощники, распознавание лиц, рекомендации в приложениях, медицинская
Станьте Deep Learning Engineer с дипломом 👍 Голосовые помощники, распознавание лиц, рекомендации в приложениях, медицинская диагностика — нейросети используются уже во всех сферах бизнеса. Компании ищут DL-специалистов, чтобы точнее обучать и настраивать нейросети под свои запросы. Освоить Deep Learning самостоятельно сложно, но ребята из Simulative нашли решение, где учёба становится понятной и структурированной, а все темы разбираются на практике 🔥 Simulative запускает программу профессиональной переподготовки «Инженер глубокого обучения нейросетей». По итогам обучения вы получите:
🎓 Диплом гособразца
Официальный диплом о профессиональной переподготовке с квалификацией «Специалист по большим данным».
💯 Практика
Более 40 практических работ в формате симуляции реальной работы DL-инженера — всё пойдёт в портфолио.
🙌🏽 Онлайн обучение
Учитесь из любой точки мира, совмещая с работой, а доступ к материалам останется навсегда. Курс подходит для специалистов любого уровня: новичок, аналитик, ML-инженер или выпускник — на программе опытные менторы помогут выстроить вашу персональную траекторию роста в Deep Learning. Что вы освоите: 🟠Создание и обучение нейросетей с нуля 🟠Компьютерное зрение (Computer Vision) 🟠NLP (обработка текста) 🟠Генеративные модели 🟠MLOps и продакшн-подход 🕖 Старт обучения — 12 марта, количество мест на поток ограничено Бронируйте место на курсе прямо сейчас и получите скидку 30% 😶ПОЛУЧИТЬ СКИДКУ НА КУРС

Repost from xCode Journal
😱 Человек больше не различает фото настоящих людей от сгенерированных К такому выводу пришли австралийские исследователи. В
😱 Человек больше не различает фото настоящих людей от сгенерированных К такому выводу пришли австралийские исследователи. В эксперименте (125+ участников) людей просили определить, где реальное лицо, а где созданное ИИ. В результате точность оказалась близка к случайному угадыванию. А все дело в том, что искусственные лица нередко кажутся более реальными — из-за симметрии и усреднённой привлекательности. ✖️ xCode Journal

Укротить машинное обучение — миссия выполнима 💪 В 2026 перед бизнесом стоит задача: окупить расходы на машинное обучение. То
Укротить машинное обучение — миссия выполнима 💪 В 2026 перед бизнесом стоит задача: окупить расходы на машинное обучение. Точно не обойтись без знаний по MLOps. На помощь приходит мини-курс по машинному обучению от Академии Selectel. Эксперты подробно рассказали: - как работать с артефактами в MLOps, - что нужно бизнесу от Feature Store, - как работать с ML-моделями на open source-платформах. 🔝 Проходите уроки бесплатно по ссылке: Хотите быть в курсе трендов и реальной практики машинного обучения? Присоединяйтесь к сообществу профессионалов: @mlpathway 👈 Эксперты Selectel поделятся тем, как развить надежную ИТ-инфраструктуру для ресурсоемких задач и инференса моделей.

Repost from xCode Journal
🤬 Google Chrome захламляет ПК нейросетями без вашего ведома Браузер втихую загружает на систему локальную версию Gemini и ск
🤬 Google Chrome захламляет ПК нейросетями без вашего ведома Браузер втихую загружает на систему локальную версию Gemini и скрыто запускает, когда надо. Если хотите освободить память:
— Вписываем в браузер адрес chrome://flags/; — Находим параметр Optimization Guide On Device Model и отключаем его; — Повторяем с пунктом Prompt API; — Находим на диске по пути AppData/Local/Google/Chrome/User Data/OptGuideOnDeviceModel/ файл весом в 4 ГБ и удаляем его.
Не благодарите ✖️ xCode Journal

Курсы повышения квалификации при МГУ "Машинное обучение. Искусственные нейронные сети и генетические алгоритмы" Заканчивается прием заявок на прохождение курсов повышения квалификации "Машинное обучение. Искусственные нейронные сети и генетические алгоритмы", проводимых НИИ ядерной физики имени Д.В.Скобельцына Московского Государственного Университета имени М.В.Ломоносова. Окончившим курсы МГУ выдаёт удостоверение установленного образца о повышении квалификации на бланке строгого учёта с подписью проректора и гербовой печатью МГУ, в твёрдом переплёте. Внимание! Занятия будут проходить в двойном формате - очно на территории МГУ на Воробьевых горах с возможностью подключения через zoom, что позволяет обучаться лицам из любого региона РФ. Занятия будут проходить два раза в неделю в вечернее время. Начало занятий 27 февраля 2026 г. Получить более подробную информацию о программе обучения и подать заявку для прохождение курсов Вы можете по этому адресу.

Transformer простыми словами Если объяснить максимально просто: Transformer — это модель, которая понимает контекст через мех
Transformer простыми словами Если объяснить максимально просто: Transformer — это модель, которая понимает контекст через механизм внимания. Именно на ней построены современные LLM. Проблема старых моделей
До Transformer были: 👉 RNN 👉 LSTM 👉 GRU Они читали текст последовательно — слово за словом. Проблемы: 👉 плохо запоминали длинный контекст 👉 обучались медленно 👉 не параллелились Нужно было что-то принципиально другое.
Главная идея Transformer — Attention
Transformer не читает текст по порядку. Он смотрит на всё предложение сразу и решает, какие слова важны друг для друга. Например: «Я положил ноутбук на стол, потому что он был тяжёлый» Что значит «он»? Transformer вычисляет, к какому слову это относится, через механизм внимания. Это называется Self-Attention.
Что такое Self-Attention интуитивно
Представь, что каждое слово: 👉 смотрит на остальные слова 👉 решает, кому доверять больше 👉 взвешивает их влияние Математически это: 👉 Query 👉 Key 👉 Value 👉 Softmax 👉 взвешенная сумма Интуитивно — это просто умное распределение внимания.
Почему это революция
👉 модель видит весь контекст сразу 👉 можно обучать параллельно 👉 отлично работает с длинными последовательностями 👉 хорошо масштабируется Именно поэтому после статьи Attention Is All You Need всё изменилось.
Из чего состоит Transformer
Если сильно упростить: 👉 Embedding 👉 Positional Encoding 👉 Multi-Head Attention 👉 Feed Forward Network 👉 Residual + LayerNorm И всё это повторяется много раз слоями.
Почему LLM — это просто большой Transformer
Потому что если: 👉 увеличить количество слоёв 👉 увеличить размерность 👉 увеличить объём данных получается модель, способная: 👉 писать код 👉 объяснять физику 👉 переводить языки 👉 вести диалог
В одном предложении Transformer — это архитектура, которая понимает текст через внимание ко всему контексту сразу.

Бесплатный доступ к онлайн-доскам от МТС Линк Оставаться на Miro — потеря ИБ-контроля, наработок и бордов. Мигрируйте на росс
Бесплатный доступ к онлайн-доскам от МТС Линк Оставаться на Miro — потеря ИБ-контроля, наработок и бордов. Мигрируйте на российскую платформу в 3 клика, без багов и остановки процессов. Полный перенос данных, 50+ шаблонов для agile-команд и 2 недели бесплатного доступа ко всем функциям онлайн-досок от МТС Линк. Гайд «Год без Miro в РФ: оставаться или заменить?» в подарок при регистрации. Попробовать #реклама 16+ mts-link.ru О рекламодателе

Repost from xCode Journal
😎 Сеньор-разработчик перепрыгивает с созвона одной валютной удаленки на созвон другой валютной удаленки: 💥 xCode Journal

Приглашаем в телеграм-канал AI Inside Канал для тех, кто использует искусственный интеллект в работе. Здесь нет абстрактных т
Приглашаем в телеграм-канал AI Inside Канал для тех, кто использует искусственный интеллект в работе. Здесь нет абстрактных теорий — только прикладные решения. Что вас ждет: - Технологии: расскажем, как ИИ решает реальные бизнес-задачи — от автоматизации до аналитики. - Кейсы: покажем успешные примеры внедрения и использования ИИ-инструментов. - Экспертиза: объясним сложные технологии простым языком с фокусом на практическую пользу. Наша цель – дать конкретные идеи, которые можно применить уже сегодня. Присоединяйтесь к сообществу практиков! Подписаться #реклама 16+ О рекламодателе

Project Genie: Google даёт поиграться с генеративными мирами Google запустили Project Genie — и это первая нормальная возможность для обычных пользователей потрогать Genie-3 руками. По сути, это генератор интерактивных миров: ты отдельно задаёшь промпт для окружения и для персонажа (или просто кидаешь картинку), сначала получаешь превью мира от Nano Banana, правишь детали, а уже потом «заходишь» внутрь. Фантазия вообще ничем не ограничена — можно, например, сделать мир “34th Street–Penn Station” и играть за “Discarded pack of cigarettes”, буквально управляя пачкой сигарет в метро. Плюс есть ремиксы: берёшь персонажа из одного мира, окружение из другого, или копаешься в галерее чужих миров и перекраиваешь их под себя. В итоге это выглядит как песочница между игрой, генеративным артом и прототипированием будущих виртуальных миров — залипнуть реально легко. Единственный минус: доступ пока только для подписчиков Ultra за $250, так что это скорее взгляд в будущее, чем массовый релиз. Data Science

Accuracy - худшая метрика в классификации Accuracy - самая популярная метрика в ML. И одновременно - самая опасная. Звучит пр
Accuracy - худшая метрика в классификации Accuracy - самая популярная метрика в ML. И одновременно - самая опасная. Звучит провокационно? Давай разберёмся. Почему все любят Accuracy?
Формула максимально простая: Accuracy = (количество правильных предсказаний / общее количество объектов) Если модель угадывает 90% объектов - кажется, что всё отлично. Но есть одна проблема 👇
Когда Accuracy полностью врёт
Представим задачу: 👉 1000 клиентов 👉 950 — не уйдут (класс 0) 👉 50 — уйдут (класс 1) Модель, которая всегда предсказывает «0», получит: 👉 950 правильных предсказаний 👉 Accuracy = 95% 95% — звучит круто. Но модель вообще не находит тех 50 клиентов, ради которых бизнес запускал проект. Она бесполезна.
Проблема №1 — дисбаланс классов
Accuracy не чувствительна к перекосу данных. В задачах: 👉 Fraud detection 👉 Churn prediction 👉 Medical diagnosis дисбаланс — это норма, а не исключение. И accuracy начинает вводить в заблуждение.
Проблема №2 — разные ошибки стоят по-разному
В медицине: 👉 False Negative → пациент болен, модель сказала «здоров» 👉 False Positive → пациент здоров, модель сказала «болен» Цена ошибок совершенно разная. Accuracy этого не учитывает.
Что использовать вместо Accuracy?
Зависит от задачи. Если важен поиск редкого класса: 👉 Recall 👉 Precision 👉 F1-score Если важен баланс: 👉 ROC-AUC 👉 PR-AUC Если классы несбалансированы: 👉 Balanced Accuracy
Когда Accuracy всё-таки можно использовать? 👉 Когда классы сбалансированы 👉 Когда стоимость ошибок одинакова 👉 Когда это baseline Во всех остальных случаях - это иллюзия качества. Вывод Accuracy - не плохая метрика. Плохой - слепой выбор метрики. Метрика должна соответствовать бизнес-задаче. Иначе вы оптимизируете красивую цифру, а не реальную пользу.

Станьте Deep Learning Engineer с дипломом 👍 Голосовые помощники, распознавание лиц, рекомендации в приложениях, медицинская
Станьте Deep Learning Engineer с дипломом 👍 Голосовые помощники, распознавание лиц, рекомендации в приложениях, медицинская диагностика — нейросети используются уже во всех сферах бизнеса. Компании ищут DL-специалистов, чтобы точнее обучать и настраивать нейросети под свои запросы. Освоить Deep Learning самостоятельно сложно, но ребята из Simulative нашли решение, где учёба становится понятной и структурированной, а все темы разбираются на практике 🔥 Simulative запускает программу профессиональной переподготовки «Инженер глубокого обучения нейросетей». По итогам обучения вы получите:
🎓 Диплом гособразца
Официальный диплом о профессиональной переподготовке с квалификацией «Специалист по большим данным».
💯 Практика
Более 40 практических работ в формате симуляции реальной работы DL-инженера — всё пойдёт в портфолио.
🙌🏽 Онлайн обучение
Учитесь из любой точки мира, совмещая с работой, а доступ к материалам останется навсегда. Курс подходит для специалистов любого уровня: новичок, аналитик, ML-инженер или выпускник — на программе опытные менторы помогут выстроить вашу персональную траекторию роста в Deep Learning. Что вы освоите: 🟠Создание и обучение нейросетей с нуля 🟠Компьютерное зрение (Computer Vision) 🟠NLP (обработка текста) 🟠Генеративные модели 🟠MLOps и продакшн-подход 🕖 Старт обучения — 12 марта, количество мест на поток ограничено Бронируйте место на курсе прямо сейчас и получите скидку 30% 😶ПОЛУЧИТЬ СКИДКУ НА КУРС

Accuracy - худшая метрика в классификации Accuracy - самая популярная метрика в ML. И одновременно - самая опасная. Звучит пр
Accuracy - худшая метрика в классификации Accuracy - самая популярная метрика в ML. И одновременно - самая опасная. Звучит провокационно? Давай разберёмся. Почему все любят Accuracy?
Формула максимально простая: Accuracy = (количество правильных предсказаний / общее количество объектов) Если модель угадывает 90% объектов - кажется, что всё отлично. Но есть одна проблема 👇
Когда Accuracy полностью врёт
Представим задачу: 👉 1000 клиентов 👉 950 — не уйдут (класс 0) 👉 50 — уйдут (класс 1) Модель, которая всегда предсказывает «0», получит: 👉 950 правильных предсказаний 👉 Accuracy = 95% 95% — звучит круто. Но модель вообще не находит тех 50 клиентов, ради которых бизнес запускал проект. Она бесполезна.
Проблема №1 — дисбаланс классов
Accuracy не чувствительна к перекосу данных. В задачах: 👉 Fraud detection 👉 Churn prediction 👉 Medical diagnosis дисбаланс — это норма, а не исключение. И accuracy начинает вводить в заблуждение.
Проблема №2 — разные ошибки стоят по-разному
В медицине: 👉 False Negative → пациент болен, модель сказала «здоров» 👉 False Positive → пациент здоров, модель сказала «болен» Цена ошибок совершенно разная. Accuracy этого не учитывает.
Что использовать вместо Accuracy?
Зависит от задачи. Если важен поиск редкого класса: 👉 Recall 👉 Precision 👉 F1-score Если важен баланс: 👉 ROC-AUC 👉 PR-AUC Если классы несбалансированы: 👉 Balanced Accuracy
Когда Accuracy всё-таки можно использовать? 👉 Когда классы сбалансированы 👉 Когда стоимость ошибок одинакова 👉 Когда это baseline Во всех остальных случаях - это иллюзия качества. Вывод Accuracy - не плохая метрика. Плохой - слепой выбор метрики. Метрика должна соответствовать бизнес-задаче. Иначе вы оптимизируете красивую цифру, а не реальную пользу.

Галлюцинации LLM: где модель помогает, а где уверенно врёт Большие языковые модели выглядят как всезнающие эксперты. Текст гл
Галлюцинации LLM: где модель помогает, а где уверенно врёт Большие языковые модели выглядят как всезнающие эксперты. Текст гладкий, уверенный, логичный. Ровно до тех пор, пока не выясняется, что все это были галлюцинации. Давай разберёмся, где галлюцинации — это ожидаемое поведение модели, а где они quietly превращаются в серьёзную проблему.
1. Где галлюцинации — это «нормально» Модель не знает, она продолжает LLM — это не база фактов, а сверхмощный автодополнитель. Её цель — сгенерировать правдоподобное продолжение, а не истину. Недостаток или неоднозначность данных Если вопрос редкий, свежий или нишевый, модель просто заполняет пробелы. Она не умеет сказать «я не знаю» без отдельного обучения. Креативные задачи В сторителлинге и брейншторме галлюцинации — это не баг, а фича. Проблемы начинаются, когда тот же режим включается в фактах и коде. 2. Где начинаются проблемы Фактические вопросы Чат-бот уверенно сообщает неверные даты, имена и события. И пользователь принимает это за правду. Генерация кода • Функции, которых не существует. • API, которых никогда не было. • Код выглядит правильно — пока не запускаешь. Критические домены Юриспруденция, медицина, финансы. Здесь «звучит убедительно» = потенциальная катастрофа. Уверенный тон без знаний Самое опасное — модель не сомневается. Она не краснеет, не делает пауз, не оговаривается. 3. Что реально снижает галлюцинации RAG (привязка к данным) Модель отвечает не «из головы», а по конкретным документам. Есть источник — меньше фантазий. Дообучение и выравнивание RLHF, domain fine-tuning, обучение говорить «я не уверен». Модель учат быть осторожной, а не болтливой. Чёткие инструкции: — отвечай только по контексту — если не знаешь — скажи — обоснуй каждый шаг Иногда этого уже достаточно. • Пост-проверки и правила • Тесты для кода • Проверка ссылок • Фильтры на запрещённые паттерны Попросить модель: — проверить себя — оценить уверенность — пересмотреть ответ 4. Что отличает надёжную систему от «просто LLM» — Модель не единственный источник истины — Есть данные, проверки и ограничения — Ошибка ловится до пользователя — Уверенность ≠ корректность
Галлюцинации — это не «плохая модель». Это следствие того, что LLM всегда старается ответить. И если не обложить её контекстом, проверками и правилами, она будет стрелять в ногу ровно так же уверенно, как и рассуждать. Data Science

Ищем Data Scientist специалиста в команду RecSys в 2ГИС Делаем рекомендательные сервисы для всех продуктов компании: — рекоме
Ищем Data Scientist специалиста в команду RecSys в 2ГИС Делаем рекомендательные сервисы для всех продуктов компании: — рекомендации заведений на карте — улучшение поиска по категориям — персональные подборки для пользователей Что будешь делать: • Писать сервисы для команды рекомендательных систем; • Разрабатывать системы мониторинга качества рекомендательных систем; • Настраивать мониторинг и алертинг качества данных; • Писать unit тесты (pytest), тесты для различных участков ML пайплайна, участвовать в код ревью. Что важно: • 3+ года опыта полного ML-цикла • Сильный Python и SQL • Классический ML + один из DL-фреймворков (torch / tensorflow / keras) • Понимание RecSys: подходы, метрики, A/B-тесты • Опыт с инструментами разработки и CI/CD Удалёнка или офис. Аккредитованная IT-компания, белая зарплата, конференции, свобода в технологиях. 👉 Откликайся Другие инженерные инсайты от 2ГИС → в Telegram-канале RnD

Данные для обучения ИИ в 2026 Идея «интернет как бесконечный датасет» больше не работает. Графики по StackExchange и Stack Ov
Данные для обучения ИИ в 2026 Идея «интернет как бесконечный датасет» больше не работает. Графики по StackExchange и Stack Overflow выглядят тревожно: поток новых вопросов рос до середины 2010-х, потом застыл, а после 2022–2023 начал резко падать. А ведь именно Q&A-площадки были идеальным топливом для LLM: вопрос → контекст → решение → обсуждение → правки. Давай разберёмся, на чём нейросети будут учиться в 2026-м и где данные всё ещё тащат, а где quietly превращаются в проблему.
Где данные всё ещё — это win • Очищенный веб вместо «сырого интернета» CommonCrawl никуда не делся, но в обучение идут уже не сырые скрейпы, а сильно отфильтрованные корпуса. Примеры вроде FineWeb и FineWeb-Edu на Hugging Face показывают новый стандарт: меньше объёма, больше смысла, жёсткая дедупликация и фильтрация AI-мусора. • Код и инженерные следы Даже если вопросов становится меньше, разработчики продолжают писать код. Репозитории, PR, issue-дискуссии, changelog’и и migration-гайды — стабильный источник свежего прикладного знания, особенно для reasoning и tool-use. • Книги и архивы public domain Происходит тихий разворот к «старым» источникам. Они качественнее случайного веба и юридически безопаснее. Например, корпус public-domain книг от Harvard University — это почти учебник для будущих моделей. • Логи взаимодействий с продуктами Диалоги пользователей с ассистентами, оценки «полезно / не полезно», исправления — золото для instruction-tuning и RL. Именно здесь появляется знание о том, как моделью реально пользуются. Где начинаются выстрелы в ногу • Исчезновение бесплатных Q&A Знания уходят в закрытые чаты, корпоративные базы, Slack и Discord. Публичный слой интернета беднеет, а модели теряют источник «живых» инженерных кейсов. • AI-засорение веба Самоповторы, SEO-копипаст и синтетика поверх синтетики. Без жёсткой фильтрации это прямой путь к деградации качества. • Синтетические данные без тормозов Синтетика дёшева и удобна, но перекорм приводит к замыканию на собственных ошибках и стилю «копия копии». Рабочие пайплайны держатся только на смеси: реальное + синтетика + фильтры. • Юридические риски Компании всё меньше готовы «скрейпить и разбираться потом». Лицензирование и партнёрства становятся нормой — как у OpenAI с Stack Overflow. Что отличает устойчивые датасеты будущего — Курирование вместо гонки за объёмом — Model-based filtering и дедупликация — Чёткое происхождение данных — Смесь источников, а не ставка на один — Версионирование и воспроизводимость
Будущее обучения ИИ — это меньше данных, но больше инженерии вокруг них. И если раньше узким местом были модели, то в 2026-м им станет именно качество и происхождение датасетов. Data Science

Офер за 2 дня в Яндекс 28 февраля–1 марта проводим Weekend Offer Analytics — мероприятие быстрого найма для продуктовых, data
Офер за 2 дня в Яндекс 28 февраля–1 марта проводим Weekend Offer Analytics — мероприятие быстрого найма для продуктовых, data-аналитиков и data scientists с опытом работы от 3 лет на Python. Как всё устроено: 🔵Зарегистрируйтесь на сайте до 25 февраля. 🔵Пройдите две технические секции 28 февраля. 🔵Познакомьтесь с командами и получите офер 1 марта. Присоединяйтесь, чтобы создавать и улучшать продукты, которыми пользуются миллионы пользователей каждый день. На сайте собрали все подробности — читайте по ссылке и регистрируйтесь: https://yandex.ru/project/events/wo-analytics-0226