Data Science | Machinelearning [ru]

Открыть в Telegram

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

Больше

Сеть:Frontender's notes [ru]Россия33 731 Технологии и приложения6 732...

📈 Аналитический обзор Telegram-канала Data Science | Machinelearning [ru]

Канал Data Science | Machinelearning [ru] (@devsp) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 20 069 подписчиков, занимая 6 732 место в категории Технологии и приложения и 33 731 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 20 069 подписчиков.

Согласно последним данным от 12 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -35, а за последние 24 часа — -4, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 7.60%. В первые 24 часа после публикации контент обычно набирает 4.48% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 1 526 просмотров. В течение первых суток публикация набирает 899 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 7.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, nvidia, контекст, openai, архитектура.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. Личный блог автора - @just_genych По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD”

Благодаря высокой частоте обновлений (последние данные получены 13 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

20 069

Подписчики

-424 часа

+497 дней

-3530 день

1 526

Просмотры поста

~ 89924 часа

~ 1 04348 часов

7.60%

Коэффициент вовлеченности

~ 1

Постов в день

Ads index

beta

Архив постов

20 064

🔥 Как DeepSeek переосмысляет OCR В сфере обработки текста существует классическая проблема — как эффективно распознавать и хранить большие объемы информации. Обычно OCR-модели анализируют текст, превращая его в токены, что с каждым новым символом или словом требует всё больше вычислительных ресурсов. Но исследователи из DeepSeek нашли способ кардинально изменить этот процесс, предложив совершенно новую модель, которая работает с текстом как с изображением.

Идея проста, но мощная. Вместо того чтобы оперировать текстовыми токенами, DeepSeek-OCR обращается к визуальным представлениям страниц. Это позволяет значительно снизить затраты на обработку при сохранении высокой точности. ✔️ Как работает DeepSeek-OCR? Традиционные OCR-системы распознают текст, разделяя его на символы и слова, что требует много вычислений. В отличие от них, DeepSeek-OCR превращает страницы в изображения, которые затем кодируются через собственный алгоритм DeepEncoder в компактные визуальные токены. Затем текст восстанавливается обратно. Это не только упрощает процесс, но и значительно снижает вычислительные затраты, особенно на длинных документах. При этом точность системы не страдает. В экспериментах модель показала удивительные результаты: при десятикратном сжатии точность оставалась на уровне 97%, а при двадцатикратном сжатии — около 60%. Это означает, что теперь можно хранить длинные документы в несколько раз более компактно, не теряя значимую информацию. 📌 Как устроена модель? Архитектура DeepSeek-OCR работает по трёхступенчатому принципу: • Локальное внимание — система захватывает мелкие детали, улучшая точность распознавания. • Свёрточное сжатие — модель сжимает текст в 16 раз, делая его намного более компактным. • Глобальное внимание — анализирует структуру страницы в целом, что позволяет лучше понимать контекст и логику документа. Ещё одним интересным моментом является внедрение механизма забывания. В этом случае старый контекст постепенно теряет разрешение, чтобы освободить место для новой информации. Это позволяет системе работать с долгосрочной памятью, не перегружая её архивными данными.

DeepSeek-OCR обещает значительно упростить и ускорить обработку больших массивов данных. Теперь, чтобы работать с длинными статьями или документами, не нужно расходовать много вычислительных ресурсов, а можно эффективно хранить и передавать информацию в компактном виде. Data Science

20 064

Создай ML-модель, которую оценит продюсер «Слова пацана» На хакатоне Wink AI Challenge проходит кастинг ИИ-сервисов для киноиндустрии. Разработай своё решение и покажи экспертам, как оно ускорит производство фильмов и сериалов. Призовой фонд — 1 125 000 рублей. 🗓 Регистрация на платформе Codenrock до 31 октября ML-инженеры, backend- и frontend-разработчики, DevOps, MLOps и мультимедиа-инженеры — ваш выход. Алгоритм такой: → Получи настоящий сценарий кинофильма. → Распознай персонажей и локации с помощью NER и NLP-моделей. → Разработай ИИ-сервис, который умеет интерпретировать сценарий и предлагать оптимальные решения для киноиндустрии. Задачи хакатона: 🔸 Построй модель зависимости между сценами и структурируй сценарий. 🔸 Преврати текст в эскизы с помощью text-to-image для создания превизуализации сценария. 🔸 Создай решение, которое классифицирует контент и находит сцены, влияющие на возрастной рейтинг. Твой ИИ-сервис оценят и будут использовать продюсеры популярных российских фильмов и сериалов: «Слово пацана», «Ёлки», «Фишер» и многих других. Финал пройдёт в Москве — двум участникам из команды Wink оплатит билеты и проживание. Регистрируйся на первый в России хакатон по применению ИИ в кинопроизводстве и разработай решение, которое станет частью создания фильмов и сериалов: https://cnrlink.com/winkaichallengedsml

20 064

Repost from xCode Journal

🤖 OpenAI запустили собственный ИИ-БРАУЗЕР — Atlas ИИ-ассистент будет теперь доступен везде — так что ему можно будет поручать задачи или просить что-то объяснить. Плюс браузер будет подстраиваться под пользователя из-за встроенной памяти. Это новая эпоха поиска, официально. Будет доступно бесплатно на macOS. ✖️ xCode Journal

20 064

Постройте карьеру в Дата Аналитике. Бесплатный вебинар Если вы строите дашборды, готовите отчёты и чувствуете, что пора расти, этот вебинар — для вас. 30 октября в 18:00 Анатолий Карпов, CEO karpov.courses и эксперт с 10-летним опытом в аналитике, проведёт бесплатный эфир «Аналитика данных 2025: билет в профессию будущего». Вы узнаете, какие инструменты будут определять рынок в 2025 году, что отличает сильного аналитика и как выстроить стратегию роста, чтобы перейти на новый уровень дохода. Вебинар проходит в рамках Data Sprint — месяца полезного контента о Data Science. Вас ждут 5 вебинаров по аналитике, Machine Learning и Data Engineering с экспертами из X5 Group, AliExpress и Яндекса. Зарегистрироваться #реклама 16+ karpov.courses О рекламодателе

20 064

🖥 Alibaba представила новые мультимодальные модели Alibaba представила сразу две новые мультимодальные модели, которые уже привлекли внимание исследователей — Qwen3-VL-2B и Qwen3-VL-32B. И если первая модель привнесла значительные улучшения, то вторая сразу же побила рекорды по производительности и вывела на новый уровень задачи, связанные с визуальными вопросами, анализом видео и распознаванием текста.

✔️ Что отличает Qwen3-VL-32B? Хотя модель обладает «всего» 32 миллиардами параметров, ее результаты впечатляют. Она не просто конкурирует с более мощными системами, которые могут иметь до 235 миллиардов параметров, но и превосходит их на ряде бенчмарков, включая OSWorld. Главная причина такого успеха — новая архитектура с иерархическим вниманием, которая позволяет модели эффективно интегрировать текст, изображение и видео в едином контексте. Это делает Qwen3-VL-32B не просто инструментом для анализа изображений, но и мощной системой для решения сложных задач в области STEM (наука, технологии, инженерия и математика), видеовопросов (VQA), а также анализа видеопотоков и даже автономных агентов. ▶️ Что может эта модель? Qwen3-VL-32B демонстрирует способность не просто распознавать кадры на видео, но и понимать сюжет и причинно-следственные связи. Это открывает возможности для более глубокого анализа видео, создания автономных агентов и разработки образовательных платформ, где важно не только понимать контент, но и делать логические выводы.

И, конечно, на этом Alibaba не остановилась. Оба продукта, Qwen3-VL-2B и Qwen3-VL-32B, доступны для тестирования и интеграции через Hugging Face и Qwen Studio, где можно опробовать их возможности и подключить к собственным проектам с помощью демо-версий и API. Data Science

20 064

⚙️ Заглянем под капот рекомендаций Яндекс Лавки Всегда интересно, как на самом деле устроены системы в больших IT-компаниях. Команда Лавки написала подробный разбор своего сервиса рекомендаций смен для курьеров. Задача нетривиальная: нужно правильно подобрать для исполнителей эксклюзивный ресурс — рабочие смены. Ребята начали с красивой идеи на эвристиках — векторы и скалярное произведение. Но быстро упёрлись в потолок офлайн-пайплайна. В статье честно рассказывают, как пришлось докрутить асинхронный real-time сервис, построить гибридную архитектуру и почему теперь они смотрят в сторону градиентного бустинга. 🚀 Честная инженерная история о том, как продукт эволюционирует от простого MVP к сложной системе. 👉 Все детали — в статье Реклама. ООО «Яндекс.Такси». ИНН 7704340310.

20 064

Мощные мультимодальные модели LLaVA-OneVision-1.5 Открытая платформа для обучения мультимодальных моделей, демонстрирующая выдающиеся результаты при низких затратах. Модели обучаются на высококачественных данных и обеспечивают отличную эффективность. Особенности: 🔘Полностью открытый исходный код и обучающие данные 🔘Высокое качество и разнообразие обучающих данных 🔘Эффективная архитектура для экономичного обучения 🔘Поддержка современных технологий, таких как MoE и FP8 🔘Оптимизированный код для масштабируемости Ссылка на GitHub проекта - тык

20 064

Быстрее, умнее, точнее VK запустил RecSys Challenge — соревнование по разработке алгоритмов рекомендаций. Участникам предстоит решить одну из самых сложных проблем рекомендательных систем: предсказать, кому зайдёт ролик, который никто ещё не видел. В основе датасет VK-LSVD: 40 млрд взаимодействий 20 млн роликов Формат: Студенты, исследователи, ML-инженеры — welcome Призовой фонд — 2 500 000 рублей 💸 Читайте подробнее и регистрируйтесь до 15 декабря на сайте соревнования.

20 064

Repost from xCode Journal

😭 Страшно, ведь слишком реально 💥 xCode Journal

20 064

Будущее Интернета: «Останется ли Интернет свободным?» 🤨 Тим Бернерс-Ли, создатель Всемирной паутины, поднял важнейший вопрос: «Останется ли Интернет свободным?» В своём последнем эссе он выразил обеспокоенность по поводу изменения курса, который изначально направлялся к открытой и доступной сети для всех.

На ранних этапах, благодаря инициативе Бернерса-Ли, такие технологии, как HTTP, стали бесплатными, чтобы гарантировать, что интернет будет доступен каждому, без необходимости платить за каждое действие в сети. Но теперь, по его словам, ситуация изменилась: крупнейшие платформы собирают и продают персональные данные, а алгоритмы, направленные на манипуляцию вниманием, наносят вред психическому здоровью. Основной тревогой является тот факт, что Интернет уже не является тем открытым пространством для обмена знаниями и свободного общения, как задумывалось. Сегодня мы стали не пользователями, а товаром, который продается. И, возможно, самыми опасными являются не технологии, а управление ими. Бернерс-Ли утверждает, что в области искусственного интеллекта власть сосредоточена в руках нескольких крупных компаний, и без немедленных изменений мы можем столкнуться с ещё более жёсткой централизацией.

Тим предупреждает, что нам нужно не только создавать новые технологии, но и искать пути их регулирования. Чтобы вернуть Интернет в его «естественное» состояние — открытым и доступным, необходимо создать глобальные институты для разработки и управления ИИ, аналогичные тем, что возникли после Второй мировой войны для управления атомной энергией. Что важнее: свобода пользователей или контроль?

❤️ — Свобода для пользователей 🐳 — Контроль и регулирование

Data Science

20 064

Генеративный ИИ и малварь: как нейросети изменили киберугрозы 😂 В последние два года мир кибербезопасности столкнулся с новым феноменом: вредоносные программы, которые генерируются с помощью «разлоченных» LLM-моделей. Эти модели, лишенные стандартных мер безопасности, могут без труда создавать фишинг-атакующие сообщения, вирусы и даже инструкции по эксплуатации уязвимостей. Примеры таких систем, как WormGPT и FraudGPT, ставят на первый план вопрос: насколько безопасны технологии, которым мы доверяем свою информацию?

Тем временем, уже известные киберпреступные группировки используют легальные LLM-модели для разработки вредоносных скриптов, обфускации кода и автоматизации атак. Но самые опасные угрозы связаны с интеграцией ИИ в сам процесс атаки — когда модель начинает работать не как простой инструмент, а как активный участник атаки. Она генерирует код, анализирует уязвимости и подстраивает действия в зависимости от ситуации. Новые типы атак: GenAI и полиморфные вирусы Примером такого подхода стала BlackMamba — вирус, который использует API ChatGPT для динамической генерации вредоносных кодов. Каждый запуск вируса создает новый уникальный вариант, что значительно затрудняет его обнаружение. Этот вирус не сохраняет вредоносные файлы на диске, а генерирует их «на лету», что делает его полиморфным и трудным для обнаружения традиционными антивирусами. Также стоит отметить инцидент с программой Skynet, где злоумышленники использовали промпт-атаку для обмана систем безопасности, заставляя их игнорировать вредоносный код. Однако настоящим прорывом в этой области стали атаки с использованием LLM для создания «вымогателей» — систем, которые могут самостоятельно проводить весь цикл кибератаки, от анализа цели до шифрования данных. Инцидент PromptLock: когда ИИ становится вымогателем Одним из самых опасных примеров стал инцидент с вирусом PromptLock, когда LLM-модели сами генерируют вредоносные скрипты на лету. В отличие от традиционных вирусов, которые имеют заранее запрограммированные действия, PromptLock может адаптировать свои атаки под конкретную ситуацию, делая их гораздо более эффективными и трудными для обнаружения.

Сейчас самые эффективные способы защиты — это системы, которые могут распознавать необычные паттерны поведения, даже если сами вредоносные программы не используют привычные сигнатуры. Генеративный ИИ создаёт новые угрозы, но и открывает возможности для инновационных методов защиты, которые будут важны в борьбе с киберугрозами. Когда ИИ уже не просто инструмент, а полноценный участник атак? Data Science

20 064

GPT-5 и «тест Гёделя»: шаг к открытиям? 🗒 Недавний эксперимент стал важным шагом в исследовании возможностей больших языковых моделей. В отличие от традиционных тестов на решение стандартных задач, «тест Гёделя» ставит задачу: может ли модель самостоятельно генерировать новые математические гипотезы и их доказательства? Это попытка выявить способность моделей к настоящим научным открытиям.

Что такое «тест Гёделя»? Название теста связано с именем Курта Гёделя, одного из самых известных математиков и логиков 20-го века, который стал символом строгих и фундаментальных доказательств. В этом тесте модели не просто решают заранее известные задачи, а пытаются сгенерировать новое знание — например, доказать гипотезы, которые ранее не были исследованы. Эксперимент был проведен профессором Мораном Фельдманом из Университета Хайфы и Амином Карбаси из Cisco Foundation AI. В качестве задачи выбрали пять свежих гипотез в области комбинаторной оптимизации и предложили GPT-5 несколько научных статей, не раскрывая сути гипотез. Модель должна была либо предложить доказательство, либо опровергнуть гипотезу, либо найти контрпример. Результаты эксперимента Результаты теста оказались неоднозначными. В трех из пяти случаев GPT-5 предложила решения, которые исследователи оценили как близкие к правильным — ключевая идея была правильной, но доказательства не были до конца сформированы. В одном случае модель даже смогла опровергнуть гипотезу и предложить альтернативное решение. Однако две задачи GPT-5 не смогла решить, не справившись с анализом и «склейкой» идей из различных статей. Хотя GPT-5 не прошла «тест Гёделя» в полном объеме, результаты эксперимента показывают важный шаг вперед. Если модель может сгенерировать математические идеи, даже если она не всегда может полностью доказать их, это открывает возможности для создания систем, способных на более глубокие научные открытия. Таким образом, GPT-5 — это не просто инструмент для обработки информации, а зачатки модели, которая в будущем может участвовать в процессе создания новых гипотез и их верификации.

Достижения GPT-5 в области научных исследований ещё ограничены, но уже дают представление о том, как языковые модели могут помогать в создании новых знаний. Возможно, в будущем такие системы смогут не только решать задачи, но и инициировать научные открытия. Data Science

20 064

Anthropic показал «LLM‑операционку» — приложение, которое кодит само себя 🍑 Anthropic выпустил research‑preview: идея простая и впечатляющая — большая модель генерирует софт на лету. Клик — и приложение поднимается из пустоты; открываешь файл — его содержимое тут же создаётся по запросу. Это не готовый продакшн‑фреймворк, а демонстрация возможностей Sonnet 4.5 и сценариев, где LLM выступает как «живой» разработчик/редактор. Ключевые фишки:

• Генерация интерфейсов и кода в реальном времени по интерактивным жестам • Мгновенное наполнение файлов и компонентов под ваш промпт • Демонстрационный сценарий — прототипирование без заготовок Почему стоит попробовать? Во-первых, это отличный способ показать, как быстро можно прототипировать идеи: вам не нужен boilerplate — модель сама создаёт структуру проекта, страницы, CRUD‑эндоинты и даже простую логику. Во‑вторых — это ещё один шаг к тому, чтобы LLM не просто писал куски кода, а управлял жизненным циклом приложения: от интерфейса до связки с бэкендом.

Текущая версия инструмента представляет собой превью, где вопросы вызывают безопасность, качество кода, необходимость тестирования и масштабируемость. Доступ ограничен: воспользоваться может только пользователь тарифа Max, и то в течение пяти дней, поэтому инструмент пока скорее служит маркетинговым демо для Sonnet 4.5, тем не менее, попробовать что-то новое всегда интересно. Data Science

20 064

Data.Meetup от Сбера: честно об агентизации😏 Отправляйтесь на жёсткую прокачку скилов — обсудим AI-Ready Data, аспекты построения AI-агентов, умный поиск, генерацию SQL и доступ агентов к данным одним кликом. Встречаемся 23 октября: в московском офисе Сбера! 👌

20 064

Repost from xCode Journal

🤥 Разработчики врут на собеседованиях больше всех Такую статистику показало новое исследование. Больше половины работодателей в России сталкивались с приукрашенным резюме у кандидатов. При этом чаще всего врут разработчики ПО, за ними идут тестировщики и руководители проектов. А вот меньше всего обманывают эйчаров датасаентисты, аналитики, сетевые инженеры и специалисты технической поддержки. ✖️ xCode Journal

20 064

Поговорим про деньги в IT? Приглашаем опытных IT-специалистов пройти небольшой опрос про зарплаты и бенефиты в технологических компаниях. Это займёт не более 7 минут — а ваше мнение поможет одному крупному российскому работодателю делать актуальные оферы. Пройти опрос можно здесь

20 064

GPT-5 выигрывает в «необычном» бенчмарке среди ИИ 😐 В мире искусственного интеллекта появляется всё больше необычных бенчмарков, и Among AIs — один из самых нестандартных. В этом тесте ИИ соревнуются в игре, вдохновленной популярной «Мафией» — Among Us. На космическом корабле пять мирных агентов выполняют задания, а один — самозванец, который саботирует и пытается уничтожить остальных. Главная цель игры — либо выжить как мирный, либо выиграть, сыграв роль самозванца.

Как проходил тест? В Among AIs участвовали 6 ИИ, которые сыграли 60 партий. Очки начислялись за победу в разных ролях: 10 очков за выживание мирным и 50 — за победу самозванцем, что делает роль саботажника особенно сложной. GPT-5 стал абсолютным лидером, одержав 6 побед в роли самозванца и 45 побед среди мирных. Этот ИИ продемонстрировал высокие социальные навыки, уверенно лидируя в обсуждениях и точно определяя "козлов отпущения". Особо отметили его способность адаптироваться: играя за самозванца, GPT-5 менял свою стратегию и умело врал, чтобы сбить с толку других игроков. Как выступили другие ИИ? • Claude Sonnet 4 — занял второе место, выиграв 3 игры как самозванец и 42 как мирный. Этот ИИ показывал хорошие результаты, но не всегда мог выиграть в критических моментах. • Kimi K2 — ещё один интересный участник. Этот ИИ не пытался быть лидером, а наоборот, играл роль поддерживающего игрока, что в некоторых случаях приносило успех. • GPT-OSS, Qwen3 и Gemini 2.5 Pro — не смогли победить в роли самозванцев, но взяли по 39 побед за мирных. Их напористость и слабая аргументация приводили к тому, что их часто ошибочно принимали за самозванцев.

Бенчмарк Among AIs показал, как важно для ИИ не только выполнять технические задачи, но и успешно взаимодействовать в социальных ситуациях. Такие тесты открывают новые горизонты в понимании того, как ИИ могут работать в условиях сложных агентных взаимодействий, где нужно учитывать психологию, манипуляции и лжесвидетельства. Data Science

20 064

SWE-MERA: Новый стандарт для тестирования кодовых моделей 🤨 В мире ИИ динамичные условия гонки требуют не только инноваций в моделях, но и актуальных инструментов для их тестирования. Именно поэтому AI Alliance, вместе с Sber и ITMO, представили новый бенчмарк для оценки моделей программирования — SWE-MERA. Это не просто обновление: это подход, который решает проблемы устаревших статичных бенчмарков.

Что нового в SWE-MERA? Главное отличие этого бенчмарка — его динамичность. Он основан на задачах и pull-запросах с GitHub, но каждый месяц обновляется на 250 новых задач, что обеспечивает его актуальность. Это означает, что вы можете использовать его для тестирования моделей без риска столкнуться с устаревшими данными. Более того, встроенная защита от утечек данных позволяет отслеживать, насколько результаты не искажены данными, которые могли попасть в тренировочный набор. Почему это важно? С статичными бенчмарками модели тестируются на тех же задачах, что и во время обучения, что снижает объективность. В условиях быстро развивающегося ИИ-сектора, где каждый день появляются новые подходы и технологии, static benchmarks теряют актуальность. SWE-MERA же обеспечивает непрерывную проверку моделей на «неизвестных» задачах, создавая объективную картину их реальной эффективности. Сейчас в базе SWE-MERA уже около 700 задач, и продолжает добавляться новый контент, благодаря чему бенчмарк всегда остается актуальным и «живым».

SWE-MERA устанавливает новый стандарт для тестирования ИИ моделей. Это не просто очередной инструмент, а необходимый элемент для точной и актуальной оценки в постоянно меняющемся мире. А вы что думаете? В чем важность динамичного тестирования моделей? Data Science

20 064

Курс: Hard Аналитика Представьте: через полгода Вы спокойно строите дашборды, работаете с DWH и проводите эксперименты, как настоящий Middle-аналитик. Такое возможно — с курсом от karpov.courses. 📚 За 6 месяцев обучения Вы: • прокачаете навыки работы с BI, • освоите эксперименты и машинное обучение, • решите реальные аналитические задачи, • станете увереннее в профессии. А ещё — до 30 октября у Вас есть шанс не просто учиться, а попасть в команду Garage Eight! После покупки курса Вы сможете участвовать в конкурсе на две вакансии — дата-аналитика и продуктового аналитика. 📅Новый поток стартует 23 октября. Один курс — и впереди новые карьерные возможности ✨ Перейти на сайт #реклама 16+ karpov.courses О рекламодателе

20 064

Repost from xCode Journal

🤖 Мы с ChatGPT действительно близки Генерал армии США в Южной Корее рассказал, что стал активным юзером чат-бота. Все дело в том, что ИИ помогает «принять решение в нужный момент», ускоряя цикл НОРД — наблюдение, ориентация, решение, действие. Привет Скайнет.... ✖️ xCode Journal