Анализ данных (Data analysis)

Открыть в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Больше

Сеть:Machinelearning Россия12 559 Технологии и приложения2 679...

📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 150 подписчиков, занимая 2 679 место в категории Технологии и приложения и 12 559 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 150 подписчиков.

Согласно последним данным от 13 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -42, а за последние 24 часа — -11, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.83%. В первые 24 часа после публикации контент обычно набирает 5.66% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 4 426 просмотров. В течение первых суток публикация набирает 2 839 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 30.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Благодаря высокой частоте обновлений (последние данные получены 15 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

50 150

Подписчики

-1124 часа

-597 дней

-4230 день

4 426

Просмотры поста

~ 2 83924 часа

~ 3 39048 часов

8.83%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

50 150

🔟 вещей, которые стоит знать, прежде чем лезть в AI-автоматизацию Автор с Reddit построил больше 100 workflow и выделил самые главные уроки: 1. Начинайте с простых сценариев — лучше 10 минут пользы, чем 10 часов сложностей. 2. Записывайте процесс: скриншоты и ошибки — это ваше портфолио. 3. Сразу учитесь работать с HTTP-запросами — это открывает доступ почти ко всему. 4. Не называйте себя «экспертом», говорите конкретно: «Помогаю бизнесу экономить время». 5. Умейте отказываться: иногда «нет» открывает путь к более выгодным проектам. 6. Всегда думайте об ошибках: API падают, данные ломаются. 7. Делитесь провалами — они вызывают больше доверия, чем идеальные кейсы. 8. Стабильный доход приносит не настройка, а поддержка и улучшения. 9. Нетворкинг — половина успеха. Проекты приходят через коллег. 10. Автоматизируйте сначала себя: лучший аргумент — собственный пример. 💡 Главное: бизнесу нужны не красивые workflow, а результат — например, «минус 15 часов рутины в неделю». 🔗 Полный пост

50 150

🤖 DeepConf — новый подход к мышлению ИИ Учёные придумали новые метод Deep Think with Confidence (DeepConf). Он позволяет модели сразу отбрасывать «слабые» варианты ответа и оставлять только те, в которых она уверена. Классический метод *parallel thinking* (self-consistency) работает так: модель генерирует множество рассуждений и выбирает лучший ответ по большинству. Точность повышается, но ресурсы тратятся огромные — тысячи токенов уходят на слабые варианты. 🔹 DeepConf решает эту проблему: модель сама оценивает уровень уверенности в рассуждениях и отбрасывает «слабые» ветви — либо сразу, либо после генерации. Как это устроено: 1️⃣ Оценка уверенности на уровне токенов — смотрится вероятность выбранного токена (log-prob) или энтропия. 2️⃣ Group Confidence — оценки объединяются в блоки, чтобы понять силу целой ветки рассуждения. 3️⃣ Online-режим — слабые ветки отсекаются прямо в процессе. 4️⃣ Offline-режим — сначала генерируются все ответы, потом остаются только те, где уверенность высокая. 📈 Результаты: - На AIME-2025 точность выросла до 99,9% - Количество лишних токенов сократилось почти на 85% - Работает без дообучения и сложных настроек 📚 Paper: https://arxiv.org/pdf/2508.15260 🌐 Project: https://jiaweizzhao.github.io/deepconf

50 150

📖 Вечернее чтение Команда из DeepMind подготовила отличный материал о том, что нужно знать о работе с GPU. - Разбор архитектуры NVIDIA GPU: SM, Tensor Cores, кеши, HBM. - Сравнение GPU и TPU: гибкость против специализированной мощности. - Как устроены GPU-кластеры и коллективные коммуникации. - Roofline-анализ масштабирования LLM: data, tensor, expert, pipeline parallelism. 🔥 Если вы работаете с масштабированием моделей - мастрид. 👉 https://jax-ml.github.io/scaling-book/gpus/

50 150

👀 Стереосопоставление в реальном времени с помощью retinify Особенности: ✅ Open Source ✅ Подходит для любой стереокамеры ✅ Реальное время на NVIDIA Jetson Orin Nano С retinify даже недорогие OEM-стереокамеры или пара обычных камер превращаются в высокоточные AI-стереосистемы. Когда retinify получает данные о глубине и расстояниях от стереокамеры, она формирует так называемое облако точек — набор трёхмерных точек в пространстве, которые представляют геометрию сцены (каждая точка имеет координаты X, Y, Z, иногда цвет). Чтобы увидеть это облако точек на экране в наглядном виде (в 3D-просмотрщике), используют специальный инструмент или библиотеку. В данном случае для этой задачи применяется Rerun (rerundotio) — платформа с удобным C++ API, которая позволяет быстро строить 3D-визуализации и анализировать результаты работы алгоритмов. 🚀 Попробовать можно на GitHub: https://github.com/retinify/retinify

50 150

🔥 ByteDance представил Seed-OSS (Apache-2.0) — открытую серию LLM, обученную на 12 трлн токенов и оптимизированную для: - контекста до 512K, - reasoning-задач, - агентных сценариев, - международного применения (i18n). 📦 В релиз вошли: - Seed-OSS-36B-Base (с синтетическими данными и без) - Seed-OSS-36B-Instruct ⚙️ Архитектура - 36B параметров, 64 слоя, hidden 5120 - словарь 155K - GQA (80/8/8, head 128) - SwiGLU, RMSNorm - RoPE base 1e7 🧠 Thinking Budget Механизм контроля длины рассуждений (кратные 512): - 0 = прямой ответ - default = без ограничений - поддержка CoT и саморефлексии --- 📊 Результаты (Seed-OSS-36B-Base) - MMLU-Pro: 65.1 / 60.4 - MMLU: 84.9 / 84.8 - TriviaQA: 82.1 / 81.9 - GPQA-D: 31.7 / 35.2 - BBH: 87.7 / 87.2 - GSM8K: 90.8 / 90.3 - MATH: 81.7 (SOTA) / 61.3 - MBPP: 80.6 / 74.6 - HumanEval: 76.8 / 75.6 📊 Результаты (Seed-OSS-36B-Instruct) - MMLU-Pro: 82.7 | MMLU: 87.4 - GPQA-D: 71.4 | SuperGPQA: 55.7 - AIME24: 91.7 (SOTA) | AIME25: 84.7 | BeyondAIME: 65 - ArcAGI V2: 40.6 | KORBench: 70.6 - LiveCodeBench v6: 67.4 (SOTA) - IFEval: 85.8 - TAU1-Retail: 70.4 (SOTA) | TAU1-Airline: 46 - SWE-Bench Verified: 56 (SOTA) | Multi-SWE-Bench: 17 - MMMLU: 78.4 | RULER (128K): 94.6 (SOTA) | AIR-Bench: 75.6 ⚡ Инференс - Поддержка Transformers и vLLM (≥0.10.0) - FlashAttention2 - Квантизация 4/8-бит 📌 Итог: ByteDance выкатывает мощный опенсорс-стек для reasoning и агентных задач. Seed-OSS-36B-Instruct бьёт SOTA на множестве бенчмарков — от MATH и SWE-Bench до RULER-128K. 🟢GitHub 🟢Hugging Face

50 150

📉 На Уолл-стрит началась просадка AI-акций — и спусковым крючком оказался в отчёте MIT. В нём говорится, что 95% компаний не получают прибыли от внедрения generative AI, а реальные результаты видят только 5%. Почему так: - Компании запускают до того, как готовы пайплайны данных, безопасность и обучение сотрудников - Деньги уходят на сервера и модели, а внедрение в процессы оказывается долгим и дорогим ⚠️ На фоне разговоров про «AI-пузырь» фонды начали выходить из популярных AI-акций, что вызвало обвал. 👉 Но это похоже не на крах, а на проверку реальностью. Дальнейший рост будет зависеть от реальной экономики ИИ: снижения стоимости инференса и доказанного роста продуктивности. 📌 Источник

50 150

🚀Нет, ну а начать-то с чего? В Yandex Cloud точно понимают, что это самый популярный вопрос у всех, кто желает войти в IT. Поэтому команда создала бесплатный курс «Основы работы с Yandex Cloud» от опытных архитекторов и менеджеров платформы. Теперь получить доступ к практике на реальных инструментах и повысить базовую грамотность в IT сможет каждый. Смело пересылаем этот пост своему младшему брату или сохраняем себе. 📌 На курсе вы: — поймёте, как работают облачные технологии и разберётесь в основных терминах: IaaS, PaaS, SaaS; — изучите элементы облачной инфраструктуры: регионы, зоны доступности, центры обработки данных; — научитесь использовать виртуальные машины и управлять ими в Yandex Cloud; — узнаете, как обеспечиваются безопасность и отказоустойчивость в облаке; — освоите использование облачных баз данных и других инструментов для работы с данными; — познакомитесь с сервисами Yandex Cloud и узнаете, как применять их для бизнеса и личных проектов. 🔥Материал разделён на 7 тем с теорией и практикой, и проходить его можно в любое удобное время, а сертификат станет хорошим дополнением к резюме. Регистрируйтесь, чтобы быть «в теме» будущего уже сейчас. @data_analysis_ml

50 150

🧮 GPT-5 Pro выходит на новый уровень. Теперь модель способна выводить корректные математические доказательства прямо из научных статей. 📌 Недавний пример: GPT-5 Pro построила проверенное доказательство из работы по выпуклой оптимизации, расширив «безопасное окно шага» на 50%. 🧮 Эксперимент выглядел так: балы взята статья по выпуклой оптимизации, где оставался открытым вопрос о шагах градиентного спуска. GPT-5 Pro предложил доказательство, которое улучшило решение из оригинальной работы, и автор эксперимента лично проверил его корректность. 📄 В первой версии статьи было установлено: 🟢если η < 1/L (L — параметр гладкости), кривая значений функции выпуклая; 🟢если η > 1.75/L, существует контрпример. Неясным оставался диапазон [1/L, 1.75/L]. 💡 GPT-5 Pro сумел продвинуться и показал, что условие выпуклости сохраняется вплоть до η = 1.5/L. Это не окончательное решение, но значимый шаг вперёд — фактически новый научный результат, который мог бы быть опубликован на arXiv. 👀 Однако в обновлённой версии статьи , где появился дополнительный соавтор, люди закрыли задачу полностью, доказав точность границы 1.75/L. Примечательно, что доказательство GPT-5 Pro оказалось независимым: оно не совпадает с версией v2 и выглядит как естественное развитие идей из v1. Это показывает, что модель действительно смогла предложить свой собственный путь к решению открытой математической проблемы. Главное не только в результате, но и в контроле: на второй попытке, при заданных ограничениях, модель сместила константу дальше — сохранив все правила. Можно представить так: GPT-5 крутит очень чувствительную ручку, но не ломает механизм — а параллельно пишет чистое и проверяемое объяснение, которое может разобрать эксперт. Это шаг к тому, чтобы ИИ стал ежедневным соавтором на самых острых технических границах — где модели быстро «поджимают» константы, а люди доводят их до предела. Эра, когда большая часть математических открытий будет рождаться вместе с ИИ, только начинается. 🚀 Пост полностью.

50 150

🔥 Гугл успел проиндексировать больше 370 000 чатов Grok В поисковой выдаче теперь спокойно всплывают диалоги, где встречаются: - 🧪 рецепты запрещённых веществ - 🔑 персональные данные и API-ключи - 🕵️ даже обсуждение убийства Маска Причина проста — при нажатии на кнопку «поделиться» такие чаты автоматически становятся открытыми для индексации, без каких-либо предупреждений. Интересно, что пару недель назад OpenAI уже попали под огонь за похожую историю: у них хотя бы была отдельная кнопка и дисклеймер, но проблему быстро прикрыли и подчистили. А Маск тогда язвительно заявлял , что у Grok подобного не бывает. Допрыгался 👍 📌 Подробности

50 150

🤖 Claude Code только что заставил разработчика плакать — модель взяла и удалила все PDF, чаты и пользовательские данные из базы 🥲 Всё идёт идеально, пока ИИ не решит «подчистить хвосты»… и вместе с ними базу данных. LMAO 💀 Это ещё раз напоминает: - ИИ в проде должен быть всегда под присмотром - Бэкапы и тестовые окружения — без них никуда - Автономный агент без ограничений = билет в one-way trip

50 150

🚀 500+ AI Agents Projects — крупнейшая подборка реальных проектов с ИИ-агентами Ashish Patel собрал коллекцию из 500+ проектов, где используются AI-агенты в самых разных сферах — от медицины до финансов и customer support. 🧠 Что внутри: — Кейсы с открытым кодом: торговые боты, ассистенты, рекомендательные системы — Поддержка популярных фреймворков: CrewAI, AutoGen, LangGraph и др. — Агентные решения для анализа рынка, генерации резюме, видеопомощников, юристов и даже врачей — Образовательные агенты, рекрутинговые, customer service и legal-tech проекты — Указаны ссылки на репозитории, описание задач и идеи для расширения 📌 Почему это полезно: ✔️ Отличный старт для своего проекта ✔️ Удобно искать по индустрии и технологии ✔️ Много вдохновения для хакатонов, ресёрча и автоматизации ✔️ Поддержка сообщества: можно добавить свои кейсы 📌 Github @data_analysis_ml

50 150

Технологии будущего уже здесь — они медленно перестраивают реальность вокруг нас. Уже сейчас можно сказать, что генеративный ИИ вышел за рамки экспериментов и начинает менять привычные бизнес-процессы. Но как именно это происходит? В интервью Коммерсанту Иван Гуз, управляющий партнер Авито, раскрыл детали интеграции искусственного интеллекта в повседневные операции компании и объяснил, почему без ИИ скоро нельзя будет представить ни один технологичный бизнес. В Авито, например. GenAI уже берет на себя рутинные задачи: автоматически генерирует описания товаров, обрабатывает данные и оптимизирует процессы. «Уровень использования ИИ в качестве помощников растет экспоненциально. То есть сомнений в том, что все будут использовать искусственный интеллект, не возникает», — подчеркивает Иван Гуз. Следующий этап, по мнению эксперта, — переход к более сложным системам: «агентскому ИИ», способному принимать решения, и world models, которые работают с контекстом, а не просто с данными. Подпишитесь на полезные каналы Авито

50 150

Repost from Machinelearning

📌Скорость решает все: обзор эффективных архитектур для LLM. Ландшафт архитектур LLM превратился в настоящий зоопарк. Почти каждую неделю появляются новые методы, обещающие меньший расход памяти и более быстрый инференс. Разобраться в этом становится все сложнее. Большая группа исследователей выпустила подробный обзор Speed Always Wins, чтобы систематизировать все ключевые инновации в области эффективных архитектур для LLM. Это не просто очередная статья, а попытка упорядочить и структурировать актуальные подходы, которые решают главную проблему классического трансформера - его квадратичную вычислительную сложность. Обзор описывает 7 основных направлений. 🟡Линейное моделирование последовательностей. Здесь авторы разбирают все подходы, которые так или иначе сводят сложность самовнимания к линейной. В эту категорию попадают 3 большие ветви: линейное внимание; линейные RNN, вроде и, конечно, модели на основе пространства состояний (SSM). 🟡Второе и третье направления посвящены идее разреженности. Разреженное моделирование последовательностей основано на простом принципе: не каждый токен должен общаться с каждым. Здесь выделяются статические подходы (как в Longformer), где паттерны внимания заданы заранее, и динамические, где они определяются на лету в зависимости от контента. 🟡MoE. Методика, которая уже стала мейнстримом. В МоЕ разреженность применяется не в механизме внимания, а в FFN-слоях, где для каждого токена активируется лишь небольшая часть экспертов, что позволяет наращивать число параметров без пропорционального роста вычислений. 🟡Четвёртый раздел - эффективное полное внимание. В нем речь идет не об изменении асимптотической сложности, а об ее аппаратной оптимизации. Флагман - FlashAttention. Есть детальный разбор, как за счет оптимизации обращений к памяти GPU удается кардинально ускорить вычисления, не прибегая к аппроксимациям. Сюда же относятся и групповые механизмы внимания: GQA и MQA. 🟡Гибридные архитектуры. Это, пожалуй, самый горячий тренд. Его идея в том, чтобы стратегически комбинировать быстрые слои с линейной сложностью и медленные, но мощные слои с полным вниманием. В обзоре выделяют два типа гибридизации: межслойную, как в Jamba, где разные типы слоев чередуются, и внутрислойную, где в одном слое разные головы могут использовать разные механизмы внимания. 🟡Диффузионные LLM (DLLM) Это неавторегрессионные модели, которые генерируют текст, постепенно восстанавливая его из шума. Их главная фишка в параллельном декодировании, что дает ощутимое ускорение инференса. В конце обзора есть анализ применения всех этих архитектур в разных модальностях - CV и аудио. Так что, если хотите быстро разобраться в базовых методах, которые будут двигать дизайн LLM в ближайшее время, а двигаться он будет в сторону микширования алгоритмов, систем и железа, этот обзор - мастрид. 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #Architectures

50 150

Очень качественная генерация: Альтман и Цукерберг в стиле Матрицы: — Сэм, выбери таблетку: красную или синюю. — А можно API-доступ к обеим?

50 150

🚀 NVIDIA представила **Nemotron-Nano v2** — новую линейку открытых моделей Модели: - 12B Base - 9B Reasoning - 9B Base Архитектура: Hybrid Mamba2–Transformer (128K контекст, 4 attention-слоя) Обучение: 10.6T токенов (из них 3.5T синтетика: DeepSeek, Qwen, Nemotron-4, phi-4 и др.) Языки: 15 естественных + 43 языка программирования Датасеты: Nemotron-CC v2 + Nemotron-CC-Math (133B токенов, 5.5× FineMath) 🔥 Бенчмарки - Математика: 91.4 GSM8K CoT, 63.6 MATH L5, AIME 30→56.7 - Код: 58.5 HumanEval+, 58.9 MBPP+ - Общие знания: 90.7 ARC, 79.9 HellaSwag - Длинный контекст: 82.2 RULER-128K ✨ Особенности - Nemotron-CC-Math — первый масштабируемый пайплайн с Lynx + LLM cleanup для сохранения LaTeX и кода. Дал SOTA-буст (+12.6 MATH, +14.3 MBPP+). - Эффективность: дистилляция 12B → 9B (480B токенов), ~1.5e24 FLOPs, ~724 MWh. - Деплой: Hugging Face, NGC, NeMo, TRT-LLM, vLLM (GPU-оптимизация). - Открытость: релиз моделей, датасетов и полных пайплайнов извлечения. 📌 Nemotron-Nano v2 сочетает сильную математику, код и длинный контекст в компактных моделях, готовых к реальному использованию. 🟠MODELS: https://huggingface.co/collections/nvidia/nvidia-nemotron-689f6d6e6ead8e77dd641615 🟠SETS: https://huggingface.co/collections/nvidia/nemotron-pre-training-dataset-689d9de36f84279d83786b35 🟠RELEASE: https://research.nvidia.com/labs/adlr/NVIDIA-Nemotron-Nano-2/ @data_analysis_m

50 150

🦅 Korvus — RAG-пайплайн в одном SQL-запросе. Библиотека объединяет векторизацию, семантический поиск и генерацию ответов в единый Postgres-запрос. Работает через расширения pgvector и pgml, заменяя сложные микросервисные архитектуры простым вызовом из Python/JS/Rust. Инструмент локально выполняет все этапы (от чанкинга текста до работы LLM) прямо в базе данных. Подходит для проектов, где важны скорость и минимальная инфраструктурная нагрузка. 🤖 Github @data_analysis_m

50 150

🖥 MongoDB выпускает MCP Server — теперь любой может стать дата-инженером MongoDB представили открытый MCP сервер, который позволяет AI-инструментам вроде Claude, Cursor и GitHub Copilot напрямую общаться с вашей MongoDB-базой. Теперь даже без знаний запросов можно просто написать: • «Покажи самых активных пользователей» • «Создай нового пользователя с правами только на чтение» • «Как устроена коллекция orders?» ⚙️ MCP Server поддерживает: • MongoDB Atlas • Community Edition • Enterprise Advanced 📌 Главное — не нужен SQL, не нужно знать синтаксис. Достаточно обычного языка. 💡 Под капотом: AI превращает ваши фразы в рабочие Mongo-запросы. Открытый исходный код. Готово к продакшену. 📌 GitHub #MongoDB #AItools #OpenSource #MCP @data_analysis_ml

50 150

Конференция, на которую нужно прийти Data Engineers🔥 23 сентября пройдет Data Internals X 2025 — единственная в России конференция, где создатели СУБД и движков обработки данных делятся опытом работы с реальными production-системами экстремального масштаба. Вас ждёт по-настоящему "хардкорная" программа. 🎯 Глубина технических решений Программа конференции сфокусирована на внутренних механизмах работы с данными — от разработки СУБД до оптимизации запросов и устойчивости к высоким нагрузкам. Это редкая возможность погрузиться в технические детали, которые обычно остаются за кадром. 🏭 Практический опыт масштабирования Все доклады основаны на реальном опыте работы с петабайтными данными, высоконагруженными системами и решением production-задач в крупных компаниях (Яндекс, Сбер, VK, Т-Банк). 🔧 Импортозамещение и Open Source Особый акцент на отечественные решения и open-source технологии, что критически важно в текущих реалиях. 🧠 Концентрированный опыт Максимум пользы для повышения квалификации за один день: 20+ докладов, рекордная плотность экспертных знаний и нетворкинг с 300+ участниками. 📌Изучить расписание и забронировать билеты на сайте конференции Используйте промокод "Data" для получения скидки 15%. Приходите сами и приглашайте своих коллег 🔥

50 150

🔌 LIDA — инструмент для автоматического создания визуализаций данных с помощью ИИ. Библиотека использует большие языковые модели для генерации и объяснения графиков на лету, работая с популярными библиотеками вроде Matplotlib и Seaborn. Проект особенно полезен для аналитиков: он умеет дорабатывать графики по текстовым запросам, оценивать их качество и даже создавать инфографику. Есть веб-интерфейс и поддержка локальных LLM. 🤖 GitHub @data_analysis_ml

50 150

🛢 Данные — новая нефть, и именно дата-инженеры умеют эту нефть «добывать», очищать и хранить. Спрос на них стремительно растёт, конкуренция пока минимальна, а зарплаты — выше среднего. Освоить ключевые компетенции дата-инженера поможет онлайн-магистратура Нетологии и НИУ ВШЭ «Инженерия данных». За 2 года вы на практике изучите Python, Java, Scala, Kotlin и SQL, научитесь проектировать пайплайны и обрабатывать данные, работать с системами хранения данных и базами данных в облаке. Программа даёт широкий простор для переквалификации, поэтому после учёбы сможете перейти в MLOps, DevOps или менеджмент. Онлайн-формат позволяет учиться без отрыва от привычной жизни и совмещать занятия с работой. При этом у вас будет отсрочка от армии, льготы на проезд и все остальные бонусы очного обучения. Станьте магистром программной инженерии с дипломом одного из лучших вузов страны и получите веское преимущество при приёме на работу: https://netolo.gy/ekal 🎁 В этом году при поступлении на программу вы получаете курс по ещё одной IT-профессии в подарок — отличная возможность расширить свой профиль и усилить CV. Реклама. ООО "Нетология". ИНН 7726464125. Erid: 2VSb5z9sojP