Анализ данных (Data analysis)

Открыть в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Больше

Сеть:Machinelearning Россия12 565 Технологии и приложения2 677...

📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 165 подписчиков, занимая 2 677 место в категории Технологии и приложения и 12 565 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 165 подписчиков.

Согласно последним данным от 14 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -30, а за последние 24 часа — 4, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.79%. В первые 24 часа после публикации контент обычно набирает 6.04% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 4 408 просмотров. В течение первых суток публикация набирает 3 027 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 30.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Благодаря высокой частоте обновлений (последние данные получены 15 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

50 165

Подписчики

+424 часа

-527 дней

-3030 день

4 408

Просмотры поста

~ 3 02724 часа

~ 3 53448 часов

8.79%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

50 170

🎥 Making Flux Run Fast — оптимизация инференса PyTorch моделей Как ускорить генерацию изображений с текстом до менее чем полсекунды? Joel Schlosser из PyTorch Core показывает, как это сделать с помощью: - torch.compile — ускорение инференса без изменения модели - torch.export — подготовка модели к компиляции и интеграции - torchao — библиотека для квантования, критично важная для скорости Эти техники не только улучшают Flux, но универсальны и легко применимы к любым трансформерным моделям. 📺 Видео — часть серии PyTorch Compiler Series, где команда делится советами, лайфхаками и внутренностями оптимизирующего стека PyTorch. 🔗 Смотреть: https://www.youtube.com/watch?v=VNYBgqGQ98E

50 170

Кто создает будущее: исследователи или бизнес? Дискуссия с экспертами в области искусственного интеллекта: 🔶 Иван Оселедец, генеральный директор института AIRI 🔶 Андрей Рыбинцев, старший директор по ИИ в Авито Модератор: Анастасия Мануйлова, обозреватель «Коммерсантъ» — эксперт в сфере социально-экономических трансформаций общества. 📅 17 июля, 19:00 📍 офис Авито в Москве и онлайн ➡️ заявка на участие по ссылке Авито приглашает студентов и исследователей на дискуссию о развитии карьеры и выборе пути в сфере ИИ. А после паблик-тока — на неформальный вечер с экспертами, где участники смогут задать вопросы и наладить полезные контакты. Эксперты обсудят: - Что дает наука бизнесу и может ли современный технологический сектор развиваться без фундаментальных исследований? - Как происходит трансфер технологий в области ИИ из науки в коммерческий сектор и обратно? - Как начинающему специалисту выбрать между академической карьерой и работой в бизнесе? - Какие возможности открываются для молодых специалистов от сотрудничества науки и бизнеса? Приглашаем для полезного нетворкинга, новых знакомств и возможности получить ответы на ваши вопросы напрямую от экспертов рынка! Подать заявку на участие можно по ссылке – места ограничены, участники будут подтверждены исходя из темы дискуссии. Для подтверждения придет приглашение на почту. А все желающие смогут следить за трансляцией онлайн.

50 170

⚡️ Учёные нашли способ сделать электронику в 1000 раз быстрее Американские исследователи сделали прорыв в управлении квантовыми материалами. Они научились переключать 1T-TaS₂ — особый кристалл — между состояниями изолятора и проводника при обычных температурах и на стабильное время. ▪ Ключ к переключению — метод thermal quenching ▪ Материал реагирует на свет, изменяя свои электронные свойства ▪ Работает как транзистор, но в разы быстрее и без кремния ▪ Главное: переключение обратимое и мгновенное 💡 Почему это важно: Такие материалы способны заменить традиционные транзисторы, которые уже упёрлись в физические ограничения кремния. Это открывает путь к: - сверхбыстрым процессорам - минимальным размерам чипов - новой архитектуре вычислений Если технология масштабируется — это будет шаг к новой квантовой электронике, где компьютеры станут быстрее не на 20%, а в сотни раз. Источник: https://sciencealert.com/quantum-breakthrough-could-make-your-devices-1000-times-faster @data_analysis_ml

50 170

🧠 Как оживить open-source LLM без дообучения? Большинство открытых языковых моделей "замерзают" во времени: они не умеют гуглить, не могут обновляться и, как следствие, проваливаются на свежих научных задачах. 📄 Новый подход — X‑Master Он превращает любую LLM в агента с доступом к коду, вебу и самокритике, не изменяя веса модели. 💡 Как это работает: – Модель может вставить Python-код прямо в ответ – Код выполняется в песочнице, результат возвращается в чат – Это позволяет модели использовать «внешнюю память»: веб-скрапинг, вычисления, даже вызов инструментов Чтобы избежать случайных ошибок, авторы запускают 5 Solver-клонов, а затем роли Critic → Rewriter → Selector доводят ответ до ума. Этот «поиск → чистка» напоминает reinforcement rollouts, но не требует переобучения. 📈 Результат: – DeepSeek-R1 на задаче «Humanity’s Last Exam»: с 17.7% до 32.1% – Обходит закрытые модели на сложном биотесте на +5 пунктов 💥 И всё это — без дообучения. Просто обёртка. Промпты, sandbox, и немного здравого смысла — и ваша модель снова в игре. arxiv.org/abs/2507.05241

50 170

🔥 Meta строит ИИ-монстра: кластер Prometheus уже потребляет 1 ГВт По данным SemiAnalysis, Meta заливает $30 млрд в перезапуск суперИИ — новые дата-кластеры, миллионы GPU и зарплаты уровня "заберите всех ресерчеров". 📍 В Огайо Meta строит один из крупнейших кластеров для обучения ИИ в мире — Prometheus (1 ГВт потребления). 📍 В Луизиане — Hyperion, цель к 2027 году: 2 ГВт. Всё на базе NVIDIA и собственных газовых турбин. Без дизеля — умная система охлаждения + временные тентовые ЦОДы, которые ставятся за месяцы. 🚫 Что пошло не так в прошлой попытке Llama‑гиганта: - плохая реализация chunked attention - сбои в expert choice routing - низкое качество данных - плохая координация масштабирования Теперь Meta берёт в расчёт всё: вычисления, инфраструктуру, данные и кадры. Ставка — на абсолютное лидерство в суперИИ. Война моделей — это уже не про параметры, а про ГигаВатты. *Meta признана экстремистской и запрещена в России. 📌 Подробнее @data_analysis_ml

50 170

🎓 Machine Learning Visualized — лучший способ понять, как работает ML *на самом деле* Обычно машинное обучение учат по формулам или просто вызывают fit(). Но если ты хочешь увидеть, как алгоритмы учатся шаг за шагом, — этот проект создан для тебя. 🔍 Что это: Открытый Jupyter Book с интерактивными ноутбуками, в которых: - Алгоритмы реализованы «с нуля» на NumPy - Каждый шаг визуализирован: потери, веса, градиенты, границы решений - Можно изменять параметры и наблюдать, как это влияет на обучение 📘 Темы: - Градиентный спуск - Логистическая регрессия - Перцептрон - K‑Means и PCA - Обратное распространение в нейросетях 🧠 Полезно: - Если ты изучаешь машинное обучение и хочешь понять, что происходит внутри моделей - Если преподаёшь ML и ищешь понятные наглядные материалы - Если хочешь объяснить ML-процессы коллегам без магии 🚀 Запуск:


git clone https://github.com/gavinkhung/machine-learning-visualized
cd machine-learning-visualized
./download_notebooks.sh
jupyter-book build .

Или просто заходи на сайт: 🔗 https://ml-visualized.com/ 📦 Open Source, MIT ⭐️ 460+ звёзд, можно вносить вклад, добавлять новые алгоритмы и улучшать визуализации. 👉 Репозиторий: https://github.com/gavinkhung/machine-learning-visualized ▶️ Учимся здесь

50 170

Хотите освоить Python с экспертами НИУ ВШЭ и начать путь в аналитику? Онлайн-магистратура «Аналитика больших данных» запускает бесплатный интенсив по Python и аналитике. 4 вечера, чтобы разобраться с базовыми инструментами анализа данных и решить свои повседневные задачи. Что вас ждёт: — 4 онлайн-занятия: от синтаксиса Python до работы с таблицами и визуализации — Практические примеры и мини-кейсы — Домашки и пошаговые материалы на Stepik для отработки навыка Когда: 15–19 июля, 19:00 (по МСК) Формат: онлайн + чат с преподавателем Если давно хотели разобраться с Python, это удобная точка входа с экспертной поддержкой и ценными знаниями. 🔗 Зарегистрироваться

50 170

🎮 Инженеры X (команда Илона Маска) сделали рабочую игру 3D-FPS за 4 часа с помощью Grok 4 Разработчик из xAI, Дэнни Лимансета, собрал шутер от первого лица всего за 4 часа, используя Grok 4 — LLM от команды Илона. Модель помогла с кодом, импортом ассетов, базовой логикой и генерацией окружения. 🛠 Что внутри: — 3D-персонаж и базовое перемещение — Импорт моделей и текстур из сети — Логика стрельбы, здоровье, базовый UI — Всё собрано в одном пайплайне с помощью Grok 4 💬 Реакция комьюнити на Reddit: > “Это неплохо для 4 часов, но опытный геймдев сделал бы не хуже без ИИ.” > “Я такое соберу вручную за пару часов с ассетами.” 🔗 Пост @data_analysis_ml

50 170

🦉 Как CAMEL-AI автоматизировали построение графиков с помощью Gemini 2.5 Pro Команда CAMEL-AI показала, как связала свою систему агентов OWL с моделью Gemini 2.5 Pro, чтобы всё делалось само: от поиска данных до готового графика. Что делает агент: 1. Ищет нужную информацию (например, бенчмарки ИИ-моделей) 2. Кратко объясняет, что в ней важного 3. Пишет Python-код для графика 4. Строит график и сохраняет и код, и изображение 💡 Всё это происходит по простому текстовому запросу — прямо в браузере через готовый интерфейс. Почему это круто: — Не нужно писать код самому — Система сама выбирает нужные шаги — Всё работает в одном окне: и модель, и инструменты, и визуализация — Можно подключать любые API и расширять под себя 📌 Подробнее

50 170

🛠Вышла новая модель от Mistral — Devstral‑Small‑2507 Это обновлённая версия модели для работы с кодом. Поддерживает 128k токенов, работает локально и показывает рекордные результаты среди открытых моделей. Что нового: • 53.6% на SWE‑Bench Verified • Поддержка function calling, XML и промтов для код‑агентов • Запускается на 1×RTX 4090 или Mac с 32 GB ОЗУ • Apache 2.0 • Доступна через Ollama, LM Studio, Hugging Face, vLLM Тарифы API: $0.1 за миллион входных токенов $0.3 за миллион выходных Подходит для: — Автоматизации правок и генерации тестов — Интеграции в IDE и агенты — Анализа больших проектов 🔗 Модель: https://huggingface.co/mistralai/Devstral-Small-2507

50 170

🚀 Fine-tuning LLM с помощью RL — это несложно! Вот минимальная реализация GRPO/PPO для Qwen3 на JAX — всего ~400 строк кода от начала до конца. Что внутри: - GRPO (Gradient-Regularized PPO) и PPO, реализованные с нуля - Поддержка Qwen3, open LLM от Alibaba - JAX-first подход: чистый, модульный и легко читаемый код - Простая архитектура для быстрого ресёрча и экспериментов Особенности: - Без лишней магии и абстракций — всё прозрачно - Минимум зависимостей - Отличный старт для тех, кто хочет разобраться в LLM+RLHF Подходит для: - Исследователей, изучающих RL на языковых моделях - Разработчиков, которые хотят понять PPO руками - Всех, кто хочет обучать LLM «по-честному» 🧠 Хочешь разобраться в fine-tuning LLM через RLHF — начни с этого простого и понятного репозитория! 📦 Репозиторий: https://github.com/kvfrans/lmpo

50 170

🔥 Новый инструмент на Hugging Face: **AllTracker** AllTracker — это open-source модель для плотного отслеживания всех точек в видео. В отличие от классических подходов, она умеет отслеживать пиксели даже на больших временных расстояниях и при высоком разрешении (до 1024×768). Что умеет: - Отслеживает движение всех точек (dense point tracking) - Работает быстро и точно на видеороликах высокого качества - Подходит для компьютерного зрения, motion analysis и видеоредактирования В репозитории: - Готовые веса модели (`.pth`) - Мини-версия для быстрой инференции - Демо-приложение на Gradio прямо в браузере: загрузи видео, кликни точку — и смотри, как она движется по кадрам Используй для: - Анализа движения - Видеомонтажа с отслеживанием - Исследований в области CV model: https://huggingface.co/aharley/alltracker demo: https://huggingface.co/spaces/aharley/alltracker @data_analysis_ml

50 170

👩‍💻 Всем программистам посвящается! Вот 17 авторских обучающих IT каналов по самым востребованным областям программирования: Выбирай своё направление: 👩‍💻 Python — t.me/python_ready 🤔 InfoSec & Хакинг — t.me/hacking_ready 🖥 SQL & Базы Данных — t.me/sql_ready 🤖 Нейросети — t.me/neuro_ready 👩‍💻 C/C++ — https://t.me/cpp_ready 👩‍💻 C# & Unity — t.me/csharp_ready 👩‍💻 Linux — t.me/linux_ready 📖 IT Книги — t.me/books_ready 👩‍💻 Frontend — t.me/frontend_ready 📱 JavaScript — t.me/javascript_ready 👩‍💻 Backend — t.me/backend_ready 📱 GitHub & Git — t.me/github_ready 👩‍💻 Java — t.me/java_ready 👩‍💻 Весь IT — t.me/it_ready 👩‍💻 Bash & Shell — t.me/bash_ready 🖼️ DevOps — t.me/devops_ready 🖥 Design — t.me/design_ready 📌 Гайды, шпаргалки, задачи, ресурсы и фишки для каждого языка программирования!

50 170

Repost from Machinelearning

🚨 Grok 4 — новая мощная модель от xAI 📊 Лидер на бенчмарках: - Решает математику AIME25 на 100% — не ошиблась ни в одной из самых сложных задач - ARC-AGI-2: 15.9% против 8.6% у прошлых лидеров — почти в два раза выше, чем у Claude 4 Opus. 🧠 Главное достижение — Humanity’s Last Exam: - С максимальными ресурсами и включённой поддержкой внешних инструментов — 44.4% (а на текстовой части даже 50.7%). - Даже без внешних инструментов — всё ещё лучше всех: 25.4%, у ближайшего конкурента (Gemini 2.5 Pro) — 21.6%. - Почти половина презентации была посвящена именно этому тесту. 🛠 Что под капотом: - Архитектура — та же, что у Grok 3. - Изначально это должна была быть версия Grok 3.5, но решили увеличить объём обучения. - На стадию логического обучения (reasoning) потратили в 10 раз больше ресурсов. - Теперь объём дообучения через RL (reinforcement learning) сопоставим с основным обучением. - Важно: теперь модель сразу обучают использовать внешние инструменты во время RL, как это делают в OpenAI (в o3 и o4-mini). 📉 Слабые места: - Мультимодальность пока на слабом уровне: большинство тестов — чисто текстовые, и на HLE модель показывает просадку. - Маск пообещал, что в следующей версии это исправят. 📏 Контекст увеличили до 256k токенов. 💬 API уже запущен: - Стоимость — как у Grok 3 и Claude Sonnet. - Но из-за "разговорчивости" на практике модель по цене ближе к Claude Opus. - Grok 4 Mini не выпустили — жаль, ведь Grok 3 Mini была отличной за свою цену. 🏭 Инфраструктура xAI растёт стремительно: - Через 3–4 недели стартует тренировка видеомодели на 100k+ GPU GB200. - В июне компания привлекла $10 млрд: половина — инвестиции, половина — в долг. - В планах — новое расширение дата-центра Colossus. 📌 Grok 4 — это не просто обновление, а важный шаг вперёд в развитии reasoning-моделей и интеграции с внешними возможностями. Тестим здесь. @ai_machinelearning_big_data #grok

50 170

Google DeepMind расширяет линейку своих моделей Gemma Представлены две новинки: ✔️ T5Gemma — новая жизнь для классической архитектуры encoder-decoder от Google DeepMind Большинство современных LLM используют архитектуру *decoder-only*, но Google решила напомнить о силе классической схемы *encoder-decoder*, особенно эффективной в задачах вроде перевода, и QA. Это новая линейка LLM, в которой уже обученные модели Gemma 2 (decoder-only) превращаются в мощные encoder-decoder через метод адаптации. Такой подход даёт сразу два бонуса: - сохранение знаний из Gemma 2; - гибкость и эффективность encoder-decoder архитектуры. Особенности: - Обновлённая версия Gemma 2 с архитектурой encoder-decoder. - Отличный баланс между качеством и скоростью инференса (по сравнению с decoder-only). - Доступны чекпойнты: Small, Base, Large, XL, 2B-2B, 9B-9B, 9B-2B. - Достигает большей точности, не жертвуя временем инференса. - Открывает путь к “небалансным” конфигурациям, когда, например, энкодер мощный, а декодер компактный. ✔️ MedGemma — открытые мультимодальные модели для медицины от Google DeepMind 🟡 MedGemma 4B Multimodal - 64.4% на MedQA — одна из лучших моделей в классе <8B. - В слепом тесте: 81% отчётов по рентгенам, сгенерированных MedGemma 4B, были признаны квалифицированным рентгенологом достаточно точными для принятия медицинских решений. - Также показывает SOTA-уровень на задачах медицинской классификации изображений. 🟢 MedGemma 27B (Text + Multimodal) - 87.7% точности на MedQA — почти как у DeepSeek R1, но в 10 раз дешевле по инференсу. - Конкурирует с гораздо более крупными моделями на задачах: - Определение диагноза; - Интерпретация ЭМК (электронных медкарт); - Комбинированное понимание текста и изображений. Открытые модели — можно кастомизировать, дообучать и использовать локально. 🟡T5gemma: https://developers.googleblog.com/en/t5gemma/ 🟡MedGemma: https://research.google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/ #GoogleDeepMind #ai #ml #llm #med

50 170

🧠 Хочешь сделать свой ИИ-стартап? Начни с базы! Microsoft запустила бесплатный курс по MCP — это про то, как подключать нейросети к реальным приложениям: сайтам, чатам, бэкендам и не только. 📚 Что внутри: • 11 модулей с теорией и практикой • Примеры кода на разных языках • Всё можно пройти на русском Идеально, если хочешь научиться использовать ИИ не на уровне «поиграться», а реально внедрять. 👉 Курс бесплатный — забираем здесь

50 170

ML-инженеры, какая встреча! 19 июля в Москве снова пройдет Turbo ML Conf от группы Т-Технологий. В этом году — еще масштабнее! В программе 5 тематических потоков, продовые кейсы и технологии. Среди спикеров — эксперты Т-Банка, Сбера, Яндекса и других ведущих специалистов. Будет много нетворкинга, прикладные доклады, настольные игры, лимитированный мерч. Участие бесплатное. Успейте оставить заявку

50 170

🎯 Hugging Face показал, как ускорить обучение мультимодальных моделей, устранив главное узкое место — неэффективную загрузку данных. Они представили Multimodal Data Pipeline (MMDP) — мощный, но простой пайплайн, который решает проблему простоя GPU из-за паддинга и медленного I/O. Вот как это работает: 1. Визуализация данных — сначала анализируются длины текстов и структура мультимодальных примеров. 2. Constrained Padding — вместо бездумного паддинга, обрезаются аномально длинные примеры. 3. Packing как bin-packing — батчи собираются по максимальному числу токенов, а не по фиксированному количеству примеров. 4. Multimodal-aware batching — учитывается и число изображений в батче. 5. ConstantLengthDataset — кастомный класс с producer-consumer очередями и плотной упаковкой без паддинга. 💡 Результат — более плотные батчи, меньше токенов вхолостую, выше эффективность обучения. Исходники и туториал: 📌 https://huggingface.co/blog/mmdp 📌 https://github.com/ariG23498/mmdp Если ты тренируешь VLM или LLM с изображениями — это must-have. @data_analysis_ml

50 170

🧠 Hugging Face представили SmolLM-3B — компактную и мощную open-source LLM на 3 млрд параметров, которая работает *прямо на ноутбуке*. 📦 Особенности: • Тренирована на 1T токенов (RefinedWeb + книги + код + академические тексты) • Обгоняет Mistral-7B и LLaMA-3 8B на многих задачах • Работает в GGUF, поддерживается LM Studio, Ollama, LM Deploy и др. 💡 Зачем это нужно? SmolLM — не про SOTA, а про локальные сценарии: быстрый запуск, приватность, низкие требования к железу. 📁 Репозиторий и демо: https://huggingface.co/blog/smollm3 @data_analysis_ml