Анализ данных (Data analysis)

Открыть в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Больше

Сеть:Machinelearning Россия12 565 Технологии и приложения2 677...

📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 179 подписчиков, занимая 2 677 место в категории Технологии и приложения и 12 565 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 179 подписчиков.

Согласно последним данным от 15 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -8, а за последние 24 часа — 25, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.82%. В первые 24 часа после публикации контент обычно набирает 5.98% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 4 427 просмотров. В течение первых суток публикация набирает 2 999 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 30.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Благодаря высокой частоте обновлений (последние данные получены 16 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

50 179

Подписчики

+2524 часа

-287 дней

-830 день

4 427

Просмотры поста

~ 2 99924 часа

~ 3 53048 часов

8.82%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

50 179

Repost from Machinelearning

🔥 Manus Chat Mode — бесплатно и без ограничений для всех. 💬 Работает супер быстро прямо в чате. 🚀 Так же доступен Agent Mode с расширенными возможностями. От простых вопросов до сложных задач — всё в одном окне : https://manus.im/ @ai_machinelearning_big_data #news #ai #ml #manus

50 179

🧠 16 июня все самое важное в мире технологий ищите в Санкт-Петербурге! В ТехноХабе Сбера состоится большая сессия в рамках серии мероприятий международной конференции AI Journey. Именно здесь соберутся лидеры AI-индустрии из разных стран, чтобы обсудить реальные кейсы внедрения AI, архитектуры нового поколения, крутой апгрейд нейронки GigaChat, самое свежее в исследованиях GenAI и то, что уже завтра станет новым стандартом! 📌 Подключайтесь к трансляции, чтобы не отставать от будущего.

50 179

🚀 NVIDIA представила гигантский синтетический датасет для беспилотных автомобилей! 🔥 Что внутри? ▪ 81,802 синтетических видео с разнообразными сценариями: — Городские/шоссейные дороги — Экстремальные погодные условия (дождь, снег, туман) — Редкие ситуации (аварии, нестандартные ПДД) Мультисенсорные данные: — Камеры, лидары, радары — Разметка объектов (пешеходы, машины, знаки) ▪Dataset: https://huggingface.co/datasets/nvidia/PhysicalAI-Autonomous-Vehicle-Cosmos-Drive-Dreams ▪ Project Page: https://research.nvidia.com/labs/toronto-ai/cosmos_drive_dreams/ @data_analysis_ml

50 179

Repost from Machinelearning

⚡️ Mistral выпустила ризонинг-модель Magistral. Magistral — первая модель рассуждений от Mistral AI. Она сочетает глубокую логическую обработку с возможностью отслеживать каждый шаг её «мышления». Модель получила поддержку 8 языков, включая русский и выпущена в 2 вариантах: 🟢опенсорсный Magistral Small с 24 млрд. параметров; 🟠корпоративный Magistral Medium. Внутри Magistral работает в режиме рассуждений, разбивая задачи на цепочки логических шагов, а Flash Answers ускоряет вывод в 10 раз по сравнению с конкурентами. Для интеграции в рабочие процессы модель умеет взаимодействовать с внешними инструментами (API или базами данных). В тестах Magistral Medium показал 73,6% точности на задачах AIME2024, демонстрируя силу в физических симуляциях и математических расчетах. Для разработчиков доступны версии на Hugging Face, AWS и IBM WatsonX, а в будущем — на Azure и Google Cloud. Демо Magistral доступно в интерфейсе Le Chat или по API в La Plateforme. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Модель 🟡Техотчет 🟡Web Demo @ai_machinelearning_big_data #AI #ML #LLM #Magistral #MistralAI

50 179

🧠 Cartridges: как ускорить LLM в 26 раз без потери качества Что, если вместо того, чтобы каждый раз загонять в контекст LLM весь репозиторий, мы предварительно обучим мини-контекст — и будем просто вставлять его при генерации? 🔍 Это и есть идея Cartridges — небольшой KV-кэш, обученный заранее с помощью метода self-study (обучение во время инференса). 📦 Репозиторий: содержит код для тренировки "картриджа" — легкого представления большого текстового дампа (например, всей кодовой базы), которое вставляется в LLM как контекст. 📉 Проблема: • Если вставлять много текста в LLM, KV-кэш раздувается, скорость падает, стоимость растёт 🚀 Решение: • Обучаем маленький KV-кэш для документации или репо • Используем его как "сжатый контекст" при генерации 📈 Результаты: • До 26× ускорения • Качество ответов сохраняется • Простая реализация и универсальный подход 📖 Подробнее в статье: *Cartridges: Lightweight and general-purpose long context representations via self-study*

git clone https://github.com/HazyResearch/cartridges && cd cartridges
pip install uv
uv pip install -e .

📎 Идея простая, но мощная: пусть LLM "запоминает" ваш проект заранее — и работает с ним быстро, как с привычным знанием. ▪ Github

50 179

🧠 NVIDIA выпустила *Nemotron-Personas* — 100 000 синтетических персон на Hugging Face! 🔓 Открытый датасет, сгенерированный нейросетью, но основанный на *реальных распределениях* пользователей. Что это даёт: • 🧩 Больше *разнообразия* в данных • 🛡 Снижение *предвзятости* моделей • 🧠 Защита от *model collapse* при масштабном обучении 📦 Подходит для тестирования, дообучения и анализа LLM в сценариях с разными типами людей: по мотивации, профессии, эмоциям, взглядам и пр. 🔗 Датасет уже доступен на Hugging Face: NVIDIA Nemotron-Personas → https://huggingface.co/datasets/NVIDIA/nemotron-personas @data_analysis_ml

50 179

🎉 Apple на WWDC 2025: революция для разработчиков и новый дизайн 📦 Что нового: • On-device AI для всех Apple открывает доступ к своим LLM-моделям прямо на устройствах. Теперь разработчики могут использовать Apple Intelligence в своих приложениях — без интернета и с полной защитой приватности. • Xcode 26 + ChatGPT Новая версия Xcode умеет генерировать код, помогать с тестами и исправлять баги с помощью встроенной интеграции ChatGPT и других LLM. • Liquid Glass — новый дизайн Apple Полупрозрачные и живые элементы интерфейса приходят во все системы: iOS 26, macOS Tahoe, iPadOS, watchOS, visionOS. Всё выглядит как будущее. • Icon Composer для дизайнеров Создавайте адаптивные иконки с эффектами бликов, размытием и прозрачностью. Никаких ручных svg больше не нужно. • 250 000+ API и новые фреймворки Улучшения в SwiftUI, Metal, RealityKit и множестве других SDK. Новые API для AI, AR, visionOS и работы с пространственными интерфейсами. 🧪 Бета уже доступна для участников Apple Developer Program. Публичная бета — в июле. Финальный релиз — осенью. 💡 Это шаг в сторону мощных оффлайн-приложений с AI, нового визуального языка и реального удобства разработки. https://www.apple.com/newsroom/2025/06/apple-supercharges-its-tools-and-technologies-for-developers/ @data_analysis_ml

50 179

✔️ Welcome Time в Яндексе — дружелюбная встреча для аналитиков 📍 21 июня, Москва, штаб-квартира на Льва Толстого Что такое R&D и чем аналитики в этой команде отличаются от продуктовых? Узнаете на тёплой встрече с командами исследований Яндекса. В программе доклады от практиков: 🔸 *Ирина Барская* — руководитель службы аналитики и исследований → Расскажет, какие технологии развивают в R&D 🔸 *Иван Дёгтев* — руководитель аналитики генеративных моделей → Объяснит, как работает и развивается YandexGPT 🔸 *Елена Вольф* — аналитик-разработчик YandexGPT → Расскажет, как GPT помогает саппорту в роли RAG-ассистента 🔸 *Артём Хуршудов* — руководитель аналитики визуальных моделей → Покажет, как генерируют изображения с помощью YandexART и VLM 🔸 *Арсений Нестюк* — руководитель аналитики распознавания речи → Поговорит про голосовые технологии и Алису 📊 Бонус: быстрая диагностика навыков по аналитике и статистике. 🧠 Успешное прохождение = автоматический зачёт техсекции на собеседовании в Яндекс (действует 2 года). 📅 Успей зарегистрироваться до 19 июня — будет интересно, полезно и без галстуков. ➡️ Регистрация на Welcome Time

50 179

🧠 PyTorch Distributed Checkpointing теперь поддерживает HuggingFace safetensors 📦 Что произошло: Платформа DCP (Distributed Checkpointing) в PyTorch теперь встраивает нативную поддержку формата safetensors от HuggingFace. Это важный шаг к полной совместимости с экосистемой HF, которая активно используется в инференсе и дообучении. 🔍 В чём была проблема: • DCP раньше использовал свой собственный формат чекпоинтов • Чтобы работать с HuggingFace, приходилось писать конвертеры • Чекпоинты приходилось загружать локально, что усложняло пайплайны 🚀 Что изменилось: • Теперь можно сохранять и загружать модели напрямую в safetensors • Поддерживается любой `fsspec`-совместимый storage (S3, GCS, локалка и т.д.) • Интеграция уже улучшила UX в torchtune, став первым пользователем новой фичи 🛠 Как использовать: • Просто передай новый load planner и storage reader в load() • И аналогично — save planner + writer для save() • Всё остальное работает как раньше 📈 Что это даёт: • Меньше костылей и меньше кода • Единый формат чекпоинтов для HF и PyTorch • Более гибкие и производительные пайплайны #PyTorch #HuggingFace #safetensors #ML #checkpointing #opensource https://pytorch.org/blog/huggingface-safetensors-support-in-pytorch-distributed-checkpointing @data_analysis_ml

50 179

🎯 Работа с многомерными данными — это вызов. Хотите узнать, как избавиться от лишнего «шума» и сохранить только важную информацию? 🔍 На открытом вебинаре вы узнаете, как методы уменьшения размерности помогают обрабатывать сложные данные, ускорять машинное обучение и находить скрытые закономерности. Мы разберем популярные техники: PCA, t-SNE, UMAP и автоэнкодеры, а также покажем, как эффективно применять их на практике. 🚀 С помощью простых и мощных методов вы научитесь повышать интерпретируемость моделей и ускорять их работу — это даст ощутимые преимущества в реальных проектах. Отличная возможность повысить свою квалификацию в Data Science! 📅 Урок пройдет в преддверии старта курса «Machine Learning. Professional». 🔗 Зарегистрируйтесь и получите скидку на обучение: https://otus.pw/uR54/?erid=2W5zFJBYgVN Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

50 179

🍏Иллюзия мышления: понимание сильных и слабых сторон моделей рассуждения через призму сложности задач Apple внезапно опубликовала исследование, которое разоблачает популярные LLM с "цепочкой размышлений" (Chain-of-Thought) — такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1. 📌 Что тестировали? Логические задачи: • башни Ханоя (100+ шагов!) • загадка про волка, козу и капусту • головоломки с правилами и условиями И всё это — с усложнением. 💥 Результаты: — 🔁 Модели не думают, а вспоминают Они не решают задачу шаг за шагом, а ищут похожие примеры в своей базе знаний. Это имитация мышления, а не само мышление. — 🤯 "Переосмысление" вредит Если задача простая, модель находит верный ответ — и… продолжает «думать» дальше, усложняя всё и случайно портя решение. — 🧠 Больше размышлений ≠ лучше результат Дать больше токенов и времени на размышления не помогает. На сложных задачах модели просто сдаются быстрее. Даже "бесконечный" бюджет не спасает. — 🧪 Few-shot примеры не работают Даже если расписать пошаговое решение и дать примеры — модель всё равно ломается, если задача ей незнакома. — 🏗 Модели обожают Ханой, но ненавидят загадки Башни Ханоя решаются идеально даже на 100+ шагов. А вот в простой задаче с козой и капустой — модели сдаются на 4-м шаге. Почему? Ханой — в датасетах, загадки про реку — нет. 🍏 Интересно, что Apple выпустила это исследование за день до WWDC 2025. Подколка конкурентам? А завтра, может, и своё покажут. 🤔 📎 Исследование: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf @data_analysis_ml #AI #LLM #AGI #Apple #WWDC2025 #PromptEngineering #NeuralNetworks

50 179

🦖 Tokasaurus — универсальный токенизатор с поддержкой 70+ языков Tokasaurus — это быстрый и лёгкий инструмент для токенизации текста, созданный на базе библиотеки tokenizers от Hugging Face. Он поддерживает более 70 языков программирования и естественных языков. 🔍 Что умеет Tokasaurus: • ✂️ Разбивает текст на токены для языковых моделей • 🧠 Поддерживает GPT-совместимые токенизаторы (tiktoken, BPE и другие) • 🌍 Работает с Python, JavaScript, C++, Rust, Markdown, JSON, YAML и многими другими • ⚡ Очень быстрый — написан на Rust с Python-обёрткой • 📦 Используется как CLI, Python-библиотека или Web API

pip install tokasaurus

🧪 Пример использования (Python):


from tokasaurus import tokenize

tokens = tokenize("def hello(): print('Hi')", model="gpt2")
print(tokens)

🎯 Кому подойдёт: • Тем, кто работает с LLM • Для оценки длины prompt'ов • Для предобработки кода и текста • Для интеграции в пайплайны, IDE, аналитические инструменты 🔗 GitHub: github.com/ScalingIntelligence/tokasaurus 💡 Если тебе нужен универсальный и быстрый токенизатор — попробуй Tokasaurus. @data_analysis_ml

50 179

🦣 Ты мамонтёнок? Потерял маму? 💀 А может, сам разводишь стадо?В любом случае — теперь у тебя есть бот, который знает больше, чем твой следователь. --- 📱 Вводишь номер — и получаешь:👤 ФИО, паспорт, ИНН, адрес прописки📞 С кем звонил, когда и откуда💬 WhatsApp, Telegram, VK, даже если он “удалился”🖼️ Фото, соцсети, даже одноклассница Оксана 2008 года --- – Хочешь узнать, кто названивает по ночам?– С кем твоя бывшая реально "осталась друзьями"?– Кто стоит за фейковым аккаунтом, который пишет “приветик 👀”? 🔍 Мы пробьём всех. Даже если они под VPN, с фейковым именем и через eSIM.🐾 Оставили след в сети? Мы его найдём.🚫 Думаешь, удалил — значит, исчез? Ха-ха. Ты просто добавился в базу https://tglink.io/6718f8dd97db?erid=2W5zFHJALXJ - постоянная ссылка @Manticore1_bot - бот

50 179

🚀 MiniCPM4 — компактная LLM нового поколения Модель от OpenBMB, которая работает в 5 раз быстрее на конечных устройствах. Отлично подходит для edge-решений и встраивания. 🔧 Что нового: 🏗️ InfLLM v2 — обучаемое разреженное внимание 🧠 Model Wind Tunnel 2.0 — масштабирование с предсказуемой эффективностью 🔢 BitCPM — ультракомпактная тернарная квантизация 📚 UltraClean + UltraChat v2 — чистые датасеты для преобучения и fine-tuning ⚡ CPM.cu + ArkInfer — лёгкий фреймворк для быстрого инференса на GPU и в проде 📖 Technical Report: https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdf 🤗 Models: https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b ⭐ GitHub: https://github.com/OpenBMB/MiniCPM @data_analysis_ml #LLM #AI #MiniCPM4 #EdgeAI

50 179

Repost from Machine learning Interview

🚀 Теперь можно запускать модели Hugging Face прямо в Google Colab — бесплатно! Больше не нужно настраивать окружение вручную. Просто заходишь на страницу модели — и нажимаешь "Open in Colab". Всё готово для запуска за секунды. ✅ Отлично подходит для: - Быстрого теста модели - Прототипирования и экспериментов - Обучения и демонстраций 💡 Бонус для разработчиков: Добавь файл notebook.ipynb в свой репозиторий модели — и Hugging Face автоматически подхватит его. Пользователи смогут запускать твой пример сразу, без копирования кода! 🔥 Работает с Google Colab — бесплатно, быстро, удобно. #HuggingFace #Colab #ML #AI #OpenSource #DeepLearning ✔️ Подробнее @machinelearning_interview

50 179

🎬 Tencent выложила в открытый доступ код и веса модели **HunyuanCustom** — инструмента для кастомизации видео, управляемого аудио или другим видео. 🔊 Модель может на лету изменять видео на основе звуковой дорожки 🎥 Или адаптировать ролик под другое видео-вход 🧠 Подходит для синхронизации движений губ, мимики, анимации по голосу и многого другого В репозитории доступны: • Инференс-код • Весы модели • Примеры и документация 📂 GitHub Теперь кастомизация видео — это всего несколько строчек кода. @data_analysis_ml #Tencent #Hunyuan

50 179

🤖 Figure 02 уже сегодня сортирует, перемещает и анализирует десятки товаров одновременно Наблюдая за такими роботами, сложно представить, что через год в логистике и на складах будут работать люди. Скорость, с которой они развиваются, — просто ошеломляющая. То, что ещё недавно казалось фантастикой, уже становится реальностью. И происходит это быстрее, чем мы успеваем привыкнуть.

50 179

Repost from Machinelearning

⚡️Релиз Qwen3-Embedding и Qwen3-Reranker ✨ Главное: ✅ Модели на 0.6B, 4B и 8B параметров ✅ Поддержка 119 языков ✅ Sota на MMTEB, MTEB и MTEB-Code ✅ Открытый код на Hugging Face, GitHub и ModelScope ✅ Доступ через API на Alibaba Cloud 🔍 Применение: Поиск документов, RAG, классификация, поиск кода и др. 🟡 Qwen3-Embedding: https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f 🟡Qwen3-Reranker: https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea 🟡GitHub: https://github.com/QwenLM/Qwen3-Embedding 🟡Modelscope: https://modelscope.cn/organization/qwen @ai_machinelearning_big_data #qwen

50 179

⚡️Пошаговый план: как стать аналитиком данных в 2025 Хотите попасть в аналитику, но теряетесь в море информации и не понимаете, какие навыки действительно важны? Боитесь, что без опыта вас не возьмут на работу? И да, ещё один популярный вопрос — а что, если мне 30/40/50+ лет? Андрон Алексанян — эксперт по аналитике с 8-летним опытом и по совместительству CEO Simulative — покажет рабочие схемы и чёткий план, как устроиться в аналитику быстрее, даже если у вас нет опыта Что будет на вебинаре? 🟠 Разберёте полный роадмап: что учить, в каком порядке, до какого уровня; 🟠 Лайфхаки трудоустройства: — покажут реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание; — обсудите, какие отклики работают, а какие сразу отправляют в корзину; — изнанка найма: инсайдерский взгляд на процессы отбора 🟠 Практические техники для новичков: разберёте, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях 🕗 Важно досмотреть вебинар до конца, чтобы получить бонус от Simulative, который поможет бустануть карьеру 😶Зарегистрироваться на бесплатный вебинар

50 179

🤖 Eso-LMs — новая архитектура языковых моделей, объединяющая лучшее из autoregressive и diffusion-подходов Исследователи представили Eso-LMs (Esoteric Language Models) — модель, которая совмещает два разных способа генерации текста: 🔹 Autoregressive (AR) — как GPT: генерирует токен за токеном 🔹 MDM (Masked Diffusion Models) — как диффузионные модели, восстанавливающие текст пошагово Обычно эти подходы несовместимы, но Eso-LMs объединяет их с помощью: - нового attention-механизма, который работает и для AR, и для MDM - гибридной функции потерь, позволяющей переключаться между стилями генерации 💡 Что делает Eso-LMs уникальной: ⚡ В 65 раз быстрее, чем обычные diffusion-модели ⚡ В 4 раза быстрее, чем гибридные модели с KV-кэшем 📈 Генерирует качественный текст с низкой perplexity 💬 Умеет работать параллельно и быстро, без потерь в смысле 📦 Что внутри репозитория: • Два варианта модели: Eso-LM (A) и Eso-LM (B) • Поддержка разных архитектур: DiT, AR-трансформеры и др. • Скрипты для обучения, оценки и генерации текстов • Настройки, логи, загрузка данных и прочая инфраструктура 🛠 Это не просто ещё одна LLM — это попытка соединить два мира генерации текста и ускорить inference без потери качества. 🔗 Подробнее