Анализ данных (Data analysis)

Open in Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Network:Machinelearning Russia12 565 Technologies & Applications2 677...

📈 Analytical overview of Telegram channel Анализ данных (Data analysis)

Channel Анализ данных (Data analysis) (@data_analysis_ml) in the Russian language segment is an active participant. Currently, the community unites 50 179 subscribers, ranking 2 677 in the Technologies & Applications category and 12 565 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 50 179 subscribers.

According to the latest data from 15 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -8 over the last 30 days and by 25 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 8.82%. Within the first 24 hours after publication, content typically collects 5.98% reactions from the total number of subscribers.
Post reach: On average, each post receives 4 427 views. Within the first day, a publication typically gains 2 999 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 30.
Thematic interests: Content is focused on key topics such as llm, контекст, openai, архитектура, deepseek.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Thanks to the high frequency of updates (latest data received on 16 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

50 179

Subscribers

+2524 hours

-287 days

-830 days

4 427

Post views

~ 2 99924 hours

~ 3 53048 hours

8.82%

Engagement rate

~ 5

Posts per day

Ads index

beta

Posts Archive

50 179

Repost from Machinelearning

🔥 Manus Chat Mode — бесплатно и без ограничений для всех. 💬 Работает супер быстро прямо в чате. 🚀 Так же доступен Agent Mode с расширенными возможностями. От простых вопросов до сложных задач — всё в одном окне : https://manus.im/ @ai_machinelearning_big_data #news #ai #ml #manus

50 179

🧠 16 июня все самое важное в мире технологий ищите в Санкт-Петербурге! В ТехноХабе Сбера состоится большая сессия в рамках серии мероприятий международной конференции AI Journey. Именно здесь соберутся лидеры AI-индустрии из разных стран, чтобы обсудить реальные кейсы внедрения AI, архитектуры нового поколения, крутой апгрейд нейронки GigaChat, самое свежее в исследованиях GenAI и то, что уже завтра станет новым стандартом! 📌 Подключайтесь к трансляции, чтобы не отставать от будущего.

50 179

🚀 NVIDIA представила гигантский синтетический датасет для беспилотных автомобилей! 🔥 Что внутри? ▪ 81,802 синтетических видео с разнообразными сценариями: — Городские/шоссейные дороги — Экстремальные погодные условия (дождь, снег, туман) — Редкие ситуации (аварии, нестандартные ПДД) Мультисенсорные данные: — Камеры, лидары, радары — Разметка объектов (пешеходы, машины, знаки) ▪Dataset: https://huggingface.co/datasets/nvidia/PhysicalAI-Autonomous-Vehicle-Cosmos-Drive-Dreams ▪ Project Page: https://research.nvidia.com/labs/toronto-ai/cosmos_drive_dreams/ @data_analysis_ml

50 179

Repost from Machinelearning

⚡️ Mistral выпустила ризонинг-модель Magistral. Magistral — первая модель рассуждений от Mistral AI. Она сочетает глубокую логическую обработку с возможностью отслеживать каждый шаг её «мышления». Модель получила поддержку 8 языков, включая русский и выпущена в 2 вариантах: 🟢опенсорсный Magistral Small с 24 млрд. параметров; 🟠корпоративный Magistral Medium. Внутри Magistral работает в режиме рассуждений, разбивая задачи на цепочки логических шагов, а Flash Answers ускоряет вывод в 10 раз по сравнению с конкурентами. Для интеграции в рабочие процессы модель умеет взаимодействовать с внешними инструментами (API или базами данных). В тестах Magistral Medium показал 73,6% точности на задачах AIME2024, демонстрируя силу в физических симуляциях и математических расчетах. Для разработчиков доступны версии на Hugging Face, AWS и IBM WatsonX, а в будущем — на Azure и Google Cloud. Демо Magistral доступно в интерфейсе Le Chat или по API в La Plateforme. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Модель 🟡Техотчет 🟡Web Demo @ai_machinelearning_big_data #AI #ML #LLM #Magistral #MistralAI

50 179

🧠 Cartridges: как ускорить LLM в 26 раз без потери качества Что, если вместо того, чтобы каждый раз загонять в контекст LLM весь репозиторий, мы предварительно обучим мини-контекст — и будем просто вставлять его при генерации? 🔍 Это и есть идея Cartridges — небольшой KV-кэш, обученный заранее с помощью метода self-study (обучение во время инференса). 📦 Репозиторий: содержит код для тренировки "картриджа" — легкого представления большого текстового дампа (например, всей кодовой базы), которое вставляется в LLM как контекст. 📉 Проблема: • Если вставлять много текста в LLM, KV-кэш раздувается, скорость падает, стоимость растёт 🚀 Решение: • Обучаем маленький KV-кэш для документации или репо • Используем его как "сжатый контекст" при генерации 📈 Результаты: • До 26× ускорения • Качество ответов сохраняется • Простая реализация и универсальный подход 📖 Подробнее в статье: *Cartridges: Lightweight and general-purpose long context representations via self-study*

git clone https://github.com/HazyResearch/cartridges && cd cartridges
pip install uv
uv pip install -e .

📎 Идея простая, но мощная: пусть LLM "запоминает" ваш проект заранее — и работает с ним быстро, как с привычным знанием. ▪ Github

50 179

🧠 NVIDIA выпустила *Nemotron-Personas* — 100 000 синтетических персон на Hugging Face! 🔓 Открытый датасет, сгенерированный нейросетью, но основанный на *реальных распределениях* пользователей. Что это даёт: • 🧩 Больше *разнообразия* в данных • 🛡 Снижение *предвзятости* моделей • 🧠 Защита от *model collapse* при масштабном обучении 📦 Подходит для тестирования, дообучения и анализа LLM в сценариях с разными типами людей: по мотивации, профессии, эмоциям, взглядам и пр. 🔗 Датасет уже доступен на Hugging Face: NVIDIA Nemotron-Personas → https://huggingface.co/datasets/NVIDIA/nemotron-personas @data_analysis_ml

50 179

🎉 Apple на WWDC 2025: революция для разработчиков и новый дизайн 📦 Что нового: • On-device AI для всех Apple открывает доступ к своим LLM-моделям прямо на устройствах. Теперь разработчики могут использовать Apple Intelligence в своих приложениях — без интернета и с полной защитой приватности. • Xcode 26 + ChatGPT Новая версия Xcode умеет генерировать код, помогать с тестами и исправлять баги с помощью встроенной интеграции ChatGPT и других LLM. • Liquid Glass — новый дизайн Apple Полупрозрачные и живые элементы интерфейса приходят во все системы: iOS 26, macOS Tahoe, iPadOS, watchOS, visionOS. Всё выглядит как будущее. • Icon Composer для дизайнеров Создавайте адаптивные иконки с эффектами бликов, размытием и прозрачностью. Никаких ручных svg больше не нужно. • 250 000+ API и новые фреймворки Улучшения в SwiftUI, Metal, RealityKit и множестве других SDK. Новые API для AI, AR, visionOS и работы с пространственными интерфейсами. 🧪 Бета уже доступна для участников Apple Developer Program. Публичная бета — в июле. Финальный релиз — осенью. 💡 Это шаг в сторону мощных оффлайн-приложений с AI, нового визуального языка и реального удобства разработки. https://www.apple.com/newsroom/2025/06/apple-supercharges-its-tools-and-technologies-for-developers/ @data_analysis_ml

50 179

✔️ Welcome Time в Яндексе — дружелюбная встреча для аналитиков 📍 21 июня, Москва, штаб-квартира на Льва Толстого Что такое R&D и чем аналитики в этой команде отличаются от продуктовых? Узнаете на тёплой встрече с командами исследований Яндекса. В программе доклады от практиков: 🔸 *Ирина Барская* — руководитель службы аналитики и исследований → Расскажет, какие технологии развивают в R&D 🔸 *Иван Дёгтев* — руководитель аналитики генеративных моделей → Объяснит, как работает и развивается YandexGPT 🔸 *Елена Вольф* — аналитик-разработчик YandexGPT → Расскажет, как GPT помогает саппорту в роли RAG-ассистента 🔸 *Артём Хуршудов* — руководитель аналитики визуальных моделей → Покажет, как генерируют изображения с помощью YandexART и VLM 🔸 *Арсений Нестюк* — руководитель аналитики распознавания речи → Поговорит про голосовые технологии и Алису 📊 Бонус: быстрая диагностика навыков по аналитике и статистике. 🧠 Успешное прохождение = автоматический зачёт техсекции на собеседовании в Яндекс (действует 2 года). 📅 Успей зарегистрироваться до 19 июня — будет интересно, полезно и без галстуков. ➡️ Регистрация на Welcome Time

50 179

🧠 PyTorch Distributed Checkpointing теперь поддерживает HuggingFace safetensors 📦 Что произошло: Платформа DCP (Distributed Checkpointing) в PyTorch теперь встраивает нативную поддержку формата safetensors от HuggingFace. Это важный шаг к полной совместимости с экосистемой HF, которая активно используется в инференсе и дообучении. 🔍 В чём была проблема: • DCP раньше использовал свой собственный формат чекпоинтов • Чтобы работать с HuggingFace, приходилось писать конвертеры • Чекпоинты приходилось загружать локально, что усложняло пайплайны 🚀 Что изменилось: • Теперь можно сохранять и загружать модели напрямую в safetensors • Поддерживается любой `fsspec`-совместимый storage (S3, GCS, локалка и т.д.) • Интеграция уже улучшила UX в torchtune, став первым пользователем новой фичи 🛠 Как использовать: • Просто передай новый load planner и storage reader в load() • И аналогично — save planner + writer для save() • Всё остальное работает как раньше 📈 Что это даёт: • Меньше костылей и меньше кода • Единый формат чекпоинтов для HF и PyTorch • Более гибкие и производительные пайплайны #PyTorch #HuggingFace #safetensors #ML #checkpointing #opensource https://pytorch.org/blog/huggingface-safetensors-support-in-pytorch-distributed-checkpointing @data_analysis_ml

50 179

🎯 Работа с многомерными данными — это вызов. Хотите узнать, как избавиться от лишнего «шума» и сохранить только важную информацию? 🔍 На открытом вебинаре вы узнаете, как методы уменьшения размерности помогают обрабатывать сложные данные, ускорять машинное обучение и находить скрытые закономерности. Мы разберем популярные техники: PCA, t-SNE, UMAP и автоэнкодеры, а также покажем, как эффективно применять их на практике. 🚀 С помощью простых и мощных методов вы научитесь повышать интерпретируемость моделей и ускорять их работу — это даст ощутимые преимущества в реальных проектах. Отличная возможность повысить свою квалификацию в Data Science! 📅 Урок пройдет в преддверии старта курса «Machine Learning. Professional». 🔗 Зарегистрируйтесь и получите скидку на обучение: https://otus.pw/uR54/?erid=2W5zFJBYgVN Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

50 179

🍏Иллюзия мышления: понимание сильных и слабых сторон моделей рассуждения через призму сложности задач Apple внезапно опубликовала исследование, которое разоблачает популярные LLM с "цепочкой размышлений" (Chain-of-Thought) — такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1. 📌 Что тестировали? Логические задачи: • башни Ханоя (100+ шагов!) • загадка про волка, козу и капусту • головоломки с правилами и условиями И всё это — с усложнением. 💥 Результаты: — 🔁 Модели не думают, а вспоминают Они не решают задачу шаг за шагом, а ищут похожие примеры в своей базе знаний. Это имитация мышления, а не само мышление. — 🤯 "Переосмысление" вредит Если задача простая, модель находит верный ответ — и… продолжает «думать» дальше, усложняя всё и случайно портя решение. — 🧠 Больше размышлений ≠ лучше результат Дать больше токенов и времени на размышления не помогает. На сложных задачах модели просто сдаются быстрее. Даже "бесконечный" бюджет не спасает. — 🧪 Few-shot примеры не работают Даже если расписать пошаговое решение и дать примеры — модель всё равно ломается, если задача ей незнакома. — 🏗 Модели обожают Ханой, но ненавидят загадки Башни Ханоя решаются идеально даже на 100+ шагов. А вот в простой задаче с козой и капустой — модели сдаются на 4-м шаге. Почему? Ханой — в датасетах, загадки про реку — нет. 🍏 Интересно, что Apple выпустила это исследование за день до WWDC 2025. Подколка конкурентам? А завтра, может, и своё покажут. 🤔 📎 Исследование: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf @data_analysis_ml #AI #LLM #AGI #Apple #WWDC2025 #PromptEngineering #NeuralNetworks

50 179

🦖 Tokasaurus — универсальный токенизатор с поддержкой 70+ языков Tokasaurus — это быстрый и лёгкий инструмент для токенизации текста, созданный на базе библиотеки tokenizers от Hugging Face. Он поддерживает более 70 языков программирования и естественных языков. 🔍 Что умеет Tokasaurus: • ✂️ Разбивает текст на токены для языковых моделей • 🧠 Поддерживает GPT-совместимые токенизаторы (tiktoken, BPE и другие) • 🌍 Работает с Python, JavaScript, C++, Rust, Markdown, JSON, YAML и многими другими • ⚡ Очень быстрый — написан на Rust с Python-обёрткой • 📦 Используется как CLI, Python-библиотека или Web API

pip install tokasaurus

🧪 Пример использования (Python):


from tokasaurus import tokenize

tokens = tokenize("def hello(): print('Hi')", model="gpt2")
print(tokens)

🎯 Кому подойдёт: • Тем, кто работает с LLM • Для оценки длины prompt'ов • Для предобработки кода и текста • Для интеграции в пайплайны, IDE, аналитические инструменты 🔗 GitHub: github.com/ScalingIntelligence/tokasaurus 💡 Если тебе нужен универсальный и быстрый токенизатор — попробуй Tokasaurus. @data_analysis_ml

50 179

🦣 Ты мамонтёнок? Потерял маму? 💀 А может, сам разводишь стадо?В любом случае — теперь у тебя есть бот, который знает больше, чем твой следователь. --- 📱 Вводишь номер — и получаешь:👤 ФИО, паспорт, ИНН, адрес прописки📞 С кем звонил, когда и откуда💬 WhatsApp, Telegram, VK, даже если он “удалился”🖼️ Фото, соцсети, даже одноклассница Оксана 2008 года --- – Хочешь узнать, кто названивает по ночам?– С кем твоя бывшая реально "осталась друзьями"?– Кто стоит за фейковым аккаунтом, который пишет “приветик 👀”? 🔍 Мы пробьём всех. Даже если они под VPN, с фейковым именем и через eSIM.🐾 Оставили след в сети? Мы его найдём.🚫 Думаешь, удалил — значит, исчез? Ха-ха. Ты просто добавился в базу https://tglink.io/6718f8dd97db?erid=2W5zFHJALXJ - постоянная ссылка @Manticore1_bot - бот

50 179

🚀 MiniCPM4 — компактная LLM нового поколения Модель от OpenBMB, которая работает в 5 раз быстрее на конечных устройствах. Отлично подходит для edge-решений и встраивания. 🔧 Что нового: 🏗️ InfLLM v2 — обучаемое разреженное внимание 🧠 Model Wind Tunnel 2.0 — масштабирование с предсказуемой эффективностью 🔢 BitCPM — ультракомпактная тернарная квантизация 📚 UltraClean + UltraChat v2 — чистые датасеты для преобучения и fine-tuning ⚡ CPM.cu + ArkInfer — лёгкий фреймворк для быстрого инференса на GPU и в проде 📖 Technical Report: https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdf 🤗 Models: https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b ⭐ GitHub: https://github.com/OpenBMB/MiniCPM @data_analysis_ml #LLM #AI #MiniCPM4 #EdgeAI

50 179

Repost from Machine learning Interview

🚀 Теперь можно запускать модели Hugging Face прямо в Google Colab — бесплатно! Больше не нужно настраивать окружение вручную. Просто заходишь на страницу модели — и нажимаешь "Open in Colab". Всё готово для запуска за секунды. ✅ Отлично подходит для: - Быстрого теста модели - Прототипирования и экспериментов - Обучения и демонстраций 💡 Бонус для разработчиков: Добавь файл notebook.ipynb в свой репозиторий модели — и Hugging Face автоматически подхватит его. Пользователи смогут запускать твой пример сразу, без копирования кода! 🔥 Работает с Google Colab — бесплатно, быстро, удобно. #HuggingFace #Colab #ML #AI #OpenSource #DeepLearning ✔️ Подробнее @machinelearning_interview

50 179

🎬 Tencent выложила в открытый доступ код и веса модели **HunyuanCustom** — инструмента для кастомизации видео, управляемого аудио или другим видео. 🔊 Модель может на лету изменять видео на основе звуковой дорожки 🎥 Или адаптировать ролик под другое видео-вход 🧠 Подходит для синхронизации движений губ, мимики, анимации по голосу и многого другого В репозитории доступны: • Инференс-код • Весы модели • Примеры и документация 📂 GitHub Теперь кастомизация видео — это всего несколько строчек кода. @data_analysis_ml #Tencent #Hunyuan

50 179

🤖 Figure 02 уже сегодня сортирует, перемещает и анализирует десятки товаров одновременно Наблюдая за такими роботами, сложно представить, что через год в логистике и на складах будут работать люди. Скорость, с которой они развиваются, — просто ошеломляющая. То, что ещё недавно казалось фантастикой, уже становится реальностью. И происходит это быстрее, чем мы успеваем привыкнуть.

50 179

Repost from Machinelearning

⚡️Релиз Qwen3-Embedding и Qwen3-Reranker ✨ Главное: ✅ Модели на 0.6B, 4B и 8B параметров ✅ Поддержка 119 языков ✅ Sota на MMTEB, MTEB и MTEB-Code ✅ Открытый код на Hugging Face, GitHub и ModelScope ✅ Доступ через API на Alibaba Cloud 🔍 Применение: Поиск документов, RAG, классификация, поиск кода и др. 🟡 Qwen3-Embedding: https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f 🟡Qwen3-Reranker: https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea 🟡GitHub: https://github.com/QwenLM/Qwen3-Embedding 🟡Modelscope: https://modelscope.cn/organization/qwen @ai_machinelearning_big_data #qwen

50 179

⚡️Пошаговый план: как стать аналитиком данных в 2025 Хотите попасть в аналитику, но теряетесь в море информации и не понимаете, какие навыки действительно важны? Боитесь, что без опыта вас не возьмут на работу? И да, ещё один популярный вопрос — а что, если мне 30/40/50+ лет? Андрон Алексанян — эксперт по аналитике с 8-летним опытом и по совместительству CEO Simulative — покажет рабочие схемы и чёткий план, как устроиться в аналитику быстрее, даже если у вас нет опыта Что будет на вебинаре? 🟠 Разберёте полный роадмап: что учить, в каком порядке, до какого уровня; 🟠 Лайфхаки трудоустройства: — покажут реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание; — обсудите, какие отклики работают, а какие сразу отправляют в корзину; — изнанка найма: инсайдерский взгляд на процессы отбора 🟠 Практические техники для новичков: разберёте, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях 🕗 Важно досмотреть вебинар до конца, чтобы получить бонус от Simulative, который поможет бустануть карьеру 😶Зарегистрироваться на бесплатный вебинар

50 179

🤖 Eso-LMs — новая архитектура языковых моделей, объединяющая лучшее из autoregressive и diffusion-подходов Исследователи представили Eso-LMs (Esoteric Language Models) — модель, которая совмещает два разных способа генерации текста: 🔹 Autoregressive (AR) — как GPT: генерирует токен за токеном 🔹 MDM (Masked Diffusion Models) — как диффузионные модели, восстанавливающие текст пошагово Обычно эти подходы несовместимы, но Eso-LMs объединяет их с помощью: - нового attention-механизма, который работает и для AR, и для MDM - гибридной функции потерь, позволяющей переключаться между стилями генерации 💡 Что делает Eso-LMs уникальной: ⚡ В 65 раз быстрее, чем обычные diffusion-модели ⚡ В 4 раза быстрее, чем гибридные модели с KV-кэшем 📈 Генерирует качественный текст с низкой perplexity 💬 Умеет работать параллельно и быстро, без потерь в смысле 📦 Что внутри репозитория: • Два варианта модели: Eso-LM (A) и Eso-LM (B) • Поддержка разных архитектур: DiT, AR-трансформеры и др. • Скрипты для обучения, оценки и генерации текстов • Настройки, логи, загрузка данных и прочая инфраструктура 🛠 Это не просто ещё одна LLM — это попытка соединить два мира генерации текста и ускорить inference без потери качества. 🔗 Подробнее