Анализ данных (Data analysis)

Відкрити в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Сітка:Machinelearning Росія12 565 Технології та додатки2 677...

📈 Аналітичний огляд Telegram-каналу Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 50 179 підписників, посідаючи 2 677 місце в категорії Технології та додатки та 12 565 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 50 179 підписників.

За останніми даними від 15 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -8, а за останні 24 години на 25, загальне охоплення залишається високим.

Статус верифікації: Не верифікований
Рівень залученості (ER): Середній показник залученості аудиторії становить 8.82%. Протягом перших 24 годин після публікації контент зазвичай збирає 5.98% реакцій від загальної кількості підписників.
Охоплення публікацій: В середньому кожен допис отримує 4 427 переглядів. Протягом першої доби публікація в середньому набирає 2 999 переглядів.
Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 30.
Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, контекст, openai, архитектура, deepseek.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Завдяки високій частоті оновлень (останні дані отримано 16 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

50 179

Підписники

+2524 години

-287 днів

-830 день

4 427

Перегляди допису

~ 2 99924 години

~ 3 53048 годин

8.82%

Коефіцієнт залучення

~ 5

Дописів на день

Ads index

beta

Архів дописів

50 179

Repost from Machinelearning

🔥 Manus Chat Mode — бесплатно и без ограничений для всех. 💬 Работает супер быстро прямо в чате. 🚀 Так же доступен Agent Mode с расширенными возможностями. От простых вопросов до сложных задач — всё в одном окне : https://manus.im/ @ai_machinelearning_big_data #news #ai #ml #manus

50 179

🧠 16 июня все самое важное в мире технологий ищите в Санкт-Петербурге! В ТехноХабе Сбера состоится большая сессия в рамках серии мероприятий международной конференции AI Journey. Именно здесь соберутся лидеры AI-индустрии из разных стран, чтобы обсудить реальные кейсы внедрения AI, архитектуры нового поколения, крутой апгрейд нейронки GigaChat, самое свежее в исследованиях GenAI и то, что уже завтра станет новым стандартом! 📌 Подключайтесь к трансляции, чтобы не отставать от будущего.

50 179

🚀 NVIDIA представила гигантский синтетический датасет для беспилотных автомобилей! 🔥 Что внутри? ▪ 81,802 синтетических видео с разнообразными сценариями: — Городские/шоссейные дороги — Экстремальные погодные условия (дождь, снег, туман) — Редкие ситуации (аварии, нестандартные ПДД) Мультисенсорные данные: — Камеры, лидары, радары — Разметка объектов (пешеходы, машины, знаки) ▪Dataset: https://huggingface.co/datasets/nvidia/PhysicalAI-Autonomous-Vehicle-Cosmos-Drive-Dreams ▪ Project Page: https://research.nvidia.com/labs/toronto-ai/cosmos_drive_dreams/ @data_analysis_ml

50 179

Repost from Machinelearning

⚡️ Mistral выпустила ризонинг-модель Magistral. Magistral — первая модель рассуждений от Mistral AI. Она сочетает глубокую логическую обработку с возможностью отслеживать каждый шаг её «мышления». Модель получила поддержку 8 языков, включая русский и выпущена в 2 вариантах: 🟢опенсорсный Magistral Small с 24 млрд. параметров; 🟠корпоративный Magistral Medium. Внутри Magistral работает в режиме рассуждений, разбивая задачи на цепочки логических шагов, а Flash Answers ускоряет вывод в 10 раз по сравнению с конкурентами. Для интеграции в рабочие процессы модель умеет взаимодействовать с внешними инструментами (API или базами данных). В тестах Magistral Medium показал 73,6% точности на задачах AIME2024, демонстрируя силу в физических симуляциях и математических расчетах. Для разработчиков доступны версии на Hugging Face, AWS и IBM WatsonX, а в будущем — на Azure и Google Cloud. Демо Magistral доступно в интерфейсе Le Chat или по API в La Plateforme. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Модель 🟡Техотчет 🟡Web Demo @ai_machinelearning_big_data #AI #ML #LLM #Magistral #MistralAI

50 179

🧠 Cartridges: как ускорить LLM в 26 раз без потери качества Что, если вместо того, чтобы каждый раз загонять в контекст LLM весь репозиторий, мы предварительно обучим мини-контекст — и будем просто вставлять его при генерации? 🔍 Это и есть идея Cartridges — небольшой KV-кэш, обученный заранее с помощью метода self-study (обучение во время инференса). 📦 Репозиторий: содержит код для тренировки "картриджа" — легкого представления большого текстового дампа (например, всей кодовой базы), которое вставляется в LLM как контекст. 📉 Проблема: • Если вставлять много текста в LLM, KV-кэш раздувается, скорость падает, стоимость растёт 🚀 Решение: • Обучаем маленький KV-кэш для документации или репо • Используем его как "сжатый контекст" при генерации 📈 Результаты: • До 26× ускорения • Качество ответов сохраняется • Простая реализация и универсальный подход 📖 Подробнее в статье: *Cartridges: Lightweight and general-purpose long context representations via self-study*

git clone https://github.com/HazyResearch/cartridges && cd cartridges
pip install uv
uv pip install -e .

📎 Идея простая, но мощная: пусть LLM "запоминает" ваш проект заранее — и работает с ним быстро, как с привычным знанием. ▪ Github

50 179

🧠 NVIDIA выпустила *Nemotron-Personas* — 100 000 синтетических персон на Hugging Face! 🔓 Открытый датасет, сгенерированный нейросетью, но основанный на *реальных распределениях* пользователей. Что это даёт: • 🧩 Больше *разнообразия* в данных • 🛡 Снижение *предвзятости* моделей • 🧠 Защита от *model collapse* при масштабном обучении 📦 Подходит для тестирования, дообучения и анализа LLM в сценариях с разными типами людей: по мотивации, профессии, эмоциям, взглядам и пр. 🔗 Датасет уже доступен на Hugging Face: NVIDIA Nemotron-Personas → https://huggingface.co/datasets/NVIDIA/nemotron-personas @data_analysis_ml

50 179

🎉 Apple на WWDC 2025: революция для разработчиков и новый дизайн 📦 Что нового: • On-device AI для всех Apple открывает доступ к своим LLM-моделям прямо на устройствах. Теперь разработчики могут использовать Apple Intelligence в своих приложениях — без интернета и с полной защитой приватности. • Xcode 26 + ChatGPT Новая версия Xcode умеет генерировать код, помогать с тестами и исправлять баги с помощью встроенной интеграции ChatGPT и других LLM. • Liquid Glass — новый дизайн Apple Полупрозрачные и живые элементы интерфейса приходят во все системы: iOS 26, macOS Tahoe, iPadOS, watchOS, visionOS. Всё выглядит как будущее. • Icon Composer для дизайнеров Создавайте адаптивные иконки с эффектами бликов, размытием и прозрачностью. Никаких ручных svg больше не нужно. • 250 000+ API и новые фреймворки Улучшения в SwiftUI, Metal, RealityKit и множестве других SDK. Новые API для AI, AR, visionOS и работы с пространственными интерфейсами. 🧪 Бета уже доступна для участников Apple Developer Program. Публичная бета — в июле. Финальный релиз — осенью. 💡 Это шаг в сторону мощных оффлайн-приложений с AI, нового визуального языка и реального удобства разработки. https://www.apple.com/newsroom/2025/06/apple-supercharges-its-tools-and-technologies-for-developers/ @data_analysis_ml

50 179

✔️ Welcome Time в Яндексе — дружелюбная встреча для аналитиков 📍 21 июня, Москва, штаб-квартира на Льва Толстого Что такое R&D и чем аналитики в этой команде отличаются от продуктовых? Узнаете на тёплой встрече с командами исследований Яндекса. В программе доклады от практиков: 🔸 *Ирина Барская* — руководитель службы аналитики и исследований → Расскажет, какие технологии развивают в R&D 🔸 *Иван Дёгтев* — руководитель аналитики генеративных моделей → Объяснит, как работает и развивается YandexGPT 🔸 *Елена Вольф* — аналитик-разработчик YandexGPT → Расскажет, как GPT помогает саппорту в роли RAG-ассистента 🔸 *Артём Хуршудов* — руководитель аналитики визуальных моделей → Покажет, как генерируют изображения с помощью YandexART и VLM 🔸 *Арсений Нестюк* — руководитель аналитики распознавания речи → Поговорит про голосовые технологии и Алису 📊 Бонус: быстрая диагностика навыков по аналитике и статистике. 🧠 Успешное прохождение = автоматический зачёт техсекции на собеседовании в Яндекс (действует 2 года). 📅 Успей зарегистрироваться до 19 июня — будет интересно, полезно и без галстуков. ➡️ Регистрация на Welcome Time

50 179

🧠 PyTorch Distributed Checkpointing теперь поддерживает HuggingFace safetensors 📦 Что произошло: Платформа DCP (Distributed Checkpointing) в PyTorch теперь встраивает нативную поддержку формата safetensors от HuggingFace. Это важный шаг к полной совместимости с экосистемой HF, которая активно используется в инференсе и дообучении. 🔍 В чём была проблема: • DCP раньше использовал свой собственный формат чекпоинтов • Чтобы работать с HuggingFace, приходилось писать конвертеры • Чекпоинты приходилось загружать локально, что усложняло пайплайны 🚀 Что изменилось: • Теперь можно сохранять и загружать модели напрямую в safetensors • Поддерживается любой `fsspec`-совместимый storage (S3, GCS, локалка и т.д.) • Интеграция уже улучшила UX в torchtune, став первым пользователем новой фичи 🛠 Как использовать: • Просто передай новый load planner и storage reader в load() • И аналогично — save planner + writer для save() • Всё остальное работает как раньше 📈 Что это даёт: • Меньше костылей и меньше кода • Единый формат чекпоинтов для HF и PyTorch • Более гибкие и производительные пайплайны #PyTorch #HuggingFace #safetensors #ML #checkpointing #opensource https://pytorch.org/blog/huggingface-safetensors-support-in-pytorch-distributed-checkpointing @data_analysis_ml

50 179

🎯 Работа с многомерными данными — это вызов. Хотите узнать, как избавиться от лишнего «шума» и сохранить только важную информацию? 🔍 На открытом вебинаре вы узнаете, как методы уменьшения размерности помогают обрабатывать сложные данные, ускорять машинное обучение и находить скрытые закономерности. Мы разберем популярные техники: PCA, t-SNE, UMAP и автоэнкодеры, а также покажем, как эффективно применять их на практике. 🚀 С помощью простых и мощных методов вы научитесь повышать интерпретируемость моделей и ускорять их работу — это даст ощутимые преимущества в реальных проектах. Отличная возможность повысить свою квалификацию в Data Science! 📅 Урок пройдет в преддверии старта курса «Machine Learning. Professional». 🔗 Зарегистрируйтесь и получите скидку на обучение: https://otus.pw/uR54/?erid=2W5zFJBYgVN Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

50 179

🍏Иллюзия мышления: понимание сильных и слабых сторон моделей рассуждения через призму сложности задач Apple внезапно опубликовала исследование, которое разоблачает популярные LLM с "цепочкой размышлений" (Chain-of-Thought) — такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1. 📌 Что тестировали? Логические задачи: • башни Ханоя (100+ шагов!) • загадка про волка, козу и капусту • головоломки с правилами и условиями И всё это — с усложнением. 💥 Результаты: — 🔁 Модели не думают, а вспоминают Они не решают задачу шаг за шагом, а ищут похожие примеры в своей базе знаний. Это имитация мышления, а не само мышление. — 🤯 "Переосмысление" вредит Если задача простая, модель находит верный ответ — и… продолжает «думать» дальше, усложняя всё и случайно портя решение. — 🧠 Больше размышлений ≠ лучше результат Дать больше токенов и времени на размышления не помогает. На сложных задачах модели просто сдаются быстрее. Даже "бесконечный" бюджет не спасает. — 🧪 Few-shot примеры не работают Даже если расписать пошаговое решение и дать примеры — модель всё равно ломается, если задача ей незнакома. — 🏗 Модели обожают Ханой, но ненавидят загадки Башни Ханоя решаются идеально даже на 100+ шагов. А вот в простой задаче с козой и капустой — модели сдаются на 4-м шаге. Почему? Ханой — в датасетах, загадки про реку — нет. 🍏 Интересно, что Apple выпустила это исследование за день до WWDC 2025. Подколка конкурентам? А завтра, может, и своё покажут. 🤔 📎 Исследование: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf @data_analysis_ml #AI #LLM #AGI #Apple #WWDC2025 #PromptEngineering #NeuralNetworks

50 179

🦖 Tokasaurus — универсальный токенизатор с поддержкой 70+ языков Tokasaurus — это быстрый и лёгкий инструмент для токенизации текста, созданный на базе библиотеки tokenizers от Hugging Face. Он поддерживает более 70 языков программирования и естественных языков. 🔍 Что умеет Tokasaurus: • ✂️ Разбивает текст на токены для языковых моделей • 🧠 Поддерживает GPT-совместимые токенизаторы (tiktoken, BPE и другие) • 🌍 Работает с Python, JavaScript, C++, Rust, Markdown, JSON, YAML и многими другими • ⚡ Очень быстрый — написан на Rust с Python-обёрткой • 📦 Используется как CLI, Python-библиотека или Web API

pip install tokasaurus

🧪 Пример использования (Python):


from tokasaurus import tokenize

tokens = tokenize("def hello(): print('Hi')", model="gpt2")
print(tokens)

🎯 Кому подойдёт: • Тем, кто работает с LLM • Для оценки длины prompt'ов • Для предобработки кода и текста • Для интеграции в пайплайны, IDE, аналитические инструменты 🔗 GitHub: github.com/ScalingIntelligence/tokasaurus 💡 Если тебе нужен универсальный и быстрый токенизатор — попробуй Tokasaurus. @data_analysis_ml

50 179

🦣 Ты мамонтёнок? Потерял маму? 💀 А может, сам разводишь стадо?В любом случае — теперь у тебя есть бот, который знает больше, чем твой следователь. --- 📱 Вводишь номер — и получаешь:👤 ФИО, паспорт, ИНН, адрес прописки📞 С кем звонил, когда и откуда💬 WhatsApp, Telegram, VK, даже если он “удалился”🖼️ Фото, соцсети, даже одноклассница Оксана 2008 года --- – Хочешь узнать, кто названивает по ночам?– С кем твоя бывшая реально "осталась друзьями"?– Кто стоит за фейковым аккаунтом, который пишет “приветик 👀”? 🔍 Мы пробьём всех. Даже если они под VPN, с фейковым именем и через eSIM.🐾 Оставили след в сети? Мы его найдём.🚫 Думаешь, удалил — значит, исчез? Ха-ха. Ты просто добавился в базу https://tglink.io/6718f8dd97db?erid=2W5zFHJALXJ - постоянная ссылка @Manticore1_bot - бот

50 179

🚀 MiniCPM4 — компактная LLM нового поколения Модель от OpenBMB, которая работает в 5 раз быстрее на конечных устройствах. Отлично подходит для edge-решений и встраивания. 🔧 Что нового: 🏗️ InfLLM v2 — обучаемое разреженное внимание 🧠 Model Wind Tunnel 2.0 — масштабирование с предсказуемой эффективностью 🔢 BitCPM — ультракомпактная тернарная квантизация 📚 UltraClean + UltraChat v2 — чистые датасеты для преобучения и fine-tuning ⚡ CPM.cu + ArkInfer — лёгкий фреймворк для быстрого инференса на GPU и в проде 📖 Technical Report: https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdf 🤗 Models: https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b ⭐ GitHub: https://github.com/OpenBMB/MiniCPM @data_analysis_ml #LLM #AI #MiniCPM4 #EdgeAI

50 179

Repost from Machine learning Interview

🚀 Теперь можно запускать модели Hugging Face прямо в Google Colab — бесплатно! Больше не нужно настраивать окружение вручную. Просто заходишь на страницу модели — и нажимаешь "Open in Colab". Всё готово для запуска за секунды. ✅ Отлично подходит для: - Быстрого теста модели - Прототипирования и экспериментов - Обучения и демонстраций 💡 Бонус для разработчиков: Добавь файл notebook.ipynb в свой репозиторий модели — и Hugging Face автоматически подхватит его. Пользователи смогут запускать твой пример сразу, без копирования кода! 🔥 Работает с Google Colab — бесплатно, быстро, удобно. #HuggingFace #Colab #ML #AI #OpenSource #DeepLearning ✔️ Подробнее @machinelearning_interview

50 179

🎬 Tencent выложила в открытый доступ код и веса модели **HunyuanCustom** — инструмента для кастомизации видео, управляемого аудио или другим видео. 🔊 Модель может на лету изменять видео на основе звуковой дорожки 🎥 Или адаптировать ролик под другое видео-вход 🧠 Подходит для синхронизации движений губ, мимики, анимации по голосу и многого другого В репозитории доступны: • Инференс-код • Весы модели • Примеры и документация 📂 GitHub Теперь кастомизация видео — это всего несколько строчек кода. @data_analysis_ml #Tencent #Hunyuan

50 179

🤖 Figure 02 уже сегодня сортирует, перемещает и анализирует десятки товаров одновременно Наблюдая за такими роботами, сложно представить, что через год в логистике и на складах будут работать люди. Скорость, с которой они развиваются, — просто ошеломляющая. То, что ещё недавно казалось фантастикой, уже становится реальностью. И происходит это быстрее, чем мы успеваем привыкнуть.

50 179

Repost from Machinelearning

⚡️Релиз Qwen3-Embedding и Qwen3-Reranker ✨ Главное: ✅ Модели на 0.6B, 4B и 8B параметров ✅ Поддержка 119 языков ✅ Sota на MMTEB, MTEB и MTEB-Code ✅ Открытый код на Hugging Face, GitHub и ModelScope ✅ Доступ через API на Alibaba Cloud 🔍 Применение: Поиск документов, RAG, классификация, поиск кода и др. 🟡 Qwen3-Embedding: https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f 🟡Qwen3-Reranker: https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea 🟡GitHub: https://github.com/QwenLM/Qwen3-Embedding 🟡Modelscope: https://modelscope.cn/organization/qwen @ai_machinelearning_big_data #qwen

50 179

⚡️Пошаговый план: как стать аналитиком данных в 2025 Хотите попасть в аналитику, но теряетесь в море информации и не понимаете, какие навыки действительно важны? Боитесь, что без опыта вас не возьмут на работу? И да, ещё один популярный вопрос — а что, если мне 30/40/50+ лет? Андрон Алексанян — эксперт по аналитике с 8-летним опытом и по совместительству CEO Simulative — покажет рабочие схемы и чёткий план, как устроиться в аналитику быстрее, даже если у вас нет опыта Что будет на вебинаре? 🟠 Разберёте полный роадмап: что учить, в каком порядке, до какого уровня; 🟠 Лайфхаки трудоустройства: — покажут реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание; — обсудите, какие отклики работают, а какие сразу отправляют в корзину; — изнанка найма: инсайдерский взгляд на процессы отбора 🟠 Практические техники для новичков: разберёте, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях 🕗 Важно досмотреть вебинар до конца, чтобы получить бонус от Simulative, который поможет бустануть карьеру 😶Зарегистрироваться на бесплатный вебинар

50 179

🤖 Eso-LMs — новая архитектура языковых моделей, объединяющая лучшее из autoregressive и diffusion-подходов Исследователи представили Eso-LMs (Esoteric Language Models) — модель, которая совмещает два разных способа генерации текста: 🔹 Autoregressive (AR) — как GPT: генерирует токен за токеном 🔹 MDM (Masked Diffusion Models) — как диффузионные модели, восстанавливающие текст пошагово Обычно эти подходы несовместимы, но Eso-LMs объединяет их с помощью: - нового attention-механизма, который работает и для AR, и для MDM - гибридной функции потерь, позволяющей переключаться между стилями генерации 💡 Что делает Eso-LMs уникальной: ⚡ В 65 раз быстрее, чем обычные diffusion-модели ⚡ В 4 раза быстрее, чем гибридные модели с KV-кэшем 📈 Генерирует качественный текст с низкой perplexity 💬 Умеет работать параллельно и быстро, без потерь в смысле 📦 Что внутри репозитория: • Два варианта модели: Eso-LM (A) и Eso-LM (B) • Поддержка разных архитектур: DiT, AR-трансформеры и др. • Скрипты для обучения, оценки и генерации текстов • Настройки, логи, загрузка данных и прочая инфраструктура 🛠 Это не просто ещё одна LLM — это попытка соединить два мира генерации текста и ускорить inference без потери качества. 🔗 Подробнее