Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 179 名订阅者,在 技术与应用 类别中位列第 2 677,并在 俄罗斯 地区排名第 12 565 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 179 名订阅者。
根据 15 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 -8,过去 24 小时变化为 25,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.82%。内容发布后 24 小时内通常能获得 5.98% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 427 次浏览,首日通常累积 2 999 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 30。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 16 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 179
订阅者
+2524 小时
-287 天
-830 天
帖子存档
Repost from Machinelearning
🔥 Manus Chat Mode — бесплатно и без ограничений для всех.
💬 Работает супер быстро прямо в чате.
🚀 Так же доступен Agent Mode с расширенными возможностями.
От простых вопросов до сложных задач — всё в одном окне : https://manus.im/
@ai_machinelearning_big_data
#news #ai #ml #manus
🧠 16 июня все самое важное в мире технологий ищите в Санкт-Петербурге!
В ТехноХабе Сбера состоится большая сессия в рамках серии мероприятий международной конференции AI Journey.
Именно здесь соберутся лидеры AI-индустрии из разных стран, чтобы обсудить реальные кейсы внедрения AI, архитектуры нового поколения, крутой апгрейд нейронки GigaChat, самое свежее в исследованиях GenAI и то, что уже завтра станет новым стандартом!
📌 Подключайтесь к трансляции, чтобы не отставать от будущего.
🚀 NVIDIA представила гигантский синтетический датасет для беспилотных автомобилей!
🔥 Что внутри?
▪ 81,802 синтетических видео с разнообразными сценариями:
— Городские/шоссейные дороги
— Экстремальные погодные условия (дождь, снег, туман)
— Редкие ситуации (аварии, нестандартные ПДД)
Мультисенсорные данные:
— Камеры, лидары, радары
— Разметка объектов (пешеходы, машины, знаки)
▪Dataset: https://huggingface.co/datasets/nvidia/PhysicalAI-Autonomous-Vehicle-Cosmos-Drive-Dreams
▪ Project Page: https://research.nvidia.com/labs/toronto-ai/cosmos_drive_dreams/
@data_analysis_ml
Repost from Machinelearning
+3
⚡️ Mistral выпустила ризонинг-модель Magistral.
Magistral — первая модель рассуждений от Mistral AI. Она сочетает глубокую логическую обработку с возможностью отслеживать каждый шаг её «мышления».
Модель получила поддержку 8 языков, включая русский и выпущена в 2 вариантах:
🟢опенсорсный Magistral Small с 24 млрд. параметров;
🟠корпоративный Magistral Medium.
Внутри Magistral работает в режиме рассуждений, разбивая задачи на цепочки логических шагов, а Flash Answers ускоряет вывод в 10 раз по сравнению с конкурентами. Для интеграции в рабочие процессы модель умеет взаимодействовать с внешними инструментами (API или базами данных).
В тестах Magistral Medium показал 73,6% точности на задачах AIME2024, демонстрируя силу в физических симуляциях и математических расчетах.
Для разработчиков доступны версии на Hugging Face, AWS и IBM WatsonX, а в будущем — на Azure и Google Cloud. Демо Magistral доступно в интерфейсе Le Chat или по API в La Plateforme.
📌Лицензирование: Apache 2.0 License.
🟡Статья
🟡Модель
🟡Техотчет
🟡Web Demo
@ai_machinelearning_big_data
#AI #ML #LLM #Magistral #MistralAI
🧠 Cartridges: как ускорить LLM в 26 раз без потери качества
Что, если вместо того, чтобы каждый раз загонять в контекст LLM весь репозиторий, мы предварительно обучим мини-контекст — и будем просто вставлять его при генерации?
🔍 Это и есть идея Cartridges — небольшой KV-кэш, обученный заранее с помощью метода self-study (обучение во время инференса).
📦 Репозиторий: содержит код для тренировки "картриджа" — легкого представления большого текстового дампа (например, всей кодовой базы), которое вставляется в LLM как контекст.
📉 Проблема:
• Если вставлять много текста в LLM, KV-кэш раздувается, скорость падает, стоимость растёт
🚀 Решение:
• Обучаем маленький KV-кэш для документации или репо
• Используем его как "сжатый контекст" при генерации
📈 Результаты:
• До 26× ускорения
• Качество ответов сохраняется
• Простая реализация и универсальный подход
📖 Подробнее в статье: *Cartridges: Lightweight and general-purpose long context representations via self-study*
git clone https://github.com/HazyResearch/cartridges && cd cartridges
pip install uv
uv pip install -e .
📎 Идея простая, но мощная: пусть LLM "запоминает" ваш проект заранее — и работает с ним быстро, как с привычным знанием.
▪ Github+1
🧠 NVIDIA выпустила *Nemotron-Personas* — 100 000 синтетических персон на Hugging Face!
🔓 Открытый датасет, сгенерированный нейросетью, но основанный на *реальных распределениях* пользователей. Что это даёт:
• 🧩 Больше *разнообразия* в данных
• 🛡 Снижение *предвзятости* моделей
• 🧠 Защита от *model collapse* при масштабном обучении
📦 Подходит для тестирования, дообучения и анализа LLM в сценариях с разными типами людей: по мотивации, профессии, эмоциям, взглядам и пр.
🔗 Датасет уже доступен на Hugging Face:
NVIDIA Nemotron-Personas
→ https://huggingface.co/datasets/NVIDIA/nemotron-personas
@data_analysis_ml🎉 Apple на WWDC 2025: революция для разработчиков и новый дизайн
📦 Что нового:
• On-device AI для всех
Apple открывает доступ к своим LLM-моделям прямо на устройствах. Теперь разработчики могут использовать Apple Intelligence в своих приложениях — без интернета и с полной защитой приватности.
• Xcode 26 + ChatGPT
Новая версия Xcode умеет генерировать код, помогать с тестами и исправлять баги с помощью встроенной интеграции ChatGPT и других LLM.
• Liquid Glass — новый дизайн Apple
Полупрозрачные и живые элементы интерфейса приходят во все системы: iOS 26, macOS Tahoe, iPadOS, watchOS, visionOS. Всё выглядит как будущее.
• Icon Composer для дизайнеров
Создавайте адаптивные иконки с эффектами бликов, размытием и прозрачностью. Никаких ручных svg больше не нужно.
• 250 000+ API и новые фреймворки
Улучшения в SwiftUI, Metal, RealityKit и множестве других SDK. Новые API для AI, AR, visionOS и работы с пространственными интерфейсами.
🧪 Бета уже доступна для участников Apple Developer Program.
Публичная бета — в июле. Финальный релиз — осенью.
💡 Это шаг в сторону мощных оффлайн-приложений с AI, нового визуального языка и реального удобства разработки.
https://www.apple.com/newsroom/2025/06/apple-supercharges-its-tools-and-technologies-for-developers/
@data_analysis_ml
✔️ Welcome Time в Яндексе — дружелюбная встреча для аналитиков
📍 21 июня, Москва, штаб-квартира на Льва Толстого
Что такое R&D и чем аналитики в этой команде отличаются от продуктовых? Узнаете на тёплой встрече с командами исследований Яндекса.
В программе доклады от практиков:
🔸 *Ирина Барская* — руководитель службы аналитики и исследований
→ Расскажет, какие технологии развивают в R&D
🔸 *Иван Дёгтев* — руководитель аналитики генеративных моделей
→ Объяснит, как работает и развивается YandexGPT
🔸 *Елена Вольф* — аналитик-разработчик YandexGPT
→ Расскажет, как GPT помогает саппорту в роли RAG-ассистента
🔸 *Артём Хуршудов* — руководитель аналитики визуальных моделей
→ Покажет, как генерируют изображения с помощью YandexART и VLM
🔸 *Арсений Нестюк* — руководитель аналитики распознавания речи
→ Поговорит про голосовые технологии и Алису
📊 Бонус: быстрая диагностика навыков по аналитике и статистике.
🧠 Успешное прохождение = автоматический зачёт техсекции на собеседовании в Яндекс (действует 2 года).
📅 Успей зарегистрироваться до 19 июня — будет интересно, полезно и без галстуков.
➡️ Регистрация на Welcome Time
🧠 PyTorch Distributed Checkpointing теперь поддерживает HuggingFace safetensors
📦 Что произошло:
Платформа DCP (Distributed Checkpointing) в PyTorch теперь встраивает нативную поддержку формата safetensors от HuggingFace. Это важный шаг к полной совместимости с экосистемой HF, которая активно используется в инференсе и дообучении.
🔍 В чём была проблема:
• DCP раньше использовал свой собственный формат чекпоинтов
• Чтобы работать с HuggingFace, приходилось писать конвертеры
• Чекпоинты приходилось загружать локально, что усложняло пайплайны
🚀 Что изменилось:
• Теперь можно сохранять и загружать модели напрямую в safetensors
• Поддерживается любой `fsspec`-совместимый storage (S3, GCS, локалка и т.д.)
• Интеграция уже улучшила UX в
torchtune, став первым пользователем новой фичи
🛠 Как использовать:
• Просто передай новый load planner и storage reader в load()
• И аналогично — save planner + writer для save()
• Всё остальное работает как раньше
📈 Что это даёт:
• Меньше костылей и меньше кода
• Единый формат чекпоинтов для HF и PyTorch
• Более гибкие и производительные пайплайны
#PyTorch #HuggingFace #safetensors #ML #checkpointing #opensource
https://pytorch.org/blog/huggingface-safetensors-support-in-pytorch-distributed-checkpointing
@data_analysis_ml🎯 Работа с многомерными данными — это вызов. Хотите узнать, как избавиться от лишнего «шума» и сохранить только важную информацию?
🔍 На открытом вебинаре вы узнаете, как методы уменьшения размерности помогают обрабатывать сложные данные, ускорять машинное обучение и находить скрытые закономерности. Мы разберем популярные техники: PCA, t-SNE, UMAP и автоэнкодеры, а также покажем, как эффективно применять их на практике.
🚀 С помощью простых и мощных методов вы научитесь повышать интерпретируемость моделей и ускорять их работу — это даст ощутимые преимущества в реальных проектах. Отличная возможность повысить свою квалификацию в Data Science!
📅 Урок пройдет в преддверии старта курса «Machine Learning. Professional».
🔗 Зарегистрируйтесь и получите скидку на обучение: https://otus.pw/uR54/?erid=2W5zFJBYgVN
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
+9
🍏Иллюзия мышления: понимание сильных и слабых сторон моделей рассуждения через призму сложности задач
Apple внезапно опубликовала исследование, которое разоблачает популярные LLM с "цепочкой размышлений" (Chain-of-Thought) — такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.
📌 Что тестировали?
Логические задачи:
• башни Ханоя (100+ шагов!)
• загадка про волка, козу и капусту
• головоломки с правилами и условиями
И всё это — с усложнением.
💥 Результаты:
— 🔁 Модели не думают, а вспоминают
Они не решают задачу шаг за шагом, а ищут похожие примеры в своей базе знаний. Это имитация мышления, а не само мышление.
— 🤯 "Переосмысление" вредит
Если задача простая, модель находит верный ответ — и… продолжает «думать» дальше, усложняя всё и случайно портя решение.
— 🧠 Больше размышлений ≠ лучше результат
Дать больше токенов и времени на размышления не помогает. На сложных задачах модели просто сдаются быстрее. Даже "бесконечный" бюджет не спасает.
— 🧪 Few-shot примеры не работают
Даже если расписать пошаговое решение и дать примеры — модель всё равно ломается, если задача ей незнакома.
— 🏗 Модели обожают Ханой, но ненавидят загадки
Башни Ханоя решаются идеально даже на 100+ шагов.
А вот в простой задаче с козой и капустой — модели сдаются на 4-м шаге. Почему? Ханой — в датасетах, загадки про реку — нет.
🍏 Интересно, что Apple выпустила это исследование за день до WWDC 2025.
Подколка конкурентам? А завтра, может, и своё покажут. 🤔
📎 Исследование: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
@data_analysis_ml
#AI #LLM #AGI #Apple #WWDC2025 #PromptEngineering #NeuralNetworks
🦖 Tokasaurus — универсальный токенизатор с поддержкой 70+ языков
Tokasaurus — это быстрый и лёгкий инструмент для токенизации текста, созданный на базе библиотеки
tokenizers от Hugging Face. Он поддерживает более 70 языков программирования и естественных языков.
🔍 Что умеет Tokasaurus:
• ✂️ Разбивает текст на токены для языковых моделей
• 🧠 Поддерживает GPT-совместимые токенизаторы (tiktoken, BPE и другие)
• 🌍 Работает с Python, JavaScript, C++, Rust, Markdown, JSON, YAML и многими другими
• ⚡ Очень быстрый — написан на Rust с Python-обёрткой
• 📦 Используется как CLI, Python-библиотека или Web API
pip install tokasaurus
🧪 Пример использования (Python):
from tokasaurus import tokenize
tokens = tokenize("def hello(): print('Hi')", model="gpt2")
print(tokens)
🎯 Кому подойдёт:
• Тем, кто работает с LLM
• Для оценки длины prompt'ов
• Для предобработки кода и текста
• Для интеграции в пайплайны, IDE, аналитические инструменты
🔗 GitHub: github.com/ScalingIntelligence/tokasaurus
💡 Если тебе нужен универсальный и быстрый токенизатор — попробуй Tokasaurus.
@data_analysis_ml🦣 Ты мамонтёнок? Потерял маму?
💀 А может, сам разводишь стадо?В любом случае — теперь у тебя есть бот, который знает больше, чем твой следователь.
---
📱 Вводишь номер — и получаешь:👤 ФИО, паспорт, ИНН, адрес прописки📞 С кем звонил, когда и откуда💬 WhatsApp, Telegram, VK, даже если он “удалился”🖼️ Фото, соцсети, даже одноклассница Оксана 2008 года
---
– Хочешь узнать, кто названивает по ночам?– С кем твоя бывшая реально "осталась друзьями"?– Кто стоит за фейковым аккаунтом, который пишет “приветик 👀”?
🔍 Мы пробьём всех. Даже если они под VPN, с фейковым именем и через eSIM.🐾 Оставили след в сети? Мы его найдём.🚫 Думаешь, удалил — значит, исчез? Ха-ха. Ты просто добавился в базу
https://tglink.io/6718f8dd97db?erid=2W5zFHJALXJ - постоянная ссылка
@Manticore1_bot - бот
🚀 MiniCPM4 — компактная LLM нового поколения
Модель от OpenBMB, которая работает в 5 раз быстрее на конечных устройствах. Отлично подходит для edge-решений и встраивания.
🔧 Что нового:
🏗️ InfLLM v2 — обучаемое разреженное внимание
🧠 Model Wind Tunnel 2.0 — масштабирование с предсказуемой эффективностью
🔢 BitCPM — ультракомпактная тернарная квантизация
📚 UltraClean + UltraChat v2 — чистые датасеты для преобучения и fine-tuning
⚡ CPM.cu + ArkInfer — лёгкий фреймворк для быстрого инференса на GPU и в проде
📖 Technical Report: https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdf
🤗 Models: https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b
⭐ GitHub: https://github.com/OpenBMB/MiniCPM
@data_analysis_ml
#LLM #AI #MiniCPM4 #EdgeAI
Repost from Machine learning Interview
🚀 Теперь можно запускать модели Hugging Face прямо в Google Colab — бесплатно!
Больше не нужно настраивать окружение вручную. Просто заходишь на страницу модели — и нажимаешь "Open in Colab". Всё готово для запуска за секунды.
✅ Отлично подходит для:
- Быстрого теста модели
- Прототипирования и экспериментов
- Обучения и демонстраций
💡 Бонус для разработчиков:
Добавь файл
notebook.ipynb в свой репозиторий модели — и Hugging Face автоматически подхватит его.
Пользователи смогут запускать твой пример сразу, без копирования кода!
🔥 Работает с Google Colab — бесплатно, быстро, удобно.
#HuggingFace #Colab #ML #AI #OpenSource #DeepLearning
✔️ Подробнее
@machinelearning_interview🎬 Tencent выложила в открытый доступ код и веса модели **HunyuanCustom** — инструмента для кастомизации видео, управляемого аудио или другим видео.
🔊 Модель может на лету изменять видео на основе звуковой дорожки
🎥 Или адаптировать ролик под другое видео-вход
🧠 Подходит для синхронизации движений губ, мимики, анимации по голосу и многого другого
В репозитории доступны:
• Инференс-код
• Весы модели
• Примеры и документация
📂 GitHub
Теперь кастомизация видео — это всего несколько строчек кода.
@data_analysis_ml
#Tencent #Hunyuan
🤖 Figure 02 уже сегодня сортирует, перемещает и анализирует десятки товаров одновременно
Наблюдая за такими роботами, сложно представить, что через год в логистике и на складах будут работать люди.
Скорость, с которой они развиваются, — просто ошеломляющая.
То, что ещё недавно казалось фантастикой, уже становится реальностью.
И происходит это быстрее, чем мы успеваем привыкнуть.
Repost from Machinelearning
⚡️Релиз Qwen3-Embedding и Qwen3-Reranker
✨ Главное:
✅ Модели на 0.6B, 4B и 8B параметров
✅ Поддержка 119 языков
✅ Sota на MMTEB, MTEB и MTEB-Code
✅ Открытый код на Hugging Face, GitHub и ModelScope
✅ Доступ через API на Alibaba Cloud
🔍 Применение:
Поиск документов, RAG, классификация, поиск кода и др.
🟡 Qwen3-Embedding: https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f
🟡Qwen3-Reranker: https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea
🟡GitHub: https://github.com/QwenLM/Qwen3-Embedding
🟡Modelscope: https://modelscope.cn/organization/qwen
@ai_machinelearning_big_data
#qwen
⚡️Пошаговый план: как стать аналитиком данных в 2025
Хотите попасть в аналитику, но теряетесь в море информации и не понимаете, какие навыки действительно важны? Боитесь, что без опыта вас не возьмут на работу? И да, ещё один популярный вопрос — а что, если мне 30/40/50+ лет?
Андрон Алексанян — эксперт по аналитике с 8-летним опытом и по совместительству CEO Simulative — покажет рабочие схемы и чёткий план, как устроиться в аналитику быстрее, даже если у вас нет опыта
Что будет на вебинаре?
🟠 Разберёте полный роадмап: что учить, в каком порядке, до какого уровня;
🟠 Лайфхаки трудоустройства:
— покажут реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание;
— обсудите, какие отклики работают, а какие сразу отправляют в корзину;
— изнанка найма: инсайдерский взгляд на процессы отбора
🟠 Практические техники для новичков: разберёте, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях
🕗 Важно досмотреть вебинар до конца, чтобы получить бонус от Simulative, который поможет бустануть карьеру
😶Зарегистрироваться на бесплатный вебинар
🤖 Eso-LMs — новая архитектура языковых моделей, объединяющая лучшее из autoregressive и diffusion-подходов
Исследователи представили Eso-LMs (Esoteric Language Models) — модель, которая совмещает два разных способа генерации текста:
🔹 Autoregressive (AR) — как GPT: генерирует токен за токеном
🔹 MDM (Masked Diffusion Models) — как диффузионные модели, восстанавливающие текст пошагово
Обычно эти подходы несовместимы, но Eso-LMs объединяет их с помощью:
- нового attention-механизма, который работает и для AR, и для MDM
- гибридной функции потерь, позволяющей переключаться между стилями генерации
💡 Что делает Eso-LMs уникальной:
⚡ В 65 раз быстрее, чем обычные diffusion-модели
⚡ В 4 раза быстрее, чем гибридные модели с KV-кэшем
📈 Генерирует качественный текст с низкой perplexity
💬 Умеет работать параллельно и быстро, без потерь в смысле
📦 Что внутри репозитория:
• Два варианта модели: Eso-LM (A) и Eso-LM (B)
• Поддержка разных архитектур: DiT, AR-трансформеры и др.
• Скрипты для обучения, оценки и генерации текстов
• Настройки, логи, загрузка данных и прочая инфраструктура
🛠 Это не просто ещё одна LLM — это попытка соединить два мира генерации текста и ускорить inference без потери качества.
🔗 Подробнее
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
