Анализ данных (Data analysis)
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
Больше📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)
Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 179 подписчиков, занимая 2 677 место в категории Технологии и приложения и 12 565 место в регионе Россия.
📊 Показатели аудитории и динамика
С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 179 подписчиков.
Согласно последним данным от 15 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -8, а за последние 24 часа — 25, при этом общий охват остаётся высоким.
- Статус верификации: Не верифицирован
- Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.82%. В первые 24 часа после публикации контент обычно набирает 5.98% реакций от общего числа подписчиков.
- Охват публикаций: В среднем каждый пост получает 4 427 просмотров. В течение первых суток публикация набирает 2 999 просмотров.
- Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 30.
- Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.
📝 Описание и контентная политика
Автор описывает ресурс как площадку для выражения субъективного мнения:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
Благодаря высокой частоте обновлений (последние данные получены 16 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.
git clone https://github.com/HazyResearch/cartridges && cd cartridges
pip install uv
uv pip install -e .
📎 Идея простая, но мощная: пусть LLM "запоминает" ваш проект заранее — и работает с ним быстро, как с привычным знанием.
▪ GithubNVIDIA Nemotron-Personas
→ https://huggingface.co/datasets/NVIDIA/nemotron-personas
@data_analysis_mltorchtune, став первым пользователем новой фичи
🛠 Как использовать:
• Просто передай новый load planner и storage reader в load()
• И аналогично — save planner + writer для save()
• Всё остальное работает как раньше
📈 Что это даёт:
• Меньше костылей и меньше кода
• Единый формат чекпоинтов для HF и PyTorch
• Более гибкие и производительные пайплайны
#PyTorch #HuggingFace #safetensors #ML #checkpointing #opensource
https://pytorch.org/blog/huggingface-safetensors-support-in-pytorch-distributed-checkpointing
@data_analysis_mltokenizers от Hugging Face. Он поддерживает более 70 языков программирования и естественных языков.
🔍 Что умеет Tokasaurus:
• ✂️ Разбивает текст на токены для языковых моделей
• 🧠 Поддерживает GPT-совместимые токенизаторы (tiktoken, BPE и другие)
• 🌍 Работает с Python, JavaScript, C++, Rust, Markdown, JSON, YAML и многими другими
• ⚡ Очень быстрый — написан на Rust с Python-обёрткой
• 📦 Используется как CLI, Python-библиотека или Web API
pip install tokasaurus
🧪 Пример использования (Python):
from tokasaurus import tokenize
tokens = tokenize("def hello(): print('Hi')", model="gpt2")
print(tokens)
🎯 Кому подойдёт:
• Тем, кто работает с LLM
• Для оценки длины prompt'ов
• Для предобработки кода и текста
• Для интеграции в пайплайны, IDE, аналитические инструменты
🔗 GitHub: github.com/ScalingIntelligence/tokasaurus
💡 Если тебе нужен универсальный и быстрый токенизатор — попробуй Tokasaurus.
@data_analysis_mlnotebook.ipynb в свой репозиторий модели — и Hugging Face автоматически подхватит его.
Пользователи смогут запускать твой пример сразу, без копирования кода!
🔥 Работает с Google Colab — бесплатно, быстро, удобно.
#HuggingFace #Colab #ML #AI #OpenSource #DeepLearning
✔️ Подробнее
@machinelearning_interview
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
