Анализ данных (Data analysis)
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
Больше📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)
Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 179 подписчиков, занимая 2 677 место в категории Технологии и приложения и 12 565 место в регионе Россия.
📊 Показатели аудитории и динамика
С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 179 подписчиков.
Согласно последним данным от 15 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -8, а за последние 24 часа — 25, при этом общий охват остаётся высоким.
- Статус верификации: Не верифицирован
- Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.82%. В первые 24 часа после публикации контент обычно набирает 5.98% реакций от общего числа подписчиков.
- Охват публикаций: В среднем каждый пост получает 4 427 просмотров. В течение первых суток публикация набирает 2 999 просмотров.
- Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 30.
- Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.
📝 Описание и контентная политика
Автор описывает ресурс как площадку для выражения субъективного мнения:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
Благодаря высокой частоте обновлений (последние данные получены 16 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.
# Clone the repository
git clone https://github.com/bowang-lab/BioReason.git
cd BioReason
# Install package
pip install -e .
🔗 GitHub: https://github.com/bowang-lab/BioReason
📄 Статья: https://arxiv.org/abs/2406.02491
@data_analysis_mldit.py — архитектура DiT
- dit_components.py — эмбеддинги, нормализация, вспомогательные блоки
- attention.py — совместное внимание (Joint Attention)
- noise.py — планировщик шума
- t5_encoder.py, clip.py — текстовые энкодеры
- tokenizer.py — токенизация
- metrics.py — Fréchet Inception Distance
- common.py, common_ds.py — функции и датасет для обучения
📦 Структура:
- model/ — чекпоинты и логи
- encoders/ — предобученные модули (VAE, CLIP и др.)
🛠 Подходит для:
• обучения и экспериментов
• хакинга архитектур
• кастомной тренировки без головной боли
🚀 Если хотите понять, как собрать Stable Diffusion 3.5 "на коленке" — miniDiffusion создан именно для этого.Cross-Layer Transcoders выжимают из модели разреженные признаки, которые объясняют работу MLP-слоев. Визуализируют это через графы атрибуции — это карты влияния признака на выход модели.Натренировали на 100M токенов из FineWeb, получили ~590K признаков. Точность CLT-реплики модели составила 59%, что близко к оригинальным статьям. Тестировали на задаче сравнения чисел («больше, чем»), идеальном полигоне, где уже известны ключевые механизмы.
Задача "Больше, чем" (ориг. "greater-than") взята из статьи Michael Hanna, она заставляет предсказывать большие числа для второго года в диапазоне дат.▶️ Главный эксперимент: Промпт «The war lasted from the year 1711 to 17». CLT построил граф, где признаки с токена «11» (последняя цифра года) активнее всего влияли на предсказание. Дальше, выделили топ-160 признаков, для каждого построили логит-атрибуции — теплокарты, показывающие, как признак влияет на выходные годы (ZZ) при разных входных (YY). ▶️ Что нашли: 🟢Признаки «больше, чем»: Feature 425104 (слой 8) активируется на больших числах в хронологии (даты, войны). Но его теплокарта продвигает выходы >60, независимо от входа, а вот Feature 461858 работает только для YY=6–14 и продвигает ZZ=10–30. Похоже, CLT подсветил кучу узкоспециализированных «сравнивателей», а не универсальные нейроны, как в ручных исследованиях. 🟢Сюрпризы: Feature 399423 — вообще не про числа. Он кодирует четность и контраст: активируется на «and» в «pros and cons», а в задаче продвигает четные ZZ при нечетных YY. Абстракция уровня «противоположность» — такого в прошлых работах не видели. 🟢Странности: Feature 402486 вообще саботирует задачу: продвигает малые числа. Или Feature 349410 — работает только для YY=11, хотя ее max-активации показывают числа до 30. ▶️ Выводы: CLT автоматически находит интерпретируемые признаки, даже такие неочевидные, как абстрактная четность. Но их «разреженный» мир выглядит иначе, чем ручная трассировка цепей: тут больше узких признаков-«спецов» (Feature 461858 для диапазона 10–30) и меньше универсальных механизмов. Возможно, дело в методе: CLT смотрит изолированные вклады фич, а в полной модели они взаимодействуют. В общем, эксперименты с CLT показал, что под капотом языковых моделей не только четкие «сравниватели чисел», но и куча скрытых паттернов вроде детекторов контраста или любителей чисел, кратных 5. И да, полуавтономный анализ иногда видит то, что люди упускают. 🔜 Читать полную статью @ai_machinelearning_big_data #AI #ML #LLM #Research #CLT
pip install --extra-index-url=https://pypi.nvidia.com cuopt-server-cu12==25.5.* cuopt-sh==25.5.*
📈 Результат — решения почти в реальном времени, даже для сложных задач.
👉 Попробуй
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
