Анализ данных (Data analysis)
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
Mostrar más📈 Análisis del canal de Telegram Анализ данных (Data analysis)
El canal Анализ данных (Data analysis) (@data_analysis_ml) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 50 179 suscriptores, ocupando la posición 2 677 en la categoría Tecnologías y Aplicaciones y el puesto 12 565 en la región Rusia.
📊 Métricas de audiencia y dinámica
Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 50 179 suscriptores.
Según los últimos datos del 15 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de -8, y en las últimas 24 horas de 25, conservando un alto alcance.
- Estado de verificación: No verificado
- Tasa de interacción (ER): El promedio de interacción de la audiencia es 8.82%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 5.98% de reacciones respecto al total de suscriptores.
- Alcance de las publicaciones: Cada publicación recibe en promedio 4 427 visualizaciones. En el primer día suele acumular 2 999 visualizaciones.
- Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 30.
- Intereses temáticos: El contenido se centra en temas clave como llm, контекст, openai, архитектура, deepseek.
📝 Descripción y política de contenido
El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 16 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.
# Clone the repository
git clone https://github.com/bowang-lab/BioReason.git
cd BioReason
# Install package
pip install -e .
🔗 GitHub: https://github.com/bowang-lab/BioReason
📄 Статья: https://arxiv.org/abs/2406.02491
@data_analysis_mldit.py — архитектура DiT
- dit_components.py — эмбеддинги, нормализация, вспомогательные блоки
- attention.py — совместное внимание (Joint Attention)
- noise.py — планировщик шума
- t5_encoder.py, clip.py — текстовые энкодеры
- tokenizer.py — токенизация
- metrics.py — Fréchet Inception Distance
- common.py, common_ds.py — функции и датасет для обучения
📦 Структура:
- model/ — чекпоинты и логи
- encoders/ — предобученные модули (VAE, CLIP и др.)
🛠 Подходит для:
• обучения и экспериментов
• хакинга архитектур
• кастомной тренировки без головной боли
🚀 Если хотите понять, как собрать Stable Diffusion 3.5 "на коленке" — miniDiffusion создан именно для этого.Cross-Layer Transcoders выжимают из модели разреженные признаки, которые объясняют работу MLP-слоев. Визуализируют это через графы атрибуции — это карты влияния признака на выход модели.Натренировали на 100M токенов из FineWeb, получили ~590K признаков. Точность CLT-реплики модели составила 59%, что близко к оригинальным статьям. Тестировали на задаче сравнения чисел («больше, чем»), идеальном полигоне, где уже известны ключевые механизмы.
Задача "Больше, чем" (ориг. "greater-than") взята из статьи Michael Hanna, она заставляет предсказывать большие числа для второго года в диапазоне дат.▶️ Главный эксперимент: Промпт «The war lasted from the year 1711 to 17». CLT построил граф, где признаки с токена «11» (последняя цифра года) активнее всего влияли на предсказание. Дальше, выделили топ-160 признаков, для каждого построили логит-атрибуции — теплокарты, показывающие, как признак влияет на выходные годы (ZZ) при разных входных (YY). ▶️ Что нашли: 🟢Признаки «больше, чем»: Feature 425104 (слой 8) активируется на больших числах в хронологии (даты, войны). Но его теплокарта продвигает выходы >60, независимо от входа, а вот Feature 461858 работает только для YY=6–14 и продвигает ZZ=10–30. Похоже, CLT подсветил кучу узкоспециализированных «сравнивателей», а не универсальные нейроны, как в ручных исследованиях. 🟢Сюрпризы: Feature 399423 — вообще не про числа. Он кодирует четность и контраст: активируется на «and» в «pros and cons», а в задаче продвигает четные ZZ при нечетных YY. Абстракция уровня «противоположность» — такого в прошлых работах не видели. 🟢Странности: Feature 402486 вообще саботирует задачу: продвигает малые числа. Или Feature 349410 — работает только для YY=11, хотя ее max-активации показывают числа до 30. ▶️ Выводы: CLT автоматически находит интерпретируемые признаки, даже такие неочевидные, как абстрактная четность. Но их «разреженный» мир выглядит иначе, чем ручная трассировка цепей: тут больше узких признаков-«спецов» (Feature 461858 для диапазона 10–30) и меньше универсальных механизмов. Возможно, дело в методе: CLT смотрит изолированные вклады фич, а в полной модели они взаимодействуют. В общем, эксперименты с CLT показал, что под капотом языковых моделей не только четкие «сравниватели чисел», но и куча скрытых паттернов вроде детекторов контраста или любителей чисел, кратных 5. И да, полуавтономный анализ иногда видит то, что люди упускают. 🔜 Читать полную статью @ai_machinelearning_big_data #AI #ML #LLM #Research #CLT
pip install --extra-index-url=https://pypi.nvidia.com cuopt-server-cu12==25.5.* cuopt-sh==25.5.*
📈 Результат — решения почти в реальном времени, даже для сложных задач.
👉 Попробуй
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
