ru
Feedback
Анализ данных (Data analysis)

Анализ данных (Data analysis)

Открыть в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Больше

📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 212 подписчиков, занимая 2 666 место в категории Технологии и приложения и 12 538 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 212 подписчиков.

Согласно последним данным от 18 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило 10, а за последние 24 часа — 7, при этом общий охват остаётся высоким.

  • Статус верификации: Не верифицирован
  • Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.77%. В первые 24 часа после публикации контент обычно набирает 6.56% реакций от общего числа подписчиков.
  • Охват публикаций: В среднем каждый пост получает 4 404 просмотров. В течение первых суток публикация набирает 3 295 просмотров.
  • Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 30.
  • Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Благодаря высокой частоте обновлений (последние данные получены 19 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

50 212
Подписчики
+724 часа
+227 дней
+1030 день
Архив постов
Только что был опубликован анализ выбросов CO₂ от 3000+ LLM на Open LLM Leaderboard! 🌱 В статье описана оценка энергопотребл
Только что был опубликован анализ выбросов CO₂ от 3000+ LLM на Open LLM Leaderboard! 🌱 В статье описана оценка энергопотребления, показаны тенденции и интригующие выводы 🙌 👉 Читать здесь: https://huggingface.co/blog/leaderboard-emissions-analysis

📢 Релиз Moondream 2B Новая vision модель для эйдж девайсов Поддерживает структурированные выводы, улучшенное понимание текст
+1
📢 Релиз Moondream 2B Новая vision модель для эйдж девайсов Поддерживает структурированные выводы, улучшенное понимание текста, отслежтвание взгляда.


from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image

model = AutoModelForCausalLM.from_pretrained(
    "vikhyatk/moondream2",
    revision="2025-01-09",
    trust_remote_code=True,
    # Uncomment to run on GPU.
    # device_map={"": "cuda"}
)

# Captioning
print("Short caption:")
print(model.caption(image, length="short")["caption"])

print("\nNormal caption:")
for t in model.caption(image, length="normal", stream=True)["caption"]:
    # Streaming generation example, supported for caption() and detect()
    print(t, end="", flush=True)
print(model.caption(image, length="normal"))

# Visual Querying
print("\nVisual query: 'How many people are in the image?'")
print(model.query(image, "How many people are in the image?")["answer"])

# Object Detection
print("\nObject detection: 'face'")
objects = model.detect(image, "face")["objects"]
print(f"Found {len(objects)} face(s)")

# Pointing
print("\nPointing: 'person'")
points = model.point(image, "person")["points"]
print(f"Found {len(points)} person(s)")


https://huggingface.co/vikhyatk/moondream2
HF: https://huggingface.co/vikhyatk/moondream2Demo: https://moondream.ai/playgroundGithub: https://github.com/vikhyat/moondream

👀 Ollama-OCR Пакет для Python и приложение Streamlit, использующие модели зрения Ollama для извлечения текста из изображений
+2
👀 Ollama-OCR Пакет для Python и приложение Streamlit, использующие модели зрения Ollama для извлечения текста из изображений различных форматов, с поддержкой пакетной обработки. pip install ollama-ocrGithub @data_analysis_ml

Repost from Machinelearning
🔥 Microsoft только что выпустила Phi-4 LLM, обученный на 9,4 триллионах токенов. Лицензия MIT! 🤗 HF: https://huggingface.co
+4
🔥 Microsoft только что выпустила Phi-4 LLM, обученный на 9,4 триллионах токенов. Лицензия MIT! 🤗 HF: https://huggingface.co/microsoft/phi-4 🧠Demo: https://huggingface.co/spaces/Tonic/Phi-4 @ai_machinelearning_big_data #phi4 #llm #Microsoft

🔥 miniperplx — минималистичный поисковый движок, работающий на базе ИИ! 🌟 Он использует модели, такие как GPT-4o и Claude 3
🔥 miniperplx — минималистичный поисковый движок, работающий на базе ИИ! 🌟 Он использует модели, такие как GPT-4o и Claude 3.5, для предоставления ответов на запросы, а также поддерживает функции веб-поиска, поиск по URL, прогноз погоды, выполнение программного кода, перевод текста и многие другие возможности. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

🎉OLMo2 установили новый стандарт для релизов с открытым исходным кодом. 🫡 Пристегните ремни - выпущен подробный репорт о OL
🎉OLMo2 установили новый стандарт для релизов с открытым исходным кодом. 🫡 Пристегните ремни - выпущен подробный репорт о OLMo 2 . В нем 50 с лишним страниц о 4 важнейших компонентах конвейера развития LLM. Они выпустил: Модели, датасеты, код обучения и все возможные данные. А вишенкой на торте стали журналы wandb. Итак, если вы хотите создать современный LLM? Создатели OLMo 2 делятся полным рецептом. ----- 🔧 Ключевые методы в этой статье: → В OLMo 2 реализован двухэтапный подход к обучению: предварительное обучение на 4-5T токенах и обучение на специализированном Dolmino Mix 1124. → Архитектура отличается повышенной стабильностью благодаря RMSNorm, переупорядоченной нормализации и QK-норме для вычисления внимания. → Трехфазный конвейер тюнинга сочетает в себе контролируемую тонкую настройку, прямую оптимизацию предпочтений и обучение с подкреплением и проверяемым вознаграждением. → Инфраструктура обучения включает два кластера (Jupiter и Augusta) с оптимизированным управлением рабочей нагрузкой с помощью системы Beaker. ----- 💡 Основные выводы: → Стабильность обучения значительно повышается за счет фильтрации повторяющихся n-грамм и использования инициализации нормальным распределением → Обучение в середине обучения на высококачественных данных эффективно расширяет возможности модели → Усреднение веса модели неизменно повышает производительность → Оптимизация инфраструктуры имеет решающее значение для успешного обучения LLM ----- 📊 Результаты: → Модели 7B и 13B соответствуют или превосходят Llama 3.1 и Qwen 2.5, используя меньшее количество FLOPs → Оценки GSM8K: 67,5 для 7B, 75,1 для 13B → Показатели MMLU: 63,7 для 7B, 67,5 для 13B 💡Подробнее про модель 💡Paper 💡Blog 💡Demo

💡Академия Alibaba DAMO выпустили мультимодельный Vision-language датасет 6.5M изображений + 0.8B текста из 22k часов обучающ
💡Академия Alibaba DAMO выпустили мультимодельный Vision-language датасет  6.5M изображений + 0.8B текста из 22k часов обучающих видео  Охватывает такие предметы, как математика, физика и химия.  Apache 2.0 - Датасет: https://huggingface.co/datasets/DAMO-NLP-SG/multimodal_textbook -  Статья: https://huggingface.co/papers/2501.00958

🔥 MarS — движок для симуляции финансовых рынков, основанный на генеративной модели, называемой Large Market Model (LMM)! 🌟 Цель проекта — создание реалистичных, контролируемых сценариев торговли, которые могут моделировать рыночные ордера и их влияние. MarS позволяет исследовать законы масштабирования модели LMM в финансовых рынках и ее потенциал для реальных приложений, таких как создание рыночных моделей и генерация рыночных сценариев. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

👩‍💻 Pathway — это фреймворк на Python для обработки данных в реальном времени, который поддерживает ETL-процессы, аналитиче
👩‍💻 Pathway — это фреймворк на Python для обработки данных в реальном времени, который поддерживает ETL-процессы, аналитические потоки и создание ИИ-конвейеров, включая работу с LLM и методами RAG! 🌟 Фреймворк предоставляет простой API на Python, который интегрируется с популярными ML-библиотеками и может использоваться для потоковой и пакетной обработки данных. 🔐 Лицензия: BSL-1.1 🖥 Github @data_analysis_ml

⚡️ 50 статей/моделей/блогов по 10 направлениям в AI: LLMs, Benchmarks, Prompting, RAG, Agents, CodeGen, Vision, Voice, Diffus
⚡️ 50 статей/моделей/блогов по 10 направлениям в AI: LLMs, Benchmarks, Prompting, RAG, Agents, CodeGen, Vision, Voice, Diffusion, Finetuning. Если вы начинаете изучать мл с нуля, это хороший список. Секция 1:топовые LLMs - GPT1, GPT2, GPT3, Codex, InstructGPT, GPT4 статьи. GPT3.5, 4o, o1, и o3. - Claude 3 и Gemini 1, Claude 3.5 Sonnet и Gemini 2.0 Flash/Flash Thinking. Gemma 2. LLaMA 1, Llama 2, Llama 3 статьи для понимания внутреннего устройства моделей. - Mistral 7B, Mixtral и Pixtral - DeepSeek V1, Coder, MoE, V2, V3. - Apple Intelligence Секция 2: бенчмарки - MMLU paper - the main knowledgebenchmark, next to GPQA and BIG-Bench. In 2025 frontier labs use MMLU Pro, GPQA Diamond, and BIG-Bench Hard. - MuSR paper - evaluating long context, next to LongBench, BABILong, and RULER. Solving Lost in The Middle and other issues with Needle in a Haystack. - MATH paper. 🔥 Полный список

🖥 CPU vs GPU Очень хорошее и интуитивно понятное объяснение CPU vs GPU Источник

🔥 eliza — это проект, направленный на создание платформы для автономных агентов, способных выполнять сложные задачи, взаимод
🔥 eliza — это проект, направленный на создание платформы для автономных агентов, способных выполнять сложные задачи, взаимодействовать с пользователями и использовать внешние инструменты! 🌟 Цель проекта — упростить процесс разработки агентов, которые могут действовать независимо, обрабатывать команды на естественном языке и решать поставленные задачи с минимальным вмешательством человека. Такие агенты могут использоваться как чат-боты, NPC в видеоиграх, для трейдинга и многих других задач! 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

Хронология самых интересных ИИ релизов в 2024 году🔥 От Gemma до Llama 3.1 405B, от Sonnet 3.5 до o3 ! С нетерпением ждем 2025 года 🤗 Это был поистине промывной год для ИИ! https://huggingface.co/spaces/reach-vb/2024-ai-timeline

🔥 pyRiemann — это библиотека на Python для анализа многомерных данных с использованием римановой геометрии положительно опре
🔥 pyRiemann — это библиотека на Python для анализа многомерных данных с использованием римановой геометрии положительно определенных матриц! 🌟 Она построена на API scikit-learn и предоставляет высокоуровневые инструменты для обработки данных, классификации и машинного обучения. Основное применение библиотеки связано с биосигналами (например, EEG, MEG, EMG), интерфейсами мозг-компьютер (BCI), а также дистанционным зондированием, включая обработку радарных изображений и гиперспектральных данных. 🔐 Лицензия: BSD-3-Clause 🖥 Github @data_analysis_ml

🔥 3DTrajMaster — это инструмент, предназначенный для работы с трехмерными траекториями в контексте анализа и обработки данных движения объектов! 🌟 Данный проект предлагает инструменты для эффективной работы с данными, которые включают трехмерные координаты объектов, а также их визуализацию и анализ траекторий в 3D-пространстве. 🖥 Github @data_analysis_ml

Уголок AI-энтузиастов от Сбера 🤖 Sber AI Lab — центр экспертизы Сбера в области искусственного интеллекта и активный участник глобального научного комьюнити. ✅ Команда создаёт полезные алгоритмы, фреймворки и технологии в разных сферах: от банкинга до медицины. ✅ Топ по количеству научных статей на A*/A конференции и Q1 журналы в Сбере ✅ Среди open-source решений лаборатории ИИ: LightAutoML (победитель Kaggle Grand Prix 2024), RePlay, pytorch-lifestream, eco2ai и другие инструменты. Узнать больше о решениях можно на GitHub. Ты можешь стать частью нашей команды и сделать свой вклад в развитие AI-проектов в интересных тебе направлениях тут.

🔥 OpenCoconut — реализация парадигмы латентного рассуждения, известной как Chain of Continuous Thought (COCONUT)! 🌟 Основна
🔥 OpenCoconut — реализация парадигмы латентного рассуждения, известной как Chain of Continuous Thought (COCONUT)! 🌟 Основная идея заключается в генерации "мыслей" в латентном пространстве (состояниях модели) перед началом декодирования ответа. Этот подход использует скрытые состояния модели на этапе предварительной подготовки данных для повышения качества генерации. 🌟 Проект ориентирован на задачи, такие как математические вычисления, программирование и общий анализ данных, основываясь на синтетическом наборе данных. В будущем планируется улучшение функции потерь, добавление методов раннего завершения генерации и адаптивного переключения между латентным пространством и языковым. Это может повысить точность и гибкость моделей, работающих с последовательными задачами. 🔐 Лицензия: Apache-2.0 🖥 Github @data_analysis_ml

Будьте честны с собой ) @data_analysis_ml
Будьте честны с собой ) @data_analysis_ml

⚡️ Введение в тензорные сети 📌 Урок5 📌 Урок 1 / Урок2 / Урок3 / Урок4 📌 Colab