en
Feedback
Анализ данных (Data analysis)

Анализ данных (Data analysis)

Open in Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Show more

📈 Analytical overview of Telegram channel Анализ данных (Data analysis)

Channel Анализ данных (Data analysis) (@data_analysis_ml) in the Russian language segment is an active participant. Currently, the community unites 50 212 subscribers, ranking 2 666 in the Technologies & Applications category and 12 538 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 50 212 subscribers.

According to the latest data from 18 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 10 over the last 30 days and by 7 over the last 24 hours, overall reach remains high.

  • Verification status: Not verified
  • Engagement rate (ER): The average audience engagement rate is 8.77%. Within the first 24 hours after publication, content typically collects 6.56% reactions from the total number of subscribers.
  • Post reach: On average, each post receives 4 404 views. Within the first day, a publication typically gains 3 295 views.
  • Reactions and interaction: The audience actively supports content: the average number of reactions per post is 30.
  • Thematic interests: Content is focused on key topics such as llm, контекст, openai, архитектура, deepseek.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Thanks to the high frequency of updates (latest data received on 19 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

50 212
Subscribers
+724 hours
+227 days
+1030 days
Posts Archive
Только что был опубликован анализ выбросов CO₂ от 3000+ LLM на Open LLM Leaderboard! 🌱 В статье описана оценка энергопотребл
Только что был опубликован анализ выбросов CO₂ от 3000+ LLM на Open LLM Leaderboard! 🌱 В статье описана оценка энергопотребления, показаны тенденции и интригующие выводы 🙌 👉 Читать здесь: https://huggingface.co/blog/leaderboard-emissions-analysis

📢 Релиз Moondream 2B Новая vision модель для эйдж девайсов Поддерживает структурированные выводы, улучшенное понимание текст
+1
📢 Релиз Moondream 2B Новая vision модель для эйдж девайсов Поддерживает структурированные выводы, улучшенное понимание текста, отслежтвание взгляда.


from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image

model = AutoModelForCausalLM.from_pretrained(
    "vikhyatk/moondream2",
    revision="2025-01-09",
    trust_remote_code=True,
    # Uncomment to run on GPU.
    # device_map={"": "cuda"}
)

# Captioning
print("Short caption:")
print(model.caption(image, length="short")["caption"])

print("\nNormal caption:")
for t in model.caption(image, length="normal", stream=True)["caption"]:
    # Streaming generation example, supported for caption() and detect()
    print(t, end="", flush=True)
print(model.caption(image, length="normal"))

# Visual Querying
print("\nVisual query: 'How many people are in the image?'")
print(model.query(image, "How many people are in the image?")["answer"])

# Object Detection
print("\nObject detection: 'face'")
objects = model.detect(image, "face")["objects"]
print(f"Found {len(objects)} face(s)")

# Pointing
print("\nPointing: 'person'")
points = model.point(image, "person")["points"]
print(f"Found {len(points)} person(s)")


https://huggingface.co/vikhyatk/moondream2
HF: https://huggingface.co/vikhyatk/moondream2Demo: https://moondream.ai/playgroundGithub: https://github.com/vikhyat/moondream

👀 Ollama-OCR Пакет для Python и приложение Streamlit, использующие модели зрения Ollama для извлечения текста из изображений
+2
👀 Ollama-OCR Пакет для Python и приложение Streamlit, использующие модели зрения Ollama для извлечения текста из изображений различных форматов, с поддержкой пакетной обработки. pip install ollama-ocrGithub @data_analysis_ml

Repost from Machinelearning
🔥 Microsoft только что выпустила Phi-4 LLM, обученный на 9,4 триллионах токенов. Лицензия MIT! 🤗 HF: https://huggingface.co
+4
🔥 Microsoft только что выпустила Phi-4 LLM, обученный на 9,4 триллионах токенов. Лицензия MIT! 🤗 HF: https://huggingface.co/microsoft/phi-4 🧠Demo: https://huggingface.co/spaces/Tonic/Phi-4 @ai_machinelearning_big_data #phi4 #llm #Microsoft

🔥 miniperplx — минималистичный поисковый движок, работающий на базе ИИ! 🌟 Он использует модели, такие как GPT-4o и Claude 3
🔥 miniperplx — минималистичный поисковый движок, работающий на базе ИИ! 🌟 Он использует модели, такие как GPT-4o и Claude 3.5, для предоставления ответов на запросы, а также поддерживает функции веб-поиска, поиск по URL, прогноз погоды, выполнение программного кода, перевод текста и многие другие возможности. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

🎉OLMo2 установили новый стандарт для релизов с открытым исходным кодом. 🫡 Пристегните ремни - выпущен подробный репорт о OL
🎉OLMo2 установили новый стандарт для релизов с открытым исходным кодом. 🫡 Пристегните ремни - выпущен подробный репорт о OLMo 2 . В нем 50 с лишним страниц о 4 важнейших компонентах конвейера развития LLM. Они выпустил: Модели, датасеты, код обучения и все возможные данные. А вишенкой на торте стали журналы wandb. Итак, если вы хотите создать современный LLM? Создатели OLMo 2 делятся полным рецептом. ----- 🔧 Ключевые методы в этой статье: → В OLMo 2 реализован двухэтапный подход к обучению: предварительное обучение на 4-5T токенах и обучение на специализированном Dolmino Mix 1124. → Архитектура отличается повышенной стабильностью благодаря RMSNorm, переупорядоченной нормализации и QK-норме для вычисления внимания. → Трехфазный конвейер тюнинга сочетает в себе контролируемую тонкую настройку, прямую оптимизацию предпочтений и обучение с подкреплением и проверяемым вознаграждением. → Инфраструктура обучения включает два кластера (Jupiter и Augusta) с оптимизированным управлением рабочей нагрузкой с помощью системы Beaker. ----- 💡 Основные выводы: → Стабильность обучения значительно повышается за счет фильтрации повторяющихся n-грамм и использования инициализации нормальным распределением → Обучение в середине обучения на высококачественных данных эффективно расширяет возможности модели → Усреднение веса модели неизменно повышает производительность → Оптимизация инфраструктуры имеет решающее значение для успешного обучения LLM ----- 📊 Результаты: → Модели 7B и 13B соответствуют или превосходят Llama 3.1 и Qwen 2.5, используя меньшее количество FLOPs → Оценки GSM8K: 67,5 для 7B, 75,1 для 13B → Показатели MMLU: 63,7 для 7B, 67,5 для 13B 💡Подробнее про модель 💡Paper 💡Blog 💡Demo

💡Академия Alibaba DAMO выпустили мультимодельный Vision-language датасет 6.5M изображений + 0.8B текста из 22k часов обучающ
💡Академия Alibaba DAMO выпустили мультимодельный Vision-language датасет  6.5M изображений + 0.8B текста из 22k часов обучающих видео  Охватывает такие предметы, как математика, физика и химия.  Apache 2.0 - Датасет: https://huggingface.co/datasets/DAMO-NLP-SG/multimodal_textbook -  Статья: https://huggingface.co/papers/2501.00958

🔥 MarS — движок для симуляции финансовых рынков, основанный на генеративной модели, называемой Large Market Model (LMM)! 🌟 Цель проекта — создание реалистичных, контролируемых сценариев торговли, которые могут моделировать рыночные ордера и их влияние. MarS позволяет исследовать законы масштабирования модели LMM в финансовых рынках и ее потенциал для реальных приложений, таких как создание рыночных моделей и генерация рыночных сценариев. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

👩‍💻 Pathway — это фреймворк на Python для обработки данных в реальном времени, который поддерживает ETL-процессы, аналитиче
👩‍💻 Pathway — это фреймворк на Python для обработки данных в реальном времени, который поддерживает ETL-процессы, аналитические потоки и создание ИИ-конвейеров, включая работу с LLM и методами RAG! 🌟 Фреймворк предоставляет простой API на Python, который интегрируется с популярными ML-библиотеками и может использоваться для потоковой и пакетной обработки данных. 🔐 Лицензия: BSL-1.1 🖥 Github @data_analysis_ml

⚡️ 50 статей/моделей/блогов по 10 направлениям в AI: LLMs, Benchmarks, Prompting, RAG, Agents, CodeGen, Vision, Voice, Diffus
⚡️ 50 статей/моделей/блогов по 10 направлениям в AI: LLMs, Benchmarks, Prompting, RAG, Agents, CodeGen, Vision, Voice, Diffusion, Finetuning. Если вы начинаете изучать мл с нуля, это хороший список. Секция 1:топовые LLMs - GPT1, GPT2, GPT3, Codex, InstructGPT, GPT4 статьи. GPT3.5, 4o, o1, и o3. - Claude 3 и Gemini 1, Claude 3.5 Sonnet и Gemini 2.0 Flash/Flash Thinking. Gemma 2. LLaMA 1, Llama 2, Llama 3 статьи для понимания внутреннего устройства моделей. - Mistral 7B, Mixtral и Pixtral - DeepSeek V1, Coder, MoE, V2, V3. - Apple Intelligence Секция 2: бенчмарки - MMLU paper - the main knowledgebenchmark, next to GPQA and BIG-Bench. In 2025 frontier labs use MMLU Pro, GPQA Diamond, and BIG-Bench Hard. - MuSR paper - evaluating long context, next to LongBench, BABILong, and RULER. Solving Lost in The Middle and other issues with Needle in a Haystack. - MATH paper. 🔥 Полный список

🖥 CPU vs GPU Очень хорошее и интуитивно понятное объяснение CPU vs GPU Источник

🔥 eliza — это проект, направленный на создание платформы для автономных агентов, способных выполнять сложные задачи, взаимод
🔥 eliza — это проект, направленный на создание платформы для автономных агентов, способных выполнять сложные задачи, взаимодействовать с пользователями и использовать внешние инструменты! 🌟 Цель проекта — упростить процесс разработки агентов, которые могут действовать независимо, обрабатывать команды на естественном языке и решать поставленные задачи с минимальным вмешательством человека. Такие агенты могут использоваться как чат-боты, NPC в видеоиграх, для трейдинга и многих других задач! 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

Хронология самых интересных ИИ релизов в 2024 году🔥 От Gemma до Llama 3.1 405B, от Sonnet 3.5 до o3 ! С нетерпением ждем 2025 года 🤗 Это был поистине промывной год для ИИ! https://huggingface.co/spaces/reach-vb/2024-ai-timeline

🔥 pyRiemann — это библиотека на Python для анализа многомерных данных с использованием римановой геометрии положительно опре
🔥 pyRiemann — это библиотека на Python для анализа многомерных данных с использованием римановой геометрии положительно определенных матриц! 🌟 Она построена на API scikit-learn и предоставляет высокоуровневые инструменты для обработки данных, классификации и машинного обучения. Основное применение библиотеки связано с биосигналами (например, EEG, MEG, EMG), интерфейсами мозг-компьютер (BCI), а также дистанционным зондированием, включая обработку радарных изображений и гиперспектральных данных. 🔐 Лицензия: BSD-3-Clause 🖥 Github @data_analysis_ml

🔥 3DTrajMaster — это инструмент, предназначенный для работы с трехмерными траекториями в контексте анализа и обработки данных движения объектов! 🌟 Данный проект предлагает инструменты для эффективной работы с данными, которые включают трехмерные координаты объектов, а также их визуализацию и анализ траекторий в 3D-пространстве. 🖥 Github @data_analysis_ml

Уголок AI-энтузиастов от Сбера 🤖 Sber AI Lab — центр экспертизы Сбера в области искусственного интеллекта и активный участник глобального научного комьюнити. ✅ Команда создаёт полезные алгоритмы, фреймворки и технологии в разных сферах: от банкинга до медицины. ✅ Топ по количеству научных статей на A*/A конференции и Q1 журналы в Сбере ✅ Среди open-source решений лаборатории ИИ: LightAutoML (победитель Kaggle Grand Prix 2024), RePlay, pytorch-lifestream, eco2ai и другие инструменты. Узнать больше о решениях можно на GitHub. Ты можешь стать частью нашей команды и сделать свой вклад в развитие AI-проектов в интересных тебе направлениях тут.

🔥 OpenCoconut — реализация парадигмы латентного рассуждения, известной как Chain of Continuous Thought (COCONUT)! 🌟 Основна
🔥 OpenCoconut — реализация парадигмы латентного рассуждения, известной как Chain of Continuous Thought (COCONUT)! 🌟 Основная идея заключается в генерации "мыслей" в латентном пространстве (состояниях модели) перед началом декодирования ответа. Этот подход использует скрытые состояния модели на этапе предварительной подготовки данных для повышения качества генерации. 🌟 Проект ориентирован на задачи, такие как математические вычисления, программирование и общий анализ данных, основываясь на синтетическом наборе данных. В будущем планируется улучшение функции потерь, добавление методов раннего завершения генерации и адаптивного переключения между латентным пространством и языковым. Это может повысить точность и гибкость моделей, работающих с последовательными задачами. 🔐 Лицензия: Apache-2.0 🖥 Github @data_analysis_ml

Будьте честны с собой ) @data_analysis_ml
Будьте честны с собой ) @data_analysis_ml

⚡️ Введение в тензорные сети 📌 Урок5 📌 Урок 1 / Урок2 / Урок3 / Урок4 📌 Colab