Анализ данных (Data analysis)

Open in Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Network:Machinelearning Russia12 538 Technologies & Applications2 666...

📈 Analytical overview of Telegram channel Анализ данных (Data analysis)

Channel Анализ данных (Data analysis) (@data_analysis_ml) in the Russian language segment is an active participant. Currently, the community unites 50 212 subscribers, ranking 2 666 in the Technologies & Applications category and 12 538 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 50 212 subscribers.

According to the latest data from 18 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 10 over the last 30 days and by 7 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 8.77%. Within the first 24 hours after publication, content typically collects 6.56% reactions from the total number of subscribers.
Post reach: On average, each post receives 4 404 views. Within the first day, a publication typically gains 3 295 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 30.
Thematic interests: Content is focused on key topics such as llm, контекст, openai, архитектура, deepseek.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Thanks to the high frequency of updates (latest data received on 19 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

50 212

Subscribers

+724 hours

+227 days

+1030 days

4 404

Post views

~ 3 29524 hours

~ 4 33648 hours

8.77%

Engagement rate

~ 5

Posts per day

Ads index

beta

Posts Archive

50 219

Только что был опубликован анализ выбросов CO₂ от 3000+ LLM на Open LLM Leaderboard! 🌱 В статье описана оценка энергопотребления, показаны тенденции и интригующие выводы 🙌 👉 Читать здесь: https://huggingface.co/blog/leaderboard-emissions-analysis

50 219

📢 Релиз Moondream 2B Новая vision модель для эйдж девайсов Поддерживает структурированные выводы, улучшенное понимание текста, отслежтвание взгляда.



from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image

model = AutoModelForCausalLM.from_pretrained(
    "vikhyatk/moondream2",
    revision="2025-01-09",
    trust_remote_code=True,
    # Uncomment to run on GPU.
    # device_map={"": "cuda"}
)

# Captioning
print("Short caption:")
print(model.caption(image, length="short")["caption"])

print("\nNormal caption:")
for t in model.caption(image, length="normal", stream=True)["caption"]:
    # Streaming generation example, supported for caption() and detect()
    print(t, end="", flush=True)
print(model.caption(image, length="normal"))

# Visual Querying
print("\nVisual query: 'How many people are in the image?'")
print(model.query(image, "How many people are in the image?")["answer"])

# Object Detection
print("\nObject detection: 'face'")
objects = model.detect(image, "face")["objects"]
print(f"Found {len(objects)} face(s)")

# Pointing
print("\nPointing: 'person'")
points = model.point(image, "person")["points"]
print(f"Found {len(points)} person(s)")


https://huggingface.co/vikhyatk/moondream2

▪ HF: https://huggingface.co/vikhyatk/moondream2 ▪Demo: https://moondream.ai/playground ▪Github: https://github.com/vikhyat/moondream

50 219

👀 Ollama-OCR Пакет для Python и приложение Streamlit, использующие модели зрения Ollama для извлечения текста из изображений различных форматов, с поддержкой пакетной обработки. pip install ollama-ocr ▪ Github @data_analysis_ml

50 219

Repost from Machinelearning

🔥 Microsoft только что выпустила Phi-4 LLM, обученный на 9,4 триллионах токенов. Лицензия MIT! 🤗 HF: https://huggingface.co/microsoft/phi-4 🧠Demo: https://huggingface.co/spaces/Tonic/Phi-4 @ai_machinelearning_big_data #phi4 #llm #Microsoft

50 219

🔥 miniperplx — минималистичный поисковый движок, работающий на базе ИИ! 🌟 Он использует модели, такие как GPT-4o и Claude 3.5, для предоставления ответов на запросы, а также поддерживает функции веб-поиска, поиск по URL, прогноз погоды, выполнение программного кода, перевод текста и многие другие возможности. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

50 219

🎉OLMo2 установили новый стандарт для релизов с открытым исходным кодом. 🫡 Пристегните ремни - выпущен подробный репорт о OLMo 2 . В нем 50 с лишним страниц о 4 важнейших компонентах конвейера развития LLM. Они выпустил: Модели, датасеты, код обучения и все возможные данные. А вишенкой на торте стали журналы wandb. Итак, если вы хотите создать современный LLM? Создатели OLMo 2 делятся полным рецептом. ----- 🔧 Ключевые методы в этой статье: → В OLMo 2 реализован двухэтапный подход к обучению: предварительное обучение на 4-5T токенах и обучение на специализированном Dolmino Mix 1124. → Архитектура отличается повышенной стабильностью благодаря RMSNorm, переупорядоченной нормализации и QK-норме для вычисления внимания. → Трехфазный конвейер тюнинга сочетает в себе контролируемую тонкую настройку, прямую оптимизацию предпочтений и обучение с подкреплением и проверяемым вознаграждением. → Инфраструктура обучения включает два кластера (Jupiter и Augusta) с оптимизированным управлением рабочей нагрузкой с помощью системы Beaker. ----- 💡 Основные выводы: → Стабильность обучения значительно повышается за счет фильтрации повторяющихся n-грамм и использования инициализации нормальным распределением → Обучение в середине обучения на высококачественных данных эффективно расширяет возможности модели → Усреднение веса модели неизменно повышает производительность → Оптимизация инфраструктуры имеет решающее значение для успешного обучения LLM ----- 📊 Результаты: → Модели 7B и 13B соответствуют или превосходят Llama 3.1 и Qwen 2.5, используя меньшее количество FLOPs → Оценки GSM8K: 67,5 для 7B, 75,1 для 13B → Показатели MMLU: 63,7 для 7B, 67,5 для 13B 💡Подробнее про модель 💡Paper 💡Blog 💡Demo

50 219

💡Академия Alibaba DAMO выпустили мультимодельный Vision-language датасет 6.5M изображений + 0.8B текста из 22k часов обучающих видео Охватывает такие предметы, как математика, физика и химия. Apache 2.0 - Датасет: https://huggingface.co/datasets/DAMO-NLP-SG/multimodal_textbook - Статья: https://huggingface.co/papers/2501.00958

50 219

🔥 MarS — движок для симуляции финансовых рынков, основанный на генеративной модели, называемой Large Market Model (LMM)! 🌟 Цель проекта — создание реалистичных, контролируемых сценариев торговли, которые могут моделировать рыночные ордера и их влияние. MarS позволяет исследовать законы масштабирования модели LMM в финансовых рынках и ее потенциал для реальных приложений, таких как создание рыночных моделей и генерация рыночных сценариев. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

50 219

Большая подборка интересных статей, посвященных LLM. -The GPT-4 barrier was comprehensively broken - Some of those GPT-4 models run on my laptop - LLM prices crashed, thanks to competition and increased efficiency - Multimodal vision is common, audio and video are starting to emerge - Voice and live camera mode are science fiction come to life -Prompt driven app generation is a commodity already - Universal access to the best models lasted for just a few short months - Agents” still haven’t really happened yet - Evals really matter - Apple Intelligence is bad, Apple’s MLX library is excellent - The rise of inference-scaling “reasoning” models - Was the best currently available LLM trained in China for less than $6m? - The environmental impact got better - The environmental impact got much, much worse - The year of slop - Synthetic training data works great - LLMs somehow got even harder to use - Knowledge is incredibly unevenly distributed - LLMs need better criticism ⚡️ Статья

50 219

👩‍💻 Pathway — это фреймворк на Python для обработки данных в реальном времени, который поддерживает ETL-процессы, аналитические потоки и создание ИИ-конвейеров, включая работу с LLM и методами RAG! 🌟 Фреймворк предоставляет простой API на Python, который интегрируется с популярными ML-библиотеками и может использоваться для потоковой и пакетной обработки данных. 🔐 Лицензия: BSL-1.1 🖥 Github @data_analysis_ml

50 219

⚡️ 50 статей/моделей/блогов по 10 направлениям в AI: LLMs, Benchmarks, Prompting, RAG, Agents, CodeGen, Vision, Voice, Diffusion, Finetuning. Если вы начинаете изучать мл с нуля, это хороший список. Секция 1:топовые LLMs - GPT1, GPT2, GPT3, Codex, InstructGPT, GPT4 статьи. GPT3.5, 4o , o1 , и o3 . - Claude 3 и Gemini 1, Claude 3.5 Sonnet и Gemini 2.0 Flash/Flash Thinking. Gemma 2. LLaMA 1, Llama 2, Llama 3 статьи для понимания внутреннего устройства моделей. - Mistral 7B, Mixtral и Pixtral - DeepSeek V1, Coder, MoE, V2, V3. - Apple Intelligence Секция 2: бенчмарки - MMLU paper - the main knowledgebenchmark, next to GPQA and BIG-Bench. In 2025 frontier labs use MMLU Pro, GPQA Diamond, and BIG-Bench Hard. - MuSR paper - evaluating long context, next to LongBench, BABILong, and RULER. Solving Lost in The Middle and other issues with Needle in a Haystack. - MATH paper. 🔥 Полный список

50 219

🖥 CPU vs GPU Очень хорошее и интуитивно понятное объяснение CPU vs GPU Источник

50 219

🔥 eliza — это проект, направленный на создание платформы для автономных агентов, способных выполнять сложные задачи, взаимодействовать с пользователями и использовать внешние инструменты! 🌟 Цель проекта — упростить процесс разработки агентов, которые могут действовать независимо, обрабатывать команды на естественном языке и решать поставленные задачи с минимальным вмешательством человека. Такие агенты могут использоваться как чат-боты, NPC в видеоиграх, для трейдинга и многих других задач! 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

50 219

Хронология самых интересных ИИ релизов в 2024 году🔥 От Gemma до Llama 3.1 405B, от Sonnet 3.5 до o3 ! С нетерпением ждем 2025 года 🤗 Это был поистине промывной год для ИИ! https://huggingface.co/spaces/reach-vb/2024-ai-timeline

50 219

🔥 pyRiemann — это библиотека на Python для анализа многомерных данных с использованием римановой геометрии положительно определенных матриц! 🌟 Она построена на API scikit-learn и предоставляет высокоуровневые инструменты для обработки данных, классификации и машинного обучения. Основное применение библиотеки связано с биосигналами (например, EEG, MEG, EMG), интерфейсами мозг-компьютер (BCI), а также дистанционным зондированием, включая обработку радарных изображений и гиперспектральных данных. 🔐 Лицензия: BSD-3-Clause 🖥 Github @data_analysis_ml

50 219

🔥 3DTrajMaster — это инструмент, предназначенный для работы с трехмерными траекториями в контексте анализа и обработки данных движения объектов! 🌟 Данный проект предлагает инструменты для эффективной работы с данными, которые включают трехмерные координаты объектов, а также их визуализацию и анализ траекторий в 3D-пространстве. 🖥 Github @data_analysis_ml

50 219

Уголок AI-энтузиастов от Сбера 🤖 Sber AI Lab — центр экспертизы Сбера в области искусственного интеллекта и активный участник глобального научного комьюнити. ✅ Команда создаёт полезные алгоритмы, фреймворки и технологии в разных сферах: от банкинга до медицины. ✅ Топ по количеству научных статей на A*/A конференции и Q1 журналы в Сбере ✅ Среди open-source решений лаборатории ИИ: LightAutoML (победитель Kaggle Grand Prix 2024), RePlay, pytorch-lifestream, eco2ai и другие инструменты. Узнать больше о решениях можно на GitHub. Ты можешь стать частью нашей команды и сделать свой вклад в развитие AI-проектов в интересных тебе направлениях тут.

50 219

🔥 OpenCoconut — реализация парадигмы латентного рассуждения, известной как Chain of Continuous Thought (COCONUT)! 🌟 Основная идея заключается в генерации "мыслей" в латентном пространстве (состояниях модели) перед началом декодирования ответа. Этот подход использует скрытые состояния модели на этапе предварительной подготовки данных для повышения качества генерации. 🌟 Проект ориентирован на задачи, такие как математические вычисления, программирование и общий анализ данных, основываясь на синтетическом наборе данных. В будущем планируется улучшение функции потерь, добавление методов раннего завершения генерации и адаптивного переключения между латентным пространством и языковым. Это может повысить точность и гибкость моделей, работающих с последовательными задачами. 🔐 Лицензия: Apache-2.0 🖥 Github @data_analysis_ml

50 219

Будьте честны с собой ) @data_analysis_ml

50 219

⚡️ Введение в тензорные сети 📌 Урок5 📌 Урок 1 / Урок2 / Урок3 / Урок4 📌 Colab