Анализ данных (Data analysis)

Open in Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Network:Machinelearning Russia12 538 Technologies & Applications2 666...

📈 Analytical overview of Telegram channel Анализ данных (Data analysis)

Channel Анализ данных (Data analysis) (@data_analysis_ml) in the Russian language segment is an active participant. Currently, the community unites 50 212 subscribers, ranking 2 666 in the Technologies & Applications category and 12 538 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 50 212 subscribers.

According to the latest data from 18 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 10 over the last 30 days and by 7 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 8.77%. Within the first 24 hours after publication, content typically collects 6.56% reactions from the total number of subscribers.
Post reach: On average, each post receives 4 404 views. Within the first day, a publication typically gains 3 295 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 30.
Thematic interests: Content is focused on key topics such as llm, контекст, openai, архитектура, deepseek.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Thanks to the high frequency of updates (latest data received on 19 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

50 212

Subscribers

+724 hours

+227 days

+1030 days

4 404

Post views

~ 3 29524 hours

~ 4 33648 hours

8.77%

Engagement rate

~ 5

Posts per day

Ads index

beta

Posts Archive

50 215

🤖 FAST: Efficient Robot Action Tokenization Новый токенизатор, который позволяет обучать VLA в 5 раз быстрее по сравнению с предыдущей SoTA. Его очень легко использовать и это опенсорс. ▪Описание: http://pi.website/research/fast ▪HF: https://huggingface.co/physical-intelligence/fast ▪Статья: https://www.pi.website/download/fast.pdf @data_analysis_ml #robots #tokenization

50 215

🔥 HuatuoGPT-o1 — медицинская модель, ориентированная на сложные рассуждения в медицинской области! 🌟 Модель предназначена для диагностики, анализа ошибок и предложений альтернативных стратегий, улучшая свои ответы с помощью усиленного обучения (PPO) и верификации на основе специализированных медицинских задач. 🖥 Github @data_analysis_ml

50 215

📌 Видео 📌 Урок 1 / Урок2 / Урок3 / Урок4 / Урок5 / Урок6/ Урок7 📌 Colab 📌Полный курс

50 215

⚡️⚡️⚡️ Train 400x faster Static Embedding Models with Sentence Transformers Интересное чтиво- очень быстрый метод обучения статических моделей эмбедингов, которые выполняются на процессоре. На тестах он показал себя в 100-400 раз быстрее, чем обычные модели, при сохранении качества более в районе 85%! Внутри: - Две модели (для английского языка и многоязычная), - Подробная стратегия обучения, которой следовали авторы, от разработки идеи до выбора фдатасета, реализации и оценки. - Сценарии обучения, основанные на опенсорсной библиотеке sentence transformers с открытым исходным кодом. - Отчеты о весах и отклонениях с метриками обучения и оценки, собранными во время обучения. - Список датасетов, которые авторы использовали: 30 для обучения и 13 для оценки моделей. 🤗 HF: https://huggingface.co/blog/static-embeddings #transformers #embeddingmodel #tutorial

50 215

🗣 Kokoro-TTS Мощнейшая TTS-модель всего лишь на 82M параметров. Она превосходит более крупные модели и генерирует минуты речи за секунды. Самое главное - это открытый исходный код! Попробуйте и убедитесь сами: 👇 🤗 Hf: https://huggingface.co/spaces/hexgrad/Kokoro-TTS #tts #ml #opensource

50 215

🌟Вышел InternLM v3! - Производительность SoTA, превосходит такие модели, как Llama3.1-8B и Qwen2.5-7B - Способность к глубоким рассуждениям с использованием системных подсказок (подробности в карточке модели) - Обучается только на токенах высокого качества 4T. https://huggingface.co/collections/internlm/internlm3-67875827c377690c01a9131d

50 215

Repost from Machinelearning

📄 ML NEWS 🤖 Microsoft Research только что опубликовали новую версию AutoGen - суперпопулярного фреймворка для работы с агентами с открытым исходным кодом AutoGen v0.4 это переработанный фреймворк, в котором значительно улучшена масштабируемость, добавлена модульность и новая система отладки процессов agentic AI за счет внедрения асинхронной архитектуры, управляемой событиями. ▪ Github 🖥 Google представил архитектуру Titans, которая возможно станет очень важным элементом развития больших языковых моделей (LLM) в 2025 году. Архитектура состоит из 3х типов памяти: - Краткосрочная память – для оперативной обработки данных. - Долгосрочная память – для всей сохранения значимой информации. - Постоянная память – для фиксации важной информации. По заявлениям разработчиков Titans может эффективно обрабатывать контекст превышающим 2 миллионов токенов. ▪Подробнее 🖥 ChatGPT теперь таск-менеджер: ИИ теперь способен инициировать диалог благодаря новой функции Tasks. Ранее он только отвечал на запросы, а теперь способен самостоятельно выполнять задачи. Tasks позволяют пользователям давать ChatGPT задачи с указанием времени выполнения. ▪Подробнее 📱 DeepSeek V3 вышел на айфонах Приложение доступно AppStore бесплатно и работает очень быстро ▪Скачать можно здесь. ⚡️ Выпущена новая открытая модель Omni! MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. - 8B параметров (SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B) - Превосходит GPT-4V в vision задачах с 70. 2 баллами на OpenCompass - Лучшие в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса ▪ Model 👩‍💻 Stable point-aware 3D от Stability AI Свежий инструмент с открытым исходным кодом, который отлично справляется с созданием 3D объектов по одному изображению. ▪Github @ai_machinelearning_big_data #news #ml #digest #Stability #chatgpt #google #microsoft #deepSeek #MiniCPM

50 215

🎓 Qwen2.5-Math-PRM-7B и Qwen2.5-Math-PRM-72B. PRM В дополнение к математической модели вознаграждения за результат (ORM) Qwen2.5-Math-RM-72B, Qwen выпустили модели вознаграждения за процесс (PRM), Они представляют собой новый подход к наблюдению за процессами в математических рассуждениях больших языковых моделей (LLM), направленный на выявление и устранение промежуточных ошибок в процессах рассуждений. PRM демонстрируют впечатляющую производительность в оценке Best-of-N (BoN), так и более высокую эффективность нахождения ошибок в ProcessBench. А вот интересная цитата из технического отчета: "Мы разрабатываем механизм консенсусной фильтрации, который эффективно объединяет оценку МК с LLM-как-оценку, и выступаем за более комплексную систему оценки, которая объединяет метрики уровня ответа и уровня шага" » https://huggingface.co/papers/2501.07301

50 215

Приглашаем вас на открытый вебинар: «Технологии за современными LLM» https://otus.pw/IWFL/ ⏰Дата: 20 января в 18:00 мск Спикер: Мария Тихонова 📚На занятии мы обсудим: + Какие современные LLM сегодня используют на практике. + Основные концепции языкового моделирования и продвинутые языковые модели. + Методы и технологии, благодаря которым создатели ChatGPT совершили прорыв. + Что представляет из себя задача языкового моделирования + Языковые модели, которые сегодня лежат в основе всех NLP методов 🔥Результаты урока: - Вы поймете, где применяются методы NLP - Узнаете основные тренды и перспективы развития методов NLP - Узнаете современное состояние области в связи с быстрым развитием LLM Участники открытых уроков получат скидку🎁 на онлайн-курс «NLP / Natural Language Processing» 👉Регистрируйтесь на открытый вебинар по ссылке: https://otus.pw/IWFL/?erid=2W5zFHJGL9W Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576 #реклама О рекламодателе

50 215

🔥 Web-UI — это инструмент для работы с AI-агентами в браузере, предоставляющий удобный пользовательский интерфейс, построенный на основе Gradio! 🌟 Он позволяет пользователям запускать и управлять задачами с помощью различных больших языковых моделей (LLMs), таких как OpenAI, Azure OpenAI, Anthropic и другие. Этот проект поддерживает настройку собственного браузера для работы с инструментом, сохраняя сессии и позволяя видеть историю взаимодействий с AI. 💡 Web-UI поддерживает как локальную установку с использованием Python и Playwright, так и установку через Docker. Пользователи могут запускать интерфейс, чтобы наблюдать за действиями AI-агента в реальном времени, включая управление сессиями браузера и использование API для интеграции с LLM. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

50 215

Станьте ML-Инженером за 8 месяцев. Основная проблема обучений – оторванность от задач реального бизнеса. На курсе учили строить простые модельки, а на работе – сделать по шаблону недостаточно, нужно сразу связать это с бизнесом. Курс-симулятор от Simulative построен таким образом, что вы сразу погружаетесь в настоящую работу: работаете над 10+ проектами из реального бизнеса, учитесь не только писать код, но и понимать, что у алгоритмов «под капотом» Вы изучите математику, Python, научитесь обучать ML-модели, нейронные сети и создавать рекомендательные системы. А также подготовитесь к любому собеседованию – в курс включены тестовые задания, пробные интервью (технические и с HR) и многое другое. С трудоустройством тоже помогут: 87% студентов находят работу своей мечты в течение двух месяцев с момента начала поиска. А на VIP тарифе преподаватели и HR спроектируют вам персональный трек обучения и за руку доведут до оффера. Часть стоимости курса вы оплачиваете только, когда найдёте работу. Успейте присоединиться к первому потоку обучения с самой большой скидкой 17%

50 215

💡Transformer^2: Самоадаптирующиеся LLM Вводит новую структуру самоадаптации, которая адаптирует LLM для невидимых задач в реальном времени, выборочно корректируя только отдельные компоненты их весовых матриц. Во время вывода использует систему диспетчеризации, которая определяет свойства задачи, а затем использует векторы «экспертов» для конкретной задачи, обученные с помощью reinforcement learning👀 https://huggingface.co/papers/2501.06252

50 215

🔥 Mistral выпустила новую модель, специально разработанную для по Кодина с ИИ. Codestral 25.01 дебютирует на 1-м месте в рейтинге лидеров LMsys Copilot Arena 🔥 Новая версия стала заметно умнее и в разы быстрее благодаря обновлённому токенизатору и усовершенствованной архитектуре. Вы уже можете использовать его бесплатно в Continue (100% открытый исходный код) для VS Code. Размер окна контекста увеличен до 256 тысяч токенов. Чтобы использовать его, просто добавьте плагин Continue в VS Code и выберите Codestral 25.01 в качестве модели. А если вам нужна дополнительная информация, то вот официальный блог Mistral. https://mistral.ai/news/codestral-2501/ #mistral #llm #ml

50 215

🔥 Fast Semantic Text Deduplication Новая, невероятно быстрая библиотека семантической дедупликации текста, которая объединяет эмбединг Model2Vec с поиском сходства, что позволяет дедуплицировать миллионы записей за считанные минуты. 👀 TL;DR: 🚀 Дедупликация 1,8 млн записей WikiText производит всего 83 секунды на CPU 💡 Используется семантическое сходство вместо точного соответствия для обнаружения дубликатов 🐍 Простой API Python и минимальные зависимости 🔧 Поддерживает пользовательские кодировщики, включая преобразователи предложений 🔎 Встроенные инструменты для проверки дубликатов и настройки порогов схожести 🧪 Проверено на 17 популярных наборах данных pip install semhash


from datasets import load_dataset
from semhash import SemHash

# Load a dataset to deduplicate
texts = load_dataset("ag_news", split="train")["text"]

# Initialize a SemHash instance
semhash = SemHash.from_records(records=texts)

# Deduplicate the texts
deduplicated_texts = semhash.self_deduplicate().deduplicated

▪ GitHub ▪ QuickStart

50 215

📝 awesome-claude-prompts — это коллекция лучших промптов для использования с языковой моделью Claude! 🌟 В репозитории собраны примеры для самых разных задач, от анализа текста до написания кода, что делает его полезным для разработчиков, маркетологов, студентов и многих других пользователей. 🖥 Github @data_analysis_ml

50 215

🎓 Введение в статистическую теорию машинного обучения 📌 Видео 📌 Урок 1 / Урок2 / Урок3 / Урок4 / Урок5 / Урок 6 📌 Colab 📌Полный курс @data_math

50 215

🔥 World Arcade — это платформа, которая позволяет запускать генеративные игры на вашем собственном GPU! 🌟 В отличие от традиционных игр, использующих детерминированные игровые движки, генеративные игры создают каждый кадр в реальном времени с помощью интерактивных видеомоделей, реагируя на действия игрока. World Arcade объединяет различные открытые игровые модели, такие как Yume Nikki, CS:GO, Minecraft, Atari Arcade Games и Mario Kart 64, предоставляя пользователям удобный способ их запуска и настройки. 💡 Платформа поддерживает работу на Windows и Linux, требуя наличия GPU NVIDIA с объемом видеопамяти не менее 8 ГБ. Для установки на Windows достаточно скачать архив dweam-windows.zip из последнего релиза, распаковать его и запустить исполняемый файл dweam.exe. На Linux установка осуществляется с использованием Docker и Docker Compose. World Arcade также предоставляет возможность добавления собственных игр путем создания Python-пакета с реализацией класса Game и предоставления метаданных в файле dweam.toml. 🔐 Лицензия: AGPL-3.0 🖥 Github @data_analysis_ml

50 215

🔥 LeanUniverse - это пакет, предназначенный для создания датасетов из репозиториев Lean4 на Github. Его цель - упростить и стандартизировать процесс создания обучающих наборов данных для моделей ИИ. Ключевые особенности: - Последовательность: LeanUniverse гарантирует, что все собранные репозитории согласованы и могут быть связаны с одной и той же версией зависимостей (mathlib). Это гарантирует надежность и совместимость датасетов, созданных с помощью этой библиотеки. - Фильтрация лицензий: Пользователи имеют возможность определять фильтры допустимых лицензий, - Кэширование: В библиотеку встроен механизм кэширования, повышающий эффективность за счет сокращения избыточных вычислений. Эта функция позволяет периодически обновлять и увеличивать датасеты.

git clone https://github.com/your-repo/LeanUniverse.git
cd LeanUniverse

▪ Github

50 215

⚡️ LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token LLaVA-Mini достигает производительности LLaVA-v1.5 с 1 токеном (vs 576), сокращая количество FLOP на 77%, задержку со 100 мс до 40 мс и VRAM с 360 МБ до 0,6 МБ, обеспечивая 3-часовую обработку видео и 10 000 кадров на 24 ГБ GPU 🔥. Установка:


conda create -n llavamini python=3.10 -y
conda activate llavamini
pip install -e .
pip install -e ".[train]"
pip install flash-attn --no-build-isolation

HF: https://huggingface.co/ICTNLP/llava-mini-llama-3.1-8b Github: https://github.com/ictnlp/LLaVA-Mini @data_analysis_ml

50 215

Программирование в 2025 году 🤓 @data_analysis_ml