Анализ данных (Data analysis)

前往频道在 Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

显示更多

网络:Machinelearning 俄罗斯12 538 技术与应用2 666...

📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览

频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语语言赛道中的是活跃参与者。目前社区聚集了 50 224 名订阅者，在 技术与应用 类别中位列第 2 666，并在 俄罗斯 地区排名第 12 538 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 50 224 名订阅者。

根据 18 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 10，过去 24 小时变化为 7，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 8.77%。内容发布后 24 小时内通常能获得 6.56% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 4 404 次浏览，首日通常累积 3 295 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 30。
主题关注点： 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

凭借高频更新（最新数据采集于 19 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

50 224

订阅者

+724 小时

+227 天

+1030 天

4 404

帖子浏览量

~ 3 29524 小时

~ 4 33648 小时

8.77%

参与率

~ 5

每日帖子数

Ads index

beta

帖子存档

50 229

🤖 FAST: Efficient Robot Action Tokenization Новый токенизатор, который позволяет обучать VLA в 5 раз быстрее по сравнению с предыдущей SoTA. Его очень легко использовать и это опенсорс. ▪Описание: http://pi.website/research/fast ▪HF: https://huggingface.co/physical-intelligence/fast ▪Статья: https://www.pi.website/download/fast.pdf @data_analysis_ml #robots #tokenization

50 229

🔥 HuatuoGPT-o1 — медицинская модель, ориентированная на сложные рассуждения в медицинской области! 🌟 Модель предназначена для диагностики, анализа ошибок и предложений альтернативных стратегий, улучшая свои ответы с помощью усиленного обучения (PPO) и верификации на основе специализированных медицинских задач. 🖥 Github @data_analysis_ml

50 229

📌 Видео 📌 Урок 1 / Урок2 / Урок3 / Урок4 / Урок5 / Урок6/ Урок7 📌 Colab 📌Полный курс

50 229

⚡️⚡️⚡️ Train 400x faster Static Embedding Models with Sentence Transformers Интересное чтиво- очень быстрый метод обучения статических моделей эмбедингов, которые выполняются на процессоре. На тестах он показал себя в 100-400 раз быстрее, чем обычные модели, при сохранении качества более в районе 85%! Внутри: - Две модели (для английского языка и многоязычная), - Подробная стратегия обучения, которой следовали авторы, от разработки идеи до выбора фдатасета, реализации и оценки. - Сценарии обучения, основанные на опенсорсной библиотеке sentence transformers с открытым исходным кодом. - Отчеты о весах и отклонениях с метриками обучения и оценки, собранными во время обучения. - Список датасетов, которые авторы использовали: 30 для обучения и 13 для оценки моделей. 🤗 HF: https://huggingface.co/blog/static-embeddings #transformers #embeddingmodel #tutorial

50 229

🗣 Kokoro-TTS Мощнейшая TTS-модель всего лишь на 82M параметров. Она превосходит более крупные модели и генерирует минуты речи за секунды. Самое главное - это открытый исходный код! Попробуйте и убедитесь сами: 👇 🤗 Hf: https://huggingface.co/spaces/hexgrad/Kokoro-TTS #tts #ml #opensource

50 229

🌟Вышел InternLM v3! - Производительность SoTA, превосходит такие модели, как Llama3.1-8B и Qwen2.5-7B - Способность к глубоким рассуждениям с использованием системных подсказок (подробности в карточке модели) - Обучается только на токенах высокого качества 4T. https://huggingface.co/collections/internlm/internlm3-67875827c377690c01a9131d

50 229

Repost from Machinelearning

📄 ML NEWS 🤖 Microsoft Research только что опубликовали новую версию AutoGen - суперпопулярного фреймворка для работы с агентами с открытым исходным кодом AutoGen v0.4 это переработанный фреймворк, в котором значительно улучшена масштабируемость, добавлена модульность и новая система отладки процессов agentic AI за счет внедрения асинхронной архитектуры, управляемой событиями. ▪ Github 🖥 Google представил архитектуру Titans, которая возможно станет очень важным элементом развития больших языковых моделей (LLM) в 2025 году. Архитектура состоит из 3х типов памяти: - Краткосрочная память – для оперативной обработки данных. - Долгосрочная память – для всей сохранения значимой информации. - Постоянная память – для фиксации важной информации. По заявлениям разработчиков Titans может эффективно обрабатывать контекст превышающим 2 миллионов токенов. ▪Подробнее 🖥 ChatGPT теперь таск-менеджер: ИИ теперь способен инициировать диалог благодаря новой функции Tasks. Ранее он только отвечал на запросы, а теперь способен самостоятельно выполнять задачи. Tasks позволяют пользователям давать ChatGPT задачи с указанием времени выполнения. ▪Подробнее 📱 DeepSeek V3 вышел на айфонах Приложение доступно AppStore бесплатно и работает очень быстро ▪Скачать можно здесь. ⚡️ Выпущена новая открытая модель Omni! MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. - 8B параметров (SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B) - Превосходит GPT-4V в vision задачах с 70. 2 баллами на OpenCompass - Лучшие в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса ▪ Model 👩‍💻 Stable point-aware 3D от Stability AI Свежий инструмент с открытым исходным кодом, который отлично справляется с созданием 3D объектов по одному изображению. ▪Github @ai_machinelearning_big_data #news #ml #digest #Stability #chatgpt #google #microsoft #deepSeek #MiniCPM

50 229

🎓 Qwen2.5-Math-PRM-7B и Qwen2.5-Math-PRM-72B. PRM В дополнение к математической модели вознаграждения за результат (ORM) Qwen2.5-Math-RM-72B, Qwen выпустили модели вознаграждения за процесс (PRM), Они представляют собой новый подход к наблюдению за процессами в математических рассуждениях больших языковых моделей (LLM), направленный на выявление и устранение промежуточных ошибок в процессах рассуждений. PRM демонстрируют впечатляющую производительность в оценке Best-of-N (BoN), так и более высокую эффективность нахождения ошибок в ProcessBench. А вот интересная цитата из технического отчета: "Мы разрабатываем механизм консенсусной фильтрации, который эффективно объединяет оценку МК с LLM-как-оценку, и выступаем за более комплексную систему оценки, которая объединяет метрики уровня ответа и уровня шага" » https://huggingface.co/papers/2501.07301

50 229

Приглашаем вас на открытый вебинар: «Технологии за современными LLM» https://otus.pw/IWFL/ ⏰Дата: 20 января в 18:00 мск Спикер: Мария Тихонова 📚На занятии мы обсудим: + Какие современные LLM сегодня используют на практике. + Основные концепции языкового моделирования и продвинутые языковые модели. + Методы и технологии, благодаря которым создатели ChatGPT совершили прорыв. + Что представляет из себя задача языкового моделирования + Языковые модели, которые сегодня лежат в основе всех NLP методов 🔥Результаты урока: - Вы поймете, где применяются методы NLP - Узнаете основные тренды и перспективы развития методов NLP - Узнаете современное состояние области в связи с быстрым развитием LLM Участники открытых уроков получат скидку🎁 на онлайн-курс «NLP / Natural Language Processing» 👉Регистрируйтесь на открытый вебинар по ссылке: https://otus.pw/IWFL/?erid=2W5zFHJGL9W Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576 #реклама О рекламодателе

50 229

🔥 Web-UI — это инструмент для работы с AI-агентами в браузере, предоставляющий удобный пользовательский интерфейс, построенный на основе Gradio! 🌟 Он позволяет пользователям запускать и управлять задачами с помощью различных больших языковых моделей (LLMs), таких как OpenAI, Azure OpenAI, Anthropic и другие. Этот проект поддерживает настройку собственного браузера для работы с инструментом, сохраняя сессии и позволяя видеть историю взаимодействий с AI. 💡 Web-UI поддерживает как локальную установку с использованием Python и Playwright, так и установку через Docker. Пользователи могут запускать интерфейс, чтобы наблюдать за действиями AI-агента в реальном времени, включая управление сессиями браузера и использование API для интеграции с LLM. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

50 229

Станьте ML-Инженером за 8 месяцев. Основная проблема обучений – оторванность от задач реального бизнеса. На курсе учили строить простые модельки, а на работе – сделать по шаблону недостаточно, нужно сразу связать это с бизнесом. Курс-симулятор от Simulative построен таким образом, что вы сразу погружаетесь в настоящую работу: работаете над 10+ проектами из реального бизнеса, учитесь не только писать код, но и понимать, что у алгоритмов «под капотом» Вы изучите математику, Python, научитесь обучать ML-модели, нейронные сети и создавать рекомендательные системы. А также подготовитесь к любому собеседованию – в курс включены тестовые задания, пробные интервью (технические и с HR) и многое другое. С трудоустройством тоже помогут: 87% студентов находят работу своей мечты в течение двух месяцев с момента начала поиска. А на VIP тарифе преподаватели и HR спроектируют вам персональный трек обучения и за руку доведут до оффера. Часть стоимости курса вы оплачиваете только, когда найдёте работу. Успейте присоединиться к первому потоку обучения с самой большой скидкой 17%

50 229

💡Transformer^2: Самоадаптирующиеся LLM Вводит новую структуру самоадаптации, которая адаптирует LLM для невидимых задач в реальном времени, выборочно корректируя только отдельные компоненты их весовых матриц. Во время вывода использует систему диспетчеризации, которая определяет свойства задачи, а затем использует векторы «экспертов» для конкретной задачи, обученные с помощью reinforcement learning👀 https://huggingface.co/papers/2501.06252

50 229

🔥 Mistral выпустила новую модель, специально разработанную для по Кодина с ИИ. Codestral 25.01 дебютирует на 1-м месте в рейтинге лидеров LMsys Copilot Arena 🔥 Новая версия стала заметно умнее и в разы быстрее благодаря обновлённому токенизатору и усовершенствованной архитектуре. Вы уже можете использовать его бесплатно в Continue (100% открытый исходный код) для VS Code. Размер окна контекста увеличен до 256 тысяч токенов. Чтобы использовать его, просто добавьте плагин Continue в VS Code и выберите Codestral 25.01 в качестве модели. А если вам нужна дополнительная информация, то вот официальный блог Mistral. https://mistral.ai/news/codestral-2501/ #mistral #llm #ml

50 229

🔥 Fast Semantic Text Deduplication Новая, невероятно быстрая библиотека семантической дедупликации текста, которая объединяет эмбединг Model2Vec с поиском сходства, что позволяет дедуплицировать миллионы записей за считанные минуты. 👀 TL;DR: 🚀 Дедупликация 1,8 млн записей WikiText производит всего 83 секунды на CPU 💡 Используется семантическое сходство вместо точного соответствия для обнаружения дубликатов 🐍 Простой API Python и минимальные зависимости 🔧 Поддерживает пользовательские кодировщики, включая преобразователи предложений 🔎 Встроенные инструменты для проверки дубликатов и настройки порогов схожести 🧪 Проверено на 17 популярных наборах данных pip install semhash


from datasets import load_dataset
from semhash import SemHash

# Load a dataset to deduplicate
texts = load_dataset("ag_news", split="train")["text"]

# Initialize a SemHash instance
semhash = SemHash.from_records(records=texts)

# Deduplicate the texts
deduplicated_texts = semhash.self_deduplicate().deduplicated

▪ GitHub ▪ QuickStart

50 229

📝 awesome-claude-prompts — это коллекция лучших промптов для использования с языковой моделью Claude! 🌟 В репозитории собраны примеры для самых разных задач, от анализа текста до написания кода, что делает его полезным для разработчиков, маркетологов, студентов и многих других пользователей. 🖥 Github @data_analysis_ml

50 229

🎓 Введение в статистическую теорию машинного обучения 📌 Видео 📌 Урок 1 / Урок2 / Урок3 / Урок4 / Урок5 / Урок 6 📌 Colab 📌Полный курс @data_math

50 229

🔥 World Arcade — это платформа, которая позволяет запускать генеративные игры на вашем собственном GPU! 🌟 В отличие от традиционных игр, использующих детерминированные игровые движки, генеративные игры создают каждый кадр в реальном времени с помощью интерактивных видеомоделей, реагируя на действия игрока. World Arcade объединяет различные открытые игровые модели, такие как Yume Nikki, CS:GO, Minecraft, Atari Arcade Games и Mario Kart 64, предоставляя пользователям удобный способ их запуска и настройки. 💡 Платформа поддерживает работу на Windows и Linux, требуя наличия GPU NVIDIA с объемом видеопамяти не менее 8 ГБ. Для установки на Windows достаточно скачать архив dweam-windows.zip из последнего релиза, распаковать его и запустить исполняемый файл dweam.exe. На Linux установка осуществляется с использованием Docker и Docker Compose. World Arcade также предоставляет возможность добавления собственных игр путем создания Python-пакета с реализацией класса Game и предоставления метаданных в файле dweam.toml. 🔐 Лицензия: AGPL-3.0 🖥 Github @data_analysis_ml

50 229

🔥 LeanUniverse - это пакет, предназначенный для создания датасетов из репозиториев Lean4 на Github. Его цель - упростить и стандартизировать процесс создания обучающих наборов данных для моделей ИИ. Ключевые особенности: - Последовательность: LeanUniverse гарантирует, что все собранные репозитории согласованы и могут быть связаны с одной и той же версией зависимостей (mathlib). Это гарантирует надежность и совместимость датасетов, созданных с помощью этой библиотеки. - Фильтрация лицензий: Пользователи имеют возможность определять фильтры допустимых лицензий, - Кэширование: В библиотеку встроен механизм кэширования, повышающий эффективность за счет сокращения избыточных вычислений. Эта функция позволяет периодически обновлять и увеличивать датасеты.

git clone https://github.com/your-repo/LeanUniverse.git
cd LeanUniverse

▪ Github

50 229

⚡️ LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token LLaVA-Mini достигает производительности LLaVA-v1.5 с 1 токеном (vs 576), сокращая количество FLOP на 77%, задержку со 100 мс до 40 мс и VRAM с 360 МБ до 0,6 МБ, обеспечивая 3-часовую обработку видео и 10 000 кадров на 24 ГБ GPU 🔥. Установка:


conda create -n llavamini python=3.10 -y
conda activate llavamini
pip install -e .
pip install -e ".[train]"
pip install flash-attn --no-build-isolation

HF: https://huggingface.co/ICTNLP/llava-mini-llama-3.1-8b Github: https://github.com/ictnlp/LLaVA-Mini @data_analysis_ml

50 229

Программирование в 2025 году 🤓 @data_analysis_ml