Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 224 名订阅者,在 技术与应用 类别中位列第 2 666,并在 俄罗斯 地区排名第 12 538 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 224 名订阅者。
根据 18 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 10,过去 24 小时变化为 7,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.77%。内容发布后 24 小时内通常能获得 6.56% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 404 次浏览,首日通常累积 3 295 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 30。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 19 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 224
订阅者
+724 小时
+227 天
+1030 天
帖子存档
🤖 FAST: Efficient Robot Action Tokenization
Новый токенизатор, который позволяет обучать VLA в 5 раз быстрее по сравнению с предыдущей SoTA.
Его очень легко использовать и это опенсорс.
▪Описание: http://pi.website/research/fast
▪HF: https://huggingface.co/physical-intelligence/fast
▪Статья: https://www.pi.website/download/fast.pdf
@data_analysis_ml
#robots #tokenization
🔥 HuatuoGPT-o1 — медицинская модель, ориентированная на сложные рассуждения в медицинской области!
🌟 Модель предназначена для диагностики, анализа ошибок и предложений альтернативных стратегий, улучшая свои ответы с помощью усиленного обучения (PPO) и верификации на основе специализированных медицинских задач.
🖥 Github
@data_analysis_ml
+6
⚡️⚡️⚡️ Train 400x faster Static Embedding Models with Sentence Transformers
Интересное чтиво- очень быстрый метод обучения статических моделей эмбедингов, которые выполняются на процессоре.
На тестах он показал себя в 100-400 раз быстрее, чем обычные модели, при сохранении качества более в районе 85%!
Внутри:
- Две модели (для английского языка и многоязычная),
- Подробная стратегия обучения, которой следовали авторы, от разработки идеи до выбора фдатасета, реализации и оценки.
- Сценарии обучения, основанные на опенсорсной библиотеке sentence transformers с открытым исходным кодом.
- Отчеты о весах и отклонениях с метриками обучения и оценки, собранными во время обучения.
- Список датасетов, которые авторы использовали: 30 для обучения и 13 для оценки моделей.
🤗 HF: https://huggingface.co/blog/static-embeddings
#transformers #embeddingmodel #tutorial
🗣 Kokoro-TTS
Мощнейшая TTS-модель всего лишь на 82M параметров.
Она превосходит более крупные модели и генерирует минуты речи за секунды.
Самое главное - это открытый исходный код!
Попробуйте и убедитесь сами: 👇
🤗 Hf: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
#tts #ml #opensource
🌟Вышел InternLM v3!
- Производительность SoTA, превосходит такие модели, как Llama3.1-8B и Qwen2.5-7B
- Способность к глубоким рассуждениям с использованием системных подсказок (подробности в карточке модели)
- Обучается только на токенах высокого качества 4T.
https://huggingface.co/collections/internlm/internlm3-67875827c377690c01a9131d
Repost from Machinelearning
+5
📄 ML NEWS
🤖 Microsoft Research только что опубликовали новую версию AutoGen - суперпопулярного фреймворка для работы с агентами с открытым исходным кодом
AutoGen v0.4 это переработанный фреймворк, в котором значительно улучшена масштабируемость, добавлена модульность и новая система отладки процессов agentic AI за счет внедрения асинхронной архитектуры, управляемой событиями.
▪ Github
🖥 Google представил архитектуру Titans, которая возможно станет очень важным элементом развития больших языковых моделей (LLM) в 2025 году.
Архитектура состоит из 3х типов памяти:
- Краткосрочная память – для оперативной обработки данных.
- Долгосрочная память – для всей сохранения значимой информации.
- Постоянная память – для фиксации важной информации.
По заявлениям разработчиков Titans может эффективно обрабатывать контекст превышающим 2 миллионов токенов.
▪Подробнее
🖥 ChatGPT теперь таск-менеджер:
ИИ теперь способен инициировать диалог благодаря новой функции Tasks. Ранее он только отвечал на запросы, а теперь способен самостоятельно выполнять задачи.
Tasks позволяют пользователям давать ChatGPT задачи с указанием времени выполнения.
▪Подробнее
📱 DeepSeek V3 вышел на айфонах
Приложение доступно AppStore бесплатно и работает очень быстро
▪Скачать можно здесь.
⚡️ Выпущена новая открытая модель Omni!
MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах.
- 8B параметров (SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B)
- Превосходит GPT-4V в vision задачах с 70. 2 баллами на OpenCompass
- Лучшие в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса
▪ Model
👩💻 Stable point-aware 3D от Stability AI
Свежий инструмент с открытым исходным кодом, который отлично справляется с созданием 3D объектов по одному изображению.
▪Github
@ai_machinelearning_big_data
#news #ml #digest #Stability #chatgpt #google #microsoft #deepSeek #MiniCPM
🎓 Qwen2.5-Math-PRM-7B и Qwen2.5-Math-PRM-72B. PRM
В дополнение к математической модели вознаграждения за результат (ORM) Qwen2.5-Math-RM-72B, Qwen выпустили модели вознаграждения за процесс (PRM),
Они представляют собой новый подход к наблюдению за процессами в математических рассуждениях больших языковых моделей (LLM), направленный на выявление и устранение промежуточных ошибок в процессах рассуждений.
PRM демонстрируют впечатляющую производительность в оценке Best-of-N (BoN), так и более высокую эффективность нахождения ошибок в ProcessBench.
А вот интересная цитата из технического отчета:
"Мы разрабатываем механизм консенсусной фильтрации, который эффективно объединяет оценку МК с LLM-как-оценку, и выступаем за более комплексную систему оценки, которая объединяет метрики уровня ответа и уровня шага"
» https://huggingface.co/papers/2501.07301
Приглашаем вас на открытый вебинар: «Технологии за современными LLM»
https://otus.pw/IWFL/
⏰Дата: 20 января в 18:00 мск
Спикер: Мария Тихонова
📚На занятии мы обсудим:
+ Какие современные LLM сегодня используют на практике.
+ Основные концепции языкового моделирования и продвинутые языковые модели.
+ Методы и технологии, благодаря которым создатели ChatGPT совершили прорыв.
+ Что представляет из себя задача языкового моделирования
+ Языковые модели, которые сегодня лежат в основе всех NLP методов
🔥Результаты урока:
- Вы поймете, где применяются методы NLP
- Узнаете основные тренды и перспективы развития методов NLP
- Узнаете современное состояние области в связи с быстрым развитием LLM
Участники открытых уроков получат скидку🎁 на онлайн-курс «NLP / Natural Language Processing»
👉Регистрируйтесь на открытый вебинар по ссылке: https://otus.pw/IWFL/?erid=2W5zFHJGL9W
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
#реклама
О рекламодателе
🔥 Web-UI — это инструмент для работы с AI-агентами в браузере, предоставляющий удобный пользовательский интерфейс, построенный на основе Gradio!
🌟 Он позволяет пользователям запускать и управлять задачами с помощью различных больших языковых моделей (LLMs), таких как OpenAI, Azure OpenAI, Anthropic и другие. Этот проект поддерживает настройку собственного браузера для работы с инструментом, сохраняя сессии и позволяя видеть историю взаимодействий с AI.
💡 Web-UI поддерживает как локальную установку с использованием Python и Playwright, так и установку через Docker. Пользователи могут запускать интерфейс, чтобы наблюдать за действиями AI-агента в реальном времени, включая управление сессиями браузера и использование API для интеграции с LLM.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
Станьте ML-Инженером за 8 месяцев.
Основная проблема обучений – оторванность от задач реального бизнеса. На курсе учили строить простые модельки, а на работе – сделать по шаблону недостаточно, нужно сразу связать это с бизнесом.
Курс-симулятор от Simulative построен таким образом, что вы сразу погружаетесь в настоящую работу: работаете над 10+ проектами из реального бизнеса, учитесь не только писать код, но и понимать, что у алгоритмов «под капотом»
Вы изучите математику, Python, научитесь обучать ML-модели, нейронные сети и создавать рекомендательные системы. А также подготовитесь к любому собеседованию – в курс включены тестовые задания, пробные интервью (технические и с HR) и многое другое.
С трудоустройством тоже помогут: 87% студентов находят работу своей мечты в течение двух месяцев с момента начала поиска.
А на VIP тарифе преподаватели и HR спроектируют вам персональный трек обучения и за руку доведут до оффера. Часть стоимости курса вы оплачиваете только, когда найдёте работу.
Успейте присоединиться к первому потоку обучения с самой большой скидкой 17%
💡Transformer^2: Самоадаптирующиеся LLM
Вводит новую структуру самоадаптации, которая адаптирует LLM для невидимых задач в реальном времени, выборочно корректируя только отдельные компоненты их весовых матриц.
Во время вывода использует систему диспетчеризации, которая определяет свойства задачи, а затем использует векторы «экспертов» для конкретной задачи, обученные с помощью reinforcement learning👀
https://huggingface.co/papers/2501.06252
🔥 Mistral выпустила новую модель, специально разработанную для по Кодина с ИИ.
Codestral 25.01 дебютирует на 1-м месте в рейтинге лидеров LMsys Copilot Arena 🔥
Новая версия стала заметно умнее и в разы быстрее благодаря обновлённому токенизатору и усовершенствованной архитектуре.
Вы уже можете использовать его бесплатно в Continue (100% открытый исходный код) для VS Code.
Размер окна контекста увеличен до 256 тысяч токенов.
Чтобы использовать его, просто добавьте плагин Continue в VS Code и выберите Codestral 25.01 в качестве модели.
А если вам нужна дополнительная информация, то вот официальный блог Mistral.
https://mistral.ai/news/codestral-2501/
#mistral #llm #ml
🔥 Fast Semantic Text Deduplication
Новая, невероятно быстрая библиотека семантической дедупликации текста, которая объединяет эмбединг Model2Vec с поиском сходства, что позволяет дедуплицировать миллионы записей за считанные минуты. 👀
TL;DR:
🚀 Дедупликация 1,8 млн записей WikiText производит всего 83 секунды на CPU
💡 Используется семантическое сходство вместо точного соответствия для обнаружения дубликатов
🐍 Простой API Python и минимальные зависимости
🔧 Поддерживает пользовательские кодировщики, включая преобразователи предложений
🔎 Встроенные инструменты для проверки дубликатов и настройки порогов схожести
🧪 Проверено на 17 популярных наборах данных
pip install semhash
from datasets import load_dataset
from semhash import SemHash
# Load a dataset to deduplicate
texts = load_dataset("ag_news", split="train")["text"]
# Initialize a SemHash instance
semhash = SemHash.from_records(records=texts)
# Deduplicate the texts
deduplicated_texts = semhash.self_deduplicate().deduplicated
▪ GitHub
▪ QuickStart📝 awesome-claude-prompts — это коллекция лучших промптов для использования с языковой моделью Claude!
🌟 В репозитории собраны примеры для самых разных задач, от анализа текста до написания кода, что делает его полезным для разработчиков, маркетологов, студентов и многих других пользователей.
🖥 Github
@data_analysis_ml
🎓 Введение в статистическую теорию машинного обучения
📌 Видео
📌 Урок 1 / Урок2 / Урок3 / Урок4 / Урок5 / Урок 6
📌 Colab
📌Полный курс
@data_math
🔥 World Arcade — это платформа, которая позволяет запускать генеративные игры на вашем собственном GPU!
🌟 В отличие от традиционных игр, использующих детерминированные игровые движки, генеративные игры создают каждый кадр в реальном времени с помощью интерактивных видеомоделей, реагируя на действия игрока. World Arcade объединяет различные открытые игровые модели, такие как Yume Nikki, CS:GO, Minecraft, Atari Arcade Games и Mario Kart 64, предоставляя пользователям удобный способ их запуска и настройки.
💡 Платформа поддерживает работу на Windows и Linux, требуя наличия GPU NVIDIA с объемом видеопамяти не менее 8 ГБ. Для установки на Windows достаточно скачать архив dweam-windows.zip из последнего релиза, распаковать его и запустить исполняемый файл dweam.exe. На Linux установка осуществляется с использованием Docker и Docker Compose. World Arcade также предоставляет возможность добавления собственных игр путем создания Python-пакета с реализацией класса Game и предоставления метаданных в файле dweam.toml.
🔐 Лицензия: AGPL-3.0
🖥 Github
@data_analysis_ml
🔥 LeanUniverse - это пакет, предназначенный для создания датасетов из репозиториев Lean4 на Github.
Его цель - упростить и стандартизировать процесс создания обучающих наборов данных для моделей ИИ.
Ключевые особенности:
- Последовательность: LeanUniverse гарантирует, что все собранные репозитории согласованы и могут быть связаны с одной и той же версией зависимостей (mathlib). Это гарантирует надежность и совместимость датасетов, созданных с помощью этой библиотеки.
- Фильтрация лицензий: Пользователи имеют возможность определять фильтры допустимых лицензий,
- Кэширование: В библиотеку встроен механизм кэширования, повышающий эффективность за счет сокращения избыточных вычислений. Эта функция позволяет периодически обновлять и увеличивать датасеты.
git clone https://github.com/your-repo/LeanUniverse.git
cd LeanUniverse
▪ Github⚡️ LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token
LLaVA-Mini достигает производительности LLaVA-v1.5 с 1 токеном (vs 576), сокращая количество FLOP на 77%, задержку со 100 мс до 40 мс и VRAM с 360 МБ до 0,6 МБ, обеспечивая 3-часовую обработку видео и 10 000 кадров на 24 ГБ GPU 🔥.
Установка:
conda create -n llavamini python=3.10 -y
conda activate llavamini
pip install -e .
pip install -e ".[train]"
pip install flash-attn --no-build-isolation
HF: https://huggingface.co/ICTNLP/llava-mini-llama-3.1-8b
Github: https://github.com/ictnlp/LLaVA-Mini
@data_analysis_ml
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
