Анализ данных (Data analysis)

رفتن به کانال در Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

نمایش بیشتر

شبکه:Machinelearning روسيا12 538 فناوری و برنامه‌ها2 666...

📈 تحلیل کانال تلگرام Анализ данных (Data analysis)

کانال Анализ данных (Data analysis) (@data_analysis_ml) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 50 212 مشترک است و جایگاه 2 666 را در دسته فناوری و برنامه‌ها و رتبه 12 538 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 50 212 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 18 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر 10 و در ۲۴ ساعت گذشته برابر 7 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

وضعیت تأیید: تأیید نشده
نرخ تعامل (ER): میانگین تعامل مخاطب 8.77% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 6.56% واکنش نسبت به کل مشترکان کسب می‌کند.
دسترسی پست‌ها: هر پست به طور میانگین 4 404 بازدید دریافت می‌کند. در اولین روز معمولاً 3 295 بازدید جمع‌آوری می‌شود.
واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 30 است.
علایق موضوعی: محتوا بر موضوعات کلیدی مانند llm, контекст, openai, архитектура, deepseek تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 19 ژوئن, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

50 212

مشترکین

+724 ساعت

+227 روز

+1030 روز

4 404

نمایش های پست

~ 3 29524 ساعت

~ 4 33648 ساعت

8.77%

نرخ مشارکت

~ 5

پست های در روز

Ads index

beta

آرشیو پست ها

50 215

🤖 FAST: Efficient Robot Action Tokenization Новый токенизатор, который позволяет обучать VLA в 5 раз быстрее по сравнению с предыдущей SoTA. Его очень легко использовать и это опенсорс. ▪Описание: http://pi.website/research/fast ▪HF: https://huggingface.co/physical-intelligence/fast ▪Статья: https://www.pi.website/download/fast.pdf @data_analysis_ml #robots #tokenization

50 215

🔥 HuatuoGPT-o1 — медицинская модель, ориентированная на сложные рассуждения в медицинской области! 🌟 Модель предназначена для диагностики, анализа ошибок и предложений альтернативных стратегий, улучшая свои ответы с помощью усиленного обучения (PPO) и верификации на основе специализированных медицинских задач. 🖥 Github @data_analysis_ml

50 215

📌 Видео 📌 Урок 1 / Урок2 / Урок3 / Урок4 / Урок5 / Урок6/ Урок7 📌 Colab 📌Полный курс

50 215

⚡️⚡️⚡️ Train 400x faster Static Embedding Models with Sentence Transformers Интересное чтиво- очень быстрый метод обучения статических моделей эмбедингов, которые выполняются на процессоре. На тестах он показал себя в 100-400 раз быстрее, чем обычные модели, при сохранении качества более в районе 85%! Внутри: - Две модели (для английского языка и многоязычная), - Подробная стратегия обучения, которой следовали авторы, от разработки идеи до выбора фдатасета, реализации и оценки. - Сценарии обучения, основанные на опенсорсной библиотеке sentence transformers с открытым исходным кодом. - Отчеты о весах и отклонениях с метриками обучения и оценки, собранными во время обучения. - Список датасетов, которые авторы использовали: 30 для обучения и 13 для оценки моделей. 🤗 HF: https://huggingface.co/blog/static-embeddings #transformers #embeddingmodel #tutorial

50 215

🗣 Kokoro-TTS Мощнейшая TTS-модель всего лишь на 82M параметров. Она превосходит более крупные модели и генерирует минуты речи за секунды. Самое главное - это открытый исходный код! Попробуйте и убедитесь сами: 👇 🤗 Hf: https://huggingface.co/spaces/hexgrad/Kokoro-TTS #tts #ml #opensource

50 215

🌟Вышел InternLM v3! - Производительность SoTA, превосходит такие модели, как Llama3.1-8B и Qwen2.5-7B - Способность к глубоким рассуждениям с использованием системных подсказок (подробности в карточке модели) - Обучается только на токенах высокого качества 4T. https://huggingface.co/collections/internlm/internlm3-67875827c377690c01a9131d

50 215

Repost from Machinelearning

📄 ML NEWS 🤖 Microsoft Research только что опубликовали новую версию AutoGen - суперпопулярного фреймворка для работы с агентами с открытым исходным кодом AutoGen v0.4 это переработанный фреймворк, в котором значительно улучшена масштабируемость, добавлена модульность и новая система отладки процессов agentic AI за счет внедрения асинхронной архитектуры, управляемой событиями. ▪ Github 🖥 Google представил архитектуру Titans, которая возможно станет очень важным элементом развития больших языковых моделей (LLM) в 2025 году. Архитектура состоит из 3х типов памяти: - Краткосрочная память – для оперативной обработки данных. - Долгосрочная память – для всей сохранения значимой информации. - Постоянная память – для фиксации важной информации. По заявлениям разработчиков Titans может эффективно обрабатывать контекст превышающим 2 миллионов токенов. ▪Подробнее 🖥 ChatGPT теперь таск-менеджер: ИИ теперь способен инициировать диалог благодаря новой функции Tasks. Ранее он только отвечал на запросы, а теперь способен самостоятельно выполнять задачи. Tasks позволяют пользователям давать ChatGPT задачи с указанием времени выполнения. ▪Подробнее 📱 DeepSeek V3 вышел на айфонах Приложение доступно AppStore бесплатно и работает очень быстро ▪Скачать можно здесь. ⚡️ Выпущена новая открытая модель Omni! MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. - 8B параметров (SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B) - Превосходит GPT-4V в vision задачах с 70. 2 баллами на OpenCompass - Лучшие в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса ▪ Model 👩‍💻 Stable point-aware 3D от Stability AI Свежий инструмент с открытым исходным кодом, который отлично справляется с созданием 3D объектов по одному изображению. ▪Github @ai_machinelearning_big_data #news #ml #digest #Stability #chatgpt #google #microsoft #deepSeek #MiniCPM

50 215

🎓 Qwen2.5-Math-PRM-7B и Qwen2.5-Math-PRM-72B. PRM В дополнение к математической модели вознаграждения за результат (ORM) Qwen2.5-Math-RM-72B, Qwen выпустили модели вознаграждения за процесс (PRM), Они представляют собой новый подход к наблюдению за процессами в математических рассуждениях больших языковых моделей (LLM), направленный на выявление и устранение промежуточных ошибок в процессах рассуждений. PRM демонстрируют впечатляющую производительность в оценке Best-of-N (BoN), так и более высокую эффективность нахождения ошибок в ProcessBench. А вот интересная цитата из технического отчета: "Мы разрабатываем механизм консенсусной фильтрации, который эффективно объединяет оценку МК с LLM-как-оценку, и выступаем за более комплексную систему оценки, которая объединяет метрики уровня ответа и уровня шага" » https://huggingface.co/papers/2501.07301

50 215

Приглашаем вас на открытый вебинар: «Технологии за современными LLM» https://otus.pw/IWFL/ ⏰Дата: 20 января в 18:00 мск Спикер: Мария Тихонова 📚На занятии мы обсудим: + Какие современные LLM сегодня используют на практике. + Основные концепции языкового моделирования и продвинутые языковые модели. + Методы и технологии, благодаря которым создатели ChatGPT совершили прорыв. + Что представляет из себя задача языкового моделирования + Языковые модели, которые сегодня лежат в основе всех NLP методов 🔥Результаты урока: - Вы поймете, где применяются методы NLP - Узнаете основные тренды и перспективы развития методов NLP - Узнаете современное состояние области в связи с быстрым развитием LLM Участники открытых уроков получат скидку🎁 на онлайн-курс «NLP / Natural Language Processing» 👉Регистрируйтесь на открытый вебинар по ссылке: https://otus.pw/IWFL/?erid=2W5zFHJGL9W Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576 #реклама О рекламодателе

50 215

🔥 Web-UI — это инструмент для работы с AI-агентами в браузере, предоставляющий удобный пользовательский интерфейс, построенный на основе Gradio! 🌟 Он позволяет пользователям запускать и управлять задачами с помощью различных больших языковых моделей (LLMs), таких как OpenAI, Azure OpenAI, Anthropic и другие. Этот проект поддерживает настройку собственного браузера для работы с инструментом, сохраняя сессии и позволяя видеть историю взаимодействий с AI. 💡 Web-UI поддерживает как локальную установку с использованием Python и Playwright, так и установку через Docker. Пользователи могут запускать интерфейс, чтобы наблюдать за действиями AI-агента в реальном времени, включая управление сессиями браузера и использование API для интеграции с LLM. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

50 215

Станьте ML-Инженером за 8 месяцев. Основная проблема обучений – оторванность от задач реального бизнеса. На курсе учили строить простые модельки, а на работе – сделать по шаблону недостаточно, нужно сразу связать это с бизнесом. Курс-симулятор от Simulative построен таким образом, что вы сразу погружаетесь в настоящую работу: работаете над 10+ проектами из реального бизнеса, учитесь не только писать код, но и понимать, что у алгоритмов «под капотом» Вы изучите математику, Python, научитесь обучать ML-модели, нейронные сети и создавать рекомендательные системы. А также подготовитесь к любому собеседованию – в курс включены тестовые задания, пробные интервью (технические и с HR) и многое другое. С трудоустройством тоже помогут: 87% студентов находят работу своей мечты в течение двух месяцев с момента начала поиска. А на VIP тарифе преподаватели и HR спроектируют вам персональный трек обучения и за руку доведут до оффера. Часть стоимости курса вы оплачиваете только, когда найдёте работу. Успейте присоединиться к первому потоку обучения с самой большой скидкой 17%

50 215

💡Transformer^2: Самоадаптирующиеся LLM Вводит новую структуру самоадаптации, которая адаптирует LLM для невидимых задач в реальном времени, выборочно корректируя только отдельные компоненты их весовых матриц. Во время вывода использует систему диспетчеризации, которая определяет свойства задачи, а затем использует векторы «экспертов» для конкретной задачи, обученные с помощью reinforcement learning👀 https://huggingface.co/papers/2501.06252

50 215

🔥 Mistral выпустила новую модель, специально разработанную для по Кодина с ИИ. Codestral 25.01 дебютирует на 1-м месте в рейтинге лидеров LMsys Copilot Arena 🔥 Новая версия стала заметно умнее и в разы быстрее благодаря обновлённому токенизатору и усовершенствованной архитектуре. Вы уже можете использовать его бесплатно в Continue (100% открытый исходный код) для VS Code. Размер окна контекста увеличен до 256 тысяч токенов. Чтобы использовать его, просто добавьте плагин Continue в VS Code и выберите Codestral 25.01 в качестве модели. А если вам нужна дополнительная информация, то вот официальный блог Mistral. https://mistral.ai/news/codestral-2501/ #mistral #llm #ml

50 215

🔥 Fast Semantic Text Deduplication Новая, невероятно быстрая библиотека семантической дедупликации текста, которая объединяет эмбединг Model2Vec с поиском сходства, что позволяет дедуплицировать миллионы записей за считанные минуты. 👀 TL;DR: 🚀 Дедупликация 1,8 млн записей WikiText производит всего 83 секунды на CPU 💡 Используется семантическое сходство вместо точного соответствия для обнаружения дубликатов 🐍 Простой API Python и минимальные зависимости 🔧 Поддерживает пользовательские кодировщики, включая преобразователи предложений 🔎 Встроенные инструменты для проверки дубликатов и настройки порогов схожести 🧪 Проверено на 17 популярных наборах данных pip install semhash


from datasets import load_dataset
from semhash import SemHash

# Load a dataset to deduplicate
texts = load_dataset("ag_news", split="train")["text"]

# Initialize a SemHash instance
semhash = SemHash.from_records(records=texts)

# Deduplicate the texts
deduplicated_texts = semhash.self_deduplicate().deduplicated

▪ GitHub ▪ QuickStart

50 215

📝 awesome-claude-prompts — это коллекция лучших промптов для использования с языковой моделью Claude! 🌟 В репозитории собраны примеры для самых разных задач, от анализа текста до написания кода, что делает его полезным для разработчиков, маркетологов, студентов и многих других пользователей. 🖥 Github @data_analysis_ml

50 215

🎓 Введение в статистическую теорию машинного обучения 📌 Видео 📌 Урок 1 / Урок2 / Урок3 / Урок4 / Урок5 / Урок 6 📌 Colab 📌Полный курс @data_math

50 215

🔥 World Arcade — это платформа, которая позволяет запускать генеративные игры на вашем собственном GPU! 🌟 В отличие от традиционных игр, использующих детерминированные игровые движки, генеративные игры создают каждый кадр в реальном времени с помощью интерактивных видеомоделей, реагируя на действия игрока. World Arcade объединяет различные открытые игровые модели, такие как Yume Nikki, CS:GO, Minecraft, Atari Arcade Games и Mario Kart 64, предоставляя пользователям удобный способ их запуска и настройки. 💡 Платформа поддерживает работу на Windows и Linux, требуя наличия GPU NVIDIA с объемом видеопамяти не менее 8 ГБ. Для установки на Windows достаточно скачать архив dweam-windows.zip из последнего релиза, распаковать его и запустить исполняемый файл dweam.exe. На Linux установка осуществляется с использованием Docker и Docker Compose. World Arcade также предоставляет возможность добавления собственных игр путем создания Python-пакета с реализацией класса Game и предоставления метаданных в файле dweam.toml. 🔐 Лицензия: AGPL-3.0 🖥 Github @data_analysis_ml

50 215

🔥 LeanUniverse - это пакет, предназначенный для создания датасетов из репозиториев Lean4 на Github. Его цель - упростить и стандартизировать процесс создания обучающих наборов данных для моделей ИИ. Ключевые особенности: - Последовательность: LeanUniverse гарантирует, что все собранные репозитории согласованы и могут быть связаны с одной и той же версией зависимостей (mathlib). Это гарантирует надежность и совместимость датасетов, созданных с помощью этой библиотеки. - Фильтрация лицензий: Пользователи имеют возможность определять фильтры допустимых лицензий, - Кэширование: В библиотеку встроен механизм кэширования, повышающий эффективность за счет сокращения избыточных вычислений. Эта функция позволяет периодически обновлять и увеличивать датасеты.

git clone https://github.com/your-repo/LeanUniverse.git
cd LeanUniverse

▪ Github

50 215

⚡️ LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token LLaVA-Mini достигает производительности LLaVA-v1.5 с 1 токеном (vs 576), сокращая количество FLOP на 77%, задержку со 100 мс до 40 мс и VRAM с 360 МБ до 0,6 МБ, обеспечивая 3-часовую обработку видео и 10 000 кадров на 24 ГБ GPU 🔥. Установка:


conda create -n llavamini python=3.10 -y
conda activate llavamini
pip install -e .
pip install -e ".[train]"
pip install flash-attn --no-build-isolation

HF: https://huggingface.co/ICTNLP/llava-mini-llama-3.1-8b Github: https://github.com/ictnlp/LLaVA-Mini @data_analysis_ml

50 215

Программирование в 2025 году 🤓 @data_analysis_ml