Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 224 名订阅者,在 技术与应用 类别中位列第 2 666,并在 俄罗斯 地区排名第 12 538 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 224 名订阅者。
根据 18 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 10,过去 24 小时变化为 7,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.77%。内容发布后 24 小时内通常能获得 6.56% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 404 次浏览,首日通常累积 3 295 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 30。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 19 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 224
订阅者
+724 小时
+227 天
+1030 天
帖子存档
🔥 chai-lab — проект, связанный с предсказанием биомолекулярных структур!
🌟 Он включает в себя Chai-1, передовую модель для предсказания структуры биомолекул, разработанную с использованием современных методов машинного обучения, включая диффузионные модели и сверточные нейронные сети. Этот проект ориентирован на автоматизированное создание и анализ сложных молекулярных структур, что может быть полезно в биоинформатике и фармацевтических исследованиях. Программный код включает в себя инструменты для работы с различными молекулярными данными, такими как MSAs (multiple sequence alignments), атомные структуры, шаблоны и другие специфические биомолекулярные данные.
🔐 Лицензия: Apache-2.0
🖥 Github
@data_analysis_ml
🔥 identity-rag-customer-insights-chatbot — проект для создания чат-бота, который использует систему IdentityRAG для объединения и анализа данных о клиентах!
🌟 Система решает задачи по разрешению идентификации клиентов и предоставлению единой, и актуальной информации о клиентах из различных источников.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
Позаботился о подарках для родных и близких?
Позаботься и о лучшем подарке для себя — новая работа ждёт тебя в Сбере!✨
Заходи на сайт rabota.sber.ru — здесь сбываются амбициозные проекты, классные коллеги и крутые возможности. 🔥
В Новый год — с новой работой в Сбере.💚
🔥 InvSR — новый метод для улучшения качества изображений!
🔗 Ссылка: *клик*
🖥 Github
@data_analysis_ml
Современные технологии все глубже интегрируют машинное обучение, которое уже давно вышло за рамки простой обработки данных. Сегодня ИИ способен анализировать поведение пользователей, адаптироваться под их требования и помогать принимать взвешенные решения. Особенно заметно это в секторе электронной коммерции, где ИИ улучшает взаимодействие между покупателями и продавцами.
Команда Авито презентовала новую версию поиска, которую получилось усовершенствовать с помощью Avito Ranker 3 — собственной технологии ранжирования. ИИ изменил логику выдачи объявлений: время размещения больше не является ключевым фактором для поиска. Вместо этого система обращает внимание на более важные для покупателя параметры: качество описания и фото, цену и хороший уровень сервиса продавца.
Благодаря этому, число показов нерелевантных и некачественных объявлений снизилось вдвое, а пользователи стали на 17% чаще переходить из поиска прямо в карточки товаров. Кроме того, конверсия покупок возросла на 25%, что свидетельствует об эффективности новой системы.
@data_analysis_ml
🔥 agent_tutorials — серия обучающих материалов по созданию и разработке искусственных агентов с использованием различных технологий, таких как LangGraph, CrewAI и AutoGen!
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
💡 Qwen выпустил QvQ 72B OpenAI o1-мультимодальную модель с ризонингом с возможностями зрения 🔥
TLDR
🏆SoTA мультимодальный с открытым исходным кодом
🧠 Способность к пошаговому рассуждению
💪🏾 Конкурентный балл MMMU с o1, GPT-4o и Sonnet 3.5
🔥 Выигрывает у GPT-4o и Sonnet 3.5 на MathVista и MathVision
> pip install mlx-vlm
https://huggingface.co/collections/mlx-community/qvq-72b-preview-676b345a6f93172ba980c0d5
🖥 Эта статья объясняет концепцию машин Тьюринга, которая является основополагающей в теории вычислений и была предложена Аланом Тьюрингом в 1936 году!
🌟 В статье описывается, как работает машина Тьюринга, что она может и не может вычислять, а также как она связана с современными компьютерами.
🌟 Автор рассматривает механизмы работы машины Тьюринга, её элементы (лента, головка и состояние), а также обсуждает такие ограничения вычислений, как задача о остановке (Halting problem). Статья включает примеры программ для демонстрации возможностей машины Тьюринга и предоставляет интерактивную среду для экспериментов с программами, работающими на этой модели.
🔗 Ссылка: *клик*
@data_analysis_ml
⚡️ Исследователи Microsoft выпустили лабораторию AIOpsLab: Комплексный ИИ-фреймворк с открытым исходным кодом для агентов AIOps
Исследователи Microsoft совместно с группой ученых из Калифорнийского университета в Беркли, Иллинойского университета в Урбане-Шампейне, Индийского научного института и колледжа Агнес Скотт разработали AIOpsLab - систему оценки, предназначенную для систематического проектирования, разработки и развития агентов AIOps.
Эта платформа с открытым исходным кодом охватывает весь жизненный цикл облачных операций - от обнаружения неисправностей до их устранения.
Предлагая модульную и адаптируемую платформу, AIOpsLab поддерживает исследователей и практиков в повышении надежности облачных систем и снижении зависимости в системах.
Фреймворк AIOpsLab включает в себя несколько ключевых компонентов.
Центральный модуль, обеспечивает взаимодействие между агентами и облачными средами, предоставляя описания задач, API-интерфейсы действий и обратную связь.
Генераторы отказов и рабочих нагрузок воспроизводят реальные условия для испытания тестируемых агентов.
Наблюдаемость, еще один краеугольный камень структуры, обеспечивает всесторонние телеметрические данные, такие как журналы, метрики и трассировки, для помощи в диагностике неисправностей.
$ git clone <CLONE_PATH_TO_THE_REPO>
$ cd AIOpsLab
$ pip install poetry
$ poetry install -vvv
$ poetry shell
▪Github
▪Запуск
▪Статья
@data_analysis_ml🔥 QuantResearch — репозиторий, который содержит материалы, связанные с количественным анализом, стратегиями и тированием гипотез в области финансов!
🌟 Проект включает разнообразные методы, такие как машинное обучение, глубокое обучение, алгоритмическая торговля и оценка рисков.
В нем представлены примеры кода для портфельной оптимизации, алгоритмической торговли , использования машинного обучения и разработки торговых стратегий.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
+4
🔥 MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive
Опубликован новый интересный анализ - сравнение реальных характеристик AMD MI300X и NVIDIA H100+H200 с практическими рекомендациями о том, как стек AMD ROCm может догнать CUDA от NVIDIA.
Производительность обучения, пользовательский опыт, удобство использования, Nvidia, AMD, GEMM, внимание, сетевые технологии, InfiniBand, Spectrum-X Ethernet, RoCEv2 Ethernet, SHARP, стоимость.
Отличное чтиво !
📌 Читать
👩💻 Mlxtend (machine learning extensions) — это библиотека Python, предоставляющая полезные инструменты для анализа данных и задач машинного обучения!
🌟 Она включает модули для обработки данных, визуализации, построения моделей, кросс-валидации и других аспектов, упрощая выполнение повседневных задач в сфере Data Science.
🌟 Библиотека предназначена для расширения возможностей популярных инструментов, таких как scikit-learn, pandas и NumPy. Она содержит функции для построения ансамблей моделей, работы с наборами данных, выполнения статистического анализа и визуализации результатов.
🖥 Github
@machinelearning_ru
Repost from Machinelearning
📌Топ Python-проектов для ML 2024 года.
Эти проекты были выбраны на основе их актуальности на 2024 год. Каждый из них - смесь практической полезности, новизны и, честно говоря, крутости, будь то смелый и инновационный подход, элегантное решение сложных проблем или просто умная реализация.
🟢BAML - предметно-ориентированный язык для работы с LLM.
BAML превращает текстовые промпты в многократно используемые функции LLM с типизированными переменными и обеспечивают конкретный тип выходных данных. BAML превосходит другие методы получения структурированных данных от LLM и поддерживает VS Code и Cursor.
🟢marimo - Python notebooks геймчейджер.
Новый подход к notebook, который превращает их в мощную, реактивную среду для создания удобных для совместного использования рабочих процессов. Marimo готов заменить Jupyter и Streamlit, устраняя проблемы скрытого состояния и ручного выполнения ячеек.
🟢OpenHands - мощный агент для разработки.
Безопасная изолированная среда, где AI-агенты могут выполнять код, взаимодействовать с веб-браузерами, управлять файлами, отлаживать проблемы, рефакторить код и даже сотрудничать с другими агентами. Среда включает в себя Docker-песочницу с доступом к bash-оболочке, веб-браузингом и IPython-сервером.
🟢Crawl4AI - интеллектуальный веб-скрапинг.
Библиотека, которая обрабатывает динамический контент, обходит механизмы защиты от ботов, извлекает структурированные данные и масштабирует задачи сбора массивов информации. Асинхронная архитектура дает высокую скорость работы даже со сложным JavaScript. На выходе - форматы JSON, markdown и очищенный HTML, готовые для импорта в LLM. Crawl4AI поддерживает Chromium, Firefox и WebKit через Playwright.
🟢LitServe - универсальный движок для развертывания моделей.
Детище LightningAI - мощный инструмент для развертывания моделей и сложных AI-конвейеров. Построен на базе FastAPI, поддерживает PyTorch, TensorFlow, JAX и работает с GenAI, СV, ASR и эмбедингами. LitServe умеет в KV-кэширование для LLM, и подходит как для легких приложений, так и для тяжелых корпоративных нагрузок.
🟢Mirascope - унифицированный интерфейс LLM.
Python-инструмент для упрощения извлечения структурированных данных из LLM. Он предлагает удобный интерфейс, основанный на декораторах и декларативных схемах. Mirascope поддерживает OpenAI, Anthropic и Cohere и имеет свой поисковый агент WebSearchAgent, который может автономно собирать информацию из интернета.
🟢Surya - OCR с высокой точностью.
OCR-система на 90 языках. Surya извлекает текст из сканированных изображений, PDF-файлов и других визуальных форматов с точностью, сравнимой с Google Cloud Vision. Помимо OCR, Surya проводит расширенный анализ документа, определяя заголовки, изображения, таблицы и порядок чтения, что идеально для оцифровки книг, форм и научных документов.
🟢DataChain - конвейер данных для ИИ.
Платформа для управления версиями мультимодальных наборов изображений, видео, текста и PDF-файлов. Библиотека преобразует разрозненные файлы в централизованные датасеты, которые легко запрашивать и манипулировать с помощью Python без использования Spark или SQL. DataChain поддерживает PyTorch, TensorFlow, AI-генерацию метаданных, сериализацию инференса LLM и выполнение пакетных процедур.
🟢Narwhals - универсальный слой совместимости для DataFrame-библиотек.
Легковесный слой, который объединяет pandas, Polars, PyArrow, Modin и cuDF в Python. Он позволяет писать код, не зависящий от используемого бэкенда, используя подмножество API Polars в качестве интерфейса. Поддерживает как eager, так и lazy execution стили, включая Dask. Narwhals не имеет зависимостей и обеспечивает статическую типизацию для автозавершения и подсказок в IDE.
🟢PydanticAI - фреймворк для разработки AI-приложений.
Фреймворк агентов, которые управляют взаимодействием с LLM и проверкой их инференса. Имеет систему внедрения зависимостей, позволяющую динамически получать контекстные данные. PydanticAI поддерживает пользовательские функции Python, вызываемые агентами для доступа к информации и выполнения вычислений.
@ai_machinelearning_big_data
🔥 Сводка бенчмарков показаной вчера o3 от OpenAI !
SWE-Bench: 71.7%
Codeforces: 2727
Competition Math: 96.7%
PhD level science (GPQA): 87,7%
Frontier Math: 25.2% (previous best was 2%)
ARC-AGI: 87.5%
🤯
✅ TikTok только что выложил в открытый доступ свой фреймворк для рекомендательных систем (Monolith) - и в нем используется Keras
Это означает, что почти все основные рекомендательные системы в индустрии построены на Keras - YouTube, TikTok, Spotify, Snap, X/Twitter и многие другие.
▪ Github
@data_analysis_ml
🔈 Звук на этом видео на 100% сгенерирован с помощью MMAudio!
@data_analysis_ml
Разбираем тестовое задание на позицию Junior Аналитика в Яндекс
Чтобы найти работу, мало пройти курс и сделать классное резюме. На практике, чтобы выделиться на собеседовании, нужно понимать, что лежит под капотом каждого инструмента, а не следовать конкретному заученному алгоритму.
Чтобы попрактиковаться в этом, приходите на бесплатный вебинар, где будем разбирать реальное тестовое задание, которое дают аналитикам в подразделении Яндекс Картинки.
Что будет на вебинаре:
🟠С помощью Pandas проанализируем Яндекс-запросы за несколько недель, загрузив их из json-файла
🟠Найдём закономерности и отличия использования сервиса на мобильных устройствах и компьютерах
🟠Разберём фишки Pandas: сложную агрегацию, маппинг, конкатенацию, чейнинг и др.
Вебинар проведет Андрон Алексанян, CEO Simulative
🕗Встречаемся 24 декабря в 19:00
🎁Обязательно приходите смотреть вебинар в прямом эфире - в лайве будут дарить подарки, которые сильно бустанут старт карьеры в аналитике!
Зарегистрироваться на бесплатный вебинар
🎉 BERT вернулся. 🔥
ModernBERT пересматривает традиционные модели кодеров, поддерживая последовательности 8K при скорости в 2-3 раза выше, сохраняя при этом практическую простоту BERT.
Основные моменты
→ ModernBERT представляет новое семейство моделей для Кодина, превосходящих традиционные архитектуры BERT, как в базовом варинате (139 М параметров), так и в large модели (395 М параметров) вариантах
→ Архитектура позволяет обрабатывать последовательности до 8 192 токенови
→ В бенчмарках ModernBERT демонстрирует улучшение хорошие результаты в задачах поиска, NLU и кода, при этом в 2-3 раза быстрее, чем существующие модели.
https://huggingface.co/blog/modernbert
Repost from Machinelearning
+1
🌟 FlashRNN: оптимизация RNN на современном оборудовании.
FlashRNN - библиотека, которая реализует традиционные RNN, такие как LSTM, GRU и сети Элмана, а также новейшую архитектуру sLSTM в CUDA и Triton.
В отличие от распространенных современных моделей архитектуры Transformers, RNN обладают возможностями отслеживания состояния, оставаясь актуальными для решения задач моделирования временных рядов и логического мышления.
FlashRNN предлагает два варианта оптимизации: чередующийся и объединенный.
🟢Чередующийся позволяет обрабатывать данные с большим размером скрытых состояний и значительно превосходит по скорости базовую реализацию PyTorch.
🟢Объединенный вариант агрегирует операции умножения матриц и вычисления функций в одно ядро, снижая количество обращений к памяти и позволяет хранить рекуррентные матрицы весов непосредственно в регистрах GPU.
За автоматизацию настройки параметров FlashRNN отвечает библиотека
ConstrINT, которая решает задачи целочисленного удовлетворения ограничений, моделируя аппаратные ограничения в виде равенств, неравенств и ограничений делимости.
Эксперименты с FlashRNN показали существенное увеличение скорости работы: до 50 раз по сравнению с PyTorch. FlashRNN также позволяет использовать большие размеры скрытых состояний, чем нативная реализация Triton.
▶️ Локальная установка и пример запуска FlashRNN:
# Install FlashRNN
pip install flashrnn
# FlashRNN employs a functional structure, none of the parameters are tied to the `flashrnn` function:
import torch
from flashrnn import flashrnn
device = torch.device('cuda')
dtype = torch.bfloat16
B = 8 # batch size
T = 1024 # sequence length
N = 3 # number of heads
D = 256 # head dimension
G = 4 # number of gates / pre-activations for LSTM example
S = 2 # number of states
Wx = torch.randn([B, T, G, N, D], device=device, dtype=dtype, requires_grad=True)
R = torch.randn([G, N, D, D], device=device, dtype=dtype, requires_grad=True)
b = torch.randn([G, N, D], device=device, dtype=dtype, requires_grad=True)
states_initial = torch.randn([S, B, 1, N, D], device=device, dtype=dtype, requires_grad=True)
# available functions
# lstm, gru, elman, slstm
# available backend
# cuda_fused, cuda, triton and vanilla
states, last_states = flashrnn(Wx, R, b, states=states_initial, function="lstm", backend="cuda_fused")
# for LSTM the hidden h state is the first of [h, c]
# [S, B, T, N, D]
hidden_state = states[0]
📌Лицензирование: NXAI Community License:
🟠бесплатное использование в некоммерческих целях с маркировкой при публикации в отрытых источниках;
🟠получение коммерческой лицензии при годовом доходе свыше 100 млн.евро
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #RNN #FlashRNN🔍 flow_matching — Библиотека PyTorch для реализации алгоритмов сопоставления потоков, включающая непрерывные и дискретные реализации сопоставления потоков!
🔐 Лицензия: CC BY-NC
🖥 Github
@bigdatai
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
