Анализ данных (Data analysis)

Kanalga Telegram’da o‘tish

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Ko'proq ko'rsatish

Tarmoq:Machinelearning Rossiya12 565 Texnologiyalar & Aralashmalar2 677...

📈 Telegram kanali Анализ данных (Data analysis) analitikasi

Анализ данных (Data analysis) (@data_analysis_ml) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 50 179 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 2 677-o'rinni va Rossiya mintaqasida 12 565-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 50 179 obunachiga ega bo‘ldi.

15 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -8 ga, so‘nggi 24 soatda esa 25 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 8.82% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 5.98% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 4 427 marta ko‘riladi; birinchi sutkada odatda 2 999 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 30 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent llm, контекст, openai, архитектура, deepseek kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 16 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

50 179

Obunachilar

+2524 soatlar

-287 kunlar

-830 kunlar

4 427

Post ko'rishlar

~ 2 99924 soatlar

~ 3 53048 soatlar

8.82%

Muloqot nisbati

~ 5

Kuniga postlar

Ads index

beta

Postlar arxiv

50 187

🐼 Pandas-задача с подвохом: “Почему ничего не работает?” 📘 Условие Дано: DataFrame df:


import pandas as pd
import numpy as np

df = pd.DataFrame({
    'user_id': [1, 1, 2, 2, 3, 3],
    'score': [100, 90, np.nan, 85, 75, 95]
})

Ты хочешь: 1) Для каждого пользователя найти средний score, 2) Заполнить пропущенные значения score средним по этому пользователю. Ты пишешь код:


df['score_filled'] = df.groupby('user_id')['score'].apply(lambda x: x.fillna(x.mean()))

Ожидаешь, что пропущенное значение будет заменено на `85.0`. Но вместо этого… возникает ошибка или неверный результат. ❓ Вопрос: 1) Почему этот код не работает как ты ожидаешь? 2) Какое поведение apply() вызывает подвох? 3) Как правильно решить задачу? --- ✅ Разбор: 💥 Проблема в `.apply()` + присваивание по индексу Функция `groupby().apply()` возвращает **объединённый результат с вложенным индексом**, который **не совпадает с индексом исходного DataFrame**. Пример: ```python df.groupby('user_id')['score'].apply(lambda x: x.fillna(x.mean())) ``` → возвращает Series с уровнем индекса: `(user_id, original_index)`, а `df['score_filled'] = ...` ожидает индекс, совпадающий с `df.index`. 📌 Результат: pandas либо выбрасывает `ValueError`, либо вставляет неправильные значения. ✅ Правильные способы Способ 1: использовать `transform` (индекс сохраняется!): ```python df['score_filled'] = df['score'].fillna( df.groupby('user_id')['score'].transform('mean') ) ``` Способ 2: в два шага: ```python user_means = df.groupby('user_id')['score'].transform('mean') df['score_filled'] = df['score'] df.loc[df['score'].isna(), 'score_filled'] = user_means ``` 🎯 Так `NaN` будет корректно заполнен значением `85.0`. ⚠️ Подвох • `groupby().apply()` не гарантирует совпадение индексов • `transform()` — безопаснее, если хочешь сохранить структуру • Даже опытные часто используют `apply` “по привычке” и попадают в ловушку • Такие ошибки не всегда приводят к crash — они хуже: создают **тихие баги** Хочешь сделать вторую часть , ставь 👍

50 187

🌧️ Superlinked — фреймворк для гибридного поиска, где вектора и метаданные работают вместе. Этот инструмент решает главную боль RAG-систем и рекомендательных сервисов — как эффективно комбинировать эмбеддинги с структурированными данными. В отличие от чистых векторных поисков, здесь можно создать единую модель, где описание товара и его оценка влияют на результаты совместно. Проект широкой интеграции: от тестов в Jupyter-ноутбуке до продакшн-развёртывания REST API одним командой. 🤖 GitHub @data_analysis_ml

50 187

🔥 Проект: fast-agent fast-agent — это современный фреймворк для быстрой разработки и тестирования интеллектуальных агентов и рабочих процессов, поддерживающих протокол MCP (Model-Context-Protocol). Он предоставляет простой декларативный синтаксис и мощные инструменты для построения многоагентных систем с поддержкой OpenAI, Anthropic и других моделей. ▪ Основные возможности • Быстрое создание агентов с помощью декораторов @fast.agent, минимизируя количество кода. • Поддержка рабочих процессов: цепочки (`chain`), параллельные вызовы (`parallel`), маршрутизаторы (`router`), оркестраторы (`orchestrator`), схемы с оценкой и оптимизацией (`evaluator_optimizer`). • Мультимодальность: обработка изображений, PDF-файлов и интеграция с внешними ресурсами MCP. • Интерактивная отладка: настройка и диагностика агентов до, во время и после выполнения рабочих процессов. • Гибкая конфигурация через fastagent.config.yaml и fastagent.secrets.yaml. • Интеграция с LLM: OpenAI (GPT-4 и др.), Anthropic (Haiku, Sonnet, Opus) и другие модели через MCP-серверы. ▪ Быстрый старт 1️⃣ Установите менеджер пакетов uv для Python. 2️⃣ Установите fast-agent:


uv pip install fast-agent-mcp

3️⃣ Создайте пример агента и конфигурационные файлы:


uv run fast-agent setup

4️⃣ Запустите агента:


uv run agent.py

5️⃣ Для запуска примеров рабочих процессов:


uv run fast-agent quickstart workflow

▪ Документация и примеры • Официальный сайт: [fast-agent.ai](https://fast-agent.ai) • Документация: [fast-agent-docs](https://github.com/evalstate/fast-agent-docs) • Примеры: директория examples в репозитории. ▪ Сообщество и развитие • Проект активно развивается, ⭐ 1.7k+ звёзд на GitHub. • Обсуждения: [Discussions](https://github.com/evalstate/fast-agent/discussions) • Последние релизы: [Releases](https://github.com/evalstate/fast-agent/releases) ▪ Видеообзор [First Look at Fast-Agent (or Manus) – Coding an AI ...](https://www.youtube.com/watch?v=GaVQyYougPc&utm_source=chatgpt.com) 🔍 GitHub

50 187

NVIDIA открыла исходный код моделей Open Code Reasoning - 32B, 14B и 7B - лицензировано APACHE 2.0 🔥 > Превосходит O3 mini и O1 (низкий) на LiveCodeBench 😍 Модели в среднем на 30% эффективнее других эквивалентных моделей Reasoning. Работает с llama.cpp, vLLM, transformers, TGI и другими — проверьте их сегодня!! 🟢Models 🟢Dataset 🟢Paper

50 187

🔥 Hugging Face представили бесплатного Open Computer Agent — открытый аналог Operator, запускающийся на виртуальной Linux-машине. Этот агент умеет искать и бронировать билеты, заказывать столик в ресторане и решать множество других задач. Есть два «но»: он иногда не справляется с CAPTCHA, а из-за высокой нагрузки ответы могут идти чуть дольше. Зато всё бесплатно и с открытым исходным кодом! Попробовать можно прямо сейчас: https://huggingface.co/spaces/smolagents/computer-agent @data_analysis_ml

50 187

🔥 AgenticSeek — мощнейший опенсорс ИИ-агент. Это лучшая бесплатная альтернатива Manus AI за 200$. Есть всё, что нужно — поиск по интернету, поддержка голосового управления + он хороший помощник по кодингу. И он умеет почти всё: • Спланирует тур за границу: подберёт билеты, отели, маршруты • Проведёт аудит бизнеса и предложит варианты оптимизации • Возьмёт на себя работу в таблицах, анализ данных и отчётов • Напишет код под любую задачу • Прочитает книги, статьи, репозитории, просёрфит сайты и соберёт данные • А теперь представьте: вы даёте ему сотню таких задач одновременно — это уже не ассистент, а полноценный бизнес-комбайн AgenticSeek полностью управляет браузером и приложениями, интегрируется в ваши процессы и автоматически подбирает агентов под задачи. ✅ Управлять можно голосом ✅ Все приватные данные остаются только у вас На GitHub уже 1800 звезд. https://github.com/Fosowl/agenticSeek

50 187

Железо + софт = будущее. Стартовала регистрация на «Я.Железо-2025» Как видит мир автономный грузовик, зачем лидару «подогрев стёкол» и что позволяет роверу ориентироваться в городе? Приглашаем 24 мая на конференцию «Я.Железо» — поговорим о разработке роботов, умных устройств, автономного транспорта и серверной инфраструктуры. Вас ждут два трека с докладами, экспозона и нетворкинг. О чём расскажут спикеры: На треке Hardware — об устройстве сенсорсета, микрофонов в AOSP на примере ТВ-станции, а также сделают обзор системы очистки. На треке Software — о смарт-функциях в ТВ Станциях, TBD Светофорах на роботе-доставщике и радаре в BEVFusion. Что покажут на экспо: •Собственные лидары. Как работают дальнобойный PBR-ONE и круговой nanoHomer и что позволяет роботам «видеть» сквозь дождь и туман. •Автономные грузовики. Как тягач принимает решения, маневрирует и соблюдает ПДД, а лидары определяют объекты за сотни метров. •Роботы-доставщики. Как ровер ориентируется в городе, видит пешеходов и решает, когда остановиться. •Складские роботы. Как работает нейросеть и «грабер» в механической руке и сколько палето-мест в час может обработать робот-инвентаризатор. Конференция пройдёт онлайн и офлайн в Москве 24 мая. Чтобы получить приглашение на «Я.Железо», зарегистрируйтесь по ссылке.

50 187

📄 DocsGPT — открытый RAG-ассистент для работы с документами. Это не просто чат-бот, а целая экосистема, которая умеет извлекать информацию из PDF, DOCX, веб-страниц и даже GitHub-репозиториев, сохраняя привязку к исходным данным. Что выделяет проект: ▪️Поддержка локальных моделей (Ollama, llama.cpp) и облачных API (OpenAI, Anthropic) ▪️Готовые интеграции для Discord, Telegram и веб-сайтов ▪️Возможность расширения функционала через инструменты и вебхуки Для старта достаточно клонировать репозиторий и запустить setup-скрипт — через пару минут вы получите работающий инстанс с интерфейсом на localhost. 🤖 GitHub @data_analysis_ml

50 187

Repost from Machinelearning

🌟 NVIDIA Parakeet-tdt-0.6b-v2: ASR-модель с поддержкой временных меток. NVIDIA представила новую модель автоматического распознавания речи (ASR) — Parakeet-tdt-0.6b-v2 c 600 млн. параметров для английского языка. Она не просто транскрибирует аудио в текст, но и распознает пунктуацию, капитализацию и временные метки с точностью до слова. Модель устойчива к шумам и справляется даже с расшифровкой песен или чисел. Это достигнуто за счет обучения на данных, в которые включили «шумные» источники (YouTube, записи телефонных разговоров и уличные диалоги). Как отмечают авторы, RTFx-показатель равен 3380 (при батче 128), что позволяет использовать Parakeet для масштабных промышленных задач. В основе Parakeet - гибридная архитектура. Она комбинирует скоростной кодировщик FastConformer с декодером TDT, который оптимизирован для транскрипции.

TDT - декодер, который предсказывает слова, звуки и их длительность. Вместо того чтобы проверять каждый кусочек аудиозаписи по порядку, TDT «перепрыгивает» через лишние сегменты, опираясь на прогноз времени, которое занимает текущий токен. Это сокращает вычисления, экономит время и при этом не теряется точность.

Fast Conformer — это переработанная архитектура Conformer, которая ускоряет распознавание речи за счет увеличения downsampling до 8x с помощью более легких сверток и упрощенных блоков, и замены стандартного внимания на комбинацию локального контекста и одного глобального токена.

Обучение Parakeet проводилось в 2 этапа: сначала на 128 GPU A100 с использованием псевдоразмеченных данных, а затем — на 500 часах человеческой транскрипции. Часть обучающего датасета пока недоступна публично, их NVIDIA обещает открыть после конференции Interspeech 2025. Результаты на бенчмарке Open ASR впечатляют: средняя ошибка (WER) составляет всего 6.05% при greedy decoding без внешней языковой модели. Для сравнения, на чистом аудио из LibriSpeech WER составляет 1.69%, а сильном зашумлении (SNR 5) показатель не превышает 8.39%. В телефонии, где аудио сжимается через μ-law, потери в точности минимальны — всего 4.1%. По этим результатам, Parakeet-tdt-0.6b-v2 может стать универсальным инструментом для колл-центров или мобильных приложений. Модель поддерживает форматы .wav и .flac с частотой 16 кГц и требует всего 2 ГБ оперативной памяти. Для интеграции разработчикам понадобится фреймворк NeMo от NVIDIA, он упрощает настройку под конкретные задачи. 📌Лицензирование: CC-BY-4.0 License. 🟡Модель 🟡Demo @ai_machinelearning_big_data #AI #ML #ASR #Parakeet #NVIDIA

50 187

Учитесь в универе и хотите вырваться из рутины? Подайте заявку на бесплатный студкемп Яндекс Образования и НГУ! Здесь вы не просто переключитесь с повседневных задач, а нырнёте в одно из самых перспективных IT-направлений — NLP. За две недели — с 14 по 26 июля — вы разберётесь, как работают языковые модели вроде YandexGPT и Qwen, поймёте, что такое мультимодальность и RAG, поработаете с реальными данными и создадите собственный проект. На интенсиве ждут студентов со всей России и каждому, кто пройдёт отбор, оплатят проезд и проживание. Успейте подать заявку до 18 мая!

50 187

🚀 LTX-Video 13B — один из самых мощных open-source видеогенераторов. Разработчики внедрили в модель мультимасштабный рендеринг. ✅ Обычные генеративные модели видео рендерят всё изображение целиком, одним разрешением. Когда в сцене много движущихся объектов или деталей, модель может "размазать" их, потерять чёткость или неправильно совместить фон и передний план. 📝 А мультимасштабный рендеринг — это параллельная отрисовка картинки на разных уровнях детализации: один поток отвечает за фон (низкая детализация, большой масштаб), другой — за объекты в центре, движущиеся элементы (высокая детализация, малый масштаб). Потом всё объединяется в один кадр, как слои в Photoshop. 🎯 Зачем это нужно? Фон остаётся стабильным, не "дергается" Движущиеся объекты остаются чёткими и отдельными от фона Картинка в целом не разваливается (нет смешивания движений, артефактов) Такой подход помогает удерживать высокое качество картинки даже при сложном движении — например, если в кадре бежит персонаж на фоне движущегося города. 👉 По сути, это умное раздельное внимание к разным частям кадра, чтобы не терять детали ни в статике, ни в движении. Что нового? – Модель 13 миллиардов параметров – Multiscale rendering → больше деталей, чётче текстуры – Лучше понимает движение и сцену – Запускается локально на GPU – Поддержка keyframes, движения камеры/персонажей, мультисценных секвенций Запускается даже на RTX 4090. #AI #videoAI #ltxvideo #deeplearning #generativeAI #opensource #videogeneration ▪Попробовать можно тут→ https://app.ltx.studio/ltx-video ▪Code → https://github.com/Lightricks/LTX-Video ▪Weights → https://huggingface.co/Lightricks/LTX-Video

50 187

🧩 Задача для продвинутых дата-сайентистов: "Парадокс усечённых данных" 📖 Описание задачи У вас есть DataFrame df с данными о зарплатах сотрудников в компании:


import pandas as pd

data = {
    'employee_id': range(1, 11),
    'department': ['IT', 'IT', 'IT', 'HR', 'HR', 'Finance', 'Finance', 'Finance', 'Finance', 'Finance'],
    'salary': [120000, 125000, None, 70000, None, 90000, None, 95000, None, 100000]
}

df = pd.DataFrame(data)
print(df)

Результат:


   employee_id department    salary
0            1         IT  120000.0
1            2         IT  125000.0
2            3         IT       NaN
3            4         HR   70000.0
4            5         HR       NaN
5            6    Finance   90000.0
6            7    Finance       NaN
7            8    Finance   95000.0
8            9    Finance       NaN
9           10    Finance  100000.0

👉 В задаче требуется: > **Заполнить пропущенные зарплаты медианой по департаменту. > Затем найти департамент с наибольшим средним уровнем зарплаты.** Вы пишете такой код:


df['salary_filled'] = df.groupby('department')['salary'].transform(lambda x: x.fillna(x.median()))
top_department = df.groupby('department')['salary_filled'].mean().idxmax()
print(top_department)

❗️ Результат: "Finance" Но через неделю выясняется, что HR утверждает: > “Наш средний уровень зарплаты выше, чем в Finance!” 📝 Ваша задача: 1. Объяснить почему результат показывает Finance, хотя HR утверждает обратное? 2. Где ошибка в логике? 3. Как правильно посчитать среднюю зарплату, учитывая реальную ситуацию? --- 🎯 Подвох (ключевой момент): Медиана по HR = 70000 (только одно известное значение). Пропущенная зарплата в HR тоже заполняется 70000, т.е. обе записи будут 70000. В Finance медиана = 95000 (из трёх известных: 90000, 95000, 100000). Две пропущенные зарплаты в Finance тоже заполняются 95000. ✅ Но на самом деле в HR могли быть более высокие зарплаты, а мы по сути искусственно “усекли” распределение зарплат, заменив пропуски фиксированной медианой. 👉 Такая замена снижает дисперсию и искажает среднее, особенно если выборка мала. --- 💡 Правильный подход: 1. Вместо заполнения медианой, использовать **множественную имputation** (например, через `sklearn.impute.IterativeImputer`). 2. Либо **не заполнять NaN при вычислении среднего**, а использовать `mean(skipna=True)`, чтобы не “усекать” данные. 3. Либо **показать доверительный интервал** для среднего по каждой группе. Пример альтернативного подхода: ```python top_department = df.groupby('department')['salary'].mean().idxmax() print(top_department) ``` ✅ Таким образом NaN просто не участвуют в расчёте среднего, и мы не искажаем данные искусственным заполнением. --- 🔥 Усложнение (ещё один подвох): А что если пропуски не случайны? Например, все высокие зарплаты в HR отсутствуют, потому что сотрудники не раскрыли данные? → Тогда импутация медианой дополнительно “занижает” зарплаты HR, и классическая mean() даёт biased estimate. В таком случае нужна модель пропусков (MAR, MCAR, MNAR) и специфические методы восстановления. --- 📝 Что проверяет задача: ✅ Понимание влияния методов заполнения пропусков ✅ Знание статистических эффектов усечения данных ✅ Умение интерпретировать результат с учётом bias ✅ Навык выбирать подходящий метод обработки пропусков в зависимости от их природы

50 187

✔ PySpur PySpur — это полезны и легкий инструмент для создания и управления рабочими процессами, с минимальным количеством зависимостей. Он позволяет легко добавлять новые узлы через файл на Python и использует формат JSON для настройки графов. Инструмент поддерживает асинхронное выполнение задач, работу с несколькими модальностями данных и оптимизацию конвейеров. Кроме того, он предоставляет возможность генерации узлов с использованием технологий искусственного интеллекта. ▪Github

50 187

🔥CocoIndex — это современный ETL-фреймворк с открытым исходным кодом, предназначенный для подготовки данных к использованию в системах искусственного интеллекта. Он поддерживает пользовательскую логику трансформации и инкрементальные обновления, что делает его особенно полезным для задач индексации данных. 🔧 Основные возможности - Инкрементальная обработка данных: CocoIndex отслеживает изменения в исходных данных и логике трансформации, обновляя только изменённые части индекса, что снижает вычислительные затраты. - Поддержка пользовательской логики: Фреймворк позволяет интегрировать собственные функции обработки данных, обеспечивая гибкость при построении пайплайнов. - Модульная архитектура: Встроенные компоненты для чтения данных (локальные файлы, Google Drive), обработки (разбиение на чанки, генерация эмбеддингов) и сохранения результатов (PostgreSQL с pgvector, Qdrant). - Поддержка различных форматов данных: Поддержка текстовых документов, кода, PDF и структурированных данных, что делает CocoIndex универсальным инструментом. 🚀 Примеры использования - Семантический поиск: Индексация текстовых документов и кода с эмбеддингами для семантического поиска. - Извлечение знаний: Построение графов знаний из структурированных данных, извлечённых из документов. - Интеграция с LLM: Извлечение структурированной информации из неструктурированных данных с помощью больших языковых моделей. ⚙️ Быстрый старт 1. Установите библиотеку CocoIndex:


   pip install -U cocoindex

https://github.com/cocoindex-io/cocoindex 2. Настройте базу данных PostgreSQL с расширением pgvector. 3. Создайте файл quickstart.py и настройте пайплайн обработки данных. 4. Запустите пайплайн для обработки и индексации данных. 🟢 Github @data_analysis_ml

50 187

1️⃣2️⃣3️⃣4️⃣5️⃣6️⃣7️⃣8️⃣9️⃣🔟 Как меняется ИТ-индустрия с внедрением AI? Узнай 6 июня на ИТ-конференции МТС True Tech Day True Tech Day 2025 — третья масштабная технологическая конференция МТС для профессионалов ИТ‑индустрии. В программе: — Больше 40 докладов от известных ученых и ИТ-компаний. — Выступления зарубежных спикеров с индексом Хирша более 50. — Концентрация практических кейсов: как создаются большие проекты с применением AI. — Доклады по архитектуре, бэкенд-разработке и построению ИТ-платформ. — AI-интерактивы и технологические квесты. — Пространство для нетворкинга, …а еще after-party со звездным лайн-апом. Когда: 6 июня Где: Москва, МТС Live Холл и онлайн Участие бесплатно. Регистрация по ссылке.

50 187

🧩 The Ultimate LLM Benchmark Collection Подборка живых бенчмарков, которые стоит открывать при каждом релизе новой модели — и тех, на которые можно больше не тратить время. 🌐 Общие (multi‑skill) лидерборды SimpleBench — https://simple-bench.com/index.html SOLO‑Bench — https://github.com/jd-3d/SOLOBench AidanBench — https://aidanbench.com SEAL by Scale (MultiChallenge) — https://scale.com/leaderboard LMArena (Style Control) — https://beta.lmarena.ai/leaderboard LiveBench — https://livebench.ai ARC‑AGI — https://arcprize.org/leaderboard Thematic Generalization (Lech Mazur) — https://github.com/lechmazur/generalization дополнительные бенчмарки Lech Mazur: Elimination Game — https://github.com/lechmazur/elimination_game Confabulations — https://github.com/lechmazur/confabulations EQBench (Longform Writing) — https://eqbench.com Fiction‑Live Bench — https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87 MC‑Bench (сортировать по win‑rate) — https://mcbench.ai/leaderboard TrackingAI – IQ Bench — https://trackingai.org/home Dubesor LLM Board — https://dubesor.de/benchtable.html Balrog‑AI — https://balrogai.com Misguided Attention — https://github.com/cpldcpu/MisguidedAttention Snake‑Bench — https://snakebench.com SmolAgents LLM (из‑за GAIA & SimpleQA) — https://huggingface.co/spaces/smolagents/smolagents-leaderboard Context‑Arena (MRCR, Graphwalks) — https://contextarena.ai OpenCompass — https://rank.opencompass.org.cn/home HHEM (Hallucination) — https://huggingface.co/spaces/vectara/leaderboard 🛠️ Coding / Math / Agentic Aider‑Polyglot‑Coding — https://aider.chat/docs/leaderboards/ BigCodeBench — https://bigcode-bench.github.io WebDev‑Arena — https://web.lmarena.ai/leaderboard WeirdML — https://htihle.github.io/weirdml.html Symflower Coding Eval v1.0 — https://symflower.com/en/company/blog/2025/dev-quality-eval-v1.0-anthropic-s-claude-3.7-sonnet-is-the-king-with-help-and-deepseek-r1-disappoints/ PHYBench — https://phybench-official.github.io/phybench-demo/ MathArena — https://matharena.ai Galileo Agent Leaderboard — https://huggingface.co/spaces/galileo-ai/agent-leaderboard XLANG Agent Arena — https://arena.xlang.ai/leaderboard 🚀 Для отслеживания AI take‑off METR Long‑Task Benchmarks (вкл. RE Bench) — https://metr.org PaperBench — https://openai.com/index/paperbench/ SWE‑Lancer — https://openai.com/index/swe-lancer/ MLE‑Bench — https://github.com/openai/mle-bench SWE‑Bench — https://swebench.com 🏆 Обязательный «классический» набор GPQA‑Diamond — https://github.com/idavidrein/gpqa SimpleQA — https://openai.com/index/introducing-simpleqa/ Tau‑Bench — https://github.com/sierra-research/tau-bench SciCode — https://github.com/scicode-bench/SciCode MMMU — https://mmmu-benchmark.github.io/#leaderboard Humanities Last Exam (HLE) — https://github.com/centerforaisafety/hle 🔍 Классические бенчмарков Simple‑Evals — https://github.com/openai/simple-evals Vellum AI Leaderboard — https://vellum.ai/llm-leaderboard Artificial Analysis — https://artificialanalysis.ai ⚠️ «Перегретые» метрики, на которые можно не смотреть MMLU, HumanEval, BBH, DROP, MGSM Большинство чисто‑математических датасетов: GSM8K, MATH, AIME, ... Модели близки к верхним значениям на них и в них нет особого смысла.

50 187

📈 За последние 28 дней сайт ChatGPT посетили больше людей, чем X (Твиттер). - ChatGPT посетили 4,786 млрд раз - X имел 4,028 млрд посещений

50 187

Repost from Machinelearning

🌟 Atropos: тренажерный зал для RL языковых моделей. Atropos от NousResearch - это гибкий фреймворк для асинхронного управления RL-средами. Его архитектура построена так, чтобы максимизировать эффективность даже в распределенных системах, будь то локальный кластер или облако. Atropos поддерживает децентрализацию. Он позволяет запускать несколько экземпляров сред (от статических датасетов, интерактивных игр, RLAIF и RLHF до обучения сложным многоэтапным взаимодействиям), которые асинхронно передают данные в центральный узел. Это избавляет от простоя ресурсов, когда обновления политики модели тормозят из-за ожидания результатов всех окружений. Под капотом — интеграция с любыми API (OpenAI, vLLM, SGLang), позволяя свободу выбора LLM-провайдера без переписывания кода. Практическая польза протестирована в экспериментах: 🟢В задачах параллельного вызова функций точность тестовой модели DeepHermes Tool Calling Specialist выросла в 4,6 раза — с 10% до 46%. 🟢В прогнозировании финансовых показателей на модели DeepHermes Financial Fundamentals Prediction Specialist, RL через Atropos удвоил точность (с 20% до 50%). Такие результаты достигнуты благодаря многозадачности: фреймворк одновременно управляет разными типами сред, объединяя их в единый тренировочный поток. Вы можете обучать модель на статических данных утром и переключаться на интерактивные игры вечером, не меняя инфраструктуру. Для разработчиков Atropos предлагает готовые инструменты: от датасетов для тонкой настройки (SFT, DPO) до дебаггеров и визуализации. Atropos не привязывает вас к конкретному алгоритму RL или инфраструктуре. Запустите 10 экземпляров на ноутбуке или 10 000 через Slurm — фреймворк равномерно распределит нагрузку. Это особенно ценно для исследований: можно быстро экспериментировать с разными подходами, не тратя недели на настройку пайплайнов. В репозитории есть все, что нужно: коллекция готовых к использованию сред RL, библиотека с базовыми классами и утилитами и примеры конфигураций обучения. Если хотите понять, как ускорить свои эксперименты с LLM - загляните в документацию проекта, возможно, это именно тот инструмент, который избавит вас от боли асинхронной координации. 📌Лицензирование: MIT License. 🟡Статья 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #RL #Framework #NousResearch #Atropos

50 187

❓Как найти аномалии в данных с помощью машинного обучения? В мире данных выявление аномалий — ключевая задача, которая помогает находить неисправности, мошенничество и отклонения. Без правильных методов вы рискуете упустить важные факты, которые могут повлиять на результаты. На открытом вебинаре 13 мая в 18:00 мск мы подробно разберем, как эффективно искать аномалии в данных с использованием популярных методов, от простых статистических до продвинутых, таких как Isolation Forest и OneClassSVM. 📣 Спикер Мария Тихонова – PhD Computer Science, Senior Data Scientist и преподаватель в одном из крупнейших университетов России. ➡️ Запишитесь на вебинар и получите скидку на большое обучение «Специализация Machine Learning»: https://otus.pw/RBJq/?erid=2W5zFFwo5AQ #реклама О рекламодателе