Анализ данных (Data analysis)

Ir al canal en Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Red:Machinelearning Rusia12 554 Tecnologías y Aplicaciones2 668...

📈 Análisis del canal de Telegram Анализ данных (Data analysis)

El canal Анализ данных (Data analysis) (@data_analysis_ml) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 50 192 suscriptores, ocupando la posición 2 668 en la categoría Tecnologías y Aplicaciones y el puesto 12 554 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 50 192 suscriptores.

Según los últimos datos del 15 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de -8, y en las últimas 24 horas de 25, conservando un alto alcance.

Estado de verificación: No verificado
Tasa de interacción (ER): El promedio de interacción de la audiencia es 8.82%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 5.98% de reacciones respecto al total de suscriptores.
Alcance de las publicaciones: Cada publicación recibe en promedio 4 427 visualizaciones. En el primer día suele acumular 2 999 visualizaciones.
Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 30.
Intereses temáticos: El contenido se centra en temas clave como llm, контекст, openai, архитектура, deepseek.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 16 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

50 192

Suscriptores

+2524 horas

-287 días

-830 días

4 427

Visitas de la publicación

~ 2 99924 horas

~ 3 53048 horas

8.82%

Tasa de compromiso

~ 5

Mensajes por día

Ads index

beta

Archivo de publicaciones

50 187

🐼 Pandas-задача с подвохом: “Почему ничего не работает?” 📘 Условие Дано: DataFrame df:


import pandas as pd
import numpy as np

df = pd.DataFrame({
    'user_id': [1, 1, 2, 2, 3, 3],
    'score': [100, 90, np.nan, 85, 75, 95]
})

Ты хочешь: 1) Для каждого пользователя найти средний score, 2) Заполнить пропущенные значения score средним по этому пользователю. Ты пишешь код:


df['score_filled'] = df.groupby('user_id')['score'].apply(lambda x: x.fillna(x.mean()))

Ожидаешь, что пропущенное значение будет заменено на `85.0`. Но вместо этого… возникает ошибка или неверный результат. ❓ Вопрос: 1) Почему этот код не работает как ты ожидаешь? 2) Какое поведение apply() вызывает подвох? 3) Как правильно решить задачу? --- ✅ Разбор: 💥 Проблема в `.apply()` + присваивание по индексу Функция `groupby().apply()` возвращает **объединённый результат с вложенным индексом**, который **не совпадает с индексом исходного DataFrame**. Пример: ```python df.groupby('user_id')['score'].apply(lambda x: x.fillna(x.mean())) ``` → возвращает Series с уровнем индекса: `(user_id, original_index)`, а `df['score_filled'] = ...` ожидает индекс, совпадающий с `df.index`. 📌 Результат: pandas либо выбрасывает `ValueError`, либо вставляет неправильные значения. ✅ Правильные способы Способ 1: использовать `transform` (индекс сохраняется!): ```python df['score_filled'] = df['score'].fillna( df.groupby('user_id')['score'].transform('mean') ) ``` Способ 2: в два шага: ```python user_means = df.groupby('user_id')['score'].transform('mean') df['score_filled'] = df['score'] df.loc[df['score'].isna(), 'score_filled'] = user_means ``` 🎯 Так `NaN` будет корректно заполнен значением `85.0`. ⚠️ Подвох • `groupby().apply()` не гарантирует совпадение индексов • `transform()` — безопаснее, если хочешь сохранить структуру • Даже опытные часто используют `apply` “по привычке” и попадают в ловушку • Такие ошибки не всегда приводят к crash — они хуже: создают **тихие баги** Хочешь сделать вторую часть , ставь 👍

50 187

🌧️ Superlinked — фреймворк для гибридного поиска, где вектора и метаданные работают вместе. Этот инструмент решает главную боль RAG-систем и рекомендательных сервисов — как эффективно комбинировать эмбеддинги с структурированными данными. В отличие от чистых векторных поисков, здесь можно создать единую модель, где описание товара и его оценка влияют на результаты совместно. Проект широкой интеграции: от тестов в Jupyter-ноутбуке до продакшн-развёртывания REST API одним командой. 🤖 GitHub @data_analysis_ml

50 187

🔥 Проект: fast-agent fast-agent — это современный фреймворк для быстрой разработки и тестирования интеллектуальных агентов и рабочих процессов, поддерживающих протокол MCP (Model-Context-Protocol). Он предоставляет простой декларативный синтаксис и мощные инструменты для построения многоагентных систем с поддержкой OpenAI, Anthropic и других моделей. ▪ Основные возможности • Быстрое создание агентов с помощью декораторов @fast.agent, минимизируя количество кода. • Поддержка рабочих процессов: цепочки (`chain`), параллельные вызовы (`parallel`), маршрутизаторы (`router`), оркестраторы (`orchestrator`), схемы с оценкой и оптимизацией (`evaluator_optimizer`). • Мультимодальность: обработка изображений, PDF-файлов и интеграция с внешними ресурсами MCP. • Интерактивная отладка: настройка и диагностика агентов до, во время и после выполнения рабочих процессов. • Гибкая конфигурация через fastagent.config.yaml и fastagent.secrets.yaml. • Интеграция с LLM: OpenAI (GPT-4 и др.), Anthropic (Haiku, Sonnet, Opus) и другие модели через MCP-серверы. ▪ Быстрый старт 1️⃣ Установите менеджер пакетов uv для Python. 2️⃣ Установите fast-agent:


uv pip install fast-agent-mcp

3️⃣ Создайте пример агента и конфигурационные файлы:


uv run fast-agent setup

4️⃣ Запустите агента:


uv run agent.py

5️⃣ Для запуска примеров рабочих процессов:


uv run fast-agent quickstart workflow

▪ Документация и примеры • Официальный сайт: [fast-agent.ai](https://fast-agent.ai) • Документация: [fast-agent-docs](https://github.com/evalstate/fast-agent-docs) • Примеры: директория examples в репозитории. ▪ Сообщество и развитие • Проект активно развивается, ⭐ 1.7k+ звёзд на GitHub. • Обсуждения: [Discussions](https://github.com/evalstate/fast-agent/discussions) • Последние релизы: [Releases](https://github.com/evalstate/fast-agent/releases) ▪ Видеообзор [First Look at Fast-Agent (or Manus) – Coding an AI ...](https://www.youtube.com/watch?v=GaVQyYougPc&utm_source=chatgpt.com) 🔍 GitHub

50 187

NVIDIA открыла исходный код моделей Open Code Reasoning - 32B, 14B и 7B - лицензировано APACHE 2.0 🔥 > Превосходит O3 mini и O1 (низкий) на LiveCodeBench 😍 Модели в среднем на 30% эффективнее других эквивалентных моделей Reasoning. Работает с llama.cpp, vLLM, transformers, TGI и другими — проверьте их сегодня!! 🟢Models 🟢Dataset 🟢Paper

50 187

🔥 Hugging Face представили бесплатного Open Computer Agent — открытый аналог Operator, запускающийся на виртуальной Linux-машине. Этот агент умеет искать и бронировать билеты, заказывать столик в ресторане и решать множество других задач. Есть два «но»: он иногда не справляется с CAPTCHA, а из-за высокой нагрузки ответы могут идти чуть дольше. Зато всё бесплатно и с открытым исходным кодом! Попробовать можно прямо сейчас: https://huggingface.co/spaces/smolagents/computer-agent @data_analysis_ml

50 187

🔥 AgenticSeek — мощнейший опенсорс ИИ-агент. Это лучшая бесплатная альтернатива Manus AI за 200$. Есть всё, что нужно — поиск по интернету, поддержка голосового управления + он хороший помощник по кодингу. И он умеет почти всё: • Спланирует тур за границу: подберёт билеты, отели, маршруты • Проведёт аудит бизнеса и предложит варианты оптимизации • Возьмёт на себя работу в таблицах, анализ данных и отчётов • Напишет код под любую задачу • Прочитает книги, статьи, репозитории, просёрфит сайты и соберёт данные • А теперь представьте: вы даёте ему сотню таких задач одновременно — это уже не ассистент, а полноценный бизнес-комбайн AgenticSeek полностью управляет браузером и приложениями, интегрируется в ваши процессы и автоматически подбирает агентов под задачи. ✅ Управлять можно голосом ✅ Все приватные данные остаются только у вас На GitHub уже 1800 звезд. https://github.com/Fosowl/agenticSeek

50 187

Железо + софт = будущее. Стартовала регистрация на «Я.Железо-2025» Как видит мир автономный грузовик, зачем лидару «подогрев стёкол» и что позволяет роверу ориентироваться в городе? Приглашаем 24 мая на конференцию «Я.Железо» — поговорим о разработке роботов, умных устройств, автономного транспорта и серверной инфраструктуры. Вас ждут два трека с докладами, экспозона и нетворкинг. О чём расскажут спикеры: На треке Hardware — об устройстве сенсорсета, микрофонов в AOSP на примере ТВ-станции, а также сделают обзор системы очистки. На треке Software — о смарт-функциях в ТВ Станциях, TBD Светофорах на роботе-доставщике и радаре в BEVFusion. Что покажут на экспо: •Собственные лидары. Как работают дальнобойный PBR-ONE и круговой nanoHomer и что позволяет роботам «видеть» сквозь дождь и туман. •Автономные грузовики. Как тягач принимает решения, маневрирует и соблюдает ПДД, а лидары определяют объекты за сотни метров. •Роботы-доставщики. Как ровер ориентируется в городе, видит пешеходов и решает, когда остановиться. •Складские роботы. Как работает нейросеть и «грабер» в механической руке и сколько палето-мест в час может обработать робот-инвентаризатор. Конференция пройдёт онлайн и офлайн в Москве 24 мая. Чтобы получить приглашение на «Я.Железо», зарегистрируйтесь по ссылке.

50 187

📄 DocsGPT — открытый RAG-ассистент для работы с документами. Это не просто чат-бот, а целая экосистема, которая умеет извлекать информацию из PDF, DOCX, веб-страниц и даже GitHub-репозиториев, сохраняя привязку к исходным данным. Что выделяет проект: ▪️Поддержка локальных моделей (Ollama, llama.cpp) и облачных API (OpenAI, Anthropic) ▪️Готовые интеграции для Discord, Telegram и веб-сайтов ▪️Возможность расширения функционала через инструменты и вебхуки Для старта достаточно клонировать репозиторий и запустить setup-скрипт — через пару минут вы получите работающий инстанс с интерфейсом на localhost. 🤖 GitHub @data_analysis_ml

50 187

Repost from Machinelearning

🌟 NVIDIA Parakeet-tdt-0.6b-v2: ASR-модель с поддержкой временных меток. NVIDIA представила новую модель автоматического распознавания речи (ASR) — Parakeet-tdt-0.6b-v2 c 600 млн. параметров для английского языка. Она не просто транскрибирует аудио в текст, но и распознает пунктуацию, капитализацию и временные метки с точностью до слова. Модель устойчива к шумам и справляется даже с расшифровкой песен или чисел. Это достигнуто за счет обучения на данных, в которые включили «шумные» источники (YouTube, записи телефонных разговоров и уличные диалоги). Как отмечают авторы, RTFx-показатель равен 3380 (при батче 128), что позволяет использовать Parakeet для масштабных промышленных задач. В основе Parakeet - гибридная архитектура. Она комбинирует скоростной кодировщик FastConformer с декодером TDT, который оптимизирован для транскрипции.

TDT - декодер, который предсказывает слова, звуки и их длительность. Вместо того чтобы проверять каждый кусочек аудиозаписи по порядку, TDT «перепрыгивает» через лишние сегменты, опираясь на прогноз времени, которое занимает текущий токен. Это сокращает вычисления, экономит время и при этом не теряется точность.

Fast Conformer — это переработанная архитектура Conformer, которая ускоряет распознавание речи за счет увеличения downsampling до 8x с помощью более легких сверток и упрощенных блоков, и замены стандартного внимания на комбинацию локального контекста и одного глобального токена.

Обучение Parakeet проводилось в 2 этапа: сначала на 128 GPU A100 с использованием псевдоразмеченных данных, а затем — на 500 часах человеческой транскрипции. Часть обучающего датасета пока недоступна публично, их NVIDIA обещает открыть после конференции Interspeech 2025. Результаты на бенчмарке Open ASR впечатляют: средняя ошибка (WER) составляет всего 6.05% при greedy decoding без внешней языковой модели. Для сравнения, на чистом аудио из LibriSpeech WER составляет 1.69%, а сильном зашумлении (SNR 5) показатель не превышает 8.39%. В телефонии, где аудио сжимается через μ-law, потери в точности минимальны — всего 4.1%. По этим результатам, Parakeet-tdt-0.6b-v2 может стать универсальным инструментом для колл-центров или мобильных приложений. Модель поддерживает форматы .wav и .flac с частотой 16 кГц и требует всего 2 ГБ оперативной памяти. Для интеграции разработчикам понадобится фреймворк NeMo от NVIDIA, он упрощает настройку под конкретные задачи. 📌Лицензирование: CC-BY-4.0 License. 🟡Модель 🟡Demo @ai_machinelearning_big_data #AI #ML #ASR #Parakeet #NVIDIA

50 187

Учитесь в универе и хотите вырваться из рутины? Подайте заявку на бесплатный студкемп Яндекс Образования и НГУ! Здесь вы не просто переключитесь с повседневных задач, а нырнёте в одно из самых перспективных IT-направлений — NLP. За две недели — с 14 по 26 июля — вы разберётесь, как работают языковые модели вроде YandexGPT и Qwen, поймёте, что такое мультимодальность и RAG, поработаете с реальными данными и создадите собственный проект. На интенсиве ждут студентов со всей России и каждому, кто пройдёт отбор, оплатят проезд и проживание. Успейте подать заявку до 18 мая!

50 187

🚀 LTX-Video 13B — один из самых мощных open-source видеогенераторов. Разработчики внедрили в модель мультимасштабный рендеринг. ✅ Обычные генеративные модели видео рендерят всё изображение целиком, одним разрешением. Когда в сцене много движущихся объектов или деталей, модель может "размазать" их, потерять чёткость или неправильно совместить фон и передний план. 📝 А мультимасштабный рендеринг — это параллельная отрисовка картинки на разных уровнях детализации: один поток отвечает за фон (низкая детализация, большой масштаб), другой — за объекты в центре, движущиеся элементы (высокая детализация, малый масштаб). Потом всё объединяется в один кадр, как слои в Photoshop. 🎯 Зачем это нужно? Фон остаётся стабильным, не "дергается" Движущиеся объекты остаются чёткими и отдельными от фона Картинка в целом не разваливается (нет смешивания движений, артефактов) Такой подход помогает удерживать высокое качество картинки даже при сложном движении — например, если в кадре бежит персонаж на фоне движущегося города. 👉 По сути, это умное раздельное внимание к разным частям кадра, чтобы не терять детали ни в статике, ни в движении. Что нового? – Модель 13 миллиардов параметров – Multiscale rendering → больше деталей, чётче текстуры – Лучше понимает движение и сцену – Запускается локально на GPU – Поддержка keyframes, движения камеры/персонажей, мультисценных секвенций Запускается даже на RTX 4090. #AI #videoAI #ltxvideo #deeplearning #generativeAI #opensource #videogeneration ▪Попробовать можно тут→ https://app.ltx.studio/ltx-video ▪Code → https://github.com/Lightricks/LTX-Video ▪Weights → https://huggingface.co/Lightricks/LTX-Video

50 187

🧩 Задача для продвинутых дата-сайентистов: "Парадокс усечённых данных" 📖 Описание задачи У вас есть DataFrame df с данными о зарплатах сотрудников в компании:


import pandas as pd

data = {
    'employee_id': range(1, 11),
    'department': ['IT', 'IT', 'IT', 'HR', 'HR', 'Finance', 'Finance', 'Finance', 'Finance', 'Finance'],
    'salary': [120000, 125000, None, 70000, None, 90000, None, 95000, None, 100000]
}

df = pd.DataFrame(data)
print(df)

Результат:


   employee_id department    salary
0            1         IT  120000.0
1            2         IT  125000.0
2            3         IT       NaN
3            4         HR   70000.0
4            5         HR       NaN
5            6    Finance   90000.0
6            7    Finance       NaN
7            8    Finance   95000.0
8            9    Finance       NaN
9           10    Finance  100000.0

👉 В задаче требуется: > **Заполнить пропущенные зарплаты медианой по департаменту. > Затем найти департамент с наибольшим средним уровнем зарплаты.** Вы пишете такой код:


df['salary_filled'] = df.groupby('department')['salary'].transform(lambda x: x.fillna(x.median()))
top_department = df.groupby('department')['salary_filled'].mean().idxmax()
print(top_department)

❗️ Результат: "Finance" Но через неделю выясняется, что HR утверждает: > “Наш средний уровень зарплаты выше, чем в Finance!” 📝 Ваша задача: 1. Объяснить почему результат показывает Finance, хотя HR утверждает обратное? 2. Где ошибка в логике? 3. Как правильно посчитать среднюю зарплату, учитывая реальную ситуацию? --- 🎯 Подвох (ключевой момент): Медиана по HR = 70000 (только одно известное значение). Пропущенная зарплата в HR тоже заполняется 70000, т.е. обе записи будут 70000. В Finance медиана = 95000 (из трёх известных: 90000, 95000, 100000). Две пропущенные зарплаты в Finance тоже заполняются 95000. ✅ Но на самом деле в HR могли быть более высокие зарплаты, а мы по сути искусственно “усекли” распределение зарплат, заменив пропуски фиксированной медианой. 👉 Такая замена снижает дисперсию и искажает среднее, особенно если выборка мала. --- 💡 Правильный подход: 1. Вместо заполнения медианой, использовать **множественную имputation** (например, через `sklearn.impute.IterativeImputer`). 2. Либо **не заполнять NaN при вычислении среднего**, а использовать `mean(skipna=True)`, чтобы не “усекать” данные. 3. Либо **показать доверительный интервал** для среднего по каждой группе. Пример альтернативного подхода: ```python top_department = df.groupby('department')['salary'].mean().idxmax() print(top_department) ``` ✅ Таким образом NaN просто не участвуют в расчёте среднего, и мы не искажаем данные искусственным заполнением. --- 🔥 Усложнение (ещё один подвох): А что если пропуски не случайны? Например, все высокие зарплаты в HR отсутствуют, потому что сотрудники не раскрыли данные? → Тогда импутация медианой дополнительно “занижает” зарплаты HR, и классическая mean() даёт biased estimate. В таком случае нужна модель пропусков (MAR, MCAR, MNAR) и специфические методы восстановления. --- 📝 Что проверяет задача: ✅ Понимание влияния методов заполнения пропусков ✅ Знание статистических эффектов усечения данных ✅ Умение интерпретировать результат с учётом bias ✅ Навык выбирать подходящий метод обработки пропусков в зависимости от их природы

50 187

✔ PySpur PySpur — это полезны и легкий инструмент для создания и управления рабочими процессами, с минимальным количеством зависимостей. Он позволяет легко добавлять новые узлы через файл на Python и использует формат JSON для настройки графов. Инструмент поддерживает асинхронное выполнение задач, работу с несколькими модальностями данных и оптимизацию конвейеров. Кроме того, он предоставляет возможность генерации узлов с использованием технологий искусственного интеллекта. ▪Github

50 187

🔥CocoIndex — это современный ETL-фреймворк с открытым исходным кодом, предназначенный для подготовки данных к использованию в системах искусственного интеллекта. Он поддерживает пользовательскую логику трансформации и инкрементальные обновления, что делает его особенно полезным для задач индексации данных. 🔧 Основные возможности - Инкрементальная обработка данных: CocoIndex отслеживает изменения в исходных данных и логике трансформации, обновляя только изменённые части индекса, что снижает вычислительные затраты. - Поддержка пользовательской логики: Фреймворк позволяет интегрировать собственные функции обработки данных, обеспечивая гибкость при построении пайплайнов. - Модульная архитектура: Встроенные компоненты для чтения данных (локальные файлы, Google Drive), обработки (разбиение на чанки, генерация эмбеддингов) и сохранения результатов (PostgreSQL с pgvector, Qdrant). - Поддержка различных форматов данных: Поддержка текстовых документов, кода, PDF и структурированных данных, что делает CocoIndex универсальным инструментом. 🚀 Примеры использования - Семантический поиск: Индексация текстовых документов и кода с эмбеддингами для семантического поиска. - Извлечение знаний: Построение графов знаний из структурированных данных, извлечённых из документов. - Интеграция с LLM: Извлечение структурированной информации из неструктурированных данных с помощью больших языковых моделей. ⚙️ Быстрый старт 1. Установите библиотеку CocoIndex:


   pip install -U cocoindex

https://github.com/cocoindex-io/cocoindex 2. Настройте базу данных PostgreSQL с расширением pgvector. 3. Создайте файл quickstart.py и настройте пайплайн обработки данных. 4. Запустите пайплайн для обработки и индексации данных. 🟢 Github @data_analysis_ml

50 187

1️⃣2️⃣3️⃣4️⃣5️⃣6️⃣7️⃣8️⃣9️⃣🔟 Как меняется ИТ-индустрия с внедрением AI? Узнай 6 июня на ИТ-конференции МТС True Tech Day True Tech Day 2025 — третья масштабная технологическая конференция МТС для профессионалов ИТ‑индустрии. В программе: — Больше 40 докладов от известных ученых и ИТ-компаний. — Выступления зарубежных спикеров с индексом Хирша более 50. — Концентрация практических кейсов: как создаются большие проекты с применением AI. — Доклады по архитектуре, бэкенд-разработке и построению ИТ-платформ. — AI-интерактивы и технологические квесты. — Пространство для нетворкинга, …а еще after-party со звездным лайн-апом. Когда: 6 июня Где: Москва, МТС Live Холл и онлайн Участие бесплатно. Регистрация по ссылке.

50 187

🧩 The Ultimate LLM Benchmark Collection Подборка живых бенчмарков, которые стоит открывать при каждом релизе новой модели — и тех, на которые можно больше не тратить время. 🌐 Общие (multi‑skill) лидерборды SimpleBench — https://simple-bench.com/index.html SOLO‑Bench — https://github.com/jd-3d/SOLOBench AidanBench — https://aidanbench.com SEAL by Scale (MultiChallenge) — https://scale.com/leaderboard LMArena (Style Control) — https://beta.lmarena.ai/leaderboard LiveBench — https://livebench.ai ARC‑AGI — https://arcprize.org/leaderboard Thematic Generalization (Lech Mazur) — https://github.com/lechmazur/generalization дополнительные бенчмарки Lech Mazur: Elimination Game — https://github.com/lechmazur/elimination_game Confabulations — https://github.com/lechmazur/confabulations EQBench (Longform Writing) — https://eqbench.com Fiction‑Live Bench — https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87 MC‑Bench (сортировать по win‑rate) — https://mcbench.ai/leaderboard TrackingAI – IQ Bench — https://trackingai.org/home Dubesor LLM Board — https://dubesor.de/benchtable.html Balrog‑AI — https://balrogai.com Misguided Attention — https://github.com/cpldcpu/MisguidedAttention Snake‑Bench — https://snakebench.com SmolAgents LLM (из‑за GAIA & SimpleQA) — https://huggingface.co/spaces/smolagents/smolagents-leaderboard Context‑Arena (MRCR, Graphwalks) — https://contextarena.ai OpenCompass — https://rank.opencompass.org.cn/home HHEM (Hallucination) — https://huggingface.co/spaces/vectara/leaderboard 🛠️ Coding / Math / Agentic Aider‑Polyglot‑Coding — https://aider.chat/docs/leaderboards/ BigCodeBench — https://bigcode-bench.github.io WebDev‑Arena — https://web.lmarena.ai/leaderboard WeirdML — https://htihle.github.io/weirdml.html Symflower Coding Eval v1.0 — https://symflower.com/en/company/blog/2025/dev-quality-eval-v1.0-anthropic-s-claude-3.7-sonnet-is-the-king-with-help-and-deepseek-r1-disappoints/ PHYBench — https://phybench-official.github.io/phybench-demo/ MathArena — https://matharena.ai Galileo Agent Leaderboard — https://huggingface.co/spaces/galileo-ai/agent-leaderboard XLANG Agent Arena — https://arena.xlang.ai/leaderboard 🚀 Для отслеживания AI take‑off METR Long‑Task Benchmarks (вкл. RE Bench) — https://metr.org PaperBench — https://openai.com/index/paperbench/ SWE‑Lancer — https://openai.com/index/swe-lancer/ MLE‑Bench — https://github.com/openai/mle-bench SWE‑Bench — https://swebench.com 🏆 Обязательный «классический» набор GPQA‑Diamond — https://github.com/idavidrein/gpqa SimpleQA — https://openai.com/index/introducing-simpleqa/ Tau‑Bench — https://github.com/sierra-research/tau-bench SciCode — https://github.com/scicode-bench/SciCode MMMU — https://mmmu-benchmark.github.io/#leaderboard Humanities Last Exam (HLE) — https://github.com/centerforaisafety/hle 🔍 Классические бенчмарков Simple‑Evals — https://github.com/openai/simple-evals Vellum AI Leaderboard — https://vellum.ai/llm-leaderboard Artificial Analysis — https://artificialanalysis.ai ⚠️ «Перегретые» метрики, на которые можно не смотреть MMLU, HumanEval, BBH, DROP, MGSM Большинство чисто‑математических датасетов: GSM8K, MATH, AIME, ... Модели близки к верхним значениям на них и в них нет особого смысла.

50 187

📈 За последние 28 дней сайт ChatGPT посетили больше людей, чем X (Твиттер). - ChatGPT посетили 4,786 млрд раз - X имел 4,028 млрд посещений

50 187

Repost from Machinelearning

🌟 Atropos: тренажерный зал для RL языковых моделей. Atropos от NousResearch - это гибкий фреймворк для асинхронного управления RL-средами. Его архитектура построена так, чтобы максимизировать эффективность даже в распределенных системах, будь то локальный кластер или облако. Atropos поддерживает децентрализацию. Он позволяет запускать несколько экземпляров сред (от статических датасетов, интерактивных игр, RLAIF и RLHF до обучения сложным многоэтапным взаимодействиям), которые асинхронно передают данные в центральный узел. Это избавляет от простоя ресурсов, когда обновления политики модели тормозят из-за ожидания результатов всех окружений. Под капотом — интеграция с любыми API (OpenAI, vLLM, SGLang), позволяя свободу выбора LLM-провайдера без переписывания кода. Практическая польза протестирована в экспериментах: 🟢В задачах параллельного вызова функций точность тестовой модели DeepHermes Tool Calling Specialist выросла в 4,6 раза — с 10% до 46%. 🟢В прогнозировании финансовых показателей на модели DeepHermes Financial Fundamentals Prediction Specialist, RL через Atropos удвоил точность (с 20% до 50%). Такие результаты достигнуты благодаря многозадачности: фреймворк одновременно управляет разными типами сред, объединяя их в единый тренировочный поток. Вы можете обучать модель на статических данных утром и переключаться на интерактивные игры вечером, не меняя инфраструктуру. Для разработчиков Atropos предлагает готовые инструменты: от датасетов для тонкой настройки (SFT, DPO) до дебаггеров и визуализации. Atropos не привязывает вас к конкретному алгоритму RL или инфраструктуре. Запустите 10 экземпляров на ноутбуке или 10 000 через Slurm — фреймворк равномерно распределит нагрузку. Это особенно ценно для исследований: можно быстро экспериментировать с разными подходами, не тратя недели на настройку пайплайнов. В репозитории есть все, что нужно: коллекция готовых к использованию сред RL, библиотека с базовыми классами и утилитами и примеры конфигураций обучения. Если хотите понять, как ускорить свои эксперименты с LLM - загляните в документацию проекта, возможно, это именно тот инструмент, который избавит вас от боли асинхронной координации. 📌Лицензирование: MIT License. 🟡Статья 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #RL #Framework #NousResearch #Atropos

50 187

❓Как найти аномалии в данных с помощью машинного обучения? В мире данных выявление аномалий — ключевая задача, которая помогает находить неисправности, мошенничество и отклонения. Без правильных методов вы рискуете упустить важные факты, которые могут повлиять на результаты. На открытом вебинаре 13 мая в 18:00 мск мы подробно разберем, как эффективно искать аномалии в данных с использованием популярных методов, от простых статистических до продвинутых, таких как Isolation Forest и OneClassSVM. 📣 Спикер Мария Тихонова – PhD Computer Science, Senior Data Scientist и преподаватель в одном из крупнейших университетов России. ➡️ Запишитесь на вебинар и получите скидку на большое обучение «Специализация Machine Learning»: https://otus.pw/RBJq/?erid=2W5zFFwo5AQ #реклама О рекламодателе