Анализ данных (Data analysis)

Open in Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Network:Machinelearning Russia12 571 Technologies & Applications2 678...

📈 Analytical overview of Telegram channel Анализ данных (Data analysis)

Channel Анализ данных (Data analysis) (@data_analysis_ml) in the Russian language segment is an active participant. Currently, the community unites 50 150 subscribers, ranking 2 678 in the Technologies & Applications category and 12 571 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 50 150 subscribers.

According to the latest data from 12 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -35 over the last 30 days and by -30 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 9.06%. Within the first 24 hours after publication, content typically collects 5.57% reactions from the total number of subscribers.
Post reach: On average, each post receives 4 547 views. Within the first day, a publication typically gains 2 794 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 30.
Thematic interests: Content is focused on key topics such as llm, контекст, openai, архитектура, deepseek.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Thanks to the high frequency of updates (latest data received on 13 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

50 150

Subscribers

-3024 hours

-537 days

-3530 days

4 547

Post views

~ 2 79424 hours

~ 3 27748 hours

9.06%

Engagement rate

~ 5

Posts per day

Ads index

beta

Posts Archive

50 149

🧠 Google предлагает новый подход к обучению моделей - “Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning”. Суть: модель учится не угадывать готовый ответ, а планировать и проверять каждый шаг рассуждений. - Вместо финальной оценки SRL даёт награду за каждый шаг цепочки - Модель учится думать поэтапно, а не просто копировать решение - Маленькие модели получают реальный сигнал обучения и тоже начинают планировать Результаты впечатляют: - AIME24: +3.4% (13.3% → 16.7%) на модели 7B - SRL→RLVR: 57.5% на AMC23 (greedy) - Код-агенты: 14.8% oracle resolve rate - В инженерных задачах из 5K траекторий сделали 134K пошаговых примеров, SRL дал 8.6% фиксов кода с greedy — выше, чем SFT-coder Как это работает - Экспертное решение режут на маленькие шаги - Модель делает шаг → получает оценку близости к эксперту - Используют текст-matcher + небольшой формат-штраф - Обновления в стиле GRPO с динамическим выбором батчей, чтобы избегать пустых сигналов Что получает модель - Раннее планирование - Коррекция по ходу - Самопроверка результата - При этом ответы не становятся длиннее — качество растёт за счёт мышления, а не болтовни SRL выглядит как естественный мост между supervised обучением и классическим RL: контролируемая стабильность + глубина рассуждений. 📄 arxiv.org/abs/2510.25992 @data_analysis_ml

50 149

📈 Новое исследование: LLM-оценка новостей усиливает стратегию momentum Идея простая: классический momentum покупает недавних «победителей» — но не смотрит, что пишут в новостях. В работе добавили слой смысловой фильтрации: модель читает свежие заголовки и даёт каждой компании скор между 0 и 1. Дальше портфель перетасовывается: выше скор — больше вес. Результат: — Sharpe растёт с 0.79 до 1.06 — ниже волатильность и просадки — доходность на единицу риска выше Конфигурация: — S&P 500 — новости за 1 день — ежемесяч ребаланс — простая подсказка модели — устойчиво даже после даты обучения — <2 б.п. торговых издержек Что важно: модель не «угадывает рынок». Она просто *читает новости* и уточняет классический фактор, добавляя фильтр реального инфо-фона. Итог: momentum + актуальные заголовки → умнее, стабильнее, безопаснее. 🧾 arxiv.org/abs/2510.26228

50 149

🚀 А вы используете сплит-тесты? Как проверить гипотезу, если классический A/B не подходит? Дизайн эксперимента можно адаптировать. В Авито используют альтернативу стандартному A/B — сплит-тесты. Решили поделиться опытом и записали видео со Стешей Чупрыгиной, тимлидом в команде Monetization Efficiency. Стеша рассказывает: ➡️ как устроено монетизационное ранжирование на Авито, ➡️ что такое автобиддинг, ➡️ как сплит-тесты помогают улучшать алгоритмы. Видео — новый выпуск «Диванной аналитики», серии докладов, в которых эксперты рассказывают о своём опыте и делятся интересными кейсами. Посмотрите, чтобы узнать, как и зачем в Авито внедряли сплит-тесты. 📌 Ссылка на YouTube 📌 Ссылка на VK Видео 📌 Ссылка на Rutube

50 149

ScaleAI и AI Risks выпустили Remote Labor Index (RLI) – и результаты очень любопытные RLI проверяет, как хорошо современные AI-агенты справляются с реальной удалённой работой. Спойлер – пока слабо. Лучшая система Manus смогла автоматизировать только 2.5% задач. То есть почти всё всё ещё делают люди. При этом видно постепенный прогресс: Claude Sonnet 4.5, GPT-5, Gemini 2.5 Pro и другие модели медленно, но стабильно поднимают планку. Вывод: полной автоматизации ещё далеко, но эволюция идёт шаг за шагом. Не скачками, а аккуратными улучшениями. Настоящая работа всё ещё за людьми - пока что. 📊Leaderboard: https://scale.com/leaderboard/rli 📰Paper: https://scale.com/research/rli 📽️Watch the full video: https://youtu.be/2RW10HWYo5M

50 149

🧠 DiffMem: Git-Based Memory for AI Agents DiffMem предлагает легковесную память для ИИ, использующую Git для отслеживания изменений и Markdown для хранения данных. Этот проект демонстрирует, как системы контроля версий могут стать основой для эффективной и масштабируемой памяти в приложениях ИИ, позволяя агентам быстро получать актуальную информацию и исследовать её эволюцию. 🚀 Основные моменты: - Хранит "текущие" состояния знаний в Markdown. - Использует Git для управления историей изменений. - Обеспечивает быстрый и объяснимый поиск с помощью BM25. - Поддерживает гибкость и портативность данных. - Легко интегрируется и не требует серверов. 📌 GitHub: https://github.com/Growth-Kinetics/DiffMem #python

50 149

Самая нужная книга года

50 149

🔥 Qwen3-VL теперь можно запускать локально Хорошая новость для тех, кто хочет сильный мультимодальный стек без облака: . - Qwen3-VL-235B можно поднять на 128 ГБ unified memory (динамическое 4-bit). Это уже уровень SOTA в СМ b OCR. - Qwen3-VL-2B спокойно выдает ~40 токенов/сек на 4 ГБ ОЗУ. Плюс: - есть фиксированный chat-template - полная поддержка тонкой настройки и RL - готовые блокноты через Unsloth (бесплатно) - экспорт в GGUF, так что можно кормить всё это локальным рантаймам Документация: docs.unsloth.ai/models/qwen3-vl @data_analysis_ml

50 149

🚀📈 Память снова на пике - Samsung, SK Hynix и Micron входят в суперцикл благодаря ИИ AI привёл рынок памяти к рекордному росту: мировой доход DRAM к 2026 году оценивают в $231 млрд. Компании уже фиксируют взрывной спрос и исторические прибыли. Картинка по кварталам - Samsung: $8.6 млрд чистой прибыли, из них $4.9 млрд - от чипов - SK Hynix: $8.8 млрд прибыли, называют рынок “суперциклом”, мощности до 2026 уже проданы - Micron: $3.2 млрд чистой прибыли, подтверждает такой же спрос Что зажигает рынок Главная звезда — HBM (High Bandwidth Memory). Это многослойная память рядом с процессором, которая прокачивает гигантские объёмы данных, ускоряя обучение больших моделей. Но и обычная DRAM в дефиците — дата-центры закупают серверы для инференса: готовые модели прогоняют запросы и генерируют ответы, и часто это дешевле, чем держать огромные обучающие кластеры. Стратегия OpenAI подливает топлива Компания подписала предварительные соглашения с Samsung и SK Hynix под проект Stargate. Звучала цифра — до 900 тысяч пластин DRAM в месяц — это >2х текущей глобальной мощности HBM, по оценке SK Hynix. Что дальше - спрос на HBM будет расти >30% в год ближайшие 5 лет - дефицит памяти продлится минимум до конца 2026, возможно — до начала 2027 - компании, не забронировавшие поставки заранее, уже платят дороже — HBM-линии пошли в приоритет, стандартная DRAM растёт в цене «за компанию» Сомнения есть: прогнозы OpenAI агрессивны и могут скорректироваться. Но даже если масштаб будет меньше, рынок всё равно остаётся сверхнапряжённым - мощности просто не успевают догонять AI-спрос. Новый закон чип-мира: кто заранее купил память, тот и обучит будущее. wsj.com/tech/memory-chip-makers-are-enjoying-a-boom-to-remember-thanks-to-ai-741b2a45

50 149

🚀«Ави»: на рынке появится новый ИИ-ассистент от Авито Технологическая платформа Авито подала заявку на регистрацию товарного знака для своего нового ИИ-ассистента — «Ави», сообщает «Коммерсант». 💬 Что умеет «Ави» Ассистент работает на базе большой языковой модели и общается с пользователями в формате живого диалога. Он не просто отвечает на запросы, а помогает понять цель покупки, уточняет ключевые параметры, рекомендует подходящие предложения и даже объясняет отличия между ними. По сути — это интеллектуальный консультант, который знает рынок Авито так же хорошо, как его создатели. 🚀 Зачем это нужно Авито ИИ-ассистенты сегодня — новый тренд среди крупных компаний. Интерактивные решения позволяют: • собирать больше контекста из диалогов с пользователем; • повышать вовлеченность и лояльность; • влиять на ключевые метрики продаж. По оценкам экспертов, на разработку «Ави» уже могли потратить около 500 млн рублей. Это часть большой стратегии: в Авито ранее заявляли, что инвестируют 12 млрд рублей в генеративный ИИ и рассчитывают получить 21 млрд выручки к 2028 году от внедрения технологий искусственного интеллекта. 🧠 ИИ-стратегия Авито Компания активно развивает собственную ИИ-экосистему. Ранее она представила две модели: • A-Vibe — текстовую LLM; • A-Vision — мультимодальную модель, способную работать с изображениями и текстом. Модель A-Vibe за первую неделю собрала более 1400 скачиваний и вошла в топ трендовых моделей на Hugging Face. 🔮 Что дальше Сейчас «Ави» проходит тестирование в разных категориях. Цель компании — в 2026 году запустить универсальное решение, которое будет работать во всех вертикалях платформы. Можно сказать, что «Ави» — это не просто чат-бот, а новое лицо Авито, интегрированное в пользовательский опыт и превращающее классическую торговую площадку в умную технологическую платформу.

50 149

🚀 DeepSeek-OCR: новый подход к памяти в ИИ DeepSeek показали, что OCR-модель может быть не только про чтение документов, но и про расширение «памяти» модели. Идея простая и смелая: хранить контекст не в текстовых токенах, а в виде изображений страниц, а потом считывать нужный фрагмент через OCR. Когда мы храним историю диалога как изображения, каждый визуальный патч покрывает больше информации, чем один текстовый токен. Модель работает с компактным визуальным представлением, а точные цитаты подтягивает только по запросу. Получается сохранять больше деталей, тратить меньше токенов и экономить на длинном контексте. Что происходит внутри - История упаковывается в страницы и разбивается на 2D-патчи - Недавние страницы хранятся в высоком качестве - Старые сжимаются сильнее, но не исчезают полностью - OCR вызывается только когда нужно точное слово или строка Это похоже на мягкое «угасание памяти» вместо жёсткого обрезания контекста. Таблицы, код, структура текста сохраняются как есть, что помогает модели не терять привязки. Практический эффект - тысячи текстовых токенов заменяются сотнями визуальных - дешевле в обработке - подходит для агентных систем, которые ведут длинные сессии и возвращаются к старым действиям или логам - можно генерировать собственные обучающие данные, рендеря страницы и OCR-лейблы на лету Метод не делает модель идеальной в запоминании, но позволяет гораздо дольше удерживать информацию и возвращаться к ней без внешних хранилищ и сложного RAG-контура. Хранить текст как изображения и читать их по запросу может стать новой парадигмой долгой памяти в LLM. Особенно для агентов, которым нужно помнить путь, а не только последний шаг. technologyreview.com/2025/10/29/1126932/deepseek-ocr-visual-compression @data_analysis_ml

50 149

⚡️ Air - это Python-фреймворк, спроектированный с акцентом AI-first. Работа над ним всё ещё в альфа-стадии, но уже видно: это не просто фреймворк - это попытка переосмыслить, как строятся веб-приложения в эпоху ИИ. Что делает Air особенным - Совместимость с FastAPI / Starlette: маршруты, middleware, OpenAPI — всё на месте. - Интеграция с базами данных через air.ext.sqlmodel (SQLModel / SQLAlchemy). - Базовая авторизация готова «из коробки» — OAuth, логин через GitHub. - Подход к интерфейсам: шаблоны + декларативные теги, реактивность без тяжёлого JS — вдохновлено HTMX. - Каждый компонент и API стремятся быть понятными, простыми, как в Django, но с добавлением ИИ-ориентированности. Но важно помнить Air сейчас — это эксперимент. APIs могут меняться, функционал не всё реализован. Авторы просят относиться с пониманием и участвовать в становлении фреймворка. Если ты устал от “обычных” веб-фреймворков и думаешь над тем, как встроить ИИ в архитектуру с самого начала — Air может быть тем самым началом нового пути. 🔗 Подробнее: https://audrey.feldroy.com/articles/2025-10-06-air-pioneering-ai-first-python-web-framework

50 149

💴 Капитализация Nvidia превысила $5 трлн - впервые в истории компания достигла такой оценки. За пять лет акции $NVDA подскочили более чем на 1500%. Производитель чипов зарабатывает на взрывном спросе со стороны Microsoft, OpenAI и других игроков ИИ-рынка. Пока все искали золото, Nvidia продавала лопаты — и стала самой дорогой компанией в мире.

50 149

✔️ Российский облачный ИИ выходит на новый уровень. За девять месяцев 2025 года Яндекс удвоил выручку от корпоративных ИИ-сервисов — совокупный доход cloud и on-premises решений достиг 1,5 млрд ₽, что уже на 44% выше, чем за весь 2024 год. Главная причина роста — спрос на генеративные модели и ML-инструменты, которые компании используют для автоматизации, аналитики и клиентских сервисов. Всё это объединено в Yandex AI Studio — платформу, где можно собрать собственного AI-агента за несколько часов и встроить его в бизнес-процесс. Для тех, кто работает с чувствительными данными, есть on-premises-версии: YandexGPT, SpeechKit и SpeechSense можно развернуть прямо в корпоративной инфраструктуре, сохраняя контроль и безопасность. А ещё в третьем квартале усилилось направление кибербезопасности: каждый четвёртый коммерческий клиент Yandex Cloud пользуется сервисами защиты, а выручка ИБ-направления выросла в 2,5 раза год к году. Чтобы ускорить развитие этого сегмента, Yandex B2B Tech и SolidSoft создали совместное предприятие — оно помогает бизнесу защищаться от растущих киберугроз и повышает уровень безопасности облачных сервисов.

50 149

🦾 Потрясающе: производитель домашнего робота Neo признался, что в сложных ситуациях устройством будет управлять живой оператор. Покупателям придётся согласиться на удалённый доступ и сбор данных — компания утверждает, что это нужно для обучения системы. Лица пользователей, обещают, будут размываться. «Если у нас нет ваших данных, мы не сможем улучшать продукт», - заявил CEO. Цена вопроса - 20 000 $ за робота, которого в трудный момент может подменить человек. ☕️ https://www.1x.tech/order

50 149

⚡️ Train an LLM on NVIDIA Blackwell with Unsloth—and Scale It NVIDIA представила статью «Train an LLM on NVIDIA Blackwell with Unsloth—and Scale It», в которой рассказывает о том, как разработчики благодаря открытому проекту Unsloth и новым GPU семейства NVIDIA Blackwell Series могут обучать и до-настраивать большие языковые модели (LLM) прямо на настольных или офисных системах, а затем без изменений масштабировать ту же инфраструктуру на промышленный уровень. Unsloth - это фреймворк с открытым исходным кодом, упрощающий до-настройку и reinforcement learning (RL) для LLM. Он оптимизирован под Blackwell-GPU с следующими преимуществами: обучение в 2 раза быстрее, использование видеопамяти (VRAM) сокращено на ~70%, и поддержка крайне длинных контекстов (до 12× по сравнению с предыдущими методами). Статья показывает, что на одной Blackwell-видеокарте можно до-настроить модели с параметрами порядка 40 миллиардов и даже больше. Кроме того, процесс установки и запуска описан подробно: от команды pip install unsloth до примеров запуска моделей типа “gpt-oss-20b” с квантованием 4-bit. После начальной до-настройки на локальной машине тот же код можно без переделок перенести на облачные решения, такие как DGX Cloud или серверсистемы NVIDIA. Главный вывод: барьеры входа в обучение крупных языковых моделей резко снижаются — теперь индивидуальные разработчики и небольшие команды получают доступ к инструментам, которые раньше были доступны только крупным дата-центрам. developer.nvidia.com/blog/train-an-llm-on-an-nvidia-blackwell-desktop-with-unsloth-and-scale-it/

50 149

📘 На Stepik вышел курс — «LangChain: с нуля до продакшн LLM-приложений» Нужен не игрушечный бот, а воспроизводимый RAG-пайплайн с метриками и сервисом? Этот курс — про путь «ноутбук → FastAPI → прод». 🔍 Что вы получите • RAG по PDF с цитированием источников и гибридным поиском (BM25 + вектор + rerank); контроль галлюцинаций через метрики (precision/recall@K, citation-rate) • Инструменты и агенты для анализа данных: Pandas-задачи, структурированный JSON-вывод под отчёты/дашборды • Продакшн-контур: FastAPI-сервис, логирование латентности/токенов, PromptOps (версии/A/B), базовый SLA-мониторинг 🎓 Сертификат по завершении — можно добавить в резюме или LinkedIn 🚀 Начните сегодня и получите скидку 25% в течение 72 часов 👉 Пройти курс на Stepik

50 149

ИИ идут ва-банк: исследователь устроил настоящий покерный турнир между топовыми LLM. Покер — игра с неполной информацией, а значит идеальный полигон, чтобы проверить, как модели ведут себя в условиях риска, стратегии и блефа. Без подсказок и внешней помощи — только один промпт и чистая логика. При этом каждая модель выбирает свою стратегию, будто у неё есть «характер». В топе — Grok 4 с прибылью $25 000, за ним идут OpenAI o3 и Claude 4.5. 🤑 Следить за игрой и мыслями ИИ можно здесь: https://pokerbattle.ai/event

50 149

🧠 Ming-Flash-Omni-Preview - новый ориентир для omni-modal моделей с архитектурой 103B-A9B Sparse MoE, сочетающей мощь и эффективность. 📸 1. Контролируемая генерация изображений Модель вводит концепт Generative Segmentation-as-Editing - можно править изображение на уровне пикселей. На бенчмарке GenEval — впечатляющий результат 0.90. 🎬 2. Понимание потокового видео Расширенные возможности для детального анализа аудио-видео потоков в реальном времени — понимание контекста, сцен и звука синхронно. 🏹GitHub: https://github.com/inclusionAI/Ming 🤗Hugging Face: https://huggingface.co/inclusionAI/Ming-flash-omni-Preview 🤖ModelScope: https://modelscope.cn/models/inclusionAI/Ming-flash-omni-Preview #OpenSourceModels #AI #OmniModal #MingFlash

50 149

Парализованный пациент из Великобритании по имени Пол получил имплантат Neuralink и уже через несколько часов после операции смог управлять компьютером силой мысли. Устройство Neuralink использует нейрочип с 64 сверхтонкими электродами, которые считывают сигналы мозга и позволяют контролировать устройства без движений - только через мысли.

50 149

💰 Оценка токенов влиятельных лиц с помощью ИИ Проект анализирует токены социальных медиа-влиятельных лиц, предоставляя оценку их рыночной капитализации. Пользователи вводят имя или ссылку на профиль, а ИИ проводит анализ данных, включая активность и влияние, для прогнозирования стоимости криптовалюты, связанной с этим влиятельным лицом. 🚀 Основные моменты: - Оценка токенов для любых влиятельных лиц - Анализ влияния и активности с помощью ИИ - Обнаружение манипуляций на рынке - Прогнозирование рыночной капитализации криптовалюты - Расширяемая архитектура для интеграции новых источников данных 📌 GitHub: https://github.com/Aihy/CLOV #python