Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 150 名订阅者,在 技术与应用 类别中位列第 2 678,并在 俄罗斯 地区排名第 12 571 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 150 名订阅者。
根据 12 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 -35,过去 24 小时变化为 -30,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 9.06%。内容发布后 24 小时内通常能获得 5.57% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 547 次浏览,首日通常累积 2 794 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 30。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 13 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 150
订阅者
-3024 小时
-537 天
-3530 天
帖子存档
+6
🧠 Google предлагает новый подход к обучению моделей - “Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning”.
Суть: модель учится не угадывать готовый ответ, а планировать и проверять каждый шаг рассуждений.
- Вместо финальной оценки SRL даёт награду за каждый шаг цепочки
- Модель учится думать поэтапно, а не просто копировать решение
- Маленькие модели получают реальный сигнал обучения и тоже начинают планировать
Результаты впечатляют:
- AIME24: +3.4% (13.3% → 16.7%) на модели 7B
- SRL→RLVR: 57.5% на AMC23 (greedy)
- Код-агенты: 14.8% oracle resolve rate
- В инженерных задачах из 5K траекторий сделали 134K пошаговых примеров, SRL дал 8.6% фиксов кода с greedy — выше, чем SFT-coder
Как это работает
- Экспертное решение режут на маленькие шаги
- Модель делает шаг → получает оценку близости к эксперту
- Используют текст-matcher + небольшой формат-штраф
- Обновления в стиле GRPO с динамическим выбором батчей, чтобы избегать пустых сигналов
Что получает модель
- Раннее планирование
- Коррекция по ходу
- Самопроверка результата
- При этом ответы не становятся длиннее — качество растёт за счёт мышления, а не болтовни
SRL выглядит как естественный мост между supervised обучением и классическим RL: контролируемая стабильность + глубина рассуждений.
📄 arxiv.org/abs/2510.25992
@data_analysis_ml
📈 Новое исследование: LLM-оценка новостей усиливает стратегию momentum
Идея простая: классический momentum покупает недавних «победителей» — но не смотрит, что пишут в новостях.
В работе добавили слой смысловой фильтрации: модель читает свежие заголовки и даёт каждой компании скор между 0 и 1.
Дальше портфель перетасовывается: выше скор — больше вес.
Результат:
— Sharpe растёт с 0.79 до 1.06
— ниже волатильность и просадки
— доходность на единицу риска выше
Конфигурация:
— S&P 500
— новости за 1 день
— ежемесяч ребаланс
— простая подсказка модели
— устойчиво даже после даты обучения
— <2 б.п. торговых издержек
Что важно: модель не «угадывает рынок».
Она просто *читает новости* и уточняет классический фактор, добавляя фильтр реального инфо-фона.
Итог: momentum + актуальные заголовки → умнее, стабильнее, безопаснее.
🧾 arxiv.org/abs/2510.26228
🚀 А вы используете сплит-тесты?
Как проверить гипотезу, если классический A/B не подходит? Дизайн эксперимента можно адаптировать. В Авито используют альтернативу стандартному A/B — сплит-тесты.
Решили поделиться опытом и записали видео со Стешей Чупрыгиной, тимлидом в команде Monetization Efficiency.
Стеша рассказывает:
➡️ как устроено монетизационное ранжирование на Авито,
➡️ что такое автобиддинг,
➡️ как сплит-тесты помогают улучшать алгоритмы.
Видео — новый выпуск «Диванной аналитики», серии докладов, в которых эксперты рассказывают о своём опыте и делятся интересными кейсами.
Посмотрите, чтобы узнать, как и зачем в Авито внедряли сплит-тесты.
📌 Ссылка на YouTube
📌 Ссылка на VK Видео
📌 Ссылка на Rutube
ScaleAI и AI Risks выпустили Remote Labor Index (RLI) – и результаты очень любопытные
RLI проверяет, как хорошо современные AI-агенты справляются с реальной удалённой работой. Спойлер – пока слабо.
Лучшая система Manus смогла автоматизировать только 2.5% задач. То есть почти всё всё ещё делают люди.
При этом видно постепенный прогресс: Claude Sonnet 4.5, GPT-5, Gemini 2.5 Pro и другие модели медленно, но стабильно поднимают планку.
Вывод: полной автоматизации ещё далеко, но эволюция идёт шаг за шагом. Не скачками, а аккуратными улучшениями. Настоящая работа всё ещё за людьми - пока что.
📊Leaderboard: https://scale.com/leaderboard/rli
📰Paper: https://scale.com/research/rli
📽️Watch the full video: https://youtu.be/2RW10HWYo5M
🧠 DiffMem: Git-Based Memory for AI Agents
DiffMem предлагает легковесную память для ИИ, использующую Git для отслеживания изменений и Markdown для хранения данных. Этот проект демонстрирует, как системы контроля версий могут стать основой для эффективной и масштабируемой памяти в приложениях ИИ, позволяя агентам быстро получать актуальную информацию и исследовать её эволюцию.
🚀 Основные моменты:
- Хранит "текущие" состояния знаний в Markdown.
- Использует Git для управления историей изменений.
- Обеспечивает быстрый и объяснимый поиск с помощью BM25.
- Поддерживает гибкость и портативность данных.
- Легко интегрируется и не требует серверов.
📌 GitHub: https://github.com/Growth-Kinetics/DiffMem
#python
🔥 Qwen3-VL теперь можно запускать локально
Хорошая новость для тех, кто хочет сильный мультимодальный стек без облака:
.
- Qwen3-VL-235B можно поднять на 128 ГБ unified memory (динамическое 4-bit). Это уже уровень SOTA в СМ b OCR.
- Qwen3-VL-2B спокойно выдает ~40 токенов/сек на 4 ГБ ОЗУ.
Плюс:
- есть фиксированный chat-template
- полная поддержка тонкой настройки и RL
- готовые блокноты через Unsloth (бесплатно)
- экспорт в GGUF, так что можно кормить всё это локальным рантаймам
Документация: docs.unsloth.ai/models/qwen3-vl
@data_analysis_ml
🚀📈 Память снова на пике - Samsung, SK Hynix и Micron входят в суперцикл благодаря ИИ
AI привёл рынок памяти к рекордному росту: мировой доход DRAM к 2026 году оценивают в $231 млрд. Компании уже фиксируют взрывной спрос и исторические прибыли.
Картинка по кварталам
- Samsung: $8.6 млрд чистой прибыли, из них $4.9 млрд - от чипов
- SK Hynix: $8.8 млрд прибыли, называют рынок “суперциклом”, мощности до 2026 уже проданы
- Micron: $3.2 млрд чистой прибыли, подтверждает такой же спрос
Что зажигает рынок
Главная звезда — HBM (High Bandwidth Memory). Это многослойная память рядом с процессором, которая прокачивает гигантские объёмы данных, ускоряя обучение больших моделей.
Но и обычная DRAM в дефиците — дата-центры закупают серверы для инференса: готовые модели прогоняют запросы и генерируют ответы, и часто это дешевле, чем держать огромные обучающие кластеры.
Стратегия OpenAI подливает топлива
Компания подписала предварительные соглашения с Samsung и SK Hynix под проект Stargate. Звучала цифра — до 900 тысяч пластин DRAM в месяц — это >2х текущей глобальной мощности HBM, по оценке SK Hynix.
Что дальше
- спрос на HBM будет расти >30% в год ближайшие 5 лет
- дефицит памяти продлится минимум до конца 2026, возможно — до начала 2027
- компании, не забронировавшие поставки заранее, уже платят дороже — HBM-линии пошли в приоритет, стандартная DRAM растёт в цене «за компанию»
Сомнения есть: прогнозы OpenAI агрессивны и могут скорректироваться. Но даже если масштаб будет меньше, рынок всё равно остаётся сверхнапряжённым - мощности просто не успевают догонять AI-спрос.
Новый закон чип-мира: кто заранее купил память, тот и обучит будущее.
wsj.com/tech/memory-chip-makers-are-enjoying-a-boom-to-remember-thanks-to-ai-741b2a45
🚀«Ави»: на рынке появится новый ИИ-ассистент от Авито
Технологическая платформа Авито подала заявку на регистрацию товарного знака для своего нового ИИ-ассистента — «Ави», сообщает «Коммерсант».
💬 Что умеет «Ави»
Ассистент работает на базе большой языковой модели и общается с пользователями в формате живого диалога. Он не просто отвечает на запросы, а помогает понять цель покупки, уточняет ключевые параметры, рекомендует подходящие предложения и даже объясняет отличия между ними. По сути — это интеллектуальный консультант, который знает рынок Авито так же хорошо, как его создатели.
🚀 Зачем это нужно Авито
ИИ-ассистенты сегодня — новый тренд среди крупных компаний. Интерактивные решения позволяют:
• собирать больше контекста из диалогов с пользователем;
• повышать вовлеченность и лояльность;
• влиять на ключевые метрики продаж.
По оценкам экспертов, на разработку «Ави» уже могли потратить около 500 млн рублей. Это часть большой стратегии: в Авито ранее заявляли, что инвестируют 12 млрд рублей в генеративный ИИ и рассчитывают получить 21 млрд выручки к 2028 году от внедрения технологий искусственного интеллекта.
🧠 ИИ-стратегия Авито
Компания активно развивает собственную ИИ-экосистему. Ранее она представила две модели:
• A-Vibe — текстовую LLM;
• A-Vision — мультимодальную модель, способную работать с изображениями и текстом.
Модель A-Vibe за первую неделю собрала более 1400 скачиваний и вошла в топ трендовых моделей на Hugging Face.
🔮 Что дальше
Сейчас «Ави» проходит тестирование в разных категориях. Цель компании — в 2026 году запустить универсальное решение, которое будет работать во всех вертикалях платформы.
Можно сказать, что «Ави» — это не просто чат-бот, а новое лицо Авито, интегрированное в пользовательский опыт и превращающее классическую торговую площадку в умную технологическую платформу.
🚀 DeepSeek-OCR: новый подход к памяти в ИИ
DeepSeek показали, что OCR-модель может быть не только про чтение документов, но и про расширение «памяти» модели.
Идея простая и смелая: хранить контекст не в текстовых токенах, а в виде изображений страниц, а потом считывать нужный фрагмент через OCR.
Когда мы храним историю диалога как изображения, каждый визуальный патч покрывает больше информации, чем один текстовый токен. Модель работает с компактным визуальным представлением, а точные цитаты подтягивает только по запросу. Получается сохранять больше деталей, тратить меньше токенов и экономить на длинном контексте.
Что происходит внутри
- История упаковывается в страницы и разбивается на 2D-патчи
- Недавние страницы хранятся в высоком качестве
- Старые сжимаются сильнее, но не исчезают полностью
- OCR вызывается только когда нужно точное слово или строка
Это похоже на мягкое «угасание памяти» вместо жёсткого обрезания контекста. Таблицы, код, структура текста сохраняются как есть, что помогает модели не терять привязки.
Практический эффект
- тысячи текстовых токенов заменяются сотнями визуальных
- дешевле в обработке
- подходит для агентных систем, которые ведут длинные сессии и возвращаются к старым действиям или логам
- можно генерировать собственные обучающие данные, рендеря страницы и OCR-лейблы на лету
Метод не делает модель идеальной в запоминании, но позволяет гораздо дольше удерживать информацию и возвращаться к ней без внешних хранилищ и сложного RAG-контура.
Хранить текст как изображения и читать их по запросу может стать новой парадигмой долгой памяти в LLM. Особенно для агентов, которым нужно помнить путь, а не только последний шаг.
technologyreview.com/2025/10/29/1126932/deepseek-ocr-visual-compression
@data_analysis_ml
⚡️ Air - это Python-фреймворк, спроектированный с акцентом AI-first.
Работа над ним всё ещё в альфа-стадии, но уже видно: это не просто фреймворк - это попытка переосмыслить, как строятся веб-приложения в эпоху ИИ.
Что делает Air особенным
- Совместимость с FastAPI / Starlette: маршруты, middleware, OpenAPI — всё на месте.
- Интеграция с базами данных через air.ext.sqlmodel (SQLModel / SQLAlchemy).
- Базовая авторизация готова «из коробки» — OAuth, логин через GitHub.
- Подход к интерфейсам: шаблоны + декларативные теги, реактивность без тяжёлого JS — вдохновлено HTMX.
- Каждый компонент и API стремятся быть понятными, простыми, как в Django, но с добавлением ИИ-ориентированности.
Но важно помнить
Air сейчас — это эксперимент.
APIs могут меняться, функционал не всё реализован.
Авторы просят относиться с пониманием и участвовать в становлении фреймворка.
Если ты устал от “обычных” веб-фреймворков и думаешь над тем, как встроить ИИ в архитектуру с самого начала — Air может быть тем самым началом нового пути.
🔗 Подробнее: https://audrey.feldroy.com/articles/2025-10-06-air-pioneering-ai-first-python-web-framework
+1
💴 Капитализация Nvidia превысила $5 трлн - впервые в истории компания достигла такой оценки.
За пять лет акции $NVDA подскочили более чем на 1500%. Производитель чипов зарабатывает на взрывном спросе со стороны Microsoft, OpenAI и других игроков ИИ-рынка.
Пока все искали золото, Nvidia продавала лопаты — и стала самой дорогой компанией в мире.
✔️ Российский облачный ИИ выходит на новый уровень. За девять месяцев 2025 года Яндекс удвоил выручку от корпоративных ИИ-сервисов — совокупный доход cloud и on-premises решений достиг 1,5 млрд ₽, что уже на 44% выше, чем за весь 2024 год.
Главная причина роста — спрос на генеративные модели и ML-инструменты, которые компании используют для автоматизации, аналитики и клиентских сервисов. Всё это объединено в Yandex AI Studio — платформу, где можно собрать собственного AI-агента за несколько часов и встроить его в бизнес-процесс.
Для тех, кто работает с чувствительными данными, есть on-premises-версии: YandexGPT, SpeechKit и SpeechSense можно развернуть прямо в корпоративной инфраструктуре, сохраняя контроль и безопасность.
А ещё в третьем квартале усилилось направление кибербезопасности: каждый четвёртый коммерческий клиент Yandex Cloud пользуется сервисами защиты, а выручка ИБ-направления выросла в 2,5 раза год к году.
Чтобы ускорить развитие этого сегмента, Yandex B2B Tech и SolidSoft создали совместное предприятие — оно помогает бизнесу защищаться от растущих киберугроз и повышает уровень безопасности облачных сервисов.
🦾 Потрясающе: производитель домашнего робота Neo признался, что в сложных ситуациях устройством будет управлять живой оператор.
Покупателям придётся согласиться на удалённый доступ и сбор данных — компания утверждает, что это нужно для обучения системы. Лица пользователей, обещают, будут размываться.
«Если у нас нет ваших данных, мы не сможем улучшать продукт», - заявил CEO.
Цена вопроса - 20 000 $ за робота, которого в трудный момент может подменить человек. ☕️
https://www.1x.tech/order
⚡️ Train an LLM on NVIDIA Blackwell with Unsloth—and Scale It
NVIDIA представила статью «Train an LLM on NVIDIA Blackwell with Unsloth—and Scale It», в которой рассказывает о том, как разработчики благодаря открытому проекту Unsloth и новым GPU семейства NVIDIA Blackwell Series могут обучать и до-настраивать большие языковые модели (LLM) прямо на настольных или офисных системах, а затем без изменений масштабировать ту же инфраструктуру на промышленный уровень.
Unsloth - это фреймворк с открытым исходным кодом, упрощающий до-настройку и reinforcement learning (RL) для LLM. Он оптимизирован под Blackwell-GPU с следующими преимуществами: обучение в 2 раза быстрее, использование видеопамяти (VRAM) сокращено на ~70%, и поддержка крайне длинных контекстов (до 12× по сравнению с предыдущими методами). Статья показывает, что на одной Blackwell-видеокарте можно до-настроить модели с параметрами порядка 40 миллиардов и даже больше.
Кроме того, процесс установки и запуска описан подробно: от команды pip install unsloth до примеров запуска моделей типа “gpt-oss-20b” с квантованием 4-bit. После начальной до-настройки на локальной машине тот же код можно без переделок перенести на облачные решения, такие как DGX Cloud или серверсистемы NVIDIA.
Главный вывод: барьеры входа в обучение крупных языковых моделей резко снижаются — теперь индивидуальные разработчики и небольшие команды получают доступ к инструментам, которые раньше были доступны только крупным дата-центрам.
developer.nvidia.com/blog/train-an-llm-on-an-nvidia-blackwell-desktop-with-unsloth-and-scale-it/
📘 На Stepik вышел курс — «LangChain: с нуля до продакшн LLM-приложений»
Нужен не игрушечный бот, а воспроизводимый RAG-пайплайн с метриками и сервисом? Этот курс — про путь «ноутбук → FastAPI → прод».
🔍 Что вы получите
• RAG по PDF с цитированием источников и гибридным поиском (BM25 + вектор + rerank); контроль галлюцинаций через метрики (precision/recall@K, citation-rate)
• Инструменты и агенты для анализа данных: Pandas-задачи, структурированный JSON-вывод под отчёты/дашборды
• Продакшн-контур: FastAPI-сервис, логирование латентности/токенов, PromptOps (версии/A/B), базовый SLA-мониторинг
🎓 Сертификат по завершении — можно добавить в резюме или LinkedIn
🚀 Начните сегодня и получите скидку 25% в течение 72 часов
👉 Пройти курс на Stepik
ИИ идут ва-банк: исследователь устроил настоящий покерный турнир между топовыми LLM.
Покер — игра с неполной информацией, а значит идеальный полигон, чтобы проверить, как модели ведут себя в условиях риска, стратегии и блефа.
Без подсказок и внешней помощи — только один промпт и чистая логика. При этом каждая модель выбирает свою стратегию, будто у неё есть «характер».
В топе — Grok 4 с прибылью $25 000, за ним идут OpenAI o3 и Claude 4.5. 🤑
Следить за игрой и мыслями ИИ можно здесь: https://pokerbattle.ai/event
🧠 Ming-Flash-Omni-Preview - новый ориентир для omni-modal моделей с архитектурой 103B-A9B Sparse MoE, сочетающей мощь и эффективность.
📸 1. Контролируемая генерация изображений
Модель вводит концепт Generative Segmentation-as-Editing - можно править изображение на уровне пикселей. На бенчмарке GenEval — впечатляющий результат 0.90.
🎬 2. Понимание потокового видео
Расширенные возможности для детального анализа аудио-видео потоков в реальном времени — понимание контекста, сцен и звука синхронно.
🏹GitHub: https://github.com/inclusionAI/Ming
🤗Hugging Face: https://huggingface.co/inclusionAI/Ming-flash-omni-Preview
🤖ModelScope: https://modelscope.cn/models/inclusionAI/Ming-flash-omni-Preview
#OpenSourceModels #AI #OmniModal #MingFlash
Парализованный пациент из Великобритании по имени Пол получил имплантат Neuralink и уже через несколько часов после операции смог управлять компьютером силой мысли.
Устройство Neuralink использует нейрочип с 64 сверхтонкими электродами, которые считывают сигналы мозга и позволяют контролировать устройства без движений - только через мысли.
💰 Оценка токенов влиятельных лиц с помощью ИИ
Проект анализирует токены социальных медиа-влиятельных лиц, предоставляя оценку их рыночной капитализации. Пользователи вводят имя или ссылку на профиль, а ИИ проводит анализ данных, включая активность и влияние, для прогнозирования стоимости криптовалюты, связанной с этим влиятельным лицом.
🚀 Основные моменты:
- Оценка токенов для любых влиятельных лиц
- Анализ влияния и активности с помощью ИИ
- Обнаружение манипуляций на рынке
- Прогнозирование рыночной капитализации криптовалюты
- Расширяемая архитектура для интеграции новых источников данных
📌 GitHub: https://github.com/Aihy/CLOV
#python
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
