Анализ данных (Data analysis)

Open in Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Network:Machinelearning Russia12 571 Technologies & Applications2 678...

📈 Analytical overview of Telegram channel Анализ данных (Data analysis)

Channel Анализ данных (Data analysis) (@data_analysis_ml) in the Russian language segment is an active participant. Currently, the community unites 50 150 subscribers, ranking 2 678 in the Technologies & Applications category and 12 571 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 50 150 subscribers.

According to the latest data from 12 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -35 over the last 30 days and by -30 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 9.06%. Within the first 24 hours after publication, content typically collects 5.57% reactions from the total number of subscribers.
Post reach: On average, each post receives 4 547 views. Within the first day, a publication typically gains 2 794 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 30.
Thematic interests: Content is focused on key topics such as llm, контекст, openai, архитектура, deepseek.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Thanks to the high frequency of updates (latest data received on 13 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

50 150

Subscribers

-3024 hours

-537 days

-3530 days

4 547

Post views

~ 2 79424 hours

~ 3 27748 hours

9.06%

Engagement rate

~ 5

Posts per day

Ads index

beta

Posts Archive

50 150

llama.cpp (PR #16095) теперь поддерживает Qwen3-Next - новую гибридную архитектуру от Qwen. Теперь Qwen3-Next можно запускать локально с эффективным CPU/GPU-инференсом. 🚀 https://github.com/ggml-org/llama.cpp/pull/16095

50 150

🧮 Интересная и подробная статья о том, почему TPU становятся ключевым фактором в удешевлении инференса. - TPUs дают примерно в 4 раза лучшую стоимость за производительность по сравнению с Nvidia GPU в задачах инференса - Инференс за время жизни модели стоит в 15 раз дороже, чем её обучение - К 2030 году инференс будет потреблять около 75 процентов всего AI compute (рынок на 255 млрд долларов) Основная мысль проста: инференс полностью доминирует итоговую стоимость эксплуатации модели. Обучение модели уровня GPT-4 стоит примерно 150 миллионов долларов, но поддержание инференса - около 2.3 миллиарда долларов в год. Nvidia H100 отлично подходит для гибкого обучения, но их универсальная архитектура добавляет лишнюю логику управления и движение данных, что увеличивает энергопотребление при простых forward-pass операциях — поэтому длительный инференс обходится дорого. Google TPU - специализированные чипы для tensor math, построенные на систолических массивах и агрессивной инженерии энергопотребления. В итоге они потребляют примерно на 60-65 процентов меньше энергии и дают около четырёхкратного выигрыша по стоимости инференса трансформеров по сравнению с H100. Практика это подтверждает: Midjourney снизил затраты на инференс примерно на 65 процентов после перехода на TPU. Anthropic закупает до миллиона TPU. Meta, Salesforce, Cohere и многие другие также переводят всё больше трафика на TPU-поды, поскольку инференс стремительно растёт и к 2030 году станет около 75 процентов всех вычислений в AI. ainewshub.org/post/ai-inference-costs-tpu-vs-gpu-2025

50 150

📚 У OpenAI снова юридические проблемы, и ситуация становится заметно серьезнее. Суд обязал компанию передать внутренние переписки о том, зачем и почему были удалены два огромных датасета пиратских книг. Если в этих сообщениях окажется, что сотрудники понимали незаконность данных и пытались quietly erase их, авторам будет проще доказать умышленное нарушение авторских прав. А это значит гораздо более высокие штрафы за каждую книгу. Что известно сейчас: - Авторы утверждают, что модели OpenAI обучались на больших наборах пиратских книг. - Истцы уже получили Slack-переписки сотрудников по датасетам books1 и books2. - Судья потребовала раскрыть документы, объясняющие мотивы удаления этих датасетов. - Внутренние юристы OpenAI будут допрошены. - Если окажется, что компания меняла объяснение причин удаления, это усиливает позицию истцов. Почему это поворотный момент: Суд указал, что OpenAI сначала объясняла удаление тем, что данные не использовались, а позже пыталась закрыть переписки под юрпривилегией. Такое изменение позиции суд расценил как отказ от привилегии. Поэтому теперь Slack-каналы project clear и excise libgen могут быть раскрыты. Этот кейс создаёт значимый сигнал для всей AI-индустрии: то, как компании обсуждают скрапинг, теневые библиотеки и чистку данных внутри Slack или других рабочих инструментов, может напрямую влиять на то, попадут ли они под обычные штрафы или под огромную финансовую ответственность. hollywoodreporter.com/business/business-news/openai-loses-key-discovery-battle-why-deleted-library-of-pirated-books-1236436363/

50 150

🖥 NVIDIA тихо выкатили -Orchestrator-8B На бенчмарке Humanity's Last Exam (HLE) маленькая 8-модель обходит GPT-5: 37.1% против 35.1%, при этом работает примерно в 2.5 раза эффективнее. Что вообще происходит? Orchestrator-8B - это не просто ещё одна модель. Это “роутер” над стеком инструментов. Она решает, отвечать ли самой или вызвать поиск, код-модель, API или другой LLM. Вместо парадигмы «один огромный LLM делает всё» — маленький мозг, который умно и экономно распределяет задачи между инструментами. Чтобы этому научить, NVIDIA сделали ToolScale — гигантский синтетический датасет с многошаговыми задачами, где агент: - видит доступные инструменты, их цену и задержку - выбирает последовательность вызовов - получает трассу идеального решения - оптимизируется под качество, скорость и деньги По сути, каждый пример — это инструкция: “вот запрос, вот инструменты, вот их цены, вот как решить задачу оптимально”. Алгоритм Group Relative Policy Optimization обучает политика так, чтобы она балансировала: - точность - скорость - стоимость - предпочтения пользователя На HLE, FRAMES и tau-squared Bench оркестратор (Qwen3-8B внутри) обходит: - tool-augmented GPT-5 - Claude Opus 4.1 - Qwen3-235B-A22B И делает меньше дорогих вызовов, лучше адаптируется к новым инструментам и ценам — и всё это в открытом доступе для ресёрча под лицензией NVIDIA. Вывод: маленький интеллектуальный оркестратор поверх набора инструментов может выдавать фронтирный уровень агентных возможностей — но с точным контролем вычислений и бюджета. ToolScale учит не “зови самый большой LLM”, а думай, сколько это будет стоить, и выбирай оптимальный путь. Это именно тот сдвиг, который мы ждали в эру “AGI из инструментов”, а не из гигантских монолитных моделей. huggingface.co/datasets/nvidia/ToolScale @data_analysis_ml

50 150

🤖 Multi-Agent Evolve теперь полностью open-source 🚀 С его кодовой базой ты можешь взять любой LLM-чекпойнт и позволить ему саморазвиваться без внешнего надзора. Это экспериментальная система, в которой агенты эволюционируют, создавая и оценивая собственные улучшения. 💻 Код: https://github.com/ulab-uiuc/Multi-agent-evolve 🤗 Модели (Checkpoints): https://huggingface.co/collections/ulab-ai/multi-agent-evolve #AI #LLM #MultiAgent #OpenSource #EvolutionaryAI

50 150

Ноябрь — месяц One Day Offer в GigaChat и Kandinsky 📆 В ноябре команды двух топовых IT-продуктов Сбера планируют обрести новых классных коллег — DL Engineers и Researchers, чтобы вместе работать над GigaChat и Kandinsky: развивать, обучать и дообучать модели. Смотрите расписание One Day Offer и не упустите шанс присоединиться к крупнейшему AI-комьюнити. Целых восемь мероприятий, чтобы изменить свою карьеру и жизнь — выбирайте то, что подходит под навыки и цели, и регистрируйтесь!

50 150

🤖 Мир меняется быстрее, чем мы успеваем осознавать. Китай начинает развёртывание гуманоидных роботов на границе с Вьетнамом. Они будут помогать с навигацией путешественников, инспекциями, патрулированием, логистикой - и параллельно использоваться на промышленных объектах: металлургия, сталь, медь, алюминий. Особое внимание на Walker S2. Это первый гуманоид, который умеет автономно менять собственную батарею, фактически работая почти 24/7. У него 52 степени свободы, ловкие руки, высокая грузоподъёмность, стереозрение и система UBTech BrainNet 2.0 / Co-Agent AI для автономного планирования задач. UBTech уже получила заказы на 1.1 млрд юаней и планирует поставить 500 роботов в этом году, увеличить производство в 10 раз в следующем и выйти на 10 000 единиц в год к 2027. Гуманоидные роботы - больше не прототипы. Это новая часть инфраструктуры, которую начинают внедрять прямо сейчас. https://interestingengineering.com/innovation/ubtech-secures-us37-million-deal

50 150

Новая научная работа от Apple -⚡️ серьёзный шаг к следующему поколению видеогенерации. Команда представила STARFlow V полностью каузальную видеомодель, которая по качеству конкурирует с диффузионными системами и обучена как единая сквозная архитектура. Основная идея STARFlow V — первый нормализующий поток, который: - показывает конкурентное качество длинных видео - работает одинаково с текстом, изображениями и видео Чем отличается от диффузии Ранние видеогенераторы использовали многошаговую диффузию. STARFlow V вместо этого применяет: - один обратимый маппинг между шумом и видео - без сотен итераций очистки - без пошагового шума Как устроена модель Каждый кадр сжимается в скрытый компактный код. Дальше работают два ключевых компонента: - Глобальный блок - отвечает за временную последовательность - работает авторегресивно - каждый латент зависит только от предыдущих - уменьшает накопление ошибок на длинных роликах - Локальные блоки - отвечают за детализацию внутри кадра - усиливают качество визуальных элементов Трюки обучения Модель обучают с дополнительными техниками: - добавляется малый искусственный шум для устойчивости - применяется каузальный денойзер flow score matching - он убирает шум, заглядывая только на один кадр вперёд - используются параллельные Jacobi блоковые обновления для ускорения Результаты STARFlow V демонстрирует: - качество почти уровня диффузии - более стабильные длинные видеоролики - единую архитектуру для всех задач - полностью каузальную генерацию arxiv.org/abs/2511.20462

50 150

⚡️ VK открыл VK-LSVD — один из крупнейших датасетов для рекомендательных систем. Сейчас на его базе идет топовое соревнование по ML VK RecSys Challenge 🎯 Для чего подходит датасет - Быстрый старт в рекомендательных алгоритмах - Тест бэйзлайнов и гибридов «контент + поведение» - Можно использовать для воспроизводимых тестов различных моделей 🔗 Подробнее + код: https://habr.com/ru/companies/vk/articles/970350/ В самом VK RecSys Challenge можно участвовать соло или командой до 4 человек, а подать заявку — до 15 декабря. Призовой фонд — 2 500 000 рублей. @data_analysis_ml

50 150

NeurIPS 2025: краткий разбор ключевых наград Оргкомитет опубликовал победителей. Общий тренд — работы про масштабирование моделей, устойчивость обучения и фундаментальные теоретические результаты. 🏆 Special Awards - Test of Time (2015): Faster R-CNN - Ввели RPN, отказавшись от Selective Search. - Сделали детекцию полностью end-to-end и задали стандарт индустрии на десятилетие. - Sejnowski–Hinton Prize (2016): Feedback Alignment - Показали, что backprop работает даже при случайных фиксированных обратных весах. - Это решает «weight transport problem» и делает алгоритм ближе к биологически правдоподобным. 🌟 Best Papers (Main Track) - Architecture: Gated Softmax Attention - Решает нестабильность больших трансформеров и проблему attention sinks. - Добавляет простое sigmoid-gating для отдельных heads. - Даёт стабильность почти без оверхеда; уже используется в Qwen3-Next. - RL: Scaling to 1024 Layers - Self-Supervised RL сделал возможным обучение сети глубиной 1024 слоя. - На задачах локомоции — до 50× улучшения относительно стандартных моделей. - Theory: Diffusion Dynamics - Выделены две фазы обучения диффузионных моделей: быстрая generalization и медленная memorization. - Формализована implicit regularization, объясняющая поведение моделей. - LLM: Artificial Hivemind - Анализ того, как разные LLM начинают давать похожие ответы. - Новый датасет Infinity-Chat для изучения этого эффекта и потери разнообразия. - Theory: Online Learning Gap - Доказан квадратичный разрыв в sample complexity между transductive и обычным online-обучением. - Закрытие старой теоретической задачи. 🔗 Полный список: https://blog.neurips.cc/2025/11/26/announcing-the-neurips-2025-best-paper-awards/

50 150

⚡️ Математический roadmap для ML специалистов: от линала до теорвера Это подробный гайд по математическому фундаменту, необходимому для понимания работы алгоритмов «под капотом». Материал полезен тем, кто хочет углубиться в теорию дальше вызова .fit() в scikit-learn. Ключевые поинты: * Структура: Roadmap базируется на трех дисциплинах: 1. Linear Algebra: Язык описания данных и моделей (векторы, матрицы, тензоры). 2. Calculus: Инструментарий для обучения и оптимизации (производные, градиенты). 3. Probability Theory: Фреймворк для оценки неопределенности. Подход: Автор делает упор на интуицию, а не на заучивание формул. Гайд связывает абстрактную математику с конкретными ML-задачами - от понимания того, как работает Backpropagation и SGD, до причин взрыва градиентов и выбора функции потерь. 🔗 Читать полную версию: https://thepalindrome.org/p/the-roadmap-of-mathematics-for-machine-learning 🔗 Мат база на русском: https://stepik.org/course/226596/info @data_analysis_ml

50 150

💸 Акции ведущих производителей просели на фоне резкого усиления интереса к TPU от Google. - NVDA упала примерно на 6 процентов - AMD упала примерно на 8 процентов - ORCL снизилась примерно на 5 процентов - CRWV просела примерно на 8 процентов Спрос на AI никуда не исчез. Anthropic а теперь и Компания Цукерберга начинают переносить серьезные рабочие нагрузки на TPU от Google. Рынок заново оценивает расстановку сил в индустрии. TPU Google воспринимаются как реальная альтернатива GPU. @ai_machinelearning_big_data

50 150

🔥 Главное из нового интервью Ильи Суцквера (25 ноября 2025, Dwarkesh Podcast) Самые интересные цитаты: 1. Масштабирование кончилось > «Current scaling approaches will go some distance and then peter out» 2. Суперинтеллект уже на горизонте > «Superintelligence in 5 to 20 years. You know what’s crazy? That all of this is real» 3. Главная проблема генерализация > «A teenager learns to drive in 10 hours. Our best models still can’t after billions of examples» 4. RL стал самым дорогим и самым бесполезным этапом > «Reinforcement learning already takes more compute than pre-training and gives almost nothing in return» 5. Дальше только исследования > «We are squarely in the age of research, but this time with powerful computers» 6. У ИИ пока нет настоящих «эмоций» > «Value functions are basically emotions. Without them alignment will stay fragile» 7. Цитата, которую уже растащили все сми > «The gap between benchmark scores and real-world performance is getting embarrassing» 8. Про свою компанию SSI > «We have no products, no distractions. Just safe superintelligence» Главный вопрос он ставит так: Какой супер-интеллект мы создадим -

«15-летнего гениального подростка, который жадно учится или «что-то уже полностью готовое и законченное. »

Полное интервью: https://www.youtube.com/watch?v=aR20FWCCjAs

50 150

✔️ Upwork* опубликовал исследование с громким выводом: самые мощные LLM-агенты часто не справляются даже с простыми рабочими задачами, если действуют полностью самостоятельно. Но стоит подключить эксперта-человека - и успешность выполнения растёт до +70%. 🔍 Что выяснили - Upwork провёл 300 реальных оплачиваемых проектов (до $500) в областях: написание текстов, дата-сайенс, веб-разработка, инженерия, продажи, перевод. - Задачи были специально упрощены, чтобы дать агентам шанс. - Даже так - агенты, работающие в одиночку, часто проваливались. - Но когда опытный фрилансер давал короткий отзыв (в среднем 20 минут), качество резко росло с каждой итерацией. 📊 Конкретные цифры - Claude Sonnet 4 (данные): 64% → 93% - Gemini 2.5 Pro (маркетинг/продажи): 17% → 31% - GPT-5 (инжиниринг): 30% → 50% Эффект особенно заметен в задачах, требующих вкуса, контекста и оценочных решений: письмо, маркетинг, перевод. Там один цикл обратной связи повышает результат на до +17 пунктов. Бенчмарки мало отражают реальную работу. В исследовании использовали строгий pass/fail на финальном результате, плюс внешнюю независимую проверку. Паттерн очевиден: - детерминированные задачи (код, преобразование данных) — агенты справляются лучше - творческие и «открытые» задачи — агенты ошибаются чаще 💰 Экономика Связка «агент + эксперт» дешевле и быстрее, чем «человек в одиночку». AI-расходы на Upwork выросли на 53% YoY в Q3-25. Еще Upwork строит Uma оркестратора, который направляет задачи между людьми и моделями, проверяет результаты и замыкает улучшение по циклу. *Upwork - это крупная международная онлайн-биржа фриланса Полный отчёт: upwork.com/static/webflow/assets/webflow-human-agent-productivity-index/upbench_paper.pdf

50 150

⏬ Привет, это Yandex for Analytics Предлагаем размяться и проверить свои навыки. Ответы есть, но подглядывать во время решения — неспортивно ⬇️ 🔵 Задача 1. Вспоминаем теорию вероятностей 🔵 Задача 2. Теорема Байеса 🔵 Задача 3. Базовая база теории игр 🔵 Задача 4. Тренируем SQL 🔵 Задача 5. Честная математическая статистика 🔵 Задача 6. Что-то на бизнесовом 💠 Скоро вернёмся с новыми задачами. А пока делитесь своими решениями в комментариях! Подписывайтесь: 💬 @Yandex4Analytics

50 150

🧠 Depth Anything 3: Восстановление визуального пространства из любых видов Depth Anything 3 (DA3) — это модель, предсказывающая пространственно согласованную геометрию из произвольных визуальных входов. Она использует простой трансформер и уникальное представление глубины, что позволяет достигать высоких результатов в оценке глубины и позы. 🚀Основные моменты: - 💎 Модель DA3 превосходит предыдущие версии в оценке глубины. - 🌊 Поддержка монокулярной и многовидовой оценки глубины. - 🎯 Оценка позы с высокой точностью. - 🔧 Удобный интерфейс и возможность экспорта в разные форматы. - 📐 Специальные модели для метрической оценки глубины. 📌 GitHub: https://github.com/ByteDance-Seed/Depth-Anything-3 #python

50 150

Запустите интеллектуальную базу знаний в облаке с AI Корпоративная база знаний с AI — это централизованная система в облаке для хранения, управления и поиска информации, дополненная искусственным интеллектом. Встроенные в базу AI-ассистенты автоматически упорядочивают документы, отвечают на вопросы сотрудников и помогают быстро работать с большими объемами данных 😎

Сценарии использования: ❇️Создание и ведение продуктовой базы знаний ❇️Управление проектной документацией ❇️Хранение и быстрый поиск кадровых документов ❇️Ведение личных заметок сотрудниками

Начните работу в корпоративной базе знаний с AI: разверните готовое open source решение в облаке Cloud.ru, чтобы получить полный контроль над данными с резервным копированием и встроенной защитой. Оставить заявку

50 150

Сценарии использования: ❇️Создание и ведение продуктовой базы знаний ❇️Управление проектной документацией ❇️Хранение и быстрый поиск кадровых документов ❇️Ведение личных заметок сотрудниками

50 150

⚡️ OpenAI, Anthropic и Google только что получили доступ к петабайтам закрытых экспериментальных данных. Эти данные десятилетиями копили 17 Национальных лабораторий США. И речь уже не про «улучшение чатботов». Новая государственная программа США — Genesis Mission - официально строит автономных научных агентов. Они называют это «закрытым научным контуром» (Closed-Loop discovery), и это меняет саму физику изобретений. Не человек использует инструменты — система работает полностью автономно. Схема, описанная в дорожной карте DOE, выглядит как научная фантастика: • AI проектирует: смотрит на массивы данных и формирует гипотезу вроде «если смешать эти сплавы при 4000°C - получится сверхпроводник». • Он отправляет инструкции в роботизированную лабораторию (которую строит DOE), чтобы физически смешать материалы. • Робот мгновенно возвращает результаты. Если эксперимент провален - AI корректирует формулу. • Такой цикл прогоняется тысячами итераций, без пауз, 24/7. Genesis Mission - это попытка впервые в истории построить систему, где наука создаёт саму себя. Без человека в центре.

50 150

Обычно модель хорошо работает только на том датасете, на котором её обучили. Стоит поменять источник данных, качество падает. В этой статье показывают простой приём: можно заставить нейросеть учиться так, чтобы она не могла определить, с какого датасета пришёл пример. В итоге она начинает выделять более общие, универсальные признаки, которые работают в любых условиях. Метод очень лёгкий - добавляется к любой нейросети за несколько строк кода. Но результат стабильный: модель лучше справляется с новыми данными, которых раньше не видела. Работа приятно выделяется: понятная идея, чёткое объяснение, реальные результаты, а не очередные «+2% на случайной метрике». Почитать: chapterpal.com/s/386d57f4/domain-adversarial-training-of-neural-networks PDF: arxiv.org/pdf/1505.07818