Анализ данных (Data analysis)

前往频道在 Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

显示更多

网络:Machinelearning 俄罗斯12 571 技术与应用2 678...

📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览

频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语语言赛道中的是活跃参与者。目前社区聚集了 50 150 名订阅者，在 技术与应用 类别中位列第 2 678，并在 俄罗斯 地区排名第 12 571 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 50 150 名订阅者。

根据 12 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -35，过去 24 小时变化为 -30，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 9.06%。内容发布后 24 小时内通常能获得 5.57% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 4 547 次浏览，首日通常累积 2 794 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 30。
主题关注点： 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

凭借高频更新（最新数据采集于 13 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

50 150

订阅者

-3024 小时

-537 天

-3530 天

4 547

帖子浏览量

~ 2 79424 小时

~ 3 27748 小时

9.06%

参与率

~ 5

每日帖子数

Ads index

beta

帖子存档

50 150

llama.cpp (PR #16095) теперь поддерживает Qwen3-Next - новую гибридную архитектуру от Qwen. Теперь Qwen3-Next можно запускать локально с эффективным CPU/GPU-инференсом. 🚀 https://github.com/ggml-org/llama.cpp/pull/16095

50 150

🧮 Интересная и подробная статья о том, почему TPU становятся ключевым фактором в удешевлении инференса. - TPUs дают примерно в 4 раза лучшую стоимость за производительность по сравнению с Nvidia GPU в задачах инференса - Инференс за время жизни модели стоит в 15 раз дороже, чем её обучение - К 2030 году инференс будет потреблять около 75 процентов всего AI compute (рынок на 255 млрд долларов) Основная мысль проста: инференс полностью доминирует итоговую стоимость эксплуатации модели. Обучение модели уровня GPT-4 стоит примерно 150 миллионов долларов, но поддержание инференса - около 2.3 миллиарда долларов в год. Nvidia H100 отлично подходит для гибкого обучения, но их универсальная архитектура добавляет лишнюю логику управления и движение данных, что увеличивает энергопотребление при простых forward-pass операциях — поэтому длительный инференс обходится дорого. Google TPU - специализированные чипы для tensor math, построенные на систолических массивах и агрессивной инженерии энергопотребления. В итоге они потребляют примерно на 60-65 процентов меньше энергии и дают около четырёхкратного выигрыша по стоимости инференса трансформеров по сравнению с H100. Практика это подтверждает: Midjourney снизил затраты на инференс примерно на 65 процентов после перехода на TPU. Anthropic закупает до миллиона TPU. Meta, Salesforce, Cohere и многие другие также переводят всё больше трафика на TPU-поды, поскольку инференс стремительно растёт и к 2030 году станет около 75 процентов всех вычислений в AI. ainewshub.org/post/ai-inference-costs-tpu-vs-gpu-2025

50 150

📚 У OpenAI снова юридические проблемы, и ситуация становится заметно серьезнее. Суд обязал компанию передать внутренние переписки о том, зачем и почему были удалены два огромных датасета пиратских книг. Если в этих сообщениях окажется, что сотрудники понимали незаконность данных и пытались quietly erase их, авторам будет проще доказать умышленное нарушение авторских прав. А это значит гораздо более высокие штрафы за каждую книгу. Что известно сейчас: - Авторы утверждают, что модели OpenAI обучались на больших наборах пиратских книг. - Истцы уже получили Slack-переписки сотрудников по датасетам books1 и books2. - Судья потребовала раскрыть документы, объясняющие мотивы удаления этих датасетов. - Внутренние юристы OpenAI будут допрошены. - Если окажется, что компания меняла объяснение причин удаления, это усиливает позицию истцов. Почему это поворотный момент: Суд указал, что OpenAI сначала объясняла удаление тем, что данные не использовались, а позже пыталась закрыть переписки под юрпривилегией. Такое изменение позиции суд расценил как отказ от привилегии. Поэтому теперь Slack-каналы project clear и excise libgen могут быть раскрыты. Этот кейс создаёт значимый сигнал для всей AI-индустрии: то, как компании обсуждают скрапинг, теневые библиотеки и чистку данных внутри Slack или других рабочих инструментов, может напрямую влиять на то, попадут ли они под обычные штрафы или под огромную финансовую ответственность. hollywoodreporter.com/business/business-news/openai-loses-key-discovery-battle-why-deleted-library-of-pirated-books-1236436363/

50 150

🖥 NVIDIA тихо выкатили -Orchestrator-8B На бенчмарке Humanity's Last Exam (HLE) маленькая 8-модель обходит GPT-5: 37.1% против 35.1%, при этом работает примерно в 2.5 раза эффективнее. Что вообще происходит? Orchestrator-8B - это не просто ещё одна модель. Это “роутер” над стеком инструментов. Она решает, отвечать ли самой или вызвать поиск, код-модель, API или другой LLM. Вместо парадигмы «один огромный LLM делает всё» — маленький мозг, который умно и экономно распределяет задачи между инструментами. Чтобы этому научить, NVIDIA сделали ToolScale — гигантский синтетический датасет с многошаговыми задачами, где агент: - видит доступные инструменты, их цену и задержку - выбирает последовательность вызовов - получает трассу идеального решения - оптимизируется под качество, скорость и деньги По сути, каждый пример — это инструкция: “вот запрос, вот инструменты, вот их цены, вот как решить задачу оптимально”. Алгоритм Group Relative Policy Optimization обучает политика так, чтобы она балансировала: - точность - скорость - стоимость - предпочтения пользователя На HLE, FRAMES и tau-squared Bench оркестратор (Qwen3-8B внутри) обходит: - tool-augmented GPT-5 - Claude Opus 4.1 - Qwen3-235B-A22B И делает меньше дорогих вызовов, лучше адаптируется к новым инструментам и ценам — и всё это в открытом доступе для ресёрча под лицензией NVIDIA. Вывод: маленький интеллектуальный оркестратор поверх набора инструментов может выдавать фронтирный уровень агентных возможностей — но с точным контролем вычислений и бюджета. ToolScale учит не “зови самый большой LLM”, а думай, сколько это будет стоить, и выбирай оптимальный путь. Это именно тот сдвиг, который мы ждали в эру “AGI из инструментов”, а не из гигантских монолитных моделей. huggingface.co/datasets/nvidia/ToolScale @data_analysis_ml

50 150

🤖 Multi-Agent Evolve теперь полностью open-source 🚀 С его кодовой базой ты можешь взять любой LLM-чекпойнт и позволить ему саморазвиваться без внешнего надзора. Это экспериментальная система, в которой агенты эволюционируют, создавая и оценивая собственные улучшения. 💻 Код: https://github.com/ulab-uiuc/Multi-agent-evolve 🤗 Модели (Checkpoints): https://huggingface.co/collections/ulab-ai/multi-agent-evolve #AI #LLM #MultiAgent #OpenSource #EvolutionaryAI

50 150

Ноябрь — месяц One Day Offer в GigaChat и Kandinsky 📆 В ноябре команды двух топовых IT-продуктов Сбера планируют обрести новых классных коллег — DL Engineers и Researchers, чтобы вместе работать над GigaChat и Kandinsky: развивать, обучать и дообучать модели. Смотрите расписание One Day Offer и не упустите шанс присоединиться к крупнейшему AI-комьюнити. Целых восемь мероприятий, чтобы изменить свою карьеру и жизнь — выбирайте то, что подходит под навыки и цели, и регистрируйтесь!

50 150

🤖 Мир меняется быстрее, чем мы успеваем осознавать. Китай начинает развёртывание гуманоидных роботов на границе с Вьетнамом. Они будут помогать с навигацией путешественников, инспекциями, патрулированием, логистикой - и параллельно использоваться на промышленных объектах: металлургия, сталь, медь, алюминий. Особое внимание на Walker S2. Это первый гуманоид, который умеет автономно менять собственную батарею, фактически работая почти 24/7. У него 52 степени свободы, ловкие руки, высокая грузоподъёмность, стереозрение и система UBTech BrainNet 2.0 / Co-Agent AI для автономного планирования задач. UBTech уже получила заказы на 1.1 млрд юаней и планирует поставить 500 роботов в этом году, увеличить производство в 10 раз в следующем и выйти на 10 000 единиц в год к 2027. Гуманоидные роботы - больше не прототипы. Это новая часть инфраструктуры, которую начинают внедрять прямо сейчас. https://interestingengineering.com/innovation/ubtech-secures-us37-million-deal

50 150

Новая научная работа от Apple -⚡️ серьёзный шаг к следующему поколению видеогенерации. Команда представила STARFlow V полностью каузальную видеомодель, которая по качеству конкурирует с диффузионными системами и обучена как единая сквозная архитектура. Основная идея STARFlow V — первый нормализующий поток, который: - показывает конкурентное качество длинных видео - работает одинаково с текстом, изображениями и видео Чем отличается от диффузии Ранние видеогенераторы использовали многошаговую диффузию. STARFlow V вместо этого применяет: - один обратимый маппинг между шумом и видео - без сотен итераций очистки - без пошагового шума Как устроена модель Каждый кадр сжимается в скрытый компактный код. Дальше работают два ключевых компонента: - Глобальный блок - отвечает за временную последовательность - работает авторегресивно - каждый латент зависит только от предыдущих - уменьшает накопление ошибок на длинных роликах - Локальные блоки - отвечают за детализацию внутри кадра - усиливают качество визуальных элементов Трюки обучения Модель обучают с дополнительными техниками: - добавляется малый искусственный шум для устойчивости - применяется каузальный денойзер flow score matching - он убирает шум, заглядывая только на один кадр вперёд - используются параллельные Jacobi блоковые обновления для ускорения Результаты STARFlow V демонстрирует: - качество почти уровня диффузии - более стабильные длинные видеоролики - единую архитектуру для всех задач - полностью каузальную генерацию arxiv.org/abs/2511.20462

50 150

⚡️ VK открыл VK-LSVD — один из крупнейших датасетов для рекомендательных систем. Сейчас на его базе идет топовое соревнование по ML VK RecSys Challenge 🎯 Для чего подходит датасет - Быстрый старт в рекомендательных алгоритмах - Тест бэйзлайнов и гибридов «контент + поведение» - Можно использовать для воспроизводимых тестов различных моделей 🔗 Подробнее + код: https://habr.com/ru/companies/vk/articles/970350/ В самом VK RecSys Challenge можно участвовать соло или командой до 4 человек, а подать заявку — до 15 декабря. Призовой фонд — 2 500 000 рублей. @data_analysis_ml

50 150

NeurIPS 2025: краткий разбор ключевых наград Оргкомитет опубликовал победителей. Общий тренд — работы про масштабирование моделей, устойчивость обучения и фундаментальные теоретические результаты. 🏆 Special Awards - Test of Time (2015): Faster R-CNN - Ввели RPN, отказавшись от Selective Search. - Сделали детекцию полностью end-to-end и задали стандарт индустрии на десятилетие. - Sejnowski–Hinton Prize (2016): Feedback Alignment - Показали, что backprop работает даже при случайных фиксированных обратных весах. - Это решает «weight transport problem» и делает алгоритм ближе к биологически правдоподобным. 🌟 Best Papers (Main Track) - Architecture: Gated Softmax Attention - Решает нестабильность больших трансформеров и проблему attention sinks. - Добавляет простое sigmoid-gating для отдельных heads. - Даёт стабильность почти без оверхеда; уже используется в Qwen3-Next. - RL: Scaling to 1024 Layers - Self-Supervised RL сделал возможным обучение сети глубиной 1024 слоя. - На задачах локомоции — до 50× улучшения относительно стандартных моделей. - Theory: Diffusion Dynamics - Выделены две фазы обучения диффузионных моделей: быстрая generalization и медленная memorization. - Формализована implicit regularization, объясняющая поведение моделей. - LLM: Artificial Hivemind - Анализ того, как разные LLM начинают давать похожие ответы. - Новый датасет Infinity-Chat для изучения этого эффекта и потери разнообразия. - Theory: Online Learning Gap - Доказан квадратичный разрыв в sample complexity между transductive и обычным online-обучением. - Закрытие старой теоретической задачи. 🔗 Полный список: https://blog.neurips.cc/2025/11/26/announcing-the-neurips-2025-best-paper-awards/

50 150

⚡️ Математический roadmap для ML специалистов: от линала до теорвера Это подробный гайд по математическому фундаменту, необходимому для понимания работы алгоритмов «под капотом». Материал полезен тем, кто хочет углубиться в теорию дальше вызова .fit() в scikit-learn. Ключевые поинты: * Структура: Roadmap базируется на трех дисциплинах: 1. Linear Algebra: Язык описания данных и моделей (векторы, матрицы, тензоры). 2. Calculus: Инструментарий для обучения и оптимизации (производные, градиенты). 3. Probability Theory: Фреймворк для оценки неопределенности. Подход: Автор делает упор на интуицию, а не на заучивание формул. Гайд связывает абстрактную математику с конкретными ML-задачами - от понимания того, как работает Backpropagation и SGD, до причин взрыва градиентов и выбора функции потерь. 🔗 Читать полную версию: https://thepalindrome.org/p/the-roadmap-of-mathematics-for-machine-learning 🔗 Мат база на русском: https://stepik.org/course/226596/info @data_analysis_ml

50 150

💸 Акции ведущих производителей просели на фоне резкого усиления интереса к TPU от Google. - NVDA упала примерно на 6 процентов - AMD упала примерно на 8 процентов - ORCL снизилась примерно на 5 процентов - CRWV просела примерно на 8 процентов Спрос на AI никуда не исчез. Anthropic а теперь и Компания Цукерберга начинают переносить серьезные рабочие нагрузки на TPU от Google. Рынок заново оценивает расстановку сил в индустрии. TPU Google воспринимаются как реальная альтернатива GPU. @ai_machinelearning_big_data

50 150

🔥 Главное из нового интервью Ильи Суцквера (25 ноября 2025, Dwarkesh Podcast) Самые интересные цитаты: 1. Масштабирование кончилось > «Current scaling approaches will go some distance and then peter out» 2. Суперинтеллект уже на горизонте > «Superintelligence in 5 to 20 years. You know what’s crazy? That all of this is real» 3. Главная проблема генерализация > «A teenager learns to drive in 10 hours. Our best models still can’t after billions of examples» 4. RL стал самым дорогим и самым бесполезным этапом > «Reinforcement learning already takes more compute than pre-training and gives almost nothing in return» 5. Дальше только исследования > «We are squarely in the age of research, but this time with powerful computers» 6. У ИИ пока нет настоящих «эмоций» > «Value functions are basically emotions. Without them alignment will stay fragile» 7. Цитата, которую уже растащили все сми > «The gap between benchmark scores and real-world performance is getting embarrassing» 8. Про свою компанию SSI > «We have no products, no distractions. Just safe superintelligence» Главный вопрос он ставит так: Какой супер-интеллект мы создадим -

«15-летнего гениального подростка, который жадно учится или «что-то уже полностью готовое и законченное. »

Полное интервью: https://www.youtube.com/watch?v=aR20FWCCjAs

50 150

✔️ Upwork* опубликовал исследование с громким выводом: самые мощные LLM-агенты часто не справляются даже с простыми рабочими задачами, если действуют полностью самостоятельно. Но стоит подключить эксперта-человека - и успешность выполнения растёт до +70%. 🔍 Что выяснили - Upwork провёл 300 реальных оплачиваемых проектов (до $500) в областях: написание текстов, дата-сайенс, веб-разработка, инженерия, продажи, перевод. - Задачи были специально упрощены, чтобы дать агентам шанс. - Даже так - агенты, работающие в одиночку, часто проваливались. - Но когда опытный фрилансер давал короткий отзыв (в среднем 20 минут), качество резко росло с каждой итерацией. 📊 Конкретные цифры - Claude Sonnet 4 (данные): 64% → 93% - Gemini 2.5 Pro (маркетинг/продажи): 17% → 31% - GPT-5 (инжиниринг): 30% → 50% Эффект особенно заметен в задачах, требующих вкуса, контекста и оценочных решений: письмо, маркетинг, перевод. Там один цикл обратной связи повышает результат на до +17 пунктов. Бенчмарки мало отражают реальную работу. В исследовании использовали строгий pass/fail на финальном результате, плюс внешнюю независимую проверку. Паттерн очевиден: - детерминированные задачи (код, преобразование данных) — агенты справляются лучше - творческие и «открытые» задачи — агенты ошибаются чаще 💰 Экономика Связка «агент + эксперт» дешевле и быстрее, чем «человек в одиночку». AI-расходы на Upwork выросли на 53% YoY в Q3-25. Еще Upwork строит Uma оркестратора, который направляет задачи между людьми и моделями, проверяет результаты и замыкает улучшение по циклу. *Upwork - это крупная международная онлайн-биржа фриланса Полный отчёт: upwork.com/static/webflow/assets/webflow-human-agent-productivity-index/upbench_paper.pdf

50 150

⏬ Привет, это Yandex for Analytics Предлагаем размяться и проверить свои навыки. Ответы есть, но подглядывать во время решения — неспортивно ⬇️ 🔵 Задача 1. Вспоминаем теорию вероятностей 🔵 Задача 2. Теорема Байеса 🔵 Задача 3. Базовая база теории игр 🔵 Задача 4. Тренируем SQL 🔵 Задача 5. Честная математическая статистика 🔵 Задача 6. Что-то на бизнесовом 💠 Скоро вернёмся с новыми задачами. А пока делитесь своими решениями в комментариях! Подписывайтесь: 💬 @Yandex4Analytics

50 150

🧠 Depth Anything 3: Восстановление визуального пространства из любых видов Depth Anything 3 (DA3) — это модель, предсказывающая пространственно согласованную геометрию из произвольных визуальных входов. Она использует простой трансформер и уникальное представление глубины, что позволяет достигать высоких результатов в оценке глубины и позы. 🚀Основные моменты: - 💎 Модель DA3 превосходит предыдущие версии в оценке глубины. - 🌊 Поддержка монокулярной и многовидовой оценки глубины. - 🎯 Оценка позы с высокой точностью. - 🔧 Удобный интерфейс и возможность экспорта в разные форматы. - 📐 Специальные модели для метрической оценки глубины. 📌 GitHub: https://github.com/ByteDance-Seed/Depth-Anything-3 #python

50 150

Запустите интеллектуальную базу знаний в облаке с AI Корпоративная база знаний с AI — это централизованная система в облаке для хранения, управления и поиска информации, дополненная искусственным интеллектом. Встроенные в базу AI-ассистенты автоматически упорядочивают документы, отвечают на вопросы сотрудников и помогают быстро работать с большими объемами данных 😎

Сценарии использования: ❇️Создание и ведение продуктовой базы знаний ❇️Управление проектной документацией ❇️Хранение и быстрый поиск кадровых документов ❇️Ведение личных заметок сотрудниками

Начните работу в корпоративной базе знаний с AI: разверните готовое open source решение в облаке Cloud.ru, чтобы получить полный контроль над данными с резервным копированием и встроенной защитой. Оставить заявку

50 150

Сценарии использования: ❇️Создание и ведение продуктовой базы знаний ❇️Управление проектной документацией ❇️Хранение и быстрый поиск кадровых документов ❇️Ведение личных заметок сотрудниками

50 150

⚡️ OpenAI, Anthropic и Google только что получили доступ к петабайтам закрытых экспериментальных данных. Эти данные десятилетиями копили 17 Национальных лабораторий США. И речь уже не про «улучшение чатботов». Новая государственная программа США — Genesis Mission - официально строит автономных научных агентов. Они называют это «закрытым научным контуром» (Closed-Loop discovery), и это меняет саму физику изобретений. Не человек использует инструменты — система работает полностью автономно. Схема, описанная в дорожной карте DOE, выглядит как научная фантастика: • AI проектирует: смотрит на массивы данных и формирует гипотезу вроде «если смешать эти сплавы при 4000°C - получится сверхпроводник». • Он отправляет инструкции в роботизированную лабораторию (которую строит DOE), чтобы физически смешать материалы. • Робот мгновенно возвращает результаты. Если эксперимент провален - AI корректирует формулу. • Такой цикл прогоняется тысячами итераций, без пауз, 24/7. Genesis Mission - это попытка впервые в истории построить систему, где наука создаёт саму себя. Без человека в центре.

50 150

Обычно модель хорошо работает только на том датасете, на котором её обучили. Стоит поменять источник данных, качество падает. В этой статье показывают простой приём: можно заставить нейросеть учиться так, чтобы она не могла определить, с какого датасета пришёл пример. В итоге она начинает выделять более общие, универсальные признаки, которые работают в любых условиях. Метод очень лёгкий - добавляется к любой нейросети за несколько строк кода. Но результат стабильный: модель лучше справляется с новыми данными, которых раньше не видела. Работа приятно выделяется: понятная идея, чёткое объяснение, реальные результаты, а не очередные «+2% на случайной метрике». Почитать: chapterpal.com/s/386d57f4/domain-adversarial-training-of-neural-networks PDF: arxiv.org/pdf/1505.07818