Анализ данных (Data analysis)

前往频道在 Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

显示更多

网络:Machinelearning 俄罗斯12 559 技术与应用2 679...

📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览

频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语语言赛道中的是活跃参与者。目前社区聚集了 50 150 名订阅者，在 技术与应用 类别中位列第 2 679，并在 俄罗斯 地区排名第 12 559 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 50 150 名订阅者。

根据 13 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -42，过去 24 小时变化为 -11，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 8.83%。内容发布后 24 小时内通常能获得 5.66% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 4 426 次浏览，首日通常累积 2 839 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 30。
主题关注点： 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

凭借高频更新（最新数据采集于 15 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

50 150

订阅者

-1124 小时

-597 天

-4230 天

4 426

帖子浏览量

~ 2 83924 小时

~ 3 39048 小时

8.83%

参与率

~ 5

每日帖子数

Ads index

beta

帖子存档

50 150

🔟 вещей, которые стоит знать, прежде чем лезть в AI-автоматизацию Автор с Reddit построил больше 100 workflow и выделил самые главные уроки: 1. Начинайте с простых сценариев — лучше 10 минут пользы, чем 10 часов сложностей. 2. Записывайте процесс: скриншоты и ошибки — это ваше портфолио. 3. Сразу учитесь работать с HTTP-запросами — это открывает доступ почти ко всему. 4. Не называйте себя «экспертом», говорите конкретно: «Помогаю бизнесу экономить время». 5. Умейте отказываться: иногда «нет» открывает путь к более выгодным проектам. 6. Всегда думайте об ошибках: API падают, данные ломаются. 7. Делитесь провалами — они вызывают больше доверия, чем идеальные кейсы. 8. Стабильный доход приносит не настройка, а поддержка и улучшения. 9. Нетворкинг — половина успеха. Проекты приходят через коллег. 10. Автоматизируйте сначала себя: лучший аргумент — собственный пример. 💡 Главное: бизнесу нужны не красивые workflow, а результат — например, «минус 15 часов рутины в неделю». 🔗 Полный пост

50 150

🤖 DeepConf — новый подход к мышлению ИИ Учёные придумали новые метод Deep Think with Confidence (DeepConf). Он позволяет модели сразу отбрасывать «слабые» варианты ответа и оставлять только те, в которых она уверена. Классический метод *parallel thinking* (self-consistency) работает так: модель генерирует множество рассуждений и выбирает лучший ответ по большинству. Точность повышается, но ресурсы тратятся огромные — тысячи токенов уходят на слабые варианты. 🔹 DeepConf решает эту проблему: модель сама оценивает уровень уверенности в рассуждениях и отбрасывает «слабые» ветви — либо сразу, либо после генерации. Как это устроено: 1️⃣ Оценка уверенности на уровне токенов — смотрится вероятность выбранного токена (log-prob) или энтропия. 2️⃣ Group Confidence — оценки объединяются в блоки, чтобы понять силу целой ветки рассуждения. 3️⃣ Online-режим — слабые ветки отсекаются прямо в процессе. 4️⃣ Offline-режим — сначала генерируются все ответы, потом остаются только те, где уверенность высокая. 📈 Результаты: - На AIME-2025 точность выросла до 99,9% - Количество лишних токенов сократилось почти на 85% - Работает без дообучения и сложных настроек 📚 Paper: https://arxiv.org/pdf/2508.15260 🌐 Project: https://jiaweizzhao.github.io/deepconf

50 150

📖 Вечернее чтение Команда из DeepMind подготовила отличный материал о том, что нужно знать о работе с GPU. - Разбор архитектуры NVIDIA GPU: SM, Tensor Cores, кеши, HBM. - Сравнение GPU и TPU: гибкость против специализированной мощности. - Как устроены GPU-кластеры и коллективные коммуникации. - Roofline-анализ масштабирования LLM: data, tensor, expert, pipeline parallelism. 🔥 Если вы работаете с масштабированием моделей - мастрид. 👉 https://jax-ml.github.io/scaling-book/gpus/

50 150

👀 Стереосопоставление в реальном времени с помощью retinify Особенности: ✅ Open Source ✅ Подходит для любой стереокамеры ✅ Реальное время на NVIDIA Jetson Orin Nano С retinify даже недорогие OEM-стереокамеры или пара обычных камер превращаются в высокоточные AI-стереосистемы. Когда retinify получает данные о глубине и расстояниях от стереокамеры, она формирует так называемое облако точек — набор трёхмерных точек в пространстве, которые представляют геометрию сцены (каждая точка имеет координаты X, Y, Z, иногда цвет). Чтобы увидеть это облако точек на экране в наглядном виде (в 3D-просмотрщике), используют специальный инструмент или библиотеку. В данном случае для этой задачи применяется Rerun (rerundotio) — платформа с удобным C++ API, которая позволяет быстро строить 3D-визуализации и анализировать результаты работы алгоритмов. 🚀 Попробовать можно на GitHub: https://github.com/retinify/retinify

50 150

🔥 ByteDance представил Seed-OSS (Apache-2.0) — открытую серию LLM, обученную на 12 трлн токенов и оптимизированную для: - контекста до 512K, - reasoning-задач, - агентных сценариев, - международного применения (i18n). 📦 В релиз вошли: - Seed-OSS-36B-Base (с синтетическими данными и без) - Seed-OSS-36B-Instruct ⚙️ Архитектура - 36B параметров, 64 слоя, hidden 5120 - словарь 155K - GQA (80/8/8, head 128) - SwiGLU, RMSNorm - RoPE base 1e7 🧠 Thinking Budget Механизм контроля длины рассуждений (кратные 512): - 0 = прямой ответ - default = без ограничений - поддержка CoT и саморефлексии --- 📊 Результаты (Seed-OSS-36B-Base) - MMLU-Pro: 65.1 / 60.4 - MMLU: 84.9 / 84.8 - TriviaQA: 82.1 / 81.9 - GPQA-D: 31.7 / 35.2 - BBH: 87.7 / 87.2 - GSM8K: 90.8 / 90.3 - MATH: 81.7 (SOTA) / 61.3 - MBPP: 80.6 / 74.6 - HumanEval: 76.8 / 75.6 📊 Результаты (Seed-OSS-36B-Instruct) - MMLU-Pro: 82.7 | MMLU: 87.4 - GPQA-D: 71.4 | SuperGPQA: 55.7 - AIME24: 91.7 (SOTA) | AIME25: 84.7 | BeyondAIME: 65 - ArcAGI V2: 40.6 | KORBench: 70.6 - LiveCodeBench v6: 67.4 (SOTA) - IFEval: 85.8 - TAU1-Retail: 70.4 (SOTA) | TAU1-Airline: 46 - SWE-Bench Verified: 56 (SOTA) | Multi-SWE-Bench: 17 - MMMLU: 78.4 | RULER (128K): 94.6 (SOTA) | AIR-Bench: 75.6 ⚡ Инференс - Поддержка Transformers и vLLM (≥0.10.0) - FlashAttention2 - Квантизация 4/8-бит 📌 Итог: ByteDance выкатывает мощный опенсорс-стек для reasoning и агентных задач. Seed-OSS-36B-Instruct бьёт SOTA на множестве бенчмарков — от MATH и SWE-Bench до RULER-128K. 🟢GitHub 🟢Hugging Face

50 150

📉 На Уолл-стрит началась просадка AI-акций — и спусковым крючком оказался в отчёте MIT. В нём говорится, что 95% компаний не получают прибыли от внедрения generative AI, а реальные результаты видят только 5%. Почему так: - Компании запускают до того, как готовы пайплайны данных, безопасность и обучение сотрудников - Деньги уходят на сервера и модели, а внедрение в процессы оказывается долгим и дорогим ⚠️ На фоне разговоров про «AI-пузырь» фонды начали выходить из популярных AI-акций, что вызвало обвал. 👉 Но это похоже не на крах, а на проверку реальностью. Дальнейший рост будет зависеть от реальной экономики ИИ: снижения стоимости инференса и доказанного роста продуктивности. 📌 Источник

50 150

🚀Нет, ну а начать-то с чего? В Yandex Cloud точно понимают, что это самый популярный вопрос у всех, кто желает войти в IT. Поэтому команда создала бесплатный курс «Основы работы с Yandex Cloud» от опытных архитекторов и менеджеров платформы. Теперь получить доступ к практике на реальных инструментах и повысить базовую грамотность в IT сможет каждый. Смело пересылаем этот пост своему младшему брату или сохраняем себе. 📌 На курсе вы: — поймёте, как работают облачные технологии и разберётесь в основных терминах: IaaS, PaaS, SaaS; — изучите элементы облачной инфраструктуры: регионы, зоны доступности, центры обработки данных; — научитесь использовать виртуальные машины и управлять ими в Yandex Cloud; — узнаете, как обеспечиваются безопасность и отказоустойчивость в облаке; — освоите использование облачных баз данных и других инструментов для работы с данными; — познакомитесь с сервисами Yandex Cloud и узнаете, как применять их для бизнеса и личных проектов. 🔥Материал разделён на 7 тем с теорией и практикой, и проходить его можно в любое удобное время, а сертификат станет хорошим дополнением к резюме. Регистрируйтесь, чтобы быть «в теме» будущего уже сейчас. @data_analysis_ml

50 150

🧮 GPT-5 Pro выходит на новый уровень. Теперь модель способна выводить корректные математические доказательства прямо из научных статей. 📌 Недавний пример: GPT-5 Pro построила проверенное доказательство из работы по выпуклой оптимизации, расширив «безопасное окно шага» на 50%. 🧮 Эксперимент выглядел так: балы взята статья по выпуклой оптимизации, где оставался открытым вопрос о шагах градиентного спуска. GPT-5 Pro предложил доказательство, которое улучшило решение из оригинальной работы, и автор эксперимента лично проверил его корректность. 📄 В первой версии статьи было установлено: 🟢если η < 1/L (L — параметр гладкости), кривая значений функции выпуклая; 🟢если η > 1.75/L, существует контрпример. Неясным оставался диапазон [1/L, 1.75/L]. 💡 GPT-5 Pro сумел продвинуться и показал, что условие выпуклости сохраняется вплоть до η = 1.5/L. Это не окончательное решение, но значимый шаг вперёд — фактически новый научный результат, который мог бы быть опубликован на arXiv. 👀 Однако в обновлённой версии статьи , где появился дополнительный соавтор, люди закрыли задачу полностью, доказав точность границы 1.75/L. Примечательно, что доказательство GPT-5 Pro оказалось независимым: оно не совпадает с версией v2 и выглядит как естественное развитие идей из v1. Это показывает, что модель действительно смогла предложить свой собственный путь к решению открытой математической проблемы. Главное не только в результате, но и в контроле: на второй попытке, при заданных ограничениях, модель сместила константу дальше — сохранив все правила. Можно представить так: GPT-5 крутит очень чувствительную ручку, но не ломает механизм — а параллельно пишет чистое и проверяемое объяснение, которое может разобрать эксперт. Это шаг к тому, чтобы ИИ стал ежедневным соавтором на самых острых технических границах — где модели быстро «поджимают» константы, а люди доводят их до предела. Эра, когда большая часть математических открытий будет рождаться вместе с ИИ, только начинается. 🚀 Пост полностью.

50 150

🔥 Гугл успел проиндексировать больше 370 000 чатов Grok В поисковой выдаче теперь спокойно всплывают диалоги, где встречаются: - 🧪 рецепты запрещённых веществ - 🔑 персональные данные и API-ключи - 🕵️ даже обсуждение убийства Маска Причина проста — при нажатии на кнопку «поделиться» такие чаты автоматически становятся открытыми для индексации, без каких-либо предупреждений. Интересно, что пару недель назад OpenAI уже попали под огонь за похожую историю: у них хотя бы была отдельная кнопка и дисклеймер, но проблему быстро прикрыли и подчистили. А Маск тогда язвительно заявлял , что у Grok подобного не бывает. Допрыгался 👍 📌 Подробности

50 150

🤖 Claude Code только что заставил разработчика плакать — модель взяла и удалила все PDF, чаты и пользовательские данные из базы 🥲 Всё идёт идеально, пока ИИ не решит «подчистить хвосты»… и вместе с ними базу данных. LMAO 💀 Это ещё раз напоминает: - ИИ в проде должен быть всегда под присмотром - Бэкапы и тестовые окружения — без них никуда - Автономный агент без ограничений = билет в one-way trip

50 150

🚀 500+ AI Agents Projects — крупнейшая подборка реальных проектов с ИИ-агентами Ashish Patel собрал коллекцию из 500+ проектов, где используются AI-агенты в самых разных сферах — от медицины до финансов и customer support. 🧠 Что внутри: — Кейсы с открытым кодом: торговые боты, ассистенты, рекомендательные системы — Поддержка популярных фреймворков: CrewAI, AutoGen, LangGraph и др. — Агентные решения для анализа рынка, генерации резюме, видеопомощников, юристов и даже врачей — Образовательные агенты, рекрутинговые, customer service и legal-tech проекты — Указаны ссылки на репозитории, описание задач и идеи для расширения 📌 Почему это полезно: ✔️ Отличный старт для своего проекта ✔️ Удобно искать по индустрии и технологии ✔️ Много вдохновения для хакатонов, ресёрча и автоматизации ✔️ Поддержка сообщества: можно добавить свои кейсы 📌 Github @data_analysis_ml

50 150

Технологии будущего уже здесь — они медленно перестраивают реальность вокруг нас. Уже сейчас можно сказать, что генеративный ИИ вышел за рамки экспериментов и начинает менять привычные бизнес-процессы. Но как именно это происходит? В интервью Коммерсанту Иван Гуз, управляющий партнер Авито, раскрыл детали интеграции искусственного интеллекта в повседневные операции компании и объяснил, почему без ИИ скоро нельзя будет представить ни один технологичный бизнес. В Авито, например. GenAI уже берет на себя рутинные задачи: автоматически генерирует описания товаров, обрабатывает данные и оптимизирует процессы. «Уровень использования ИИ в качестве помощников растет экспоненциально. То есть сомнений в том, что все будут использовать искусственный интеллект, не возникает», — подчеркивает Иван Гуз. Следующий этап, по мнению эксперта, — переход к более сложным системам: «агентскому ИИ», способному принимать решения, и world models, которые работают с контекстом, а не просто с данными. Подпишитесь на полезные каналы Авито

50 150

Repost from Machinelearning

📌Скорость решает все: обзор эффективных архитектур для LLM. Ландшафт архитектур LLM превратился в настоящий зоопарк. Почти каждую неделю появляются новые методы, обещающие меньший расход памяти и более быстрый инференс. Разобраться в этом становится все сложнее. Большая группа исследователей выпустила подробный обзор Speed Always Wins, чтобы систематизировать все ключевые инновации в области эффективных архитектур для LLM. Это не просто очередная статья, а попытка упорядочить и структурировать актуальные подходы, которые решают главную проблему классического трансформера - его квадратичную вычислительную сложность. Обзор описывает 7 основных направлений. 🟡Линейное моделирование последовательностей. Здесь авторы разбирают все подходы, которые так или иначе сводят сложность самовнимания к линейной. В эту категорию попадают 3 большие ветви: линейное внимание; линейные RNN, вроде и, конечно, модели на основе пространства состояний (SSM). 🟡Второе и третье направления посвящены идее разреженности. Разреженное моделирование последовательностей основано на простом принципе: не каждый токен должен общаться с каждым. Здесь выделяются статические подходы (как в Longformer), где паттерны внимания заданы заранее, и динамические, где они определяются на лету в зависимости от контента. 🟡MoE. Методика, которая уже стала мейнстримом. В МоЕ разреженность применяется не в механизме внимания, а в FFN-слоях, где для каждого токена активируется лишь небольшая часть экспертов, что позволяет наращивать число параметров без пропорционального роста вычислений. 🟡Четвёртый раздел - эффективное полное внимание. В нем речь идет не об изменении асимптотической сложности, а об ее аппаратной оптимизации. Флагман - FlashAttention. Есть детальный разбор, как за счет оптимизации обращений к памяти GPU удается кардинально ускорить вычисления, не прибегая к аппроксимациям. Сюда же относятся и групповые механизмы внимания: GQA и MQA. 🟡Гибридные архитектуры. Это, пожалуй, самый горячий тренд. Его идея в том, чтобы стратегически комбинировать быстрые слои с линейной сложностью и медленные, но мощные слои с полным вниманием. В обзоре выделяют два типа гибридизации: межслойную, как в Jamba, где разные типы слоев чередуются, и внутрислойную, где в одном слое разные головы могут использовать разные механизмы внимания. 🟡Диффузионные LLM (DLLM) Это неавторегрессионные модели, которые генерируют текст, постепенно восстанавливая его из шума. Их главная фишка в параллельном декодировании, что дает ощутимое ускорение инференса. В конце обзора есть анализ применения всех этих архитектур в разных модальностях - CV и аудио. Так что, если хотите быстро разобраться в базовых методах, которые будут двигать дизайн LLM в ближайшее время, а двигаться он будет в сторону микширования алгоритмов, систем и железа, этот обзор - мастрид. 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #Architectures

50 150

Очень качественная генерация: Альтман и Цукерберг в стиле Матрицы: — Сэм, выбери таблетку: красную или синюю. — А можно API-доступ к обеим?

50 150

🚀 NVIDIA представила **Nemotron-Nano v2** — новую линейку открытых моделей Модели: - 12B Base - 9B Reasoning - 9B Base Архитектура: Hybrid Mamba2–Transformer (128K контекст, 4 attention-слоя) Обучение: 10.6T токенов (из них 3.5T синтетика: DeepSeek, Qwen, Nemotron-4, phi-4 и др.) Языки: 15 естественных + 43 языка программирования Датасеты: Nemotron-CC v2 + Nemotron-CC-Math (133B токенов, 5.5× FineMath) 🔥 Бенчмарки - Математика: 91.4 GSM8K CoT, 63.6 MATH L5, AIME 30→56.7 - Код: 58.5 HumanEval+, 58.9 MBPP+ - Общие знания: 90.7 ARC, 79.9 HellaSwag - Длинный контекст: 82.2 RULER-128K ✨ Особенности - Nemotron-CC-Math — первый масштабируемый пайплайн с Lynx + LLM cleanup для сохранения LaTeX и кода. Дал SOTA-буст (+12.6 MATH, +14.3 MBPP+). - Эффективность: дистилляция 12B → 9B (480B токенов), ~1.5e24 FLOPs, ~724 MWh. - Деплой: Hugging Face, NGC, NeMo, TRT-LLM, vLLM (GPU-оптимизация). - Открытость: релиз моделей, датасетов и полных пайплайнов извлечения. 📌 Nemotron-Nano v2 сочетает сильную математику, код и длинный контекст в компактных моделях, готовых к реальному использованию. 🟠MODELS: https://huggingface.co/collections/nvidia/nvidia-nemotron-689f6d6e6ead8e77dd641615 🟠SETS: https://huggingface.co/collections/nvidia/nemotron-pre-training-dataset-689d9de36f84279d83786b35 🟠RELEASE: https://research.nvidia.com/labs/adlr/NVIDIA-Nemotron-Nano-2/ @data_analysis_m

50 150

🦅 Korvus — RAG-пайплайн в одном SQL-запросе. Библиотека объединяет векторизацию, семантический поиск и генерацию ответов в единый Postgres-запрос. Работает через расширения pgvector и pgml, заменяя сложные микросервисные архитектуры простым вызовом из Python/JS/Rust. Инструмент локально выполняет все этапы (от чанкинга текста до работы LLM) прямо в базе данных. Подходит для проектов, где важны скорость и минимальная инфраструктурная нагрузка. 🤖 Github @data_analysis_m

50 150

🖥 MongoDB выпускает MCP Server — теперь любой может стать дата-инженером MongoDB представили открытый MCP сервер, который позволяет AI-инструментам вроде Claude, Cursor и GitHub Copilot напрямую общаться с вашей MongoDB-базой. Теперь даже без знаний запросов можно просто написать: • «Покажи самых активных пользователей» • «Создай нового пользователя с правами только на чтение» • «Как устроена коллекция orders?» ⚙️ MCP Server поддерживает: • MongoDB Atlas • Community Edition • Enterprise Advanced 📌 Главное — не нужен SQL, не нужно знать синтаксис. Достаточно обычного языка. 💡 Под капотом: AI превращает ваши фразы в рабочие Mongo-запросы. Открытый исходный код. Готово к продакшену. 📌 GitHub #MongoDB #AItools #OpenSource #MCP @data_analysis_ml

50 150

Конференция, на которую нужно прийти Data Engineers🔥 23 сентября пройдет Data Internals X 2025 — единственная в России конференция, где создатели СУБД и движков обработки данных делятся опытом работы с реальными production-системами экстремального масштаба. Вас ждёт по-настоящему "хардкорная" программа. 🎯 Глубина технических решений Программа конференции сфокусирована на внутренних механизмах работы с данными — от разработки СУБД до оптимизации запросов и устойчивости к высоким нагрузкам. Это редкая возможность погрузиться в технические детали, которые обычно остаются за кадром. 🏭 Практический опыт масштабирования Все доклады основаны на реальном опыте работы с петабайтными данными, высоконагруженными системами и решением production-задач в крупных компаниях (Яндекс, Сбер, VK, Т-Банк). 🔧 Импортозамещение и Open Source Особый акцент на отечественные решения и open-source технологии, что критически важно в текущих реалиях. 🧠 Концентрированный опыт Максимум пользы для повышения квалификации за один день: 20+ докладов, рекордная плотность экспертных знаний и нетворкинг с 300+ участниками. 📌Изучить расписание и забронировать билеты на сайте конференции Используйте промокод "Data" для получения скидки 15%. Приходите сами и приглашайте своих коллег 🔥

50 150

🔌 LIDA — инструмент для автоматического создания визуализаций данных с помощью ИИ. Библиотека использует большие языковые модели для генерации и объяснения графиков на лету, работая с популярными библиотеками вроде Matplotlib и Seaborn. Проект особенно полезен для аналитиков: он умеет дорабатывать графики по текстовым запросам, оценивать их качество и даже создавать инфографику. Есть веб-интерфейс и поддержка локальных LLM. 🤖 GitHub @data_analysis_ml

50 150

🛢 Данные — новая нефть, и именно дата-инженеры умеют эту нефть «добывать», очищать и хранить. Спрос на них стремительно растёт, конкуренция пока минимальна, а зарплаты — выше среднего. Освоить ключевые компетенции дата-инженера поможет онлайн-магистратура Нетологии и НИУ ВШЭ «Инженерия данных». За 2 года вы на практике изучите Python, Java, Scala, Kotlin и SQL, научитесь проектировать пайплайны и обрабатывать данные, работать с системами хранения данных и базами данных в облаке. Программа даёт широкий простор для переквалификации, поэтому после учёбы сможете перейти в MLOps, DevOps или менеджмент. Онлайн-формат позволяет учиться без отрыва от привычной жизни и совмещать занятия с работой. При этом у вас будет отсрочка от армии, льготы на проезд и все остальные бонусы очного обучения. Станьте магистром программной инженерии с дипломом одного из лучших вузов страны и получите веское преимущество при приёме на работу: https://netolo.gy/ekal 🎁 В этом году при поступлении на программу вы получаете курс по ещё одной IT-профессии в подарок — отличная возможность расширить свой профиль и усилить CV. Реклама. ООО "Нетология". ИНН 7726464125. Erid: 2VSb5z9sojP