Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 150 名订阅者,在 技术与应用 类别中位列第 2 679,并在 俄罗斯 地区排名第 12 559 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 150 名订阅者。
根据 13 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 -42,过去 24 小时变化为 -11,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.83%。内容发布后 24 小时内通常能获得 5.66% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 426 次浏览,首日通常累积 2 839 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 30。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 15 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 150
订阅者
-1124 小时
-597 天
-4230 天
帖子存档
+1
✂️ НОВОСТЬ: Вышел Grok 4 Fast (ранний доступ, бета)
И название себя оправдывает — молниеносно быстрый.
Бету можно включить прямо сейчас:
Настройки → Подписка → Включить ранний доступ к моделям
⚡️ Главный апдейт — скорость, которая делает Grok 4 отличеным выбором для задач с большим количеством вычислений.
@data_analysis_ml
+5
Эра 1-битных LLM наступила 🫥
🔹 DeepSeek-V3.1, квантованный всего до 1-бита или 3-бит, обошёл Claude Opus 4 и GPT-4.5.
🔹 Unsloth GGUF смог сжать DeepSeek-V3.1 на 75%, при этом модель превзошла топовых конкурентов в бенчмарке Aider Polyglot.
🟠Подробности: https://docs.unsloth.ai/new/unsloth-dynamic-ggufs-on-aider-polyglot
@data_analysis_ml
🚀 MobileLLM-R1 на Hugging Face
Это новая компактная модель для reasoning-задач (рассуждений), которая весит меньше 1B параметров и оптимизирована для запуска на edge-устройствах.
Почему это важно:
- Производительность:
• Решает задачи MATH почти в 5 раз точнее, чем Olmo-1.24B
• В 2 раза точнее, чем SmolLM2-1.7B
- Эффективность обучения:
• Модель обучалась всего на 4.2 триллионах токенов (это примерно 1/10 от Qwen3)
• Несмотря на это, показывает такие же или лучшие результаты, чем Qwen3, на ряде тестов по рассуждениям
MobileLLM-R1 показывает, что даже очень маленькая модель может быть умной и эффективной, если её правильно обучить.
https://huggingface.co/facebook/MobileLLM-R1-950M
Если Ctrl+Z не помогает…
Значит, пора искать команду, где гипотезы проверяются на реальных данных, а результаты влияют на миллионы пользователей.
В Сбере именно так — и это видно даже в поздравительном видео, которое подготовили будущие коллеги.
Вакансии ждут вас здесь.
А кодовый бонус прилагается: team.congratulate("С Днём программиста! 💚")
🔥 Новинка от S-Lab, Nanyang Technological University и SenseTime Research: Next Visual Granularity Generation (NVG)!
🖼️ Новый фреймворк поэтапно улучшает изображение — от общего макета до мельчайших деталей, позволяя получить тонкий контроль над процессом генерации.
📊 Результаты впечатляют: NVG превзошёл серию VAR по метрикам FID!
huggingface.co/papers/2508.12811
Поздравляем, вы на 1 шаг ближе к работе мечты 🥳
Осталось только прочитать этот пост, подписаться на канал и откликнуться на вакансию 😉
Avito Career — место, где Авито делится актуальными вакансиями и стажировками для Go-разработчиков.
Подписывайтесь, чтобы найти ту самую работу ✨
🚀 Новый релиз: Smart Turn v3
🎙️ Это модель, которая понимает, когда человек закончил говорить и ждёт ответа от голосового ассистента.
⚡ Особенности:
- Работает супербыстро: <60мс на обычном CPU, <10мс на GPU
- Поддержка 23 языков (можно добавлять новые через сообщество)
- Полностью открытая: данные, код, обучение
- Бесплатно использовать даже на CPU
🛠️ Уже доступна в @pipecat_ai 0.0.85 и на Pipecat Cloud.
🔥 Голосовой AI становится всё умнее — теперь ассистенты будут отвечать ещё естественнее!
🟢Blog: https://daily.co/blog/announcing-smart-turn-v3-with-cpu-inference-in-just-12ms/
🟢GitHub: https://github.com/pipecat-ai/smart-turn/
🚀 Оптимизация обновления весов моделей в LLM
Checkpoint Engine — это легковесное промежуточное ПО для обновления весов в LLM во время инференса, критически важное для обучения с подкреплением. Оно обеспечивает быстрые и эффективные методы обновления весов, позволяя обрабатывать модели с триллионом параметров за считанные секунды.
🚀 Основные моменты:
- Поддержка двух методов обновления: Broadcast и P2P.
- Эффективная передача данных с использованием CUDA IPC.
- Оптимизированный процесс передачи с учетом шардирования.
- Подходит для работы с большими моделями на множестве GPU.
📌 GitHub: https://github.com/MoonshotAI/checkpoint-engine
🚨 Китай выкатил мощнейшую новинку в AI-редактировании изображений — и она обошла Google Nanobanana, став №1!
🔥 Bytedance Seedream 4 впечатляет:
- ⚡️ Генерация в 2K за <2 секунд, поддержка 4K (🍌 ограничен низким разрешением)
- 🎨 Более свободная политика генераций
- 🖼️ Можно создавать сразу несколько картинок в одном сете
- 🎯 Намного стабильнее: 🍌 часто просто возвращает исходное изображение
💰 Цена — всего $0.03 за генерацию.
Идеально подходит для сторибордов к фильмам и фотореалистичных сцен.
Гонка в AI-генерации картинок выходит на новый уровень! 🚀
https://fal.ai/models/fal-ai/bytedance/seedream/v4/edit
⚡️ На чистом SQL запустили легендарный DOOM — прямо внутри базы данных CedarDB!
Игра не просто работает, а поддерживает многопользовательский режим, отрисовывая всё с помощью ASCII-графики.
Каждый компонент — от рендера до синхронизации игроков — написан исключительно на SQL-запросах.
🎮 GitHub для настоящих ценителей извращённого кода: https://github.com/cedardb/DOOMQL
💰Perplexity привлекла $200M при оценке в $20B.
Это произошло всего через два месяца после предыдущего раунда в $100M при оценке $18B. Общий объём инвестиций приближается к $1.5B.
📊 Выручка (ARR) уже почти $200M (месяц назад была $150M).
💡 Оценка в $20B при $200M ARR даёт мультипликатор ~100x - это возможно только при очень быстром росте и низком уровне оттока пользователей.
Perplexity выделяется тем, что отвечает на запросы с источниками и краткими сводками, заменяя «охоту за ссылками» на результат, сгенерированный моделью.
Но такой дизайн требует больших вычислительных мощностей: каждый запрос запускает веб-поиск, инференс LLM и генерацию ответа в реальном времени.
Источник: https://techcrunch.com/2025/09/10/perplexity-reportedly-raised-200m-at-20b-valuation/
#AI #Perplexity #Funding #Startups #LLM #Investments
😄 12 сентября смотрите онлайн-студию первой «Ночи музеев» в мире IT
В Яндексе придумали «Ночь музеев» в мире IT, а Сбер, Т-банк, Х5 и Lamoda поддержали идею и присоединились. Если вы не успели зарегистрироваться как офлайн-участник – подключайтесь онлайн.
🙌 Студия big tech night online будет работать 12 сентября с 18:00 до 21:00 по московскому времени.
Можно переключаться между двумя треками.
😛😝В софт-треке вас ждут:
– шоу для разработчиков со стендап-комиком Севой Ловкачёвым;
– обсуждение pet-проектов и изобретательства среди инженеров;
– юмор в борьбе со стрессами: мемы как способ выжить в бигтехе.
😋😛 В хард-треке:
– разберём, чем отличается бигтех в России и за рубежом: каких специалистов ищут компании, есть ли культурные отличия?
– поговорим с Маратом Мавлютовым – руководителем подразделения из Яндекса, разрабатывающего роботов-доставщиков;
– обсудим, как AI помогает разработчикам сейчас и как будет помогать в будущем.
😌 Регистрируйтесь и подключайтесь.
Реклама. ООО "Яндекс". ИНН 7736207543
🤖 Прорыв в наноботах
Учёные из Penn State сделали важный шаг к созданию настоящих наноботов.
🔬 С помощью нового микро-флюидного устройства они создали крошечные частицы, которые могут обмениваться сигналами и действовать вместе — как муравьи, оставляющие следы для других.
- Одна группа частиц двигалась по химическому градиенту и оставляла «след».
- Другая группа улавливала этот след и шла за ним.
👉 Это выглядит просто, но именно так закладывается основа программируемых роёв наноботов.
💡 Возможные применения:
- наночастицы находят опухоль и зовут другие с лекарством,
- мини-системы доставляют груз в нужную клетку,
- наноботы очищают организм от токсинов или восстанавливают повреждённые ткани.
Раньше учёные могли наблюдать за таким процессом всего несколько секунд. Теперь, с новым инструментом Penn State, поведение можно изучать минутами, что позволяет проводить более сложные эксперименты.
🌱 Вдохновение пришло из природы — у пчёл и муравьёв есть распределение ролей и совместная работа. Если частицы смогут делать то же самое, это приблизит нас к самоорганизующимся автономным наносистемам, которые могут изменить медицину и материалы.
Это пока ранняя стадия, но именно такие шаги строят фундамент для будущих роёв наноботов.
https://www.psu.edu/news/eberly-college-science/story/can-nanobots-play-follow-leader
⚡ Ускорение PyTorch-инференса на Apple-устройствах на 87% с помощью AI-сгенерированных Metal-ядр
В новом исследовании показано, как AI-модели автоматически генерируют оптимизированные GPU-ядра под Metal, которые ускоряют работу PyTorch на устройствах Apple.
📊 Результаты:
- В среднем прирост скорости - 87% на 215 модулях.
- Некоторые ядра работают в сотни раз быстрее базового уровня.
🟢 Как это работает:
- Используется agentic swarm-подход - несколько агентов генерируют и тестируют варианты ядер.
- В контекст добавляются CUDA-референсы и данные профилирования, что помогает создавать более эффективные ядра.
- Такой метод превосходит одиночные модели, генерирующие код без дополнительного контекста.
Fвтоматическая генерация GPU-ядер AI-моделями открывает путь к более быстрому и доступному инференсу прямо «из коробки» на Mac и iOS.
🔗 Подробности: https://gimletlabs.ai/blog/ai-generated-metal-kernels
📖 Новая работа ByteDance + Harvard: *Mycroft: Tracing Dependencies in Collective Communication Towards Reliable LLM Training*
Mycroft - система, которая помогает понять, почему обучение LLM на кластере GPU тормозит или падает.
🚧 Проблема
При распределённом обучении сотни GPU постоянно обмениваются данными через библиотеку NCCL. Она работает как «чёрный ящик»: при сбое видно только таймауты или падение скорости, но непонятно, где именно сбой.
🛠 Решение — Mycroft
- «Подглядывает» внутрь процесса обмена данными
- Каждые 100 мс пишет лёгкие статусы: сколько данных подготовлено, отправлено и завершено
- Если прогресс застопорился → сразу сигнал
- Отслеживает зависимости между GPU и определяет: проблема в конкретной карте, сетевой карте или шине
⚡ Результаты
- В тестах на 32 GPU и в проде у ByteDance
- Находит сбой за ~**15 секунд**
- Указывает точный компонент за <**20 секунд**
- Нагрузка на обучение почти нулевая
🔗 https://arxiv.org/abs/2509.03018
#AI #LLM #GPU #DistributedTraining #ByteDance #Harvard
Ты: «Эх, вот бы кто-то научил анализировать данные, чтобы у меня было больше шансов поступить в вуз и начать карьеру…»
Яндекс Лицей: «Ок»
Запускаем новый набор для учащихся школ и колледжей на инстивный, трёхмесячный курс по анализу данных. Научим работать с Python не в теории, а на практике: верно анализировать, точно делать выводы и красиво показывать результаты.
Сделали такой онлайн-курс, чтобы мог пригодиться и в обучении, и в карьере. Поэтому:
1. Сделали упор на практику и только нужную теорию
2. Только те задачи, которые действительно решают в компаниях
3. Ввели командную разработку
Ну и финальное: после обучения получите именной сертификат. Он может помочь получить дополнительные баллы при поступлении в некоторых вузах.
Обучение в Яндекс Лицее бесплатно, но есть отбор. Он открыт до 23 сентября. Вся программа, подробности и регистрация на новый поток по ссылке.
🚀 NVIDIA представила Rubin CPX — новый класс GPU для inference с огромным контекстом
🔑 Что интересно
- Rubin CPX — специализированный GPU для обработки контекста размером до миллиона токенов (код, видео, длинные последовательности).
- Интеграция в платформу Vera Rubin NVL144 CPX:
- До 8 экзафлопс вычислений ИИ
- 100 ТБ быстрой памяти
- 1,7 ПБ/с пропускной способности
- Превосходит GB300 NVL72 по производительности на 7,5×.
- Характеристики:
- 30 PFLOPS вычислений в NVFP4
- 128 ГБ GDDR7 памяти
- 3× ускоренные attention-механизмы для длинного контекста
- Поддержка всего AI-стека NVIDIA: Dynamo, Nemotron, CUDA-X, AI Enterprise.
- Выход ожидается в конце 2026 года.
📌 Зачем это важно
- Масштаб контекста до миллиона токенов открывает новые горизонты в кодогенерации и видео-ИИ.
- Уникальная комбинация памяти и вычислений делает возможным реальный SOTA-инференс для задач с длинной «памятью».
- Уже интерес вызывает у таких игроков, как Cursor (AI-редактор кода), Runway (видео-генерация) и Magic (модели-агенты).
🧭 Итог
Rubin CPX задаёт новый стандарт для аппаратной архитектуры в AI.
Это фундамент для моделей, которые смогут полноценно работать с огромными контекстами, не теряя деталей и качества.
https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference
💾 Зачем нужен Delta Lake, если есть Parquet
Обычный Parquet хранит только одно состояние таблицы.
Если вы сохранили отфильтрованный DataFrame, то старые данные исчезли навсегда.
❌ Отката (rollback) нет → потеряли 10 000 строк, осталось только 3 500.
⚡ Delta Lake работает иначе:
- каждый раз создаётся новая версия данных
- можно вернуться к любой версии в прошлом
- данные всегда под контролем и без потерь
📌 Пример:
- Parquet → фильтр → оригинал стёрт
- Delta Lake → версия 0 (10 000 строк) + версия 1 (3 500 строк) → всегда можно вернуться к версии 0
✅ Итог: с Delta Lake данные становятся версионируемыми и надёжными.
#datalake #parquet #bigdata #delta
⚡️ DeepCode — открытая AI-платформу для автоматической генерации кода.
DeepCode превращает научные статьи и технические документы в готовые проекты, включая фронтенд, бэкенд и полноценные репозитории.
🔹 Основные возможности:
• Paper2Code — реализация идей из исследований в рабочий код
• Text2Web — генерация интерфейсов по описанию
• Text2Backend — автоматическое создание масштабируемых серверов
• Поддержка длинных документов и многофайловых проектов
🔜 В ближайшее время разработчики обещают:
• Автоматическую проверку и валидацию кода
• Повышение скорости генерации
• Улучшенную работу с требованиями
• Бенчмарки воспроизведения научных статей (PaperBench)
Проект полностью open source: https://github.com/HKUDS/DeepCode
#deepcode #AI #coding
🛢 В мире, где данные — новая нефть, растёт спрос на дата-инженеров. Ведь именно они знают, как такую нефть добывать, обрабатывать и хранить. И пока компании осознают потребность в этих специалистах, конкуренция на рынке низкая, а зарплаты — высокие.
Освоить ключевые компетенции дата-инженера поможет онлайн-магистратура Нетологии и НИУ ВШЭ «Инженерия данных». За 2 года вы на практике изучите Python, Java, Scala, Kotlin и SQL, научитесь проектировать пайплайны и обрабатывать данные, работать с системами хранения данных и базами данных в облаке. Программа даёт широкий простор для переквалификации, поэтому после учёбы сможете перейти в MLOps, DevOps или менеджмент.
Онлайн-формат позволяет учиться без отрыва от привычной жизни и совмещать занятия с работой. При этом у вас будет отсрочка от армии, льготы на проезд и все остальные бонусы очного обучения.
Станьте магистром программной инженерии с дипломом одного из лучших вузов страны и получите веское преимущество при приёме на работу: https://netolo.gy
🎁 В этом году при поступлении на программу вы получаете курс по ещё одной IT-профессии в подарок — отличная возможность расширить свой профиль и усилить CV.
Реклама. ООО "Нетология". ИНН 7726464125. Erid: 2VSb5wgUXnq
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
