Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 192 名订阅者,在 技术与应用 类别中位列第 2 668,并在 俄罗斯 地区排名第 12 554 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 192 名订阅者。
根据 15 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 -8,过去 24 小时变化为 25,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.82%。内容发布后 24 小时内通常能获得 5.98% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 427 次浏览,首日通常累积 2 999 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 30。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 16 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 192
订阅者
+2524 小时
-287 天
-830 天
帖子存档
Хотите разбираться в Big Data так, как это делают специалисты Яндекса? Тогда присоединяйтесь к бесплатному интенсиву ШАДа Big DWH Week!
Вас ждёт 8 онлайн-занятий, на которых вы познакомитесь с YTsaurus — платформой для распределённого хранения и обработки данных. Вы разберётесь в её архитектуре и масштабировании, а также научитесь настраивать систему под свои задачи.
Интенсив открытый, поэтому зарегистрироваться может каждый. Однако интереснее всего программа будет тем, кто уже работает с данными: опытным бэкенд-разработчикам и разработчикам баз данных, инженерам и аналитикам данных, а также студентам технических направлений.
Регистрируйтесь до 25 апреля и прокачивайтесь в Big Data вместе с экспертами Яндекса и ШАДа! Все подробности — по ссылке.
Repost from Machinelearning
+1
🌟 Deep Cogito представила серию языковых моделей с открытым исходным кодом.
Deep Cogito выпустила семейство языковых моделей размером 3B, 8B, 14B, 32B и 70B параметров, которые уже доступны для загрузки.
По заявлению разработчиков, их модели превосходят аналогичные открытые решения от LLaMA, DeepSeek и Qwen в большинстве стандартных бенчмарков. Например, 70B-версия обходит новую 109B MoE-модель Llama 4, несмотря на меньший размер.
Все модели обучены с помощью метода Iterated Distillation and Amplification (IDA) — стратегии, которая сочетает итеративное самоулучшение и «сжатие» интеллекта для преодоления ограничений, накладываемых человеческим контролем.
Суть IDA проста: сначала модель «усиливает» свои способности, тратя больше вычислительных ресурсов на поиск решений через CoT, а затем «дистиллирует» эти улучшения в свои параметры. Такой цикл повторяется, создавая петлю обратной связи — каждая итерация делает модель умнее, а её мышление эффективнее. По словам команды, этот подход не только масштабируем, но и быстрее, чем RLHF.
Семейство поддерживает 2 режима работы: стандартный (прямой ответ) и «рефлексивный», где система сначала обдумывает запрос, как это реализовано в Claude 3.7. Они оптимизированы для программирования, вызова функций и агентских сценариев, но без акцента на CoT — разработчики считают, что короткие шаги эффективнее в реальных задачах.
Уже в ближайшие месяцы ожидаются версии на 109B, 400B и 671B параметров и вариации с MoE-архитектурой.
Модели доступны на Hugging Face, Ollama и через API Fireworks AI/Together AI.
@ai_machinelearning_big_data
✔️ LAM: Official Pytorch Implementation
LAM (Large Avatar Model) — это новая методика для восстановления анимируемой «Гауссовой» 3D-модели головы по одной-единственной фотографии.
В отличие от предыдущих подходов, которые либо требуют долгого обучения на видео, либо задействуют вспомогательные нейросети на этапе анимации и рендеринга, LAM позволяет получить готовую к анимации и модель визуализации головы за один проход сети, без дополнительной постобработки и внешних модулей.
В основе метода лежит генератор «гауссовых атрибутов» для канонического пространства, который использует ключевые точки FLAME (модель лица) в качестве запросов. Эти точки проходят через Транспортеров, взаимодействуя с многомасштабными признаками исходного изображения, чтобы точно определить параметры «Гауссовых» элементов модели.
Дальше 3D-модель головы анимируется стандартным Linear Blend Skinning (LBS) с корректирующими blendshape-функциями — как в оригинальной FLAME-модели — и может рендериться в реальном времени практически на любых устройствах, вплоть до мобильных телефонов.
Эксперименты показывают, что LAM превосходит существующие методы на ряде публичных бенчмарков, обеспечивая точное восстановление, высокую реалистичность анимации и удобную интеграцию в существующие конвейеры рендеринга.
▪ Github
▪ Project
@data_analysis_ml
⚡️Как Docker упрощает жизнь аналитиков и инженеров данных
Когда вы работаете с данными, анализируете их или строите модели машинного обучения, Docker позволяет сосредоточиться на самой работе, не отвлекаясь на настройку окружения.
На бесплатном вебинаре вы научитесь упаковывать приложения вместе со всеми зависимостями, избегать проблем с несовместимостью, а значит и повысите эффективность работы и сэкономите время на настройку окружения.
Что будем делать на вебинаре:
🟠Разберём основы Docker и как контейнеры упрощают работу;
🟠Выполним анализ данных, запустив Python прямо внутри контейнера;
🟠Автоматизируем окружение с помощью Docker Compose (Python + PostgreSQL);
🟠Настроим удобный доступ к результатам анализа;
🟠Организуем ускоренную обработку больших данных.
😶Зарегистрироваться на бесплатный вебинар
🔥 SmolVLM — маленький, но мощный мультимодальный прорыв.
Сегодня вышел технический отчёт о SmolVLM — ультра-компактной VLM-модели (всего 256M параметров), которая работает в менее чем 1 ГБ ОЗУ и обходит старые модели 80B, выпущенные полтора года назад!
📏 Контекст — это наше всё: Увеличение длины контекста с 2K до 16K дало +60% к качеству. Даже маленькие модели выигрывают от увелечения памяти.
🔬 SigLIP: меньше — лучше: Вместо классического 400M SigLIP авторы использовали базовую 80M версию — и получили тот же результат при 20% размера.
🧩 Pixel shuffling : Аggressive pixel shuffling помог сократить длину последовательностей в 16 раз без потери качества.
📍 Learnable positional tokens > raw tokens: В маленьких моделях обучаемые позиционные токены дали значительный прирост точности.
🎬 Спец-токены: Специальные "intro/outro" токены и системные промпты дали буст особенно для задач работы видео.
🧠 CoT — с умом: Слишком много Chain-of-Thought данных ухудшает результаты маленьких моделей. Меньше = умнее.
📽 Длиннее видео = лучше: Увеличение длины видео во время обучения улучшило понимание и изображений, и видео.
🚀 SmolVLM — это:
Три версии: 256M, 500M, 2.2B — каждая задаёт новую планку для low-resource inference.
Real-time inference на iPhone 15 — прямо с камеры, без серверов.
В браузере? Да! 40–80 токенов/сек — напрямую в вебе, без ухищрений.
📄 Подробности в репорте
#SmolVLM #EfficientAI #Multimodal #VLM #EdgeAI #SigLIP #AIonMobile
🔥 Вайб-кодинг — хайп или инструмент будущего?
Программирование с помощью ИИ-агентов — главный тех-тренд последних месяцев.
Одни говорят: «Это лучший опыт в моей жизни».
Другие: «Я только и делаю, что дебажу то, чего сам не писал».
Хочешь по-настоящему разобраться, как использовать ИИ ?
14 апреля в 17:00 — онлайн-лекция от Школы Высшей Математики.
📌 Спикеры: 👨🏫 Александр Лыков, к.ф.-м.н., руководитель ШВМ
🟡 Богдан Печёнкин, фаундер Vibe AI
Расскажут и покажут:
➖ Как внедрять Copilot, ChatGPT, Cursor и других агентов в работу уже сейчас
➖ Что агенты реально умеют (и где они сыпятся)
➖ Как ускорить разработку в 10 раз, не потеряв контроль над кодом
Не пропусти. Это будет 🔥
🗓 14 апреля, 17:00
📍 Онлайн
🟡 Регистрация
Реклама: ООО «Школа высшей математики»
ИНН: 9728100991 Erid: 2VtzqwE7sw7
Repost from Machinelearning
+1
📌 SPCT: масштабируемость моделей вознаграждения в реальном времени.
DeepSeek-AI и Университет Цинхуа опубликовали исследование о методе Self-Principled Critique Tuning (SPCT), который значительно повышает эффективность генеративных моделей вознаграждения (GRM) для больших языковых моделей. SPCT решает ключевую проблему RL-обучения — получение точных сигналов вознаграждения в условиях разных и неоднозначных задач, где нет четких правил или эталонов.
SPCT — это комбинация rejective fine-tuning и обучения с подкреплением на основе правил. Rejective fine-tuning учит модель генерировать принципы и критические оценки, адаптируясь к разным типам входных данных, а rule-based RL — оптимизирует процесс через систему поощрений, которая штрафует за ошибки в ранжировании ответов.
Это позволяет GRM самостоятельно создавать критерии оценки и точнее определять лучшие ответы в сложных сценариях, например, при работе с математическими задачами или этическими дилеммами.
Главное преимущество SPCT — масштабируемость инференса. Вместо увеличения размера модели авторы предлагают параллельно генерировать множество вариантов принципов и оценок, а затем агрегировать их через голосование. Чтобы фильтровать «шумные» варианты используется мета-модель вознаграждения, которая отбирает только качественные сэмплы.
По результатам тестов, DeepSeek-GRM с 27 млрд. параметров при 32 параллельных сэмплах превзошла 671B модель, демонстрируя, что вычислительные ресурсы можно эффективно распределять во время инференса, а не обучения.
Эксперименты на бенчмарках Reward Bench, PPE и RMB показали, что SPCT снижает предвзятость моделей. Например, в задачах на рассуждение точность выросла на 12%, а в оценке безопасности — на 9%. При этом метод сохраняет гибкость: одна и та же модель может оценивать одиночные ответы, пары или целые наборы, что критично для реальных приложений вроде чат-ботов или автономных систем.
К сожалению, идеальных решений не бывает и у метода есть существенное ограничение - GRM требуют больше вычислительных ресурсов, чем классические скалярные модели, а в узкоспециализированных областях (например, верификация кода) их точность пока уступает конкурентам.
🟡Arxiv
@ai_machinelearning_big_data
#AI #ML #LLM #GRM #DeepSeekAI
🕊️ Namsor - это ИИ для анализа имен собственных с лингвистическим интеллектом. Причем это не просто классификатор, а инструмент с глубоким пониманием культурных и лингвистических контекстов.
Проект удивляет точностью: он различает, является ли "Mercedes фамилией человека, названием города или автомобильным брендом, учитывая страну происхождения.
Технология особенно востребована в CRM-системах, соцсетях и базах данных, где критична корректная интерпретация имен.
🔗 Ссылка - *клик*
📊Бесплатный вебинар: «Построение эффективных дашбордов с помощью Power BI»
💡На вебинаре вы узнаете:
+ Как загрузить данные в Power BI Desktop из различных источников
+ Построение наглядных дашбордов для анализа данных
+ Интерактивные возможности в Power BI - взаимодействие с визуальными элементами
+ Применение базовых визуальных элементов и их настройка для лучшего понимания данных
+ На практике вместе построим дашборд в Power BI
❓Кому будет полезен вебинар:
- Аналитикам данных
- Маркетологам
- Продуктовым менеджерам
- Всем, кто хочет визуализировать данные для принятия решений
⏰16 апреля(среда) в 20:00 мск
Вебинар в рамках курса «BI-аналитика»
🎁После вебинара для вас активен промо-код со скидкой 5% до 18 мая: BI_04
👉Регистрация на вебинар: OTUS.RU
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
#реклама
О рекламодателе
🎥 Минутное видео по тексту? Новый подход к генерации от исследователей!
Генерация длинных видео — всё ещё вызов для ИИ. Self-attention не тянет по скорости, Mamba — по сложности сюжета. Но тут на сцену выходят TTT-слои (Test-Time Training) — и делают шаг вперёд.
🧠 В чём суть: — TTT-слои умеют использовать выразительные скрытые состояния, которые сами являются нейросетями.
— Их добавляют в уже обученный трансформер — и он начинает генерировать минутные видео по текстовому сценарию с плавным движением и логичной историей.
— Проверяли на мультстиле Tom & Jerry — и получили +34 Elo-балла в человеческой оценке по сравнению с Mamba 2 и другими сильными базовыми методами.
ИИ уже близок к тому, чтобы полностью воспроизводить стили старых мультфильмов или аниме. Это может кардинально изменить производство анимации — вместо создания вручную, студии смогут "дообучать" модель и просто писать сценарии.
Прикрепленное видео, было создано с помощью промпта и обучено на сотнях часов Тома и Джерри.
Вот его полный промпт.
⚠️ Да, пока есть артефакты и ограничения — модель на 5B параметров и только минутные ролики. Но подход уже выглядит перспективным.
Следим за развитием.
📌Demos: http://test-time-training.github.io/video-dit/
📌Paper: http://test-time-training.github.io/video-dit/assets/ttt_cvpr_2025.pdf
📌Github: https://github.com/test-time-training/ttt-video-dit
⚡️ Pydoll — это библиотека на Python, предназначенная для автоматизации браузеров на движке Chromium (Chrome и Microsoft Edge) без использования WebDriver.
Инструмент имитирует «реальные» действия пользователя и обеспечивает гибкость при работе с элементами интерфейса и сетевыми запросами.
🔗 Ключевые особенности
- Асинхронная автоматизация без WebDriver
- Позволяет обойтись без установки и настройки драйверов WebDriver, что упрощает процесс интеграции и обслуживания.
- Реализована на базе asyncio, поэтому поддерживает запуск нескольких задач одновременно.
- Обход Cloudflare Turnstile
- Имеется встроенный механизм для автоматического прохождения CAPTCHA:
- Синхронная блокировка (context manager), когда выполнение кода приостанавливается до момента решения задачи.
- Фоновый режим (non-blocking), когда автоматизация продолжает работу, пока CAPTCHA решается в фоне.
- Поддерживает «человеко-подобный» набор текста (имитация пауз, скорости).
- Распознаёт специальные клавиши и сочетания клавиш (нажатия SHIFT, CTRL, ALT и т.д.).
- Подключение к существующим сессиям
- Можно подсоединяться к уже запущенным экземплярам Chrome или Edge, что удобно для отладки или интеграции с имеющимися сессиями пользователя.
Благодаря отсутствию необходимости в WebDriver и возможности имитировать взаимодействие «как настоящий пользователь», Pydoll будет полезен в проектах, где требуется гибкая и реалистичная автоматизация.
📌 Github
@data_analysis_ml
Когда потратил 3 часа на отладку сгенерированного кода, который написал бы за час.
@data_analysis_ml
😈 AnimeGamer — это модель, разработанная лабораторией ARC компании Tencent, предназначенная для создания бесконечных симуляций жизни в аниме-стиле.
Она использует мультимодальные большие модели (MLLMs) для генерации динамичных анимационных сцен, отображающих движения персонажей и изменения их состояний.
Учитывая исторический визуальный контекст, AnimeGamer обеспечивает последовательность и увлекательность игрового процесса.
Применяя мультимодальные представления, ориентированные на действия, и видеодиффузионную модель, AnimeGamer создает высококачественные видеоролики, формируя захватывающий и постоянно развивающийся игровой опыт.
https://huggingface.co/TencentARC/AnimeGamer
Repost from Искусственный интеллект. Высокие технологии
🎮 Microsoft представила нейро-версию Quake II на базе Muse и WHAMM.
Microsoft Research представила WHAMM — новую систему или технологию, предназначенную для моделирования окружающего мира в реальном времени, с особым акцентом на интерактивные среды.
Это означает, что WHAMM способна быстро создавать и постоянно обновлять цифровую 3D-модель физического пространства, учитывая изменения, которые происходят в нем, в том числе в результате взаимодействия пользователя или других динамических событий.
▪ ИИ генерирует кадры в реальном времени, анализируя действия игрока.
▪Старая WHAMM — 1 fps, новая — 10 fps при 640×360, почти играбельно.
Модель помнит последние 0,9 секунды, что добавляет случайности.
Ключевая особенность — система работает достаточно быстро, чтобы обновлять модель мира практически мгновенно по мере поступления новых данных от сенсоров (вероятно, камер, датчиков глубины и т.д.). Это критически важно для плавного взаимодействия.
🔗 Играть в ИИ-версию Quake II можно здесь.
@vistehno
#microsoft #ai #quake #muse
+2
📌 Как быстро запустить Llama 4 за 10 минут
Если вы хотите попробовать новую Llama 4 Scout (п вот краткое руководство:
▪ Вам нужна машина с четырьмя H100 на сервисе (пример под hyperbolic, вы можете арендовать в другом месте https://app.hyperbolic.xyz/compute)
▪ Подключитесь по SSH к серверу и запустите в терминале:
>> sudo apt-get update && sudo apt-get install -y python3-pip
>> pip install -U vllm
>> pip install -U "huggingface_hub[cli]"
▪ Запустите Llama 4 с помощью vllm:
>> vllm serve meta-llama/Llama-4-Scout-17B-16E-Instruct --tensor-parallel-size 4 --max-model-len 10000
▪ Проверьте работу модели, открыв новый терминал и выполнив запрос:
>> curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "meta-llama/Llama-4-Scout-17B-16E-Instruct",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "What can I do in SF?"}
]
}
Всего несколько команд и вы получите локально развернутую модель Llama 4 Scout и сможете работать с ней.Repost from Machinelearning
🦙 Встречайте, дамы и господа, LLaMA 4: мультимодальные MoE модели!
Llama 4 Omni разработана для понимания и обработки информации модальностей, а не только текста.
Доступна в 3х вариантах: Llama 4 Scout и Llama 4 Maverick, Llama 4 Behemoth.
У Llama 4 Scout (109B) контекстное окно размером 10 М, 17B активных параметров, 16 экспертов, может быть запущена на 1ом GPU!
Llama 4 Maverick (400B) окно в 1M, 128 экспертов, 17B активных параметров.
У Бегемота окно в 2T!!!, 16 экспертов, 288B активных параметров.
- Model Card
- Веса
- Релиз
@ai_machinelearning_big_data
Repost from Machinelearning
🦙 Встречайте, дамы и господа, LLaMA 4: мультимодальные MoE модели!
Llama 4 Omni разработана для понимания и обработки информации из различных модальностей, а не только текста.
Доступна в двух вариантах: Llama 4 Scout и Llama 4 Maverick.
У Llama 4 Scout Контекстное окно размером 10 М! Llama 4 Maverick 1M.
- Model Card
https://www.llama.com/llama4/
@ai_machinelearning_big_data
🔥 OpenThinker2-32B: превосходит DeepSeekR1-32B в математике и Кодинге.
OpenThinker2-32B набирает 76,7 баллов на AIME24, 90,8 на MATH500 и 64,1 на GPQA-D.
Он набрал 90,8 баллов по MATH500, обойдя R1-Distill-32B (90. 0) .
Это новый лидер на бенчмарке GPQA-D лидирует с результатом 64,1 по сравнению с R1-Distill-32B с результатом 65,8.
https://huggingface.co/bartowski/open-thoughts_OpenThinker2-32B-GGUF
@data_analysis_ml
Время протестировать CodeFest'15
31 мая и 1 июня в Новосибирске пройдет юбилейный CodeFest’15 — масштабная конференция для ИТ-специалистов. Приглашают тимлидов, проджектов, тестировщиков, фронтенд- и бэкенд-разработчиков, аналитиков, дизайнеров, техлидов и руководителей направлений.
На мероприятии можно обсудить тренды с другими профессионалами и перезагрузиться в неформальной обстановке. В программе:
— 10 потоков и 150+ докладов от топовых спикеров по направлениям от Backend до Web3;
— живые дискуссии в формате «квартирников»;
— нетворкинг с экспертами из разных компаний;
— кофе-брейки и грандиозная афтепати.
Больше информации — по ссылке
📌 FastRAG — фреймворк, предлагающий разработчикам современные инструменты для создания оптимизированных RAG-пайплайнов. Этот сервис, построенный на базе Haystack и Hugging Face, фокусируется на эффективном сочетании информационного поиска с генеративными возможностями LLM.
Фреймворк предоставляет готовые компоненты для работы с современными методами семантического поиска, оптимизированные под современные аппаратные ускорители, включая процессоры Intel Xeon и AI-акселераторы Gaudi.
При этом FastRAG активно развивается — от поддержки мультимодальности до примеров динамического синтеза промптов.
🤖 GitHub
@data_analysis_ml
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
