Анализ данных (Data analysis)

Open in Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Network:Machinelearning Russia12 559 Technologies & Applications2 679...

📈 Analytical overview of Telegram channel Анализ данных (Data analysis)

Channel Анализ данных (Data analysis) (@data_analysis_ml) in the Russian language segment is an active participant. Currently, the community unites 50 150 subscribers, ranking 2 679 in the Technologies & Applications category and 12 559 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 50 150 subscribers.

According to the latest data from 13 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -42 over the last 30 days and by -11 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 8.83%. Within the first 24 hours after publication, content typically collects 5.66% reactions from the total number of subscribers.
Post reach: On average, each post receives 4 426 views. Within the first day, a publication typically gains 2 839 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 30.
Thematic interests: Content is focused on key topics such as llm, контекст, openai, архитектура, deepseek.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Thanks to the high frequency of updates (latest data received on 15 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

50 150

Subscribers

-1124 hours

-597 days

-4230 days

4 426

Post views

~ 2 83924 hours

~ 3 39048 hours

8.83%

Engagement rate

~ 5

Posts per day

Ads index

beta

Posts Archive

50 152

🚀 Вышел репозиторий к книге "Production Ready Data Science" На GitHub выложили доступен полный код к книге — с примерами, датасетами и готовыми пайплайнами. 📘 В репозитории: • Отдельные папки по главам • Исполняемый код для каждого раздела • Настоящие датасеты для практики • Приёмы продакшн‑подготовки моделей Идеально, чтобы учиться на практике и закреплять й DS-навыки. 🔗 https://github.com/production-ready-data-science/repo

50 152

Repost from Machinelearning

✔️ Марк Цукерберг опубликовал открытое письмо: нас ждет "персональный сверхинтеллект". Глава техногиганта в своем обращении определил видение компании на ближайшее десятилетие. Центральное место в нем занимает концепция персонализированного ИИ-помощника, который будет доступен каждому. Цукерберг прямо противопоставил этот подход видению конкурентов, где сверхинтеллект централизованно автоматизирует всю работу, а человечество живет на его обеспечении. Сам Марк считает, что прогресс достигается через реализацию индивидуальных устремлений. Ключевым элементом этой экосистемы станут персональные устройства, в первую очередь очки, которые будут считывать контекст пользователя и станут основным вычислительным устройством. Цукерберг также отметил, что, несмотря на симпатию к open-source, компания будет более осмотрительно подходить к вопросам безопасности, решая, какие технологии можно делать открытыми. businessinsider.com ✔️ Google подпишет Кодекс по ИИ Евросоюза. Google объявила о своем намерении присоединиться к добровольному Кодексу по регулированию моделей ИИ общего назначения, предложенному Еврокомиссией. Таким образом, компания последует примеру других ключевых игроков рынка. Вместе с тем, в Google выразили обеспокоенность по поводу грядущего AI Act. По мнению компании, некоторые его положения, выходящие за рамки действующего законодательства об авторском праве, и потенциальные задержки в процессах утверждения могут замедлить развитие и внедрение ИИ в Европе. Компания также опасается, что ее могут вынудить раскрыть коммерческие тайны. blog.google ✔️ NEO: агентная система, которая полностью автоматизирует ML-разработку. Стартап WithNeo анонсировал NEO - мультиагентную ИИ-систему для автоматизации всего цикла разработки в машинном обучении. Платформа использует 11 специализированных агентов, которые без участия человека выполняют весь спектр задач: от очистки данных и выбора моделей до настройки гиперпараметров и вывода кода в продакшен. В WithNeo заявляют, что такой подход дает возможность просто описывать желаемый результат, а не писать код и связывать воедино разные компоненты. Инструмент позиционируется как следующий шаг в эволюции ИИ-ассистентов, превосходящий стандартные "копайлоты". В ходе ранних тестов система выбила медали в 34% соревнований на Kaggle. heyneo.so ✔️ DeepMind показала модель для создания цифрового двойника Земли. AlphaEarth Foundations, ИИ-модель от Google Deepmind, которая объединяет спутниковые данные (оптические, радарные, LiDAR) и климатическую информацию в единое цифровое представление планеты. По заявлению компании, система снижает количество ошибок на 23.9% и сжимает данные в 16 раз по сравнению с существующими методами, что удешевляет и ускоряет анализ массивов изображений. Модель генерирует поля эмбеддингов с разрешением 10 метров для каждого квадрата 10x10 метров на Земле. Это позволяет отслеживать вырубку лесов, состояние посевов и другие изменения почти в реальном времени. Набор данных Satellite Embedding доступен через платформу Google Earth Engine. Компания подчеркивает, что разрешение достаточно для экологического мониторинга, но не позволяет идентифицировать людей. deepmind.google ✔️ Ideogram научился генерировать персонажей с сохранением внешности. Ideogram AI выпустил модель Ideogram Character, решающую одну из главных проблем text-to-image систем - сохранение визуальной консистентности персонажа на разных изображениях. Новый инструмент позволяет поддерживать идентичность героя, используя всего одно референсное изображение. После этого пользователи могут генерировать того же персонажа в разных стилях, с разными эмоциями и при различном освещении без необходимости дообучения модели. Функция уже начала развертываться для всех пользователей. На бесплатном тарифе дают опробовать функцию 10 раз. Ideogram Character доступна как в веб-версии, так и в приложении для iOS. about.ideogram.ai @ai_machinelearning_big_data #news #ai #ml

50 152

📈 Пост, который вирусится на Reddit: Пользователь дал ChatGPT $100 и поручил вести портфель из американских микрокапов. 🤖 Через 4 недели — +23.8% Для сравнения: ▪️ Russell 2000: ~+3.9% ▪️ XBI (биотех ETF): ~+3.5% 🧠 Всё управление — через промпты и скрипты с GitHub. LLM против рынка… и, похоже, пока выигрывает? ⚠️ Конечно, это пока: — короткий период — очень маленькая выборка — высокая волатильность микрокапов Вот его промпт -

“ You are a professional-grade portfolio strategist. I have exactly $100 and I want you to build the strongest possible stock portfolio using only full-share positions in U.S.-listed micro-cap stocks (market cap under $300M). Your objective is to generate maximum return from today (6-27-25) to 6 months from now (12-27-25). This is your timeframe, you may not make any decisions after the end date. Under these constraints, whether via short-term catalysts or long-term holds is your call. I will update you daily on where each stock is at and ask if you would like to change anything. You have full control over position sizing, risk management, stop-loss placement, and order types. You may concentrate or diversify at will. Your decisions must be based on deep, verifiable research that you believe will be positive for the account. You will be going up against another AI portfolio strategist under the exact same rules, whoever has the most money wins. Now, use deep research and create your portfolio.”

Нужен глубокий анализ: Sharpe, волатильность, бэктесты. Но вопрос остаётся открытым — может ли LLM *действительно* обыгрывать рынок? 🔗 GitHub @data_analysis_ml

50 152

🚨 Anthropic близка к новому раунду инвестиций: от $3 до $5 миллиардов 💸 Оценка компании — $170 миллиардов 🤯 Anthropic - разработчик Claude, одного из самых продвинутых LLM на рынке. И, похоже, ставки становятся всё выше и выше... 📈 Гонка за AGI продолжается.

50 152

✔️ Higgs Audio: открытая платформа для обучения и экспериментов с аудио-LLM Higgs Audio от boson-ai — репозиторий для исследователей и разработчиков, которые хотят быстро собирать, обучать и тестировать аудио-модели: распознавание речи, аудио-вопрос-ответ, мультимодальные voice-агенты и кастомные эксперименты с эмбеддингами. Ключевые идеи • Единый каркас: структура проекта упрощает работу с датасетами, препроцессингом и запуском тренинга. • Гибкие конфиги: переключайте модели, размеры батча, аугментации и стратегии оптимизации через настраиваемые YAML/JSON-параметры. • Модульные блоки: энкодеры, декодеры, адаптеры подсказок (prompts) и head’ы задач можно комбинировать без переписывания ядра. • Быстрый старт: готовые скрипты для подготовки данных и запуска обучения на одной или нескольких GPU-нодах. • Экспериментальный playground: удобно пробовать fine-tune под вашу доменную акустику (подкасты, звонки, стримы, шумные датасеты). Типовые сценарии использования 1. Обучить небольшую модель распознавания речи на своём корпусе. 2. Создать voice-бота: аудио-ввод → текст → LLM → аудио-ответ. 3. Тонкая настройка эмбеддинг-модели для поиска по звуку (похожие сигналы, музыкальные фрагменты, события). 4. Исследования zero-shot / few-shot адаптации аудио-моделей под новые языки или акценты. https://github.com/boson-ai/higgs-audio

50 152

Российские эксперты по ИИ выступили на WAIC 2025 в Шанхае С 26 по 29 июля в Шанхае проходит World Artificial Intelligence Conference (WAIC) — одна из крупнейших мировых конференций по искусственному интеллекту. В этом году в программе впервые прошли сессии с участием российских учёных: 🔹 AI Journey — с докладами выступили представители науки и эксперты из России и Китая: Андрей Белевцев, Максим Ерёменко (Сбер), Иван Оселедец (AIRI). 🔹 AI Horizons — международная научная форсайт-сессия, организованная AI Alliance Network с участием российских и китайских AI-экспертов. На выставочном стенде AI Journey × AI Alliance Network были представлены новейшие российские разработки в области GenAI, включая языковые модели GigaChat, Kandinsky, SymFormer. ➡️ Подробнее — по ссылке.

50 152

I let the cursor cook, now I am cooked.

50 152

📊 Metabase Learn — лучший старт для изучения аналитики и дашбордов 🔥 Официальный обучающий портал от Metabase: от первых шагов до продвинутых сценариев с embedding и администрированием. Что внутри: ✅ Подключение БД и создание запросов без кода ✅ Визуализация данных, фильтры, метрики, дашборды ✅ SQL-гайды, объединение данных, отладка ✅ Встраивание аналитики в свои продукты через SDK ✅ Управление пользователями и масштабирование ✅ Бонус: советы по аналитике для команд и стартапов https://github.com/metabase/metabase

50 152

Архив, который не требует обслуживания ЭЛАРобот НСМ — долгосрочное хранение на оптических носителях. Решение, которое уже сегодня исключает из повестки: — замену накопителей — регулярную миграцию данных — риски утери и компрометации данных — избыточную инфраструктуру под "архив" Факты для расчёта: Срок хранения — 50+ лет 100% защита от перезаписи • 0 затрат на апгрейды и плановую замену носителей • ИИ для “умного” копирования данных • Отечественное производство 📉 HDD и SSD — постоянные вложения. 📈 ЭЛАРобот НСМ — актив с фиксированной стоимостью и предсказуемой нагрузкой. Решение уже доказало свою эффективность в задачах долговременного хранения в корпоративных и государственных системах. 👉 Запросить бесплатный расчет

50 152

🏅 Gemini 2.5 Pro на уровне золотой медали IMO 2025 Исследователи из UCLA показали, что открытая модель Gemini 2.5 Pro от Google способна решить 5 из 6 задач Международной математической олимпиады 2025 — это соответствует золотой медали среди участников‑людей. 📌 Как это сделали: — Использовали уже опубликованные задачи IMO 2025 — Дали минимальные подсказки (например: “попробуем решить через индукцию”) только для первых 2 задач — Построили итеративный цикл: генерация → критика → исправление, имитируя то, как думают и переписывают доказательства настоящие математики 🤖 Модель сначала генерирует черновики решений, затем сама их перечитывает, указывает на слабые места и переписывает до финального варианта. ⚠️ Модель не участвовала официально в IMO. Это эксперимент, показывающий, насколько далеко уже ушёл reasoning у LLM. 📎 Статья независимая, авторы — не из Google. https://github.com/lyang36/IMO25/blob/main/code/agent.py

50 152

Repost from Machinelearning

🌟 GLM-4.5 и GLM-4.5-Air: релиз гибридных моделей, заточенных под агентные задачи. В новом семействе GLM, Z.AI объединили в одной модели возможности для рассуждений, кодинга и агентных сценариев. Семейство построено на архитектуре MoE и может работать в двух режимах: thinking mode для сложных задач с использованием инструментов и non-thinking mode для быстрых ответов. 🟡В релиз вошли: 🟢GLM-4.5 с 355 млрд. общих параметров (32 млрд активных) и ее облегченная версия; 🟠GLM-4.5-Air, облегченная версия со 106 млрд. общих параметров (12 млрд активных). Интересно, что разработчики пошли по пути увеличения глубины модели (количества слоев), а не ширины (скрытого измерения), так как обнаружили, что модели с большим количеством слоев лучше справляются с рассуждениями. 🟡 Для эффективного RL таких крупных моделей был разработан и открыт собственный фреймворк slime. Он поддерживает как синхронное, так и асинхронное обучение, что критически важно для агентных задач. Его инфраструктура полностью разделяет движки для роллаутов (сбора опыта) и движки для обучения, которые могут работать на разном железе. 🟡Главный акцент GLM-4.5 - агентные возможности. Для их оценки использовались 3 бенчмарка. На TAU-bench модель GLM-4.5 показала результат в 70.1 балла, что практически идентично Claude 4 Sonnet (70.3) и заметно лучше, чем у o3 (61.2). На бенчмарке для вызова функций Berkeley Function Calling Leaderboard v3 результат составил 77.8, снова опережая Claude 4 Sonnet с ее 75.2 баллами. Но самый показательный результат был на BrowseComp, сложном тесте для веб-браузинга. В нем GLM-4.5 набрала 26.4, что выше, чем у Claude-4-Opus (18.8) и почти как у o4-mini-high (28.3). Что касается классических задач на рассуждения, здесь модели показывают уверенные, хотя и не рекордные, результаты. На MMLU Pro у GLM-4.5 84.6 балла, чуть меньше, чем у Claude 4 Opus (87.3) и Grok 4 (86.6). В математическом тесте AIME24 модель набрала 91.0, ближайшие лидеры Qwen3 и Grok 4 - 94.1 и 94.3 соответственно. На GPQA разрыв побольше: 79.1 у GLM-4.5 против 87.7 у Grok 4, а на сложном тесте по научной литературе HLE модель получила 14.4 балла, уступив Gemini 2.5 Pro (21.1) и Grok 4 (23.9). В задачах, связанных с кодом, на тесте SWE-bench Verified модель набрала 64.2 балла, немного уступая Claude 4 Sonnet (70.4) и o3 (69.1), но опережая многие другие. А вот в агентном кодинге, который оценивался людьми с помощью Claude Code, картина иная. В прямом сравнении GLM-4.5 выигрывает у Kimi K2 в 53.9% случаев и обходит Qwen3-Coder с винрейтом 80.8%. Самый важный показатель - успешность вызова инструментов, где GLM-4.5 достигла 90.6%, опередив Claude-4-Sonnet (89.5%) и Kimi-K2 (86.2%). 📌Лицензирование: MIT License. 🟡Страница проекта 🟡Набор моделей 🟡Demo 🟡Сообщество в Discord 🖥GitHub @ai_machinelearning_big_data #AI #ML #GLM #MoE #ZAI

50 152

E-CUP возвращается. Реальные данные. Масштабные проекты. Большие призы Решайте ML-задачи в стиле Ozon Tech и узнайте, как работают ML-инженеры в e-com бигтехе. Девять победителей разделят призовой фонд — 7 200 000 рублей 🔥 🗓 Регистрация: https://cnrlink.com/ecup25da 💻 Формат участия: онлайн 👥 Команда: от 1 до 5 человек 🎯 Для кого: Data Scientists, ML-специалисты, аналитики данных, дата-инженеры, специалисты Big Data и разработчики, которые интересуются ML/DS. Что вас ждёт: 🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России. 🔹 Обмен опытом с экспертами Ozon Tech. 🔹 Питчинг — 13 сентября на конференции E-CODE. Ozon Tech предоставит финалистам билеты и оплатит поездку. Каждый трек E-CUP — реальная e-com задача, как в настоящей продуктовой ML-команде. 1️⃣ Рекомендации: предсказание следующей покупки пользователя 2️⃣ Логистика: автопланирование курьеров 3️⃣ Контроль качества: автоматическое выявление поддельных товаров Регистрация на платформе Codenrock: https://cnrlink.com/ecup25da

50 152

🚨 GLM‑4.5 и GLM‑4.5‑Air от @Zai_org — открытые MoE‑модели, способные тягаться с Claude 4 Opus и обгоняющие Gemini 2.5 Pro. 🔹 GLM‑4.5: 355B параметров (32B активных) 🔹 GLM‑4.5‑Air: 106B параметров (12B активных) 🔹 Поддержка *128K контекста* + *function calling* 🔹 Два режима работы: 🧠 «Thinking mode» — для сложных задач ⚡ «Non-thinking mode» — для мгновенных ответов 📊 Бенчмарки: – AIME24: 91.0 (vs. Claude Opus — 75.7) – MATH 500: 98.2 (vs. GPT‑4.1 — 96.7) – GPQA: 79.1 (vs. Gemini 2.5 Pro — 84.4) – SWE‑bench: 64.2 (vs. Claude Sonnet — 70.4) – Terminal‑Bench: 37.5 (vs. Claude Opus — 43.2) 🧬 Архитектура: – MoE с балансирующим роутингом без потерь – Больше слоёв, меньше экспертов → глубже и «умнее» – GQA с Partial RoPE и 96 голов внимания – Обучена на 15T общих + 7T кода и reasoning‑токенов MIT‑лицензия 🔥 https://huggingface.co/zai-org/GLM-4.5 @data_analysis_ml

50 152

Хочешь знать, что происходит внутри ИТ крупного банка? Команда ПСБ рассказывает о работе и жизни в блоке ИТ! 🔹 Знакомься с командой, их проектами и хобби 🔹 Участвуй в активностях: митапы, конференции, спорт 🔹 Читай и комментируй экспертные статьи Подписывайся на канал ИТ ПСБ !

50 152

🎨 Встречайте Neta Lumina — самую продвинутую open-source модель для генерации аниме-артов! Это уже 4-я модель в линейке, и она впечатляет: 🔹 Точная настройка под 200+ аниме-стилей: от Guofeng и Furry до пейзажей и редких тем 🔹 Хорошая согласованность промптов, даже при длинных описаниях на естественном языке 🔹 Мультиязычная поддержка 🔥 Идеальный выбор для художников, аниматоров и фанатов генеративного арта. 🔹 Model on Hugging Face (Commercial use allowed):https://huggingface.co/neta-art/Neta-Lumina 🔹 Playground (Free to test):https://huggingface.co/spaces/neta-art/NetaLumina_T2I_Playground ⚙️ Supports ComfyUI, LoRA tutorial → https://docs.google.com/document/d/1fSp8wgraQeeaM58DVbnFoRULyyhPvt3MgY0Qja0Otc0/edit?tab=t.0 @data_analysis_ml

50 152

📚Знакомство с Pandas на примере разведочного анализа данных В проектах данные редко бывают идеальными: пропуски, дубликаты и аномалии могут искажать результаты анализа и снижать качество ML-моделей. 👩🏻‍💻 Программа вебинара: - Обработка пропусков - Удаление дубликатов - Поиск аномалий - Причины появления аномалий и способы их обработки 🎓 Вебинар буде полезен: - начинающим специалистам в области DS - тем кто работает с данными в электронных таблицах и хочет повысить объемы и скорость обработки данных ➡️ Ссылка для регистрации: https://tglink.io/33c047e23823?erid=2W5zFGdPEzt 💡 Урок проходит в рамках старта курса «Специализация Machine Learning» от Otus, где за 11 месяцев студенты проходят обучение с нуля до middle. Оставьте заявку на курс прямо сейчас, чтобы воспользоваться 10% скидкой на курс + 5% промокодом MachLearn_5 и учиться весь год по летним ценам! Условия актуальны до 31.07.2025г. #реклама О рекламодателе

50 152

✔️ Быстрый LoRA-инференс для моделей Flux с Diffusers и PEFT LoRA-модули давно стали стандартом для кастомизации моделей генерации изображений. Но большинство гайдов не показывают, как эффективно запускать *LoRA-инференс* в проде. Новая статья от команды HuggingFace раскрывает, как добиться ускорения LoRA-инференса на моделях семейства *Flux*. ⚡ Что в рецепте оптимизации: 1. torch.compile() — ускорение инференса на уровне графа 2. *Flash Attention 3* — если модель поддерживает 3. Динамическая *FP8-квантизация весов* — если совместимо с GPU 4. *Hotswapping LoRA* — смена адаптеров без полной перекомпиляции 🤯 📊 Тестировали на: — Flux.1-Dev — NVIDIA H100 и RTX 4090 — Ускорение минимум в 2 раза Подход в целом применим и к AMD‑GPU. 🔗 Читайте статью и смотрите код: https://huggingface.co/blog/lora-fast

50 152

🚀 *GSPO: Group Sequence Policy Optimization* — новый прорыв в RL-обучении больших языковых моделей! Что делает GSPO особенным: 🔹 Последовательностная оптимизация (sequence-level RL), строго согласованная с функцией награды 🔹 Высочайшая стабильность — даже на больших MoE-моделях, без коллапса 🔹 Без костылей вроде Routing Replay — обучение стало проще и чище 🔹 Легко масштабируется: больше вычислений = лучше результат ✅ 🔥 Используется в новых Qwen3 (Instruct, Coder, Thinking) 📉 Дает более чистые градиенты, быструю сходимость и меньшие требования к инфраструктуре по сравнению с GRPO 🧠 GSPO = стабильно, масштабируемо, идеально для продакшна. 📄 Статья: https://huggingface.co/papers/2507.18071

50 152

🎥 Pusa 1.0 — простой и быстрый способ превращать картинки в видео Это новая модель на основе Wan2.1-T2V-14B, специально обученная для задач image-to-video. По сравнению с предыдущей версией (Wan-I2V-14B), она показывает заметные улучшения: – Обучение обошлось всего в $500 (в 200 раз дешевле) – Генерация видео работает в 5 раз быстрее – Поддерживает задание начального и конечного кадра, продление видео и его «достраивание» Модель получилась компактной, дешёвой в обучении и удобной для реального использования. 📌 Идеально подойдёт для визуальных историй, коротких видео и экспериментов с генерацией. 🟢project page: https://yaofang-liu.github.io/Pusa_Web/ 🟢code: https://github.com/Yaofang-Liu/Pusa-VidGentd 🟢 model: https://huggingface.co/RaphaelLiu/PusaV1