Анализ данных (Data analysis)

Kanalga Telegram’da o‘tish

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Ko'proq ko'rsatish

Tarmoq:Machinelearning Rossiya12 543 Texnologiyalar & Aralashmalar2 664...

📈 Telegram kanali Анализ данных (Data analysis) analitikasi

Анализ данных (Data analysis) (@data_analysis_ml) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 50 198 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 2 664-o'rinni va Rossiya mintaqasida 12 543-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 50 198 obunachiga ega bo‘ldi.

16 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni 14 ga, so‘nggi 24 soatda esa 19 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 8.92% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 6.20% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 4 479 marta ko‘riladi; birinchi sutkada odatda 3 114 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 32 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent llm, контекст, openai, архитектура, deepseek kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 17 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

50 198

Obunachilar

+1924 soatlar

+37 kunlar

+1430 kunlar

4 479

Post ko'rishlar

~ 3 11424 soatlar

~ 4 23148 soatlar

8.92%

Muloqot nisbati

~ 5

Kuniga postlar

Ads index

beta

Postlar arxiv

50 198

🔍 Основы A/B тестирования для выбора ML модели Узнайте, как правильно оценивать ML-модели с помощью A/B тестирования на практическом бесплатном вебинаре В прямом эфире обсудим: — Особенности выбора ML модели с точки зрения оценки ее качества — Как вычислять длительность A/B теста — Как интерпретировать результаты A/B тестирования 📅 Занятие пройдет 3 марта в 20:00 мск. Все участники вебинара получат скидку на курс «Специализация Machine Learning»: С нуля до Middle ML инженера (Data Scientist) за 11 месяцев! Успейте занять место на вебинаре: https://otus.pw/kw9k/?erid=2W5zFHQGKjn Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

50 198

✔️ Подтвержден выпуск Claude 3.7 Sonnet AWS Badrock готовятся разместить новую версию Sonnet 3.7, которая, скорее всего, будет анонсирована сегодня во время мероприятия Amazon. * Модель в настоящее время скрыта и не отображается в пользовательском интерфейсе Инсайдеры раскопали, что модель достигает SOTA в кодинге, агентных способностях, сложном рассуждении и генерации контента. Благодаря высокой производительности и контролю над скоростью работы, Claude 3.7 Sonnet заточена для реализации AI-агентов и комплексных AI-решений. Источник: https://archive.is/BkvLb @data_analysis_ml - подпистаться

50 198

🚀 Flashmla от deepeseek https://github.com/deepseek-ai/FlashMLA

50 198

🔥 MetaGPT — это фреймворк, который преобразует простое текстовое описание задачи в полный пакет проектной документации и кода! 🌟 Он моделирует работу IT-компании, назначая различные роли, такие как менеджер продукта, менеджер проекта, инженер и другие, каждому из которых соответствует агент на основе большой языковой модели. Эти агенты взаимодействуют друг с другом, следуя стандартизированным операционным процедурам (SOP), что позволяет эффективно разрабатывать сложные программные продукты. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

50 198

🚀 Как изменить свою жизнь и начать новую карьеру в сфере машинного обучения? На бесплатном практическом вебинаре по машинному обучению от онлайн-школы karpov courses можно узнать: — Кто такой ML-инженер простыми словами с реальными примерами задач; — Как понять, что вам подходит сфера машинного обучения; — Как стать специалистом в этой востребованной области и сколько реально зарабатывать на своем деле; — Зачем вообще бизнесу нужен ML? Узнайте, как развиваться от новичка до уровня senior, какие навыки нужны и КАК рисовать котиков на практике 🐾 При чем тут котики? Запишитесь на вебинар и узнай: https://clc.to/6-FUpQ

50 198

✔️ Qwen тизерят свой новый продукт, который они обещают выпустить сегодня Еле они написали, что теперь домен http://qwen.ai принадлежит их команде, а сервис Qwen chat теперь доступен по адресу https://chat.qwen.ai.

50 198

🪐 The cosmic distance ladder with Terence Tao, part 2 На канале 3Blue1Brown вышло новое видео. Видео посвящено объяснению концепции Шкала расстояний в астрономии, которая используется в астрономии для определения расстояний до планет, звёзд и далеких галактик. Основные моменты видео: Фундаментальные принципы: Рассматриваются основные принципы, лежащие в основе определения расстояния в космосе, включая использование параллакса, переменных звезд и других космологических стандартов. Примеры и иллюстрации: Лекция сопровождается практическими примерами и визуальными иллюстрациями, чтобы наглядно показать, как именно измеряются расстояния в астрономии. Вклад Terence Tao: Как второй выпуск цикла, видео, вероятно, развивает и углубляет темы, начатые в первой части, уделяя внимание математическим и физическим аспектам измерений, что делает их понятными даже для аудитории без специализированного образования. Таким образом, видео является образовательной лекцией, которая помогает понять, как современные методы астрономии позволяют определять огромные расстояния во Вселенной. ▪ Видео ▪ 1 часть @data_analysis_ml

50 198

🪐 The cosmic distance ladder with Terence Tao, part 2 На канале 3Blue1Brown вышло новое видео. Видео посвящено объяснению концепции Шкала расстояний в астрономии, которая используется в астрономии для определения расстояний до планет, звёзд и далеких галактик. Основные моменты видео: Фундаментальные принципы: Рассматриваются основные принципы, лежащие в основе определения расстояния в космосе, включая использование параллакса, переменных звезд и других космологических стандартов. Примеры и иллюстрации: Лекция сопровождается практическими примерами и визуальными иллюстрациями, чтобы наглядно показать, как именно измеряются расстояния в астрономии. Вклад Terence Tao: Как второй выпуск цикла, видео, вероятно, развивает и углубляет темы, начатые в первой части, уделяя внимание математическим и физическим аспектам измерений, что делает их понятными даже для аудитории без специализированного образования. Таким образом, видео является образовательной лекцией, которая помогает понять, как современные методы астрономии позволяют определять огромные расстояния во Вселенной. ▪ Видео ▪ 1 часть @data_analysis_ml

50 198

Repost from Machinelearning

🌟 Генерация изображений байесовскими методами. Исследователи из Мюнхенского университета предложили методику генерации изображений, основанную на байесовском выводе. Экспериментальная модель, которая получила название Bayesian Sample Inference (BSI), имитирует процесс постепенного уточнения данных: ее инференс начинается с «размытого» представления об изображении и последовательно корректируется с использованием шумовых измерений до финального результата. По заверениям авторов, их метод позволяет точнее воспроизводить распределение данных, чем классические решения на основе диффузии. BSI-модель стартует с априорного распределения, где начальная точность намеренно задаётся низкой — это эквивалентно «размытой картинке», покрывающей всё множество возможных изображений. На каждом шаге генерации, предиктор, построенный на U-Net или ViT, анализирует текущий промежуточный «результат» и генерирует оценку соответствия относительно "идеального" изображения, который, в свою очередь, участвует в пересчете среднего значения и точности для следующего шага генерации. Такой подход позволяет BSI-модели балансировать между имеющимися знаниями и новыми данными, избегая переобучения и сохраняя разнообразие генерации. Эксперименты выявили, что BSI сохраняет разнообразие сгенерированных образцов даже при малом числе шагов — это выгодно отличает её от аналогов, склонных к «повторяющимся» генерациям. BSI напрямую сравнивали с диффузионными VDM- и EDM-моделями и BFNs. Оказалось, что BSI-архитектура не только включает BFNs как частный случай, но и превосходит их в тестах на правдоподобие. Например, на наборах CIFAR10 и ImageNet BSI показала лучшие результаты, достигнув 2.64 (BFNs) и 3.22 (VDM) бит на измерение соответственно, но не смогла превзойти модели с точным расчетом правдоподобия (i-DODE). ▶️ Практическая реализация метода доступна в репозитории проекта на Github, где представлены инструменты для инференса, обучения и файнтюнинга. 📌Лицензирование: MIT License. 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #Bayesian #GenAI

50 198

🎆 20-секундный урок по созданию приложений с помощью Grok 3 и развертыванию на Hugging Face пример, показывающий приложение Gradio

50 198

⚡️ SigLIP2 – это семейство визуально-языковых энкодеров, разработанных для улучшенного семантического понимания, точного локализования объектов и извлечения плотных (dense) признаков из изображений . В основе его концепции лежит возможность проводить классификацию изображений без дополнительного обучения на конкретных объектах – так называемая zero-shot классификация. Это позволяет применять модель к новым задачам и доменам, где может не быть размеченных данных. Как работает инструмент? - Патчевое представление изображений: Изображение разбивается на небольшие участки (патчи), которые затем обрабатываются энкодером. Это позволяет модели эффективно извлекать пространственные признаки даже при изменении разрешения. - Совмещение текстовых и визуальных признаков: Модель обучена сопоставлять описания на естественном языке с визуальными объектами. Такой подход даёт возможность «понимания» изображения через текстовые описания, что особенно полезно в zero-shot сценариях. - Мульти-языковая поддержка: Благодаря обучению на данных на разных языках, SigLIP2 демонстрирует высокую эффективность в задачах, где требуется понимание многоязычных текстовых описаний. - Различные архитектурные варианты: Коллекция включает модели с различными размерами патчей (например, patch16 или patch32) и оптимизированными архитектурами (например, с динамическим разрешением или с использованием shape-optimized So-400m backbones). Это позволяет подобрать оптимальный вариант для конкретной задачи . За счёт плотного представления признаков, модель способна не только определять, что изображено на картинке, но и точно локализовать объекты внутри изображения. Примеры применения Системы безопасности и наблюдения: Автоматическая идентификация и локализация объектов в реальном времени. Мультимодальные поисковые системы: Улучшение результатов поиска за счёт объединения визуальных и текстовых данных. Мобильные приложения и AR: Интеграция возможностей классификации изображений без необходимости обучения модели на каждом устройстве. SigLIP2 – это мощный инструмент, который демонстрирует значительный прогресс в области визуально-языкового анализа. Его способность работать в режиме нулевого обучения, мульти-языковая поддержка и высокая точность извлечения признаков открывают новые горизонты для разработчиков и исследователей в области компьютерного зрения. Если вы ищете решение для задач, где требуется быстрая адаптация модели к новым данным и языкам, SigLIP2 может стать отличным выбором. https://huggingface.co/collections/google/siglip2-67b5dcef38c175486e240107

50 198

Repost from Machinelearning

⚡️ Evo-2: модель для генерации генома, которая знает все древо жизни. NVIDIA в соавторстве с Arc Institute опубликовали Evo-2, самую большую ИИ-модель для биологии, обученную на 9,3 трлн. пар ДНК из геномного атласа всех форм жизни. Можно считать, что это LLM, ориентированная на ДНК. Вместо текста Evo 2 генерирует геномные последовательности, читает и интерпретирует сложную ДНК, включая некодирующие регионы, которые обычно считаются неинформативными, генерирует целые хромосомы, новые геномы и предсказывает мутации, вызывающие заболевания, даже те, которые еще не изучены. Тем самым, можно утверждать, что ИИ переходит от описания биологии к ее проектированию. Это позволяет создавать синтетическую жизнь с нуля, программируемые белковые последовательности, потенциальные новые генные терапии и закладывает основу для моделирования целых клеток. Evo 2 делает биологию вычислительной дисциплиной. Evo-2 использует StripedHyena 2 - многогибридную модель, сочетающую различные типы операторов для баланса между качеством модели, эффективностью обучения и инференса. StripedHyena 2 опирается на комбинацию из 3 вариантов сверточных операторов, зависящих от входных данных, и механизма внимания. Она моделирует ДНК в нескольких масштабах, улавливая даже слабые взаимодействия, и автономно обучается таким характеристикам, как границы экзонов и интронов, сайты связывания транскрипционных факторов, без участия человека. Модель была обучена в два этапа (претрейн с контекстом 8192 и последующее обучение с увеличенным до 1 млн.) на датасете из 9,3 триллиона пар оснований бактерий, архей, эукариот и бактериофагов. Evo 2 обрабатывает до 1 млн. пар оснований в одном контекстном окне, умеет "держать в уме" целые хромосомы и может выявлять эволюционные закономерности, ранее не замеченные человеком. Evo-2 была протестирована на практических возможности генерации, создав синтетические дрожжевые хромосомы, митохондриальные геномы и минимальные бактериальные секвенции и продемонстрировала высокую производительность в задачах, связанных с вариациями генов, включая некодирующие и сплайсинговые варианты Проект полностью открыт: веса моделей, код и набор данных OpenGenome 2. Представлены два вида моделей: 🟢Evo 2 - 7B и 40B, обученные последовательности длиной до 1 млн; 🟠Evo 2 Base - 1B, 7B и 40B, обученные последовательности длиной 8192. 📌Лицензирование: Apache 2.0 License. 🟡Набор моделей 🟡Техотчет 🟡Датасет 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #Evo2 #NVIDIA

50 198

🔥 Unstract — это платформа, использующая большие языковые модели для преобразования неструктурированных документов в структурированные данные! Она позволяет пользователям без навыков программирования создавать API и ETL-процессы для обработки данных. 🔎 Основные компоненты Unstract: 🌟 Unstract SDK: фреймворк для разработки инструментов и приложений на платформе Unstract, включая модули для кэширования, взаимодействия с LLM, векторными базами данных и индексирования. 🌟 Unstract Python Client: клиентская библиотека на Python для взаимодействия с API Unstract, позволяющая интегрировать возможности платформы в сторонние приложения. 🌟 Unstract Adapters: пакет на Python, обеспечивающий настройку и подключение различных LLM, эмбеддингов и векторных баз данных к платформе Unstract. 🔐 Лицензия: AGPL-3.0 🖥 Github @data_analysis_ml

50 198

🔥 Уже этой весной состоится 5-я юбилейная конференция Data Fusion 2025. Не пропустите самое масштабное событие в сфере анализа данных и ИИ. 💻Специалисты по работе с ИИ и данными из бизнеса, науки и государства соберутся на одной площадке, чтобы вместе ответить на ключевые вопросы: — О чем говорят новейшие исследования в области ИИ в России и за рубежом? — Как готовить кадры в эру ИИ? — Как устроена экономика данных и какие отрасли будут ее драйверами? — В чем особенности применения технологий ИИ и ML в фарме, медицине, промышленности, нейробиологии? 📍Встречаемся 16-17 апреля в Технологическом кластере «Ломоносов» в Москве. Участие в конференции — бесплатное. Регистрация уже открыта – https://data-fusion.ru/ 🙌 Увидимся на Data Fusion 2025! #AI #ML #DataFusion #Конференция #IT #bigdata #datascience

50 198

🚀 AI от Sakana AI пишет оптимизированный код для CUDA-ядрер для ускорения ИИ! 🔑 Основное: AI CUDA Engineer — агентная система, которая автоматически создаёт высокооптимизированные CUDA-ядра, ускоряя операции машинного обучения в PyTorch в 10–100 раз. CUDA-программирование сложное, требует глубоких знаний и часто кажется "алхимией". Эта система упрощает задачу, используя эволюционные алгоритмы и LLMs. Уникальная идея — "Innovation Archive" (аналог "библиотеки навыков" из нашего проекта Voyager для Minecraft), где LLM сохраняет лучшие фрагменты кода, найденные в процессе эволюционного поиска. Это идеальный пример AutoML: максимальная отдача от вычислительных ресурсов, делая ИИ быстрее и эффективнее. Великолепная работа, Sakana AI! Также интересно, что NVIDIA параллельно работает над схожими исследованиями по улучшению CUDA-ядер с помощью мощных LLM. #AI #MachineLearning #CUDA #AutoML ▪Paper: https://pub.sakana.ai/ai-cuda-engineer/paper/ ▪Kernel Archive Webpage: https://pub.sakana.ai/ai-cuda-engineer/ ▪HuggingFace Dataset: https://huggingface.co/datasets/SakanaAI/AI-CUDA-Engineer-Archive @data_analysis_ml

50 198

📊 Arena Trend август 2024 г. - февраль 2025 г.: После нескольких падений и взлетов Deepseek ai в прошлом месяце, XAI вырывается вперед на вершину таблицы лидеров. Гонка ИИ продолжается! 📈

50 198

🔥 CAG (Cache-Augmented Generation) — подход для улучшения генерации текста большими языковыми моделями без необходимости в реальном времени извлекать внешние данные, как в Retrieval-Augmented Generation (RAG)! Вместо этого CAG использует предварительную загрузку всех необходимых данных в контекст модели, а также кеширование параметров для ускорения генерации и снижения сложности системы. 🌟 Преимущества CAG включают снижение задержек (за счет отказа от этапа извлечения), повышение надежности (минимизация ошибок извлечения) и упрощение архитектуры. Ограничения подхода связаны с длиной контекстного окна LLM и ограничениями по объему данных, которые могут быть загружены. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

50 198

Бесплатно приехать в топовый вуз, поучиться у IT-экспертов и познакомиться с единомышленниками — звучит как мечта? Тогда вам стоит подать заявку на весенний студкемп Яндекс Образования в ФПМИ МФТИ. Он пройдёт с 14 по 26 апреля и будет посвящён робототехнике и генеративному ИИ. В программе — лекции от экспертов, воркшопы, работа над проектами и вдохновляющая атмосфера. Студенты выпускного курса смогут поступить в магистратуру ФПМИ МФТИ, сдав на студкемпе вступительный экзамен. Участие, как и всегда, бесплатное. Каждому, кто пройдёт отбор, оплатят проезд и проживание. Успейте зарегистрироваться до 23 февраля.

50 198

✔️ Native Sparse Attention - революция в механизмах внимания от Deepseek. NSA (Natively Sparse Attention) — новый механизм внимания, предложенный на заменуFull Attention, который значительно ускоряет обработку длинных последовательностей текста без потери качества модели. NSA использует динамическую иерархическую стратегию, которая сочетает сжатие токенов на грубом уровне с точным отбором ключевых токенов. Это позволяет сохранить глобальное понимание контекста и локальную точность. NSA поддерживает сквозное обучение, совместим с GQA и MQA, что делает его пригодным не только для инференса, но и для обучения. Модели, обученные с использованием NSA показали 9х ускорение при прямом распространении и 6х при обратном для последовательностей длиной 64к токенов относительно Full Attention. В декодировании - 11х. arxiv.org

50 198

⚡️ Сudacodes от Maharshi-Pandya — это сборник примеров и демо-проектов для работы с NVIDIA CUDA, который будет полезен разработчикам, интересующимся параллельным программированием и ускорением вычислений на GPU. Что внутри и как работает: • Практические примеры: Код демонстрирует различные техники работы с CUDA, начиная с базовых примеров и заканчивая более сложными алгоритмами для параллельных вычислений. • Реализация на CUDA: Примеры написаны с использованием C/C++ и CUDA-расширений, что позволяет увидеть, как правильно организовывать код для выполнения задач на GPU. • Инструкции по сборке: В репозитории, как правило, присутствуют инструкции по компиляции с помощью NVCC и запуску примеров, что упрощает изучение и практическое применение технологий. Чем полезен для специалистов: • Это отличный ресурс для изучения принципов работы GPU и оптимизации вычислительных задач. • Примеры помогут разобраться в особенностях параллельного программирования и эффективного использования вычислительных ресурсов NVIDIA. • Подходит как для новичков, так и для опытных разработчиков, желающих улучшить навыки в области высокопроизводительных вычислений. Репозиторий станет незаменимым помощником для тех, кто хочет погрузиться в мир CUDA и освоить передовые методы ускорения вычислений на графических процессорах. git clone https://github.com/Maharshi-Pandya/cudacodes.git ▪ Github @data_analysis_ml