Анализ данных (Data analysis)

Открыть в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Больше

Сеть:Machinelearning Россия12 532 Технологии и приложения2 673...

📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 258 подписчиков, занимая 2 673 место в категории Технологии и приложения и 12 532 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 258 подписчиков.

Согласно последним данным от 19 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило 12, а за последние 24 часа — 11, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.88%. В первые 24 часа после публикации контент обычно набирает 6.13% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 4 458 просмотров. В течение первых суток публикация набирает 3 081 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 31.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Благодаря высокой частоте обновлений (последние данные получены 20 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

50 258

Подписчики

+1124 часа

+637 дней

+1230 день

4 458

Просмотры поста

~ 3 08124 часа

~ 4 01248 часов

8.88%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

50 257

⚡️ Этот инструмент RAG с открытым исходным кодом для работы с вашими документами в режиме чата в последние несколько дней занимает лидирующие позиции на Github - RAGUI с открытым исходным кодом для контроля качества инструмента - Поддерживает локальные Lms и API-провайдеров - Гибридный конвейер RAG с полнотекстовым и векторным поиском - Мультимодальность - Поддерживает Сложные рассуждения с декомпозицией вопросов - Настраиваемый пользовательский интерфейс, - Расширяемая архитектура ▪ Github

50 257

⚡️ WonderWorld — рендеринг 3D-сцен в реалтайме WonderWorld позволяет пользователю быстро генерировать 3D-сцены вокруг себя с помощью текстовых промптов и движения камеры. В качестве отправной точки WonderWorld принимает на вход 1 изображение и генерирует связанные с ним разнообразные 3D-сцены для создания виртуального мира. Генерация одной 3D-сцены занимает менее чем 10 секунд благодаря 2 моментам: во-первых, это оптимизация представления 3D-сцены, Fast Gaussian Surfels, а во-вторых, используется особый подход, позволяющий генерировать для каждой сцены только 1 вид, а не несколько, не создавая при этом больших дыр в восприятии этой сцены. 🟡 Страничка WonderWorld 🟡 Статья @data_analysis_ml

50 257

🌟 FLAN-T5 small — модель от Google для задач NLP Если кто знаком с моделью T5, то FLAN-T5 — это её улучшенная версия. При том же количестве параметров FLAN-T5 тонко настроена для 1000+ дополнительных задач NLP; при этом модель поддерживает большое количество языков. 🤗 Hugging Face 🟡 Arxiv @data_analysis_ml

50 257

Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней. Ближайшие Fast Track мероприятия: • 7-8 сентября — для аналитиков со знанием SQL и Python, офер за 2 дня в команды Маркета, Еды и Лавки. Зарегистрироваться

50 257

🌟 Action2Sound — модель для генерации звуков на основе видео от первого лица

python main.py --base configs/ldm/ego4dsounds.yaml -t --name audiocond --num-nodes 1 --gpus 0,1,2,3,4,5,6,7 --epoch 8 --scale_lr False --batch-size 90 --pretrained-model data/pretrained/av.pth --pool-patches max model.params.audio_cond_config.neighbor_audio_cond_prob=1 --audio-cond rand_neighbor

Action2Sound — это новый метод генерирования звуков на основе видео от первого лица; также этот метод позволяет учесть обстановку и создавать соответствующие фоновые звуки. В целом, Action2Sound — это первая работа, в которой сгенерированные звуки точно соответствуют наблюдаемому визуальному контенту. 🖥 GitHub 🟡 Arxiv @data_analysis_ml

50 257

Repost from Machinelearning

⚡️ Qwen2-VL: второе поколение VLM моделей от Alibaba Cloud. Qwen2-VL - это новая версия VLMs, основанная на Qwen2 в семействе моделей Qwen. По сравнению предыдущим поколением, Qwen2-VL обладает возможностями: 🟢Распознавание изображений с различным разрешением и соотношением сторон; 🟢VQA-понимание видеороликов продолжительностью более 20 минут с поддержкой диалога; 🟢Интеграция с носимыми устройствами (мобильный телефон, робот и т.д) в качестве агента управления; 🟢Мультиязычность внутри входных данных, например на изображениях или видео. 🟢Улучшенное распознавание объектов и предметов; 🟢Расширенные возможности в области математики и понимания программного кода. Набор Qwen2-VL состоит из трех основных моделей, две из которых публикуются в отrрытом доступе. Модель Qwen2-VL-72B доступна только по API: 🟠Qwen2-VL-72B; 🟢Qwen2-VL-7B-Instruct; 🟢Qwen2-VL-2B-Instruct, и их квантованные версии в форматах AWQ и GPTQ в разрядностях Int8 и Int4. Архитектура моделей. как и в прошлом поколении основана на ViT 600M и LLM Qwen2, но с добавлением двух ключевых модификаций: 🟠использование NDR (Naive Dynamic Resolution), который позволил обрабатывать входные данные любого разрешения, преобразуя их в динамическое количество визуальных токенов. Эта реализация максимально близка к имитации зрительного восприятия человека. 🟠технология Multimodal Rotary Position Embedding (M-ROPE). Благодаря деконструкции оригинального rotary embedding на три части, представляющие временную и пространственную информацию, M-ROPE дает возможность LLM одновременно захватывать 1D( текст ), 2D( визуал ) и 3D( видео ) информацию. ⚠️ Ограничения в возможностях и слабые стороны поколения состоят в том, что модели не умеют извлекать звук из видео, а их знания актуальны на июнь 2023 года. Кроме того, они не могут гарантировать полную точность при обработке сложных инструкций или сценариев. Модели относительно слабы в задачах, связанных со счетом, распознаванием символов и трехмерным пространственным восприятием. ▶️Использование и интеграция Qwen2-VL возможна с инструментами и на фреймворках: Transformers, vLLM, Llama-Factory, AutoGPTQ, AutoAWQ. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Набор моделей 🟡Demo 🟡Сообщество в Discord 🖥Github [ Stars: 59 | Issues: 3 | Forks: 2] @ai_machinelearning_big_data #AI #Qwen #ML #GPTQ #VLM #AWQ

50 257

🖥 dbt-core Громоздкие #SQL запросы трудно читать, понимать и поддерживать. С помощью dbt вы можете использовать функцию ref, чтобы разбить длинный SQL-запросы на более мелкие компоненты, делая их более читаемыми и удобными для обслуживания.


-- models/total_order_amount.sql
SELECT 
    order_id, 
    customer_id, 
    SUM(order_amount) AS total_amount
FROM
    raw_orders
GROUP BY order_id, customer_id

models/average_order_amount.sql:


-- models/average_order_amount.sql
SELECT 
    customer_id, 
    AVG(total_amount) AS avg_amount
FROM {{ ref('total_order_amount') }}
GROUP BY customer_id

▪ Github

50 257

NVIDIA только что выпустила NVEagle 🦅 Супер впечатляющая языковая модель vision language, которая доступна в версиях 7B, 13B и 13B, работает помощью кодеров MoE vision 💬 ▪Репозитории моделей: https://huggingface.co/collections/merve/nveagle-66d0705108582d73bb235c26 ▪Попробовать здесь: https://huggingface.co/spaces/NVEagle/Eagle-X5-13B-Chat @data_analysis_ml

50 257

Diffusers 0.30 это 🔥 Модели видео: CogVideoX-5B и Latte. Также SparseCtrl и FreeNoise для расширения/ управления Модели для генерации изображений: Flux, Aura Flow, Kolors, Lumina Также стабильный звук Наведение на нарушенное внимание https://github.com/huggingface/diffusers/releases @data_analysis_ml

50 257

ТОП-профессия у работодателей сразу после айтишников — аналитик Искусственный интеллект, большие данные, нейросети — самый сок технологий собрался в сфере аналитики и Data Science. При этом в профессию нередко идут бывшие «гуманитарии». Разобраться в сфере, направлениях, рабочих задачах и даже написать свой первый SQL-запрос можно на бесплатном курсе Нетологии «Профессии в аналитике: что выбрать». За 4 занятия вы узнаете: - Как работает наука о данных — что такое Big Data, искусственный интеллект, машинное обучение. - Какие инструменты используют аналитики, попробуете написать свой первый код. - Какие задачи решают разные специалисты, разберёте примеры. - Как стартовать в аналитике, даже с нуля. Обо всём этом простым языком расскажут преподаватели со стажем. Начните учиться бесплатно — https://netolo.gy/dqfl Реклама. ООО "Нетология". Erid 2VSb5x1REY8

50 257

🎮 Diffusion Models Are Real-Time Game Engines Google представляет GameNGen, первый игровой движок, полностью основанный на нейронном ренднринге, который позволяет взаимодействовать со сложным окружением в реальном времени с высоким качеством. GameNGen может интерактивно моделировать классическую игру DOOM со скоростью более 20 кадров в секунду на одном TPU. Предсказание следующего кадра достигает PSNR 29,4, На тестах дюди почти не отличают короткие ролики игры от роликов симуляции. GameNGen обучается в два этапа: (1) RL-агент учится играть в игру, и тренировочные сессии записываются, и (2) диффузионная модель обучается выдавать следующий кадр, основываясь на последовательности прошлых кадров и действий. ▪ статья: https://arxiv.org/abs/2408.14837 ▪ страница проекта: https://gamengen.github.io

50 257

Станьте востребованным системным или бизнес-аналитиком в IT с нуля в 2024, так ещё и со скидкой 15%. Акция действует до конца Августа! Прокачайте необходимые навыки на онлайн-курсе «Специализация системный аналитик и бизнес-аналитик» от OTUS. Курс рассчитан на людей без опыта в IT и начинающих специалистов. Программа дает комплексные практические знания, которые позволят без труда найти достойный оффер и приступить к работе! В конце обучения вас ждет практический интенсив, где под руководством опытного эксперта будет реализован полноценный проект, который можно включить в портфолио для будущего работодателя. Оставьте заявку прямо сейчас и получите скидку 10% при покупке курса, а по промокоду sabaspec5 ещё 5%. Доступна рассрочка на обучение! Оставить заявку: https://otus.pw/d1nO/ Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KD5rM

50 257

⚡️ Lazy Predict Дата Саентисты обычно тратят много времени на тестирование множества моделей. Lazy Predict позволяет быстро создавать прототипы и сравнивать несколько базовых моделей без написания большого количества кода или сложной настройки моделей.

pip install lazypredict

▪Github @data_analysis_ml

50 257

Как увеличить производительность DBaaS в 10 раз? Selectel запустил базы данных на выделенном облачном сервере — уникальный продукт, аналогов которому нет в России. Вы можете получите готовый к работе кластер облачных баз данных с изолированной на физическом уровне инфраструктурой. Новое решение позволит хранить и обрабатывать базы данных размером до 7 ТБ с производительностью до 1,5 млн IOPS. Преимущества DBaaS на выделенном облачном сервере: - Максимальная производительность. Увеличили производительность дисковой подсистемы DBaaS — до 1,5 млн IOPS, пропускную способность — до 7 000 МБ/с. - Экономическая выгода. В зависимости от конфигурации стоимость нового решения до 47% ниже стандартного DBaaS-сервиса. - Быстрый запуск. Не нужно самостоятельно подбирать железо, оптимизировать настройки и разворачивать CУБД. - Безопасность. Изоляция базы данных на уровне физического сервера. Услуга соответствует закону 152-ФЗ (УЗ-1), приказу ФСТЭК № 21, PCI DSS, ISO 27001, 27017, 27018. Разверните базу данных на выделенном облачном сервере: https://slc.tl/g3qe5 Реклама АО «Селектел». ИНН: 7810962785 Erid: 2VtzqxiGXUR

50 257

⚡️LayerPano3D - новый фреймворк для создания полноэкранной панорамной 3D-сцены из одного текстового запроса! ✨Проект: https://ys-imtech.github.io/projects/LayerPano3D/ ✨Статья: https://arxiv.org/abs/2408.13252 ✨Код: https://github.com/YS-IMTech/LayerPano3D @data_analysis_ml

50 257

Встречаемся 14 сентября на Practical ML Conf в Москве и онлайн! Machine learning, проверенный практикой* * Сгенерировано YandexGPT Главная конференция Яндекса по ML для экспертов: качественные технические доклады от ключевых инженеров, максимум пользы и знаний о практическом применении. Ключевые темы конференции: CV / NLP / Speech / RecSys / MLOps / Data science В числе спикеров: – Степан Комков — Яндекс Поиск, старший разработчик службы синтеза речи; – Дмитрий Антипов — Сбер, АБТ, тимлид разработки; – Виктор Плошихин — Yandex Cloud, руководитель ML-лаборатории в Yandex Platform Engineering. Во вдохновляющем футуристичном пространстве «Суперметалл» мы поговорим о кейсах, которые не найти в научных статьях, ведь когда они появятся — вы уже не сможете оказаться в числе визионеров. Ждём вас, чтобы заглянуть в будущее вместе — офлайн и онлайн. Реклама. ООО "Яндекс", ИНН 7736207543

50 257

🖥 Главные достижения человечества за 500 лет — учёные собрали все самые значимые изобретения с 1500 года в потрясающей инфографике. Здесь представлено буквально всё: от церковных колоколов до ChatGPT. Залипнуть на этом интерактивном ресурсе в отличном качестве можно здесь: https://calculatingempires.net/ @data_analysis_ml

50 257

💪Вам нужен надёжный API! 👉Узнайте как создавать надежные API с проверкой параметров запроса и валидацией сложных данных на бесплатном вебинаре онлайн-курса «Python Developer. Professional» - «FastAPI - валидация параметров запроса с помощью Pydantic»: регистрация На бесплатном вебинаре мы: - Рассмотрим, как FastAPI и Pydantic работают вместе для валидации данных; - Научимся создавать и использовать Pydantic модели для валидации параметров запроса; - Рассмотрим как валидировать сложные и вложенные структуры данных в запросах. Занятие будет полезно Python разработчикам, которым необходимо создавать надежные API с проверкой параметров запроса и валидацией сложных данных. 🤝Понравится урок — продолжите обучение на курсе по спеццене и даже в рассрочку! erid: LjN8K65FR

50 257

🌟 ProLLM: бенчмарк на компетентность языковых моделей в программировании. Разработчик и автор корпоративного code со-pilot Toqan и FinBERT pfgecnbk запустил публичный Leaderbord бенчмарка ProLLM, в котором языковые модели открытого и закрытого типа тестируются на выполнения различных задач в области программирования: 🟠сoding assistant, создание кода на 27 языках, включая R, ассемблер, haskell, delhi и ada; 🟠StackUnseen, вопросы и ответы из неопубликованных в датасетах данных Stack Overflow за последние 3 месяца; 🟠вызов функций, оценка способности LLM интерпретировать запросы и вызывать соответствующие функции с правильными параметрами; 🟠SQL Disambiguation (только на Португальском языке), оценка того, как тестируемая модель выявляет двусмысленность запроса SQL и определяет, когда требуется уточнение; 🟠извлечение сущностей (только на Польском языке), дает представление об общей эффективности извлечения сущностей и маркировки LLM на непопулярных языках. Помимо узкоспециализированных тестов, бенчмарк выполняет несколько общих тестов: Q&A Assistant, Summarization и LLM as a Judge. На сегодняшний день возможность самостоятельного тестирования моделей этим бенчмарком не реализована, но разработчики открыты для диалога в вопросе корпоративного применения своей системы оценки, с ними можно связаться через форму на сайте. Toqan ProLLM Leaderboard @ai_machinelearning_big_data #AI #LLM #ML #Benchmark