Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 258 名订阅者,在 技术与应用 类别中位列第 2 673,并在 俄罗斯 地区排名第 12 532 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 258 名订阅者。
根据 19 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 12,过去 24 小时变化为 11,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.88%。内容发布后 24 小时内通常能获得 6.13% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 458 次浏览,首日通常累积 3 081 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 31。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 20 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 258
订阅者
+1124 小时
+637 天
+1230 天
帖子存档
⚡️ Этот инструмент RAG с открытым исходным кодом для работы с вашими документами в режиме чата в последние несколько дней занимает лидирующие позиции на Github
- RAGUI с открытым исходным кодом для контроля качества инструмента
- Поддерживает локальные Lms и API-провайдеров
- Гибридный конвейер RAG с полнотекстовым и векторным поиском
- Мультимодальность
- Поддерживает Сложные рассуждения с декомпозицией вопросов
- Настраиваемый пользовательский
интерфейс,
- Расширяемая архитектура
▪ Github
⚡️ WonderWorld — рендеринг 3D-сцен в реалтайме
WonderWorld позволяет пользователю быстро генерировать 3D-сцены вокруг себя с помощью текстовых промптов и движения камеры.
В качестве отправной точки WonderWorld принимает на вход 1 изображение и генерирует связанные с ним разнообразные 3D-сцены для создания виртуального мира.
Генерация одной 3D-сцены занимает менее чем 10 секунд благодаря 2 моментам: во-первых, это оптимизация представления 3D-сцены, Fast Gaussian Surfels, а во-вторых, используется особый подход, позволяющий генерировать для каждой сцены только 1 вид, а не несколько, не создавая при этом больших дыр в восприятии этой сцены.
🟡 Страничка WonderWorld
🟡 Статья
@data_analysis_ml
+1
🌟 FLAN-T5 small — модель от Google для задач NLP
Если кто знаком с моделью T5, то FLAN-T5 — это её улучшенная версия.
При том же количестве параметров FLAN-T5 тонко настроена для 1000+ дополнительных задач NLP; при этом модель поддерживает большое количество языков.
🤗 Hugging Face
🟡 Arxiv
@data_analysis_ml
Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.
Ближайшие Fast Track мероприятия:
• 7-8 сентября — для аналитиков со знанием SQL и Python, офер за 2 дня в команды Маркета, Еды и Лавки.
Зарегистрироваться
🌟 Action2Sound — модель для генерации звуков на основе видео от первого лица
python main.py --base configs/ldm/ego4dsounds.yaml -t --name audiocond --num-nodes 1 --gpus 0,1,2,3,4,5,6,7 --epoch 8 --scale_lr False --batch-size 90 --pretrained-model data/pretrained/av.pth --pool-patches max model.params.audio_cond_config.neighbor_audio_cond_prob=1 --audio-cond rand_neighbor
Action2Sound — это новый метод генерирования звуков на основе видео от первого лица;
также этот метод позволяет учесть обстановку и создавать соответствующие фоновые звуки.
В целом, Action2Sound — это первая работа, в которой сгенерированные звуки точно соответствуют наблюдаемому визуальному контенту.
🖥 GitHub
🟡 Arxiv
@data_analysis_mlRepost from Machinelearning
+3
⚡️ Qwen2-VL: второе поколение VLM моделей от Alibaba Cloud.
Qwen2-VL - это новая версия VLMs, основанная на Qwen2 в семействе моделей Qwen. По сравнению предыдущим поколением, Qwen2-VL обладает возможностями:
🟢Распознавание изображений с различным разрешением и соотношением сторон;
🟢VQA-понимание видеороликов продолжительностью более 20 минут с поддержкой диалога;
🟢Интеграция с носимыми устройствами (мобильный телефон, робот и т.д) в качестве агента управления;
🟢Мультиязычность внутри входных данных, например на изображениях или видео.
🟢Улучшенное распознавание объектов и предметов;
🟢Расширенные возможности в области математики и понимания программного кода.
Набор Qwen2-VL состоит из трех основных моделей, две из которых публикуются в отrрытом доступе. Модель Qwen2-VL-72B доступна только по API:
🟠Qwen2-VL-72B;
🟢Qwen2-VL-7B-Instruct;
🟢Qwen2-VL-2B-Instruct,
и их квантованные версии в форматах AWQ и GPTQ в разрядностях Int8 и Int4.
Архитектура моделей. как и в прошлом поколении основана на ViT 600M и LLM Qwen2, но с добавлением двух ключевых модификаций:
🟠использование NDR (Naive Dynamic Resolution), который позволил обрабатывать входные данные любого разрешения, преобразуя их в динамическое количество визуальных токенов. Эта реализация максимально близка к имитации зрительного восприятия человека.
🟠технология Multimodal Rotary Position Embedding (M-ROPE). Благодаря деконструкции оригинального rotary embedding на три части, представляющие временную и пространственную информацию, M-ROPE дает возможность LLM одновременно захватывать 1D( текст ), 2D( визуал ) и 3D( видео ) информацию.
⚠️ Ограничения в возможностях и слабые стороны поколения состоят в том, что модели не умеют извлекать звук из видео, а их знания актуальны на июнь 2023 года.
Кроме того, они не могут гарантировать полную точность при обработке сложных инструкций или сценариев. Модели относительно слабы в задачах, связанных со счетом, распознаванием символов и трехмерным пространственным восприятием.
▶️Использование и интеграция Qwen2-VL возможна с инструментами и на фреймворках: Transformers, vLLM, Llama-Factory, AutoGPTQ, AutoAWQ.
📌Лицензирование: Apache 2.0 License.
🟡Страница проекта
🟡Набор моделей
🟡Demo
🟡Сообщество в Discord
🖥Github [ Stars: 59 | Issues: 3 | Forks: 2]
@ai_machinelearning_big_data
#AI #Qwen #ML #GPTQ #VLM #AWQ
🖥 dbt-core
Громоздкие #SQL запросы трудно читать, понимать и поддерживать.
С помощью dbt вы можете использовать функцию
ref, чтобы разбить длинный SQL-запросы на более мелкие компоненты, делая их более читаемыми и удобными для обслуживания.
-- models/total_order_amount.sql
SELECT
order_id,
customer_id,
SUM(order_amount) AS total_amount
FROM
raw_orders
GROUP BY order_id, customer_id
models/average_order_amount.sql:
-- models/average_order_amount.sql
SELECT
customer_id,
AVG(total_amount) AS avg_amount
FROM {{ ref('total_order_amount') }}
GROUP BY customer_id
▪ GithubNVIDIA только что выпустила NVEagle 🦅
Супер впечатляющая языковая модель vision language, которая доступна в версиях 7B, 13B и 13B, работает помощью кодеров MoE vision 💬
▪Репозитории моделей: https://huggingface.co/collections/merve/nveagle-66d0705108582d73bb235c26
▪Попробовать здесь: https://huggingface.co/spaces/NVEagle/Eagle-X5-13B-Chat
@data_analysis_ml
Diffusers 0.30 это 🔥
Модели видео: CogVideoX-5B и Latte. Также SparseCtrl и FreeNoise для расширения/ управления
Модели для генерации изображений: Flux, Aura Flow, Kolors, Lumina
Также стабильный звук
Наведение на нарушенное внимание
https://github.com/huggingface/diffusers/releases
@data_analysis_ml
Diffusers 0.30 это 🔥
Модели видео: CogVideoX-5B и Latte. Также SparseCtrl и FreeNoise для расширения/ управления
Модели для генерации изображений: Flux, Aura Flow, Kolors, Lumina
Также стабильный звук
Наведение на нарушенное внимание
https://github.com/huggingface/diffusers/releases
@data_analysis_ml
ТОП-профессия у работодателей сразу после айтишников — аналитик
Искусственный интеллект, большие данные, нейросети — самый сок технологий собрался в сфере аналитики и Data Science. При этом в профессию нередко идут бывшие «гуманитарии».
Разобраться в сфере, направлениях, рабочих задачах и даже написать свой первый SQL-запрос можно на бесплатном курсе Нетологии «Профессии в аналитике: что выбрать».
За 4 занятия вы узнаете:
- Как работает наука о данных — что такое Big Data, искусственный интеллект, машинное обучение.
- Какие инструменты используют аналитики, попробуете написать свой первый код.
- Какие задачи решают разные специалисты, разберёте примеры.
- Как стартовать в аналитике, даже с нуля.
Обо всём этом простым языком расскажут преподаватели со стажем. Начните учиться бесплатно — https://netolo.gy/dqfl
Реклама. ООО "Нетология". Erid 2VSb5x1REY8
🎮 Diffusion Models Are Real-Time Game Engines
Google представляет GameNGen, первый игровой движок, полностью основанный на нейронном ренднринге, который позволяет взаимодействовать со сложным окружением в реальном времени с высоким качеством.
GameNGen может интерактивно моделировать классическую игру DOOM со скоростью более 20 кадров в секунду на одном TPU.
Предсказание следующего кадра достигает PSNR 29,4,
На тестах дюди почти не отличают короткие ролики игры от роликов симуляции.
GameNGen обучается в два этапа: (1) RL-агент учится играть в игру, и тренировочные сессии записываются, и (2) диффузионная модель обучается выдавать следующий кадр, основываясь на последовательности прошлых кадров и действий.
▪ статья: https://arxiv.org/abs/2408.14837
▪ страница проекта: https://gamengen.github.io
Станьте востребованным системным или бизнес-аналитиком в IT с нуля в 2024, так ещё и со скидкой 15%. Акция действует до конца Августа!
Прокачайте необходимые навыки на онлайн-курсе «Специализация системный аналитик и бизнес-аналитик» от OTUS.
Курс рассчитан на людей без опыта в IT и начинающих специалистов. Программа дает комплексные практические знания, которые позволят без труда найти достойный оффер и приступить к работе!
В конце обучения вас ждет практический интенсив, где под руководством опытного эксперта будет реализован полноценный проект, который можно включить в портфолио для будущего работодателя.
Оставьте заявку прямо сейчас и получите скидку 10% при покупке курса, а по промокоду sabaspec5 ещё 5%. Доступна рассрочка на обучение!
Оставить заявку: https://otus.pw/d1nO/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KD5rM
⚡️ Lazy Predict
Дата Саентисты обычно тратят много времени на тестирование множества моделей.
Lazy Predict позволяет быстро создавать прототипы и сравнивать несколько базовых моделей без написания большого количества кода или сложной настройки моделей.
pip install lazypredict
▪Github
@data_analysis_mlКак увеличить производительность DBaaS в 10 раз?
Selectel запустил базы данных на выделенном облачном сервере — уникальный продукт, аналогов которому нет в России. Вы можете получите готовый к работе кластер облачных баз данных с изолированной на физическом уровне инфраструктурой. Новое решение позволит хранить и обрабатывать базы данных размером до 7 ТБ с производительностью до 1,5 млн IOPS.
Преимущества DBaaS на выделенном облачном сервере:
- Максимальная производительность. Увеличили производительность дисковой подсистемы DBaaS — до 1,5 млн IOPS, пропускную способность — до 7 000 МБ/с.
- Экономическая выгода. В зависимости от конфигурации стоимость нового решения до 47% ниже стандартного DBaaS-сервиса.
- Быстрый запуск. Не нужно самостоятельно подбирать железо, оптимизировать настройки и разворачивать CУБД.
- Безопасность. Изоляция базы данных на уровне физического сервера. Услуга соответствует закону 152-ФЗ (УЗ-1), приказу ФСТЭК № 21, PCI DSS, ISO 27001, 27017, 27018.
Разверните базу данных на выделенном облачном сервере: https://slc.tl/g3qe5
Реклама АО «Селектел». ИНН: 7810962785 Erid: 2VtzqxiGXUR
⚡️LayerPano3D - новый фреймворк для создания полноэкранной панорамной 3D-сцены из одного текстового запроса!
✨Проект: https://ys-imtech.github.io/projects/LayerPano3D/
✨Статья: https://arxiv.org/abs/2408.13252
✨Код: https://github.com/YS-IMTech/LayerPano3D
@data_analysis_ml
Встречаемся 14 сентября на Practical ML Conf в Москве и
онлайн!
Machine learning, проверенный практикой*
* Сгенерировано YandexGPT
Главная конференция Яндекса по ML для экспертов: качественные технические доклады от ключевых инженеров, максимум пользы и знаний о практическом применении.
Ключевые темы конференции:
CV / NLP / Speech / RecSys / MLOps / Data science
В числе спикеров:
– Степан Комков — Яндекс Поиск, старший разработчик службы синтеза речи;
– Дмитрий Антипов — Сбер, АБТ, тимлид разработки;
– Виктор Плошихин — Yandex Cloud, руководитель ML-лаборатории в Yandex Platform Engineering.
Во вдохновляющем футуристичном пространстве «Суперметалл» мы поговорим о кейсах, которые не найти в научных статьях, ведь когда они появятся — вы уже не сможете оказаться в числе визионеров.
Ждём вас, чтобы заглянуть в будущее вместе — офлайн и онлайн.
Реклама. ООО "Яндекс", ИНН 7736207543
🖥 Главные достижения человечества за 500 лет — учёные собрали все самые значимые изобретения с 1500 года в потрясающей инфографике.
Здесь представлено буквально всё: от церковных колоколов до ChatGPT.
Залипнуть на этом интерактивном ресурсе в отличном качестве можно здесь: https://calculatingempires.net/
@data_analysis_ml
💪Вам нужен надёжный API!
👉Узнайте как создавать надежные API с проверкой параметров запроса и валидацией сложных данных на бесплатном вебинаре онлайн-курса «Python Developer. Professional» - «FastAPI - валидация параметров запроса с помощью Pydantic»: регистрация
На бесплатном вебинаре мы:
- Рассмотрим, как FastAPI и Pydantic работают вместе для валидации данных;
- Научимся создавать и использовать Pydantic модели для валидации параметров запроса;
- Рассмотрим как валидировать сложные и вложенные структуры данных в запросах.
Занятие будет полезно Python разработчикам, которым необходимо создавать надежные API с проверкой параметров запроса и валидацией сложных данных.
🤝Понравится урок — продолжите обучение на курсе по спеццене и даже в рассрочку!
erid: LjN8K65FR
+1
🌟 ProLLM: бенчмарк на компетентность языковых моделей в программировании.
Разработчик и автор корпоративного code со-pilot Toqan и FinBERT pfgecnbk запустил публичный Leaderbord бенчмарка ProLLM, в котором языковые модели открытого и закрытого типа тестируются на выполнения различных задач в области программирования:
🟠сoding assistant, создание кода на 27 языках, включая R, ассемблер, haskell, delhi и ada;
🟠StackUnseen, вопросы и ответы из неопубликованных в датасетах данных Stack Overflow за последние 3 месяца;
🟠вызов функций, оценка способности LLM интерпретировать запросы и вызывать соответствующие функции с правильными параметрами;
🟠SQL Disambiguation (только на Португальском языке), оценка того, как тестируемая модель выявляет двусмысленность запроса SQL и определяет, когда требуется уточнение;
🟠извлечение сущностей (только на Польском языке), дает представление об общей эффективности извлечения сущностей и маркировки LLM на непопулярных языках.
Помимо узкоспециализированных тестов, бенчмарк выполняет несколько общих тестов: Q&A Assistant, Summarization и LLM as a Judge.
На сегодняшний день возможность самостоятельного тестирования моделей этим бенчмарком не реализована, но разработчики открыты для диалога в вопросе корпоративного применения своей системы оценки, с ними можно связаться через форму на сайте.
Toqan ProLLM Leaderboard
@ai_machinelearning_big_data
#AI #LLM #ML #Benchmark
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
