Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 224 名订阅者,在 技术与应用 类别中位列第 2 666,并在 俄罗斯 地区排名第 12 538 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 224 名订阅者。
根据 18 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 10,过去 24 小时变化为 7,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.77%。内容发布后 24 小时内通常能获得 6.56% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 404 次浏览,首日通常累积 3 295 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 30。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 19 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 224
订阅者
+724 小时
+227 天
+1030 天
帖子存档
👍 EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation 🔥
Мощный и простой инструмент для генерации анимации человека по фото.
🌐page: https://antgroup.github.io/ai/echomimic_v2/
🧬code: https://github.com/antgroup/echomimic_v2
📄paper: https://arxiv.org/abs/2411.10061
@data_analysis_ml
🔍 Instructor — библиотека для работы с структурированными выходными данными из больших языковых моделей (LLM)!
🌟 Она написана на Python и предоставляет упрощённый интерфейс для управления потоками данных LLM. Она включает функции для валидации данных, обработки ошибок и управления ответами моделей.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
💥 Nvidia представили нового лидера в области создания 3D-моделей — Edify 3D AI.
Они обещают модели в разрешении 4K при 120 FPS, сетки с высокой детализацией геометрии, качественные текстуры и точные цвета альбедо (забавно, как они обозначили белый цвет).
Собственных моделей от Nvidia я пока не обнаружил, однако у них также есть нейросеть от Shutterstock, работающая по той же технологии.
📌 Смотреть
@data_analysis_ml
🔥 LTX-видео
новая модель преобразования текста в видео позволяет создавать потясающие видеоролики высокого качества.
5 секунд видео со скоростью 24 кадра в секунду при разрешении 768x512 пикселей всего за 4 секунды на Nvidia H100.
Открытый код и веса
https://huggingface.co/spaces/Lightricks/LTX-Video-Playground
@data_analysis_ml
+4
Alibaba только что выпустила Marco-o1
Marco-o1 основан на тонкой настройке цепочки (CoT), поиске по дереву Монте-Карло (MCTS), механизмах рефлексии и инновационных стратегиях рассуждения, оптимизированных для решения сложных задач в реальном мире.
Благодаря файнтюнингу Qwen2-7B-Instruct с использованием комбинации отфильтрованного набора данных Open-O1 CoT, набора данных Marco-o1 CoT и набора данных инструкций Marco-o1, Marco-o1 улучшил обработку сложных задач.
MCTS позволяет исследовать множество путей рассуждения, используя показатели достоверности, полученные на основе логарифмических вероятностей, применяемых softmax для топ-k альтернативных токенов, что приводит модель к оптимальным решениям.
Более того, такая стратегия обоснованных действий предполагает изменение степени детализации действий в рамках шагов и мини-шагов для оптимизации эффективности и точности поиска.
▪HF: https://huggingface.co/AIDC-AI/Marco-o1
▪Github: https://github.com/AIDC-AI/Marco-o1
▪Paper: https://arxiv.org/abs/2411.14405
▪Data: https://github.com/AIDC-AI/Marco-o1/tree/main/data
@machinelearning_ru
👩💻 mongoengine — Python-библиотека для работы с базами данных MongoDB, предоставляющая объектно-документный маппинг (ODM)!
🌟 Она позволяет разработчикам описывать документы в виде Python-классов с типизированными полями, делая работу с MongoDB удобной и похожей на использование ORM в реляционных базах.
🌟 Библиотека поддерживает валидацию данных, вложенные документы, связи между документами и удобные запросы через Python-методы. MongoEngine часто используется в проектах, где требуется сочетание гибкости MongoDB и строгой структуры данных.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
Сегодня не можешь найти стажировку. Завтра — открываешь с ноги дверь в топовые компании и претендуешь на зп выше рынка. Как так? Очень просто со знанием SQL.
Как работать с данными на профессиональном уровне, рассказывают на курсе Нетологии «SQL и получение данных». За 2 месяца вы узнаете, как создавать собственные базы данных, станете асом в создании сложных запросов и сможете с первого раза находить нужную информацию в огромных таблицах.
Всё обучение построено с упором на практику: вы выполните 6 работ, а в конце самостоятельно развернёте и проанализируете базу данных. Как минимум — будет повод похвастаться друзьям, как максимум — добавить новый скилл в резюме и получить крутую работу.
Регистрируйтесь
Реклама. ООО "Нетология". Erid 2VSb5wdWG72
🔥 Garak — инструмент от NVIDIA для автоматизированного тестирования безопасности и надежности крупных языковых моделей!
🌟 Он позволяет выявлять уязвимости, проблемы с устойчивостью и некорректные ответы моделей, применяя различные методики тестирования. Это помогает разработчикам и исследователям совершенствовать модели и повышать их качество.
🌟 Инструмент также поддерживает расширение функциональности: пользователи могут добавлять свои собственные тесты, создавая кастомные модули.
🔐 Лицензия: Apache-2.0
🖥 Github
@bigdatai
Repost from Machinelearning
+4
⚡️ SANA: Генерация изображений изображений высокого разрешения от Nvidia Labs.
Sana - семейство моделей для генерации изображений с разрешением до 4096x4096 пикселей. Главное преимущество Sana - высокая скорость инференса и низкие требования к ресурсам, модели можно запустить даже на ноутбуке.
Секрет эффективности Sana в ее архитектуре, которая состоит из нескольких инновационных компонентов:
🟢Deep Compression Autoencoder (DC-AE)
Сжимает изображение в 32 раза, в результате чего значительно сокращается число латентных токенов, что, в свою очередь, повышает эффективность обучения и позволяет генерировать изображения с разрешением 4K.
🟢Linear Diffusion Transformer (Linear DiT)
Использует линейное внимание вместо традиционного, ускоряя генерацию с разрешением 4K в 1.7 раза.
В Linear DiT вместо модуля MLP-FFN используется Mix-FFN, который объединяет в себе свертку 3x3 и Gated Linear Unit (GLU). Mix-FFN позволяет отказаться от позиционного кодирования без потери качества.
🟢Decoder-only Small LLM as Text Encoder
Энкодер, основанный на LLM Gemma, который лучше понимает текстовые запросы пользователя и точнее передает их смысл на генерации.
Для точного соответствия "текст - изображение" при обучении энкодера применялись "сложные человеческие инструкции" (CHI), которые научили Gemma учитывать контекст запроса.
Sana создавалась с помощью уникальной стратегии обучения и выборки. В процессе обучения используются несколько VLM (VILA, InternVL2) для создания различных аннотаций к каждому изображению. Затем, на основе CLIP-оценки, были отобраны наиболее подходящие пары "текст-изображение".
Обучение происходило постепенно, начиная с разрешения 512x512 и заканчивая 4096x4096, а алгоритм Flow-DPM-Solver ускорил процесс выборки, сократив количество шагов по сравнению с Flow-Euler-Solver.
Результаты тестирования Sana впечатляют:
🟠Sana-0.6B, работающая с изображениями 512x512, в 5 раз быстрее, чем PixArt-Σ, при этом показывает лучшие результаты по метрикам FID, Clip Score, GenEval и DPG-Bench.
🟠При разрешении 1024x1024 Sana-0.6B в 40 раз быстрее PixArt-Σ.
🟠Sana-0.6B превосходит по скорости Flux-12B в 39 раз при разрешении 1024x1024) и может быть запущена на ноутбуке с 16 GB VRAM, генерируя изображения 1024x1024 менее чем за секунду.
⚠️ Для локального инференса модели 0.6B требуется 9GB VRAM, а для модели 1.6B - 12GB VRAM.
▶️ Установка и инференс c GradioUI:
# official online demo
DEMO_PORT=15432 \
python app/app_sana.py \
--config=configs/sana_config/1024ms/Sana_1600M_img1024.yaml \
--model_path=hf://Efficient-Large-Model/Sana_1600M_1024px/checkpoints/Sana_1600M_1024px.pth
🟡Страница проекта
🟡Коллекция моделей на HF
🟡Arxiv
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #Diffusion #SANA #NVIDIA🔉 Новая модель на базе Whisper конкурирует с Nvidia в открытой таблице лидеров ASR! 🔥
Crisper Whisperer может расшифровать каждое произнесенное слово в точности так, как оно есть, включая вводные слова, паузы, заикания.
Слитно доработан по сравнению с версией Whisper Large V3.
🔗 Чекпоинты: https://huggingface.co/nyrahealth/CrisperWhisper
🔗 Лидерборд: https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
Умножаем любовь к математике, чтобы разделить ее с вами
ИТ-специалисты, слышали, скоро День математика?
1 декабря пройдут главные онлайн-события мероприятия: доклады от профессоров математики из МФТИ, ВШЭ и ЦУ и математический диктант. Хорошая возможность пообщаться с единомышленниками и просто классно провести время.
А пока ждете праздника, банк подготовил активности на весь месяц. Будут лекции и многое другое. Выбирайте на сайте, что нравится больше. И регистрируйтесь, чтобы ничего не пропустить
📝 LLM Graph Builder — инструмент для создания графов знаний на базе базы данных Neo4j, преобразуя неструктурированные данные (например, текстовые файлы, PDF-документы, видео с YouTube, веб-страницы) в структурированные графы!
🌟 Он использует возможности ИИ-моделей, от OpenAI и LangChain, для извлечения сущностей, их связей и атрибутов из данных.
🔍 Основные функции:
🌟 Генерация графов знаний на основе предоставленных данных.
🌟 Возможность работы с собственными схемами данных или готовыми шаблонами.
🌟 Просмотр графов через Neo4j Bloom и взаимодействие с ними с помощью запросов.
🌟 Интеграция с локальными файлами, S3, YouTube и другими источниками данных.
🔐 Лицензия: Apache-2.0
🖥 Github
@data_analysis_ml
🔥 Data Science и рок-концерт — Альфа-Банка зовёт на митап в гараже
🌟 22 ноября в Санкт-Петербурге пройдет офлайн-встреча для специалистов DS. На ней обсудят новые инструменты Data Science и кейсы их применения в работе. Например, в оптимизации доставки, работе с банкоматами и машинном обучении в подборе сотрудников. Будет 7 лекций, дискуссия с экспертами рынка и вечеринка с рок-группой в финале.
Адрес: ул. Газовая 10Ж, 2 этаж башни-газгольдера
Старт: 22 ноября в 18:00
Цена: бесплатно
🔗 Зарегистрироваться нужно заранее: https://alfa.me/-En1LR?channel=data_analysis_ml&erid=2Vtzqvh8Gkn
@data_analysis_ml
🖥 cuGraph — это библиотека от RAPIDS, которая предоставляет высокопроизводительные алгоритмы анализа графов, оптимизированные для работы на GPU!
🌟 Она интегрируется с другими инструментами RAPIDS, такими как cuDF (аналог Pandas для GPU) и cuML (машинное обучение на GPU), что упрощает обработку больших графов, включая создание, анализ и выполнение сложных операций, таких как PageRank, центральности, кластеризация и поиск связанных компонентов.
💡 Библиотека предлагает Python API с интерфейсом, похожим на NetworkX, и более низкоуровневые API для интеграции с C++/CUDA. Она поддерживает различные форматы данных, такие как DataFrames из cuDF, Pandas или объекты NetworkX, и позволяет работать с графами на многогранных GPU-кластерах. CuGraph активно используется для анализа больших графов в задачах, связанных с машинным обучением и обработкой данных в реальном времени.
🔐 Лицензия: Apache-2.0
🖥 Github
@data_analysis_ml
Вебинар «Анализируем транзакции в реальном времени»
Приходите на бесплатный вебинар и узнайте, как обрабатывать высокие транзакционные и аналитические нагрузки в гибридной in-memory СУБД.
Дата и время: 28 ноября, 16:00.
Программа
🔹 Ускорение аналитических расчетов и аналитика на самых свежих данных с помощью HTAP-систем.
🔹 Основные архитектурные характеристики гибридных транзакционно-аналитических СУБД (HTAP).
🔹 Повышение отказоустойчивости транзакционно-аналитических решений, настройка под разные профили нагрузки и интеграция с другими компонентами ИТ-ландшафта.
Проведем демонстрацию возможностей продукта Tarantool Column Store в работе с объектами и данными.
Расскажем, как формировать отчетность в реальном времени и рассчитывать агрегаты в антифрод-системах с помощью продукта Tarantool Column Store.
Вебинар будет полезен архитекторам, дата-инженерам, DevOps-инженерам и разработчикам аналитических систем.
Регистрируйтесь, и вам придет ссылка на трансляцию в день мероприятия.
Repost from Machinelearning
+2
🌟 Генеративные агенты: моделирование поведения 1000 человек.
Stanford University, Northwestern University и University of Washington, совместно с Google Deepmind, при участии социологов, разработали архитектуру, которая позволяет симулировать поведение более 1000 реальных людей с помощью LLM, обученных на транскрипции двухчасовых интервью с добровольцами-участниками.
Архитектура использует метод "экспертных размышлений", где LLM генерирует выводы о каждом участнике, принимая на себя роли различных специалистов социальных наук (психолога, экономиста, политолога, демографа).
Процесс создания агентов начинался со стратифицированного отбора 1052 участников, репрезентирующих население США по возрасту, полу, расе, региону, образованию и политическим взглядам. Масштабирование сбора данных проводилось агентом-интервьюером на основе GPT-4o, который динамически генерировал уточняющие вопросы, адаптируясь к ответам участников.
Оценка точности агентов проводилась с помощью сравнения их ответов с ответами реальных участников на вопросы из Общего социального опроса (GSS), опросника "Большая пятерка" (BFI-44), 5 экономических игр и 5 социальных экспериментов. Для учета непостоянства человеческого поведения точность агентов нормализовали с помощью сравнения с тем, насколько последовательно сами участники воспроизводили свои ответы через две недели.
Результаты оценки показали высокую точность прогнозирования агентов, обученных на интервью. Они смогли предсказать ответы на вопросы GSS с нормализованной точностью 0.85, а черты личности по BFI-44 - с нормализованной корреляцией 0.80. Использование интервью значительно повысило точность по сравнению с агентами, использующими только демографические данные или краткие описания личности.
В экспериментах агенты успешно воспроизвели 4 из 5 личностных особенностей, наблюдавшихся у реальных участников, а оценки размеров этих особенностей показали высокую корреляцию (r = 0.98).
Доступ к банку агентов двухуровневый:
🟢открытый доступ к агрегированным ответам на фиксированные задачи и репозиторий с кодом для воспроизведения
🟠ограниченный доступ к индивидуальным ответам на открытые задачи по запросу.
📌 Лицензирование: MIT License.
🟡Arxiv
🟡Dataset
🖥Github
@ai_machinelearning_big_data
#AI #ML #LLM #Agents #Social
Qwen2.5-Версия Turbo, которая включает:
📚 Поддержка расширенного контекста: Разработчики увеличили длину контекста модели со 128L до 1 М, что составляет примерно 1 миллион английских слов или 1,5 миллиона китайских иероглифов, что эквивалентно 10 крупным романам, 150 часам расшифровки речи или 30 000 строкам кода.
🚀 Более высокая скорость логического вывода: Используя механизмы разреженного внимания, разработчики успешно сократили время обработки контекста 1 млн токенов с 4,9 минут до 68 секунд, достигнув ускорения в 4,3 раза.
✅ Более низкая стоимость: При той же стоимости Qwen2.5-Turbo может обрабатывать в 3,6 раза больше токенов, чем GPT-4o-mini.
Теперь вы можете использовать его через API-сервис <url>.
➡ Alibaba Cloud Model Studio: https://help.aliyun.com/zh/model-studio/getting-started/what-is-model-studio,
➡ HF: https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
➡ Демо: https://modelscope.cn/studios/Qwen/Qwen2.5-Turbo-1M-Demo
@data_analysis_ml
Год назад здесь была реклама нового, но уже довольно любопытного курса по API. За год его автор, тимлид команды аналитиков Глеб Учитель, проделал огромную работу: на курс записалось более 900 человек. И сейчас его знают многие.
Если вы тоже хотите расти по хардам в IT —
добро пожаловать!
🔹🔹 🔹🔹
Начните с бесплатных уроков по архитектуре и интеграциям в чат-боте курса. Переходите и знакомьтесь.
👇
@studyit_help_bot
Скидка на курс от канала —
1 000₽ по промокоду MLDATA4 до конца ноября.
💼 PhySO | DL-регрессия для подбора функции
Инструмент, который использует глубокое обучение с подкреплением для подбора наиболее подходящей функции, описывающей заданные данные.
git clone https://github.com/WassimTenachi/PhySO
📌 Репозиторий
@data_math🔍 dstack — инструмент с открытым исходным кодом, предназначенный для упрощения работы с вычислительными нагрузками, требующими GPU! Основная цель проекта — сделать разработку, обучение и развертывание генеративных моделей ИИ более доступным и простым процессом, независимо от того, где они выполняются: в облаке или локально.
🔍 Основные особенности:
🌟 Альтернатива Kubernetes и Slurm: dstack упрощает оркестрацию контейнеров для задач машинного обучения и аналитики данных.
🌟 Поддержка мультиоблачных и локальных решений: позволяет запускать приложения на любой платформе, включая облачные сервисы (AWS, GCP, Azure) и локальные сервера.
🌟 Совместимость с GPU и TPU: поддерживает оборудование NVIDIA, AMD и TPU для более эффективной работы с высокопроизводительными нагрузками.
🌟 Интеграция с существующими инструментами: позволяет легко интегрировать существующие решения в ваш рабочий процесс.
🔐 Лицензия: MPL-2.0
🖥 Github
@data_analysis_ml
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
