Анализ данных (Data analysis)

Ir al canal en Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Red:Machinelearning Rusia12 538 Tecnologías y Aplicaciones2 666...

📈 Análisis del canal de Telegram Анализ данных (Data analysis)

El canal Анализ данных (Data analysis) (@data_analysis_ml) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 50 224 suscriptores, ocupando la posición 2 666 en la categoría Tecnologías y Aplicaciones y el puesto 12 538 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 50 224 suscriptores.

Según los últimos datos del 18 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de 10, y en las últimas 24 horas de 7, conservando un alto alcance.

Estado de verificación: No verificado
Tasa de interacción (ER): El promedio de interacción de la audiencia es 8.77%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 6.56% de reacciones respecto al total de suscriptores.
Alcance de las publicaciones: Cada publicación recibe en promedio 4 404 visualizaciones. En el primer día suele acumular 3 295 visualizaciones.
Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 30.
Intereses temáticos: El contenido se centra en temas clave como llm, контекст, openai, архитектура, deepseek.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 19 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

50 224

Suscriptores

+724 horas

+227 días

+1030 días

4 404

Visitas de la publicación

~ 3 29524 horas

~ 4 33648 horas

8.77%

Tasa de compromiso

~ 5

Mensajes por día

Ads index

beta

Archivo de publicaciones

50 229

👍 EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation 🔥 Мощный и простой инструмент для генерации анимации человека по фото. 🌐page: https://antgroup.github.io/ai/echomimic_v2/ 🧬code: https://github.com/antgroup/echomimic_v2 📄paper: https://arxiv.org/abs/2411.10061 @data_analysis_ml

50 229

🔍 Instructor — библиотека для работы с структурированными выходными данными из больших языковых моделей (LLM)! 🌟 Она написана на Python и предоставляет упрощённый интерфейс для управления потоками данных LLM. Она включает функции для валидации данных, обработки ошибок и управления ответами моделей. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

50 229

💥 Nvidia представили нового лидера в области создания 3D-моделей — Edify 3D AI. Они обещают модели в разрешении 4K при 120 FPS, сетки с высокой детализацией геометрии, качественные текстуры и точные цвета альбедо (забавно, как они обозначили белый цвет). Собственных моделей от Nvidia я пока не обнаружил, однако у них также есть нейросеть от Shutterstock, работающая по той же технологии. 📌 Смотреть @data_analysis_ml

50 229

🔥 LTX-видео новая модель преобразования текста в видео позволяет создавать потясающие видеоролики высокого качества. 5 секунд видео со скоростью 24 кадра в секунду при разрешении 768x512 пикселей всего за 4 секунды на Nvidia H100. Открытый код и веса https://huggingface.co/spaces/Lightricks/LTX-Video-Playground @data_analysis_ml

50 229

Alibaba только что выпустила Marco-o1 Marco-o1 основан на тонкой настройке цепочки (CoT), поиске по дереву Монте-Карло (MCTS), механизмах рефлексии и инновационных стратегиях рассуждения, оптимизированных для решения сложных задач в реальном мире. Благодаря файнтюнингу Qwen2-7B-Instruct с использованием комбинации отфильтрованного набора данных Open-O1 CoT, набора данных Marco-o1 CoT и набора данных инструкций Marco-o1, Marco-o1 улучшил обработку сложных задач. MCTS позволяет исследовать множество путей рассуждения, используя показатели достоверности, полученные на основе логарифмических вероятностей, применяемых softmax для топ-k альтернативных токенов, что приводит модель к оптимальным решениям. Более того, такая стратегия обоснованных действий предполагает изменение степени детализации действий в рамках шагов и мини-шагов для оптимизации эффективности и точности поиска. ▪HF: https://huggingface.co/AIDC-AI/Marco-o1 ▪Github: https://github.com/AIDC-AI/Marco-o1 ▪Paper: https://arxiv.org/abs/2411.14405 ▪Data: https://github.com/AIDC-AI/Marco-o1/tree/main/data @machinelearning_ru

50 229

👩‍💻 mongoengine — Python-библиотека для работы с базами данных MongoDB, предоставляющая объектно-документный маппинг (ODM)! 🌟 Она позволяет разработчикам описывать документы в виде Python-классов с типизированными полями, делая работу с MongoDB удобной и похожей на использование ORM в реляционных базах. 🌟 Библиотека поддерживает валидацию данных, вложенные документы, связи между документами и удобные запросы через Python-методы. MongoEngine часто используется в проектах, где требуется сочетание гибкости MongoDB и строгой структуры данных. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

50 229

Сегодня не можешь найти стажировку. Завтра — открываешь с ноги дверь в топовые компании и претендуешь на зп выше рынка. Как так? Очень просто со знанием SQL. Как работать с данными на профессиональном уровне, рассказывают на курсе Нетологии «SQL и получение данных». За 2 месяца вы узнаете, как создавать собственные базы данных, станете асом в создании сложных запросов и сможете с первого раза находить нужную информацию в огромных таблицах. Всё обучение построено с упором на практику: вы выполните 6 работ, а в конце самостоятельно развернёте и проанализируете базу данных. Как минимум — будет повод похвастаться друзьям, как максимум — добавить новый скилл в резюме и получить крутую работу. Регистрируйтесь Реклама. ООО "Нетология". Erid 2VSb5wdWG72

50 229

🔥 Garak — инструмент от NVIDIA для автоматизированного тестирования безопасности и надежности крупных языковых моделей! 🌟 Он позволяет выявлять уязвимости, проблемы с устойчивостью и некорректные ответы моделей, применяя различные методики тестирования. Это помогает разработчикам и исследователям совершенствовать модели и повышать их качество. 🌟 Инструмент также поддерживает расширение функциональности: пользователи могут добавлять свои собственные тесты, создавая кастомные модули. 🔐 Лицензия: Apache-2.0 🖥 Github @bigdatai

50 229

Repost from Machinelearning

⚡️ SANA: Генерация изображений изображений высокого разрешения от Nvidia Labs. Sana - семейство моделей для генерации изображений с разрешением до 4096x4096 пикселей. Главное преимущество Sana - высокая скорость инференса и низкие требования к ресурсам, модели можно запустить даже на ноутбуке. Секрет эффективности Sana в ее архитектуре, которая состоит из нескольких инновационных компонентов: 🟢Deep Compression Autoencoder (DC-AE) Сжимает изображение в 32 раза, в результате чего значительно сокращается число латентных токенов, что, в свою очередь, повышает эффективность обучения и позволяет генерировать изображения с разрешением 4K. 🟢Linear Diffusion Transformer (Linear DiT) Использует линейное внимание вместо традиционного, ускоряя генерацию с разрешением 4K в 1.7 раза. В Linear DiT вместо модуля MLP-FFN используется Mix-FFN, который объединяет в себе свертку 3x3 и Gated Linear Unit (GLU). Mix-FFN позволяет отказаться от позиционного кодирования без потери качества. 🟢Decoder-only Small LLM as Text Encoder Энкодер, основанный на LLM Gemma, который лучше понимает текстовые запросы пользователя и точнее передает их смысл на генерации. Для точного соответствия "текст - изображение" при обучении энкодера применялись "сложные человеческие инструкции" (CHI), которые научили Gemma учитывать контекст запроса. Sana создавалась с помощью уникальной стратегии обучения и выборки. В процессе обучения используются несколько VLM (VILA, InternVL2) для создания различных аннотаций к каждому изображению. Затем, на основе CLIP-оценки, были отобраны наиболее подходящие пары "текст-изображение". Обучение происходило постепенно, начиная с разрешения 512x512 и заканчивая 4096x4096, а алгоритм Flow-DPM-Solver ускорил процесс выборки, сократив количество шагов по сравнению с Flow-Euler-Solver. Результаты тестирования Sana впечатляют: 🟠Sana-0.6B, работающая с изображениями 512x512, в 5 раз быстрее, чем PixArt-Σ, при этом показывает лучшие результаты по метрикам FID, Clip Score, GenEval и DPG-Bench. 🟠При разрешении 1024x1024 Sana-0.6B в 40 раз быстрее PixArt-Σ. 🟠Sana-0.6B превосходит по скорости Flux-12B в 39 раз при разрешении 1024x1024) и может быть запущена на ноутбуке с 16 GB VRAM, генерируя изображения 1024x1024 менее чем за секунду. ⚠️ Для локального инференса модели 0.6B требуется 9GB VRAM, а для модели 1.6B - 12GB VRAM. ▶️ Установка и инференс c GradioUI:

# official online demo
DEMO_PORT=15432 \
python app/app_sana.py \
      --config=configs/sana_config/1024ms/Sana_1600M_img1024.yaml \
      --model_path=hf://Efficient-Large-Model/Sana_1600M_1024px/checkpoints/Sana_1600M_1024px.pth

🟡Страница проекта 🟡Коллекция моделей на HF 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #Diffusion #SANA #NVIDIA

50 229

🔉 Новая модель на базе Whisper конкурирует с Nvidia в открытой таблице лидеров ASR! 🔥 Crisper Whisperer может расшифровать каждое произнесенное слово в точности так, как оно есть, включая вводные слова, паузы, заикания. Слитно доработан по сравнению с версией Whisper Large V3. 🔗 Чекпоинты: https://huggingface.co/nyrahealth/CrisperWhisper 🔗 Лидерборд: https://huggingface.co/spaces/hf-audio/open_asr_leaderboard

50 229

Умножаем любовь к математике, чтобы разделить ее с вами ИТ-специалисты, слышали, скоро День математика? 1 декабря пройдут главные онлайн-события мероприятия: доклады от профессоров математики из МФТИ, ВШЭ и ЦУ и математический диктант. Хорошая возможность пообщаться с единомышленниками и просто классно провести время. А пока ждете праздника, банк подготовил активности на весь месяц. Будут лекции и многое другое. Выбирайте на сайте, что нравится больше. И регистрируйтесь, чтобы ничего не пропустить

50 229

📝 LLM Graph Builder — инструмент для создания графов знаний на базе базы данных Neo4j, преобразуя неструктурированные данные (например, текстовые файлы, PDF-документы, видео с YouTube, веб-страницы) в структурированные графы! 🌟 Он использует возможности ИИ-моделей, от OpenAI и LangChain, для извлечения сущностей, их связей и атрибутов из данных. 🔍 Основные функции: 🌟 Генерация графов знаний на основе предоставленных данных. 🌟 Возможность работы с собственными схемами данных или готовыми шаблонами. 🌟 Просмотр графов через Neo4j Bloom и взаимодействие с ними с помощью запросов. 🌟 Интеграция с локальными файлами, S3, YouTube и другими источниками данных. 🔐 Лицензия: Apache-2.0 🖥 Github @data_analysis_ml

50 229

🔥 Data Science и рок-концерт — Альфа-Банка зовёт на митап в гараже 🌟 22 ноября в Санкт-Петербурге пройдет офлайн-встреча для специалистов DS. На ней обсудят новые инструменты Data Science и кейсы их применения в работе. Например, в оптимизации доставки, работе с банкоматами и машинном обучении в подборе сотрудников. Будет 7 лекций, дискуссия с экспертами рынка и вечеринка с рок-группой в финале. Адрес: ул. Газовая 10Ж, 2 этаж башни-газгольдера Старт: 22 ноября в 18:00 Цена: бесплатно 🔗 Зарегистрироваться нужно заранее: https://alfa.me/-En1LR?channel=data_analysis_ml&erid=2Vtzqvh8Gkn @data_analysis_ml

50 229

🖥 cuGraph — это библиотека от RAPIDS, которая предоставляет высокопроизводительные алгоритмы анализа графов, оптимизированные для работы на GPU! 🌟 Она интегрируется с другими инструментами RAPIDS, такими как cuDF (аналог Pandas для GPU) и cuML (машинное обучение на GPU), что упрощает обработку больших графов, включая создание, анализ и выполнение сложных операций, таких как PageRank, центральности, кластеризация и поиск связанных компонентов. 💡 Библиотека предлагает Python API с интерфейсом, похожим на NetworkX, и более низкоуровневые API для интеграции с C++/CUDA. Она поддерживает различные форматы данных, такие как DataFrames из cuDF, Pandas или объекты NetworkX, и позволяет работать с графами на многогранных GPU-кластерах. CuGraph активно используется для анализа больших графов в задачах, связанных с машинным обучением и обработкой данных в реальном времени. 🔐 Лицензия: Apache-2.0 🖥 Github @data_analysis_ml

50 229

Вебинар «Анализируем транзакции в реальном времени» Приходите на бесплатный вебинар и узнайте, как обрабатывать высокие транзакционные и аналитические нагрузки в гибридной in-memory СУБД. Дата и время: 28 ноября, 16:00. Программа 🔹 Ускорение аналитических расчетов и аналитика на самых свежих данных с помощью HTAP-систем. 🔹 Основные архитектурные характеристики гибридных транзакционно-аналитических СУБД (HTAP). 🔹 Повышение отказоустойчивости транзакционно-аналитических решений, настройка под разные профили нагрузки и интеграция с другими компонентами ИТ-ландшафта. Проведем демонстрацию возможностей продукта Tarantool Column Store в работе с объектами и данными. Расскажем, как формировать отчетность в реальном времени и рассчитывать агрегаты в антифрод-системах с помощью продукта Tarantool Column Store. Вебинар будет полезен архитекторам, дата-инженерам, DevOps-инженерам и разработчикам аналитических систем. Регистрируйтесь, и вам придет ссылка на трансляцию в день мероприятия.

50 229

Repost from Machinelearning

🌟 Генеративные агенты: моделирование поведения 1000 человек. Stanford University, Northwestern University и University of Washington, совместно с Google Deepmind, при участии социологов, разработали архитектуру, которая позволяет симулировать поведение более 1000 реальных людей с помощью LLM, обученных на транскрипции двухчасовых интервью с добровольцами-участниками. Архитектура использует метод "экспертных размышлений", где LLM генерирует выводы о каждом участнике, принимая на себя роли различных специалистов социальных наук (психолога, экономиста, политолога, демографа). Процесс создания агентов начинался со стратифицированного отбора 1052 участников, репрезентирующих население США по возрасту, полу, расе, региону, образованию и политическим взглядам. Масштабирование сбора данных проводилось агентом-интервьюером на основе GPT-4o, который динамически генерировал уточняющие вопросы, адаптируясь к ответам участников. Оценка точности агентов проводилась с помощью сравнения их ответов с ответами реальных участников на вопросы из Общего социального опроса (GSS), опросника "Большая пятерка" (BFI-44), 5 экономических игр и 5 социальных экспериментов. Для учета непостоянства человеческого поведения точность агентов нормализовали с помощью сравнения с тем, насколько последовательно сами участники воспроизводили свои ответы через две недели. Результаты оценки показали высокую точность прогнозирования агентов, обученных на интервью. Они смогли предсказать ответы на вопросы GSS с нормализованной точностью 0.85, а черты личности по BFI-44 - с нормализованной корреляцией 0.80. Использование интервью значительно повысило точность по сравнению с агентами, использующими только демографические данные или краткие описания личности. В экспериментах агенты успешно воспроизвели 4 из 5 личностных особенностей, наблюдавшихся у реальных участников, а оценки размеров этих особенностей показали высокую корреляцию (r = 0.98). Доступ к банку агентов двухуровневый: 🟢открытый доступ к агрегированным ответам на фиксированные задачи и репозиторий с кодом для воспроизведения 🟠ограниченный доступ к индивидуальным ответам на открытые задачи по запросу. 📌 Лицензирование: MIT License. 🟡Arxiv 🟡Dataset 🖥Github @ai_machinelearning_big_data #AI #ML #LLM #Agents #Social

50 229

Qwen2.5-Версия Turbo, которая включает: 📚 Поддержка расширенного контекста: Разработчики увеличили длину контекста модели со 128L до 1 М, что составляет примерно 1 миллион английских слов или 1,5 миллиона китайских иероглифов, что эквивалентно 10 крупным романам, 150 часам расшифровки речи или 30 000 строкам кода. 🚀 Более высокая скорость логического вывода: Используя механизмы разреженного внимания, разработчики успешно сократили время обработки контекста 1 млн токенов с 4,9 минут до 68 секунд, достигнув ускорения в 4,3 раза. ✅ Более низкая стоимость: При той же стоимости Qwen2.5-Turbo может обрабатывать в 3,6 раза больше токенов, чем GPT-4o-mini. Теперь вы можете использовать его через API-сервис <url>. ➡ Alibaba Cloud Model Studio: https://help.aliyun.com/zh/model-studio/getting-started/what-is-model-studio, ➡ HF: https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo ➡ Демо: https://modelscope.cn/studios/Qwen/Qwen2.5-Turbo-1M-Demo @data_analysis_ml

50 229

Год назад здесь была реклама нового, но уже довольно любопытного курса по API. За год его автор, тимлид команды аналитиков Глеб Учитель, проделал огромную работу: на курс записалось более 900 человек. И сейчас его знают многие. Если вы тоже хотите расти по хардам в IT — добро пожаловать! 🔹🔹 🔹🔹 Начните с бесплатных уроков по архитектуре и интеграциям в чат-боте курса. Переходите и знакомьтесь. 👇 @studyit_help_bot Скидка на курс от канала — 1 000₽ по промокоду MLDATA4 до конца ноября.

50 229

💼 PhySO | DL-регрессия для подбора функции Инструмент, который использует глубокое обучение с подкреплением для подбора наиболее подходящей функции, описывающей заданные данные.

git clone https://github.com/WassimTenachi/PhySO

📌 Репозиторий @data_math

50 229

🔍 dstack — инструмент с открытым исходным кодом, предназначенный для упрощения работы с вычислительными нагрузками, требующими GPU! Основная цель проекта — сделать разработку, обучение и развертывание генеративных моделей ИИ более доступным и простым процессом, независимо от того, где они выполняются: в облаке или локально. 🔍 Основные особенности: 🌟 Альтернатива Kubernetes и Slurm: dstack упрощает оркестрацию контейнеров для задач машинного обучения и аналитики данных. 🌟 Поддержка мультиоблачных и локальных решений: позволяет запускать приложения на любой платформе, включая облачные сервисы (AWS, GCP, Azure) и локальные сервера. 🌟 Совместимость с GPU и TPU: поддерживает оборудование NVIDIA, AMD и TPU для более эффективной работы с высокопроизводительными нагрузками. 🌟 Интеграция с существующими инструментами: позволяет легко интегрировать существующие решения в ваш рабочий процесс. 🔐 Лицензия: MPL-2.0 🖥 Github @data_analysis_ml