Анализ данных (Data analysis)

Open in Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Network:Machinelearning Russia12 532 Technologies & Applications2 673...

📈 Analytical overview of Telegram channel Анализ данных (Data analysis)

Channel Анализ данных (Data analysis) (@data_analysis_ml) in the Russian language segment is an active participant. Currently, the community unites 50 246 subscribers, ranking 2 673 in the Technologies & Applications category and 12 532 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 50 246 subscribers.

According to the latest data from 19 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 12 over the last 30 days and by 11 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 8.88%. Within the first 24 hours after publication, content typically collects 6.13% reactions from the total number of subscribers.
Post reach: On average, each post receives 4 458 views. Within the first day, a publication typically gains 3 081 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 31.
Thematic interests: Content is focused on key topics such as llm, контекст, openai, архитектура, deepseek.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Thanks to the high frequency of updates (latest data received on 20 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

50 246

Subscribers

+1124 hours

+637 days

+1230 days

4 458

Post views

~ 3 08124 hours

~ 4 01248 hours

8.88%

Engagement rate

~ 5

Posts per day

Ads index

beta

Posts Archive

50 254

📖 Большие языковые модели продемонстрировали существенные достижения в возможностях рассуждений, особенно за счет масштабирования времени вывода, как показано на таких моделях, как o1 от OpenAI. 🌟 Однако текущие модели Vision-Language (VLM) часто испытывают трудности с выполнением систематических и структурированных рассуждений, особенно при обработке сложных визуальных задач с ответами на вопросы. В этой работе авторы представляют LLaVA-o1, новую VLM, предназначенную для проведения автономных многоступенчатых рассуждений! В отличие от подсказок цепочки мыслей, LLaVA-o1 независимо участвует в последовательных этапах резюмирования, визуальной интерпретации, логических рассуждений и генерации выводов. 🌟 Этот структурированный подход позволяет LLaVA-o1 достигать заметных улучшений в точности при выполнении задач с интенсивным рассуждением! 🔗 Ссылка на статью: *клик* @data_analysis_ml

50 254

Прокачивайте скилы на релевантных бизнес-задачах с помощью Яндекс Практикума. Наставники из Яндекса и других крупных компаний помогут со сложными темами, а ревьюеры дадут обратную связь. Как всё устроено: 1️⃣ Учитесь где и когда удобно Обучение разбито на спринты по несколько недель, а график позволяет совмещать учёбу с другими делами. 2️⃣ Практика с первого дня Учимся на примерах из работы и используем популярные рабочие инструменты. 3️⃣ Задачи из реальных сфер На курсе будут проекты из разных сфер бизнеса, чтобы вы набрались опыта и сразу же применяли новые знания. Прежде чем платить, любой курс можно попробовать и убедиться, что он вам подходит. Вот несколько наших курсов: ✅ Инженер данных ✅ Инженер машинного обучения ✅ SQL для работы с данными и аналитики ✅ SQL для разработки Получите скидку 20% после прохождения первой темы любого курса. Она бесплатная🔥

50 254

👍 EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation 🔥 Мощный и простой инструмент для генерации анимации человека по фото. 🌐page: https://antgroup.github.io/ai/echomimic_v2/ 🧬code: https://github.com/antgroup/echomimic_v2 📄paper: https://arxiv.org/abs/2411.10061 @data_analysis_ml

50 254

🔍 Instructor — библиотека для работы с структурированными выходными данными из больших языковых моделей (LLM)! 🌟 Она написана на Python и предоставляет упрощённый интерфейс для управления потоками данных LLM. Она включает функции для валидации данных, обработки ошибок и управления ответами моделей. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

50 254

💥 Nvidia представили нового лидера в области создания 3D-моделей — Edify 3D AI. Они обещают модели в разрешении 4K при 120 FPS, сетки с высокой детализацией геометрии, качественные текстуры и точные цвета альбедо (забавно, как они обозначили белый цвет). Собственных моделей от Nvidia я пока не обнаружил, однако у них также есть нейросеть от Shutterstock, работающая по той же технологии. 📌 Смотреть @data_analysis_ml

50 254

🔥 LTX-видео новая модель преобразования текста в видео позволяет создавать потясающие видеоролики высокого качества. 5 секунд видео со скоростью 24 кадра в секунду при разрешении 768x512 пикселей всего за 4 секунды на Nvidia H100. Открытый код и веса https://huggingface.co/spaces/Lightricks/LTX-Video-Playground @data_analysis_ml

50 254

Alibaba только что выпустила Marco-o1 Marco-o1 основан на тонкой настройке цепочки (CoT), поиске по дереву Монте-Карло (MCTS), механизмах рефлексии и инновационных стратегиях рассуждения, оптимизированных для решения сложных задач в реальном мире. Благодаря файнтюнингу Qwen2-7B-Instruct с использованием комбинации отфильтрованного набора данных Open-O1 CoT, набора данных Marco-o1 CoT и набора данных инструкций Marco-o1, Marco-o1 улучшил обработку сложных задач. MCTS позволяет исследовать множество путей рассуждения, используя показатели достоверности, полученные на основе логарифмических вероятностей, применяемых softmax для топ-k альтернативных токенов, что приводит модель к оптимальным решениям. Более того, такая стратегия обоснованных действий предполагает изменение степени детализации действий в рамках шагов и мини-шагов для оптимизации эффективности и точности поиска. ▪HF: https://huggingface.co/AIDC-AI/Marco-o1 ▪Github: https://github.com/AIDC-AI/Marco-o1 ▪Paper: https://arxiv.org/abs/2411.14405 ▪Data: https://github.com/AIDC-AI/Marco-o1/tree/main/data @machinelearning_ru

50 254

👩‍💻 mongoengine — Python-библиотека для работы с базами данных MongoDB, предоставляющая объектно-документный маппинг (ODM)! 🌟 Она позволяет разработчикам описывать документы в виде Python-классов с типизированными полями, делая работу с MongoDB удобной и похожей на использование ORM в реляционных базах. 🌟 Библиотека поддерживает валидацию данных, вложенные документы, связи между документами и удобные запросы через Python-методы. MongoEngine часто используется в проектах, где требуется сочетание гибкости MongoDB и строгой структуры данных. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml

50 254

Сегодня не можешь найти стажировку. Завтра — открываешь с ноги дверь в топовые компании и претендуешь на зп выше рынка. Как так? Очень просто со знанием SQL. Как работать с данными на профессиональном уровне, рассказывают на курсе Нетологии «SQL и получение данных». За 2 месяца вы узнаете, как создавать собственные базы данных, станете асом в создании сложных запросов и сможете с первого раза находить нужную информацию в огромных таблицах. Всё обучение построено с упором на практику: вы выполните 6 работ, а в конце самостоятельно развернёте и проанализируете базу данных. Как минимум — будет повод похвастаться друзьям, как максимум — добавить новый скилл в резюме и получить крутую работу. Регистрируйтесь Реклама. ООО "Нетология". Erid 2VSb5wdWG72

50 254

🔥 Garak — инструмент от NVIDIA для автоматизированного тестирования безопасности и надежности крупных языковых моделей! 🌟 Он позволяет выявлять уязвимости, проблемы с устойчивостью и некорректные ответы моделей, применяя различные методики тестирования. Это помогает разработчикам и исследователям совершенствовать модели и повышать их качество. 🌟 Инструмент также поддерживает расширение функциональности: пользователи могут добавлять свои собственные тесты, создавая кастомные модули. 🔐 Лицензия: Apache-2.0 🖥 Github @bigdatai

50 254

Repost from Machinelearning

⚡️ SANA: Генерация изображений изображений высокого разрешения от Nvidia Labs. Sana - семейство моделей для генерации изображений с разрешением до 4096x4096 пикселей. Главное преимущество Sana - высокая скорость инференса и низкие требования к ресурсам, модели можно запустить даже на ноутбуке. Секрет эффективности Sana в ее архитектуре, которая состоит из нескольких инновационных компонентов: 🟢Deep Compression Autoencoder (DC-AE) Сжимает изображение в 32 раза, в результате чего значительно сокращается число латентных токенов, что, в свою очередь, повышает эффективность обучения и позволяет генерировать изображения с разрешением 4K. 🟢Linear Diffusion Transformer (Linear DiT) Использует линейное внимание вместо традиционного, ускоряя генерацию с разрешением 4K в 1.7 раза. В Linear DiT вместо модуля MLP-FFN используется Mix-FFN, который объединяет в себе свертку 3x3 и Gated Linear Unit (GLU). Mix-FFN позволяет отказаться от позиционного кодирования без потери качества. 🟢Decoder-only Small LLM as Text Encoder Энкодер, основанный на LLM Gemma, который лучше понимает текстовые запросы пользователя и точнее передает их смысл на генерации. Для точного соответствия "текст - изображение" при обучении энкодера применялись "сложные человеческие инструкции" (CHI), которые научили Gemma учитывать контекст запроса. Sana создавалась с помощью уникальной стратегии обучения и выборки. В процессе обучения используются несколько VLM (VILA, InternVL2) для создания различных аннотаций к каждому изображению. Затем, на основе CLIP-оценки, были отобраны наиболее подходящие пары "текст-изображение". Обучение происходило постепенно, начиная с разрешения 512x512 и заканчивая 4096x4096, а алгоритм Flow-DPM-Solver ускорил процесс выборки, сократив количество шагов по сравнению с Flow-Euler-Solver. Результаты тестирования Sana впечатляют: 🟠Sana-0.6B, работающая с изображениями 512x512, в 5 раз быстрее, чем PixArt-Σ, при этом показывает лучшие результаты по метрикам FID, Clip Score, GenEval и DPG-Bench. 🟠При разрешении 1024x1024 Sana-0.6B в 40 раз быстрее PixArt-Σ. 🟠Sana-0.6B превосходит по скорости Flux-12B в 39 раз при разрешении 1024x1024) и может быть запущена на ноутбуке с 16 GB VRAM, генерируя изображения 1024x1024 менее чем за секунду. ⚠️ Для локального инференса модели 0.6B требуется 9GB VRAM, а для модели 1.6B - 12GB VRAM. ▶️ Установка и инференс c GradioUI:

# official online demo
DEMO_PORT=15432 \
python app/app_sana.py \
      --config=configs/sana_config/1024ms/Sana_1600M_img1024.yaml \
      --model_path=hf://Efficient-Large-Model/Sana_1600M_1024px/checkpoints/Sana_1600M_1024px.pth

🟡Страница проекта 🟡Коллекция моделей на HF 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #Diffusion #SANA #NVIDIA

50 254

🔉 Новая модель на базе Whisper конкурирует с Nvidia в открытой таблице лидеров ASR! 🔥 Crisper Whisperer может расшифровать каждое произнесенное слово в точности так, как оно есть, включая вводные слова, паузы, заикания. Слитно доработан по сравнению с версией Whisper Large V3. 🔗 Чекпоинты: https://huggingface.co/nyrahealth/CrisperWhisper 🔗 Лидерборд: https://huggingface.co/spaces/hf-audio/open_asr_leaderboard

50 254

Умножаем любовь к математике, чтобы разделить ее с вами ИТ-специалисты, слышали, скоро День математика? 1 декабря пройдут главные онлайн-события мероприятия: доклады от профессоров математики из МФТИ, ВШЭ и ЦУ и математический диктант. Хорошая возможность пообщаться с единомышленниками и просто классно провести время. А пока ждете праздника, банк подготовил активности на весь месяц. Будут лекции и многое другое. Выбирайте на сайте, что нравится больше. И регистрируйтесь, чтобы ничего не пропустить

50 254

📝 LLM Graph Builder — инструмент для создания графов знаний на базе базы данных Neo4j, преобразуя неструктурированные данные (например, текстовые файлы, PDF-документы, видео с YouTube, веб-страницы) в структурированные графы! 🌟 Он использует возможности ИИ-моделей, от OpenAI и LangChain, для извлечения сущностей, их связей и атрибутов из данных. 🔍 Основные функции: 🌟 Генерация графов знаний на основе предоставленных данных. 🌟 Возможность работы с собственными схемами данных или готовыми шаблонами. 🌟 Просмотр графов через Neo4j Bloom и взаимодействие с ними с помощью запросов. 🌟 Интеграция с локальными файлами, S3, YouTube и другими источниками данных. 🔐 Лицензия: Apache-2.0 🖥 Github @data_analysis_ml

50 254

🔥 Data Science и рок-концерт — Альфа-Банка зовёт на митап в гараже 🌟 22 ноября в Санкт-Петербурге пройдет офлайн-встреча для специалистов DS. На ней обсудят новые инструменты Data Science и кейсы их применения в работе. Например, в оптимизации доставки, работе с банкоматами и машинном обучении в подборе сотрудников. Будет 7 лекций, дискуссия с экспертами рынка и вечеринка с рок-группой в финале. Адрес: ул. Газовая 10Ж, 2 этаж башни-газгольдера Старт: 22 ноября в 18:00 Цена: бесплатно 🔗 Зарегистрироваться нужно заранее: https://alfa.me/-En1LR?channel=data_analysis_ml&erid=2Vtzqvh8Gkn @data_analysis_ml

50 254

🖥 cuGraph — это библиотека от RAPIDS, которая предоставляет высокопроизводительные алгоритмы анализа графов, оптимизированные для работы на GPU! 🌟 Она интегрируется с другими инструментами RAPIDS, такими как cuDF (аналог Pandas для GPU) и cuML (машинное обучение на GPU), что упрощает обработку больших графов, включая создание, анализ и выполнение сложных операций, таких как PageRank, центральности, кластеризация и поиск связанных компонентов. 💡 Библиотека предлагает Python API с интерфейсом, похожим на NetworkX, и более низкоуровневые API для интеграции с C++/CUDA. Она поддерживает различные форматы данных, такие как DataFrames из cuDF, Pandas или объекты NetworkX, и позволяет работать с графами на многогранных GPU-кластерах. CuGraph активно используется для анализа больших графов в задачах, связанных с машинным обучением и обработкой данных в реальном времени. 🔐 Лицензия: Apache-2.0 🖥 Github @data_analysis_ml

50 254

Вебинар «Анализируем транзакции в реальном времени» Приходите на бесплатный вебинар и узнайте, как обрабатывать высокие транзакционные и аналитические нагрузки в гибридной in-memory СУБД. Дата и время: 28 ноября, 16:00. Программа 🔹 Ускорение аналитических расчетов и аналитика на самых свежих данных с помощью HTAP-систем. 🔹 Основные архитектурные характеристики гибридных транзакционно-аналитических СУБД (HTAP). 🔹 Повышение отказоустойчивости транзакционно-аналитических решений, настройка под разные профили нагрузки и интеграция с другими компонентами ИТ-ландшафта. Проведем демонстрацию возможностей продукта Tarantool Column Store в работе с объектами и данными. Расскажем, как формировать отчетность в реальном времени и рассчитывать агрегаты в антифрод-системах с помощью продукта Tarantool Column Store. Вебинар будет полезен архитекторам, дата-инженерам, DevOps-инженерам и разработчикам аналитических систем. Регистрируйтесь, и вам придет ссылка на трансляцию в день мероприятия.

50 254

Repost from Machinelearning

🌟 Генеративные агенты: моделирование поведения 1000 человек. Stanford University, Northwestern University и University of Washington, совместно с Google Deepmind, при участии социологов, разработали архитектуру, которая позволяет симулировать поведение более 1000 реальных людей с помощью LLM, обученных на транскрипции двухчасовых интервью с добровольцами-участниками. Архитектура использует метод "экспертных размышлений", где LLM генерирует выводы о каждом участнике, принимая на себя роли различных специалистов социальных наук (психолога, экономиста, политолога, демографа). Процесс создания агентов начинался со стратифицированного отбора 1052 участников, репрезентирующих население США по возрасту, полу, расе, региону, образованию и политическим взглядам. Масштабирование сбора данных проводилось агентом-интервьюером на основе GPT-4o, который динамически генерировал уточняющие вопросы, адаптируясь к ответам участников. Оценка точности агентов проводилась с помощью сравнения их ответов с ответами реальных участников на вопросы из Общего социального опроса (GSS), опросника "Большая пятерка" (BFI-44), 5 экономических игр и 5 социальных экспериментов. Для учета непостоянства человеческого поведения точность агентов нормализовали с помощью сравнения с тем, насколько последовательно сами участники воспроизводили свои ответы через две недели. Результаты оценки показали высокую точность прогнозирования агентов, обученных на интервью. Они смогли предсказать ответы на вопросы GSS с нормализованной точностью 0.85, а черты личности по BFI-44 - с нормализованной корреляцией 0.80. Использование интервью значительно повысило точность по сравнению с агентами, использующими только демографические данные или краткие описания личности. В экспериментах агенты успешно воспроизвели 4 из 5 личностных особенностей, наблюдавшихся у реальных участников, а оценки размеров этих особенностей показали высокую корреляцию (r = 0.98). Доступ к банку агентов двухуровневый: 🟢открытый доступ к агрегированным ответам на фиксированные задачи и репозиторий с кодом для воспроизведения 🟠ограниченный доступ к индивидуальным ответам на открытые задачи по запросу. 📌 Лицензирование: MIT License. 🟡Arxiv 🟡Dataset 🖥Github @ai_machinelearning_big_data #AI #ML #LLM #Agents #Social

50 254

Qwen2.5-Версия Turbo, которая включает: 📚 Поддержка расширенного контекста: Разработчики увеличили длину контекста модели со 128L до 1 М, что составляет примерно 1 миллион английских слов или 1,5 миллиона китайских иероглифов, что эквивалентно 10 крупным романам, 150 часам расшифровки речи или 30 000 строкам кода. 🚀 Более высокая скорость логического вывода: Используя механизмы разреженного внимания, разработчики успешно сократили время обработки контекста 1 млн токенов с 4,9 минут до 68 секунд, достигнув ускорения в 4,3 раза. ✅ Более низкая стоимость: При той же стоимости Qwen2.5-Turbo может обрабатывать в 3,6 раза больше токенов, чем GPT-4o-mini. Теперь вы можете использовать его через API-сервис <url>. ➡ Alibaba Cloud Model Studio: https://help.aliyun.com/zh/model-studio/getting-started/what-is-model-studio, ➡ HF: https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo ➡ Демо: https://modelscope.cn/studios/Qwen/Qwen2.5-Turbo-1M-Demo @data_analysis_ml

50 254

Год назад здесь была реклама нового, но уже довольно любопытного курса по API. За год его автор, тимлид команды аналитиков Глеб Учитель, проделал огромную работу: на курс записалось более 900 человек. И сейчас его знают многие. Если вы тоже хотите расти по хардам в IT — добро пожаловать! 🔹🔹 🔹🔹 Начните с бесплатных уроков по архитектуре и интеграциям в чат-боте курса. Переходите и знакомьтесь. 👇 @studyit_help_bot Скидка на курс от канала — 1 000₽ по промокоду MLDATA4 до конца ноября.