Анализ данных (Data analysis)

Open in Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Network:Machinelearning Russia12 532 Technologies & Applications2 673...

📈 Analytical overview of Telegram channel Анализ данных (Data analysis)

Channel Анализ данных (Data analysis) (@data_analysis_ml) in the Russian language segment is an active participant. Currently, the community unites 50 246 subscribers, ranking 2 673 in the Technologies & Applications category and 12 532 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 50 246 subscribers.

According to the latest data from 19 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 12 over the last 30 days and by 11 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 8.88%. Within the first 24 hours after publication, content typically collects 6.13% reactions from the total number of subscribers.
Post reach: On average, each post receives 4 458 views. Within the first day, a publication typically gains 3 081 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 31.
Thematic interests: Content is focused on key topics such as llm, контекст, openai, архитектура, deepseek.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Thanks to the high frequency of updates (latest data received on 20 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

50 246

Subscribers

+1124 hours

+637 days

+1230 days

4 458

Post views

~ 3 08124 hours

~ 4 01248 hours

8.88%

Engagement rate

~ 5

Posts per day

Ads index

beta

Posts Archive

50 254

📖 Эта статья представляет новую архитектуру под названием Mixture-of-Transformers (MoT), ориентированную на работу с мультимодальными моделями! 🌟 Такие модели способны обрабатывать текст, изображения и аудио в единой системе. MoT решает проблемы масштабирования, связанные с обучением больших языковых моделей (LLM), предлагая более экономичный подход, уменьшающий вычислительные затраты на этапе предварительного обучения. 🌟 Основное новшество MoT заключается в раздельной обработке параметров для каждого типа данных (текста, изображений, звука), что позволяет сократить использование ресурсов без потери качества. Например, в задачах генерации текста и изображений MoT достигает производительности стандартных моделей при использовании лишь 55,8% их вычислительных операций. Кроме того, модель демонстрирует улучшенные показатели в задачах, где необходимо объединение нескольких модальностей, при меньших временных и вычислительных затратах 🔗 Ссылка: *клик* @data_analysis_ml

50 254

Repost from Machinelearning

🌟 Wavehax: нейросетевой вокодер без эффекта наложения частот. Wavehax - нейросетевой вокодер, который синтезирует аудиосигналы без искажений, вызванных наложением частот. Эта проблема часто возникает в моделях, работающих во временной области, где нелинейные операции и слои повышения дискретизации могут привести к наложению высокочастотных компонентов на низкочастотный диапазон. Wavehax работает в частотно-временной области, оценивая комплексные спектрограммы и преобразуя их во временные сигналы с помощью кратковременного преобразования Фурье (STFT). Использование STFT позволяет получать более высокое качество синтезированной речи, особенно при экстраполяции на высокие значения основной частоты (F0). Архитектура Wavehax построена на 2D CNN и специальном гармоническом априоре. Априор представляет собой комплексную спектрограмму, полученную из гармонического сигнала, который помогает модели генерировать высококачественные и согласованные по фазе гармонические компоненты. В экспериментах, проведённых на корпусе японской речи JVS, Wavehax продемонстрировал качество речи, сравнимое с HiFi-GAN V1, при этом значительно сократив количество операций умножения-накопления и параметров модели. Wavehax работает в 4 раза быстрее HiFi-GAN V1 на CPU и устойчив к экстраполяции на высокие значения F0, где эффект наложения частот становится особенно заметным. ▶️ Пример трейна и инференса с датасетом JVS:

# Set up the env
cd wavehax
pip install -e .

# Extract F0 and mel-spectrogram.
wavehax-extract-features audio=data/scp/jvs_all.scp

# Compute statistics of the training data
wavehax-compute-statistics feats=data/scp/train_no_dev.list stats=data/stats/train_no_dev.joblib

# Train the vocoder model
wavehax-train generator=wavehax discriminator=univnet train=wavehax train.train_max_steps=500000 data=jvs out_dir=exp/wavehax

# Inference via generate speech waveforms
wavehax-decode generator=wavehax data=jvs out_dir=exp/wavehax ckpt_steps=500000

🟡Страница проекта 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #Vocoder #Wavehax

50 254

Repost from Machinelearning

🌟 FastDraft: ускорение инференса LLM с помощью спекулятивного декодирования. Спекулятивное декодирование (или вспомогательная генерация) — это техника, которая ускоряет генерацию токенов при использовании дополнительной, SLM модели-черновика. Техника работает следующим образом: модель-черновик предсказывает следующие K-токенов один за другим авторегрессионным способом, а основная LLM проверяет эти предсказания и исправляет их при необходимости. Процесс проходит по каждому предсказанному токену, и, если обнаруживается разница между SLM-черновиком и LLM, останавливается и сохраняет последний токен, предсказанный основной моделью. Затем SLM-черновик получает последнее предсказание LLM и снова пытается предсказать следующие K-токенов, повторяя цикл. FastDraft — метод для обучения и согласования модели-черновика с любой LLM для использования со спекулятивным декодированием путем тонкой настройки на синтетических датасетах, сгенерированных целевой LLM. Предобученные модели-черновики FastDraft (Llama-3.1-8B-Instruct-FastDraft-150M-int8-ov и Phi-3-mini-FastDraft-50M-int8-ov) до 3 раз эффективнее по сравнению с инференсом одиночной LLM в задачах завершения кода и до 2 раз в задачах обобщения, завершения текста и инструкций. 🟡Набор моделей 🟡Ipynb блокнот 🟡Arxiv @ai_machinelearning_big_data #AI #ML #LLM #Intel #FastDraft

50 254

🚀 Научитесь создавать базы данных для веб-приложений на Go! Присоединяйтесь к открытому вебинару «Взаимодействие с базой данных и миграции на Go». 📅 Дата: 2 декабря в 20:00 МСК 🔎 Что вы узнаете: - как создавать таблицы и структурировать базы данных; - как разрабатывать базу для веб-приложений на Go; - как работать с ОРМ и SQL-запросами. ❗ Почему это важно: Golang — язык будущего. После вебинара вы сможете создавать и мигрировать базы данных, что станет вашим преимуществом в IT. 💻 Действуйте! Нажмите на ссылку, чтобы зарегистрироваться и получите скидку на участие в большом курсе «Go (Golang) Developer Basic»: 👉ссылка Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

50 254

👩‍💻 Flexx — это фреймворк для создания графических интерфейсов на чистом Python с использованием веб-технологий! 💡 Он позволяет разработчикам создавать приложения, которые работают как на настольных компьютерах, так и в браузерах. Основная идея Flexx — это использование Python для описания логики интерфейса, при этом взаимодействие с пользователем реализуется через HTML, CSS и JavaScript, сгенерированные автоматически. 🌟 Ключевая особенность фреймворка — возможность создавать приложения с использованием декларативного подхода. Flexx поддерживает функционально-реактивное программирование (FRP) и предоставляет инструменты для управления состоянием и событийной моделью. Это делает его подходящим выбором для приложений, где требуется динамическое взаимодействие и высокая интерактивность. 🔐 Лицензия: BSD-2-Clause 🖥 Github @data_analysis_ml

50 254

⚡️ Владение BI-аналитикой сегодня становится все более востребованным навыком ⌨️ Это новый уровень практически для всех, кто работает с данными: продуктовых и маркетинговых аналитиков, аналитиков данных, Product Owner’ов и Project Manager’ов, Data Scientist’ов и Data Engineer’ов. Пройдите тест онлайн-курса «BI-аналитика» и получите скидку до 15% 💣на обучение в OTUS. ➡️ ПРОЙТИ ТЕСТ: https://otus.pw/cWjf/?erid=LjN8KND4L 🔥 Все, кто успешно пройдет тест, получит доступ к нескольким открытым урокам курса для знакомства с форматом обучения и спец. цену на курс. После обучения вы сможете: 💛визуализировать метрики и данные с помощью Power BI и Tableau и отечественной системой Analytic Workspace 💛строить кастомные интерактивные дашборды и аналитические панели с помощью Python в библиотеках Dash, Numpy, Pandas, Matplotlib, Seaborn и Plotly 💛работать с Big Data и выявлять данные, которые помогут принимать бизнес-решения 💛использовать в BI-аналитике решения с открытым исходным кодом 💛обрабатывать и трансформировать данные в Power Query, создавать модели данных в Power Pivot 💛работать с DAX-формулами Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

50 254

📖 Эта статья исследует способности крупных языковых моделей (LLMs) к логическому рассуждению, включая их склонность к запоминанию! 🌟 Основной гипотезой авторов является то, что высокий уровень точности моделей на логических задачах может быть обусловлен не столько умением рассуждать, сколько запоминанием схожих примеров из данных для обучения. 🌟 Для проверки гипотезы исследователи использовали динамически генерируемый набор логических задач на основе головоломок "Knights and Knaves" (рыцари и лжецы). Они выявили, что модели могут успешно справляться с задачами, подобными обучающим, но их точность снижается при небольших изменениях в формулировке. Однако, несмотря на это, модели показали улучшение в генерализации после дообучения, что свидетельствует о сложном взаимодействии между способностью к рассуждению и запоминанием. 🌟 Дополнительно авторы проанализировали, как LLM переключаются между запоминанием и логическим анализом, что даёт понимание о методах их дальнейшей оптимизации. Исследование включает методы создания и модификации логических задач, а также оценку поведения моделей с использованием метрик запоминания и обобщения. 🔗 Ссылка: *клик* @data_analysis_ml

50 254

💡 Хакатон «Норникеля» «Интеллектуальные горизонты»: стартуем на поиски инноваций! Погружайся в кейсы от «Норникеля» и решай задачу по одному из трех треков: от анализа данных до автоматизации, от экологического мониторинга до создания алгоритмов, которые могут изменить правила игры в индустрии. Когда: 6 - 8 декабря. Формат: онлайн. Призовой фонд: 1 500 000 рублей. 🧑‍💻 Разработчики, аналитики, инженеры и любители новаторских решений смогут применить свои знания, чтобы придумать решения для реальных задач в промышленности. Хакатон «Норникеля» «Интеллектуальные горизонты» — это отличный шанс показать свои идеи, повлиять на промышленность и найти новых единомышленников. Если нет команды — поможем её собрать! ➡️ Регистрация открыта! Успей зарегистрироваться до 2 декабря, 23:59 МСК по ссылке.

50 254

🖥 OASIS — проект для моделирования социальных взаимодействий между агентами с использованием крупномасштабных симуляций! 🌟 Он основан на многокомпонентных агентных системах и предназначен для изучения взаимодействий искусственного интеллекта в контексте общества и совместной работы. Проект сосредоточен на использовании больших языковых моделей (LLM) для управления агентами, которые симулируют различные аспекты человеческого поведения, взаимодействия и общения. 🌟 Основные направления применения OASIS включают исследование кооперативного искусственного интеллекта, поведение в симулированных обществах и масштабирование симуляций до миллиона агентов. Репозиторий ориентирован на исследователей и разработчиков, заинтересованных в построении и изучении сложных агентных экосистем на базе LLM! 🔐 Лицензия: Apache-2.0 🖥 Github @data_analysis_ml

50 254

Приглашаем тебя на крутое IT-мероприятие, посвящённое AI и передовым технологиям разработки рекомендательных систем. Регистрируйся, и в день мероприятия мы пришлём тебе ссылку на трансляцию. Или приходи очно, если ты живёшь в одном из городов. Где и когда? 👉 Нижний Новгород, 5 декабря 👉 Санкт-Петербург, 6 декабря Тебя ждут крутейшие доклады, живая дискуссия и новые знания в сфере рекомендательных систем. Количество мест ограничено — успей занять своё и прикоснуться к миру рекомендательных систем! 😉

50 254

⚡️ Только что вышла первая reasoning model с открытым исходным кодом от Alibaba QwQ 32B находится работает так же, как o1 и Deepseek R1, но на вашем локальном компьютере! 🔗 Демо: https://huggingface.co/spaces/Qwen/QwQ-32B-preview 🌐 Модель: https://huggingface.co/Qwen/QwQ-32B-Preview 📃 Blog: https://qwenlm.github.io/blog/qwq-32b-preview/ @data_analysis_ml

50 254

Repost from Machinelearning

⚡️ NeuZip: метод сжатия весов для обучения и инференса. NeuZip - алгоритм сжатия весов нейронных сетей, разработанный для снижения требований к памяти во время обучения и инференса без ущерба для производительности. В основе NeuZip лежит принцип энтропии чисел с плавающей запятой в нейронных сетях. Веса нейронных сетей концентрируются вокруг нуля, что приводит к низкой энтропии битов экспоненты, а значит, почему бы не сжимать биты экспоненты без потерь с помощью асимметричной системы счисления (ANS)?

ANS — это алгоритм сжатия без потерь, который обеспечивает высокую пропускную способность на параллельных вычислительных устройствах, например, на GPU.

Для обучения используется вариант NeuZip без потерь, который сжимает только биты экспоненты, сохраняя полную точность представления чисел. В процессе обучения веса хранятся в сжатом виде, а декомпрессия происходит послойно, непосредственно перед вычислениями . Это позволяет избежать дублирования памяти и снизить ее пиковое потребление. При этом backpropagation не затрагивается, так как градиенты вычисляются с использованием декомпрессированных весов. Для инференса предлагается вариант NeuZip с потерями, который дополнительно сокращает объем памяти, усекая биты мантиссы. Потеря точности при таком подходе незначительно влияет на производительность. Эффективность сжатия достигается блочной нормализацией, при которой веса нормализуются внутри блоков, а коэффициенты нормализации хранятся с 8-битной точностью. Эксперименты, проведенные на различных архитектурах (GPT, Llama, T5) и задачах (языковое моделирование, генерация SQL), подтвердили эффективность NeuZip. В частности, при обучении модели Llama-3 8B удалось сократить потребление памяти с 31 ГБ до менее 16 ГБ без изменения динамики обучения. В задачах инференса NeuZip демонстрирует достижение >50% сокращения памяти при сохранении практически идентичной производительности по сравнению с QLoRA и современными методами квантования. ⚠️ Код экспериментов из пейпера в задачах обучения и инференса с Neuzip доступен в /examples репозитория проекта на Github. ▶️Установка и использование:

# Install from PyPI
pip install neuzip

# Use Neuzip for Pytorch model
model: torch.nn.Module = # your model
+ manager = neuzip.Manager()
+ model = manager.convert(model)

🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #NeuZip

50 254

✅ OminiControl: универсальный инструмент для управление Запилили универсальный фреймворк для генерации с помощью Linear Diffusion Transformer. 🧬Код: https://github.com/Yuanshi9815/OminiControl 📄Статья: https://arxiv.org/abs/2411.15098 🍇runpod: https://github.com/camenduru/ominicontrol-tost 🍊jupyter от http://modelslab.com: https://github.com/camenduru/ominicontrol-jupyter

50 254

🔥 Multi-Agent Orchestrator — фреймворк, разработанный для управления несколькими AI-агентами! 💡 Он позволяет маршрутизировать запросы пользователей, обеспечивать управление контекстом взаимодействий и поддерживать масштабируемую архитектуру приложений. 🔍 Основные возможности: 🌟 Классификация запросов: Использует LLM для выбора наиболее подходящего агента на основе контекста, истории взаимодействий и описания агентов. 🌟 Гибкость агентов: Поддерживает интеграцию различных агентов, таких как Amazon Bedrock, OpenAI, AWS Lambda и прочих пользовательских решений. 🌟 Управление контекстом: Обеспечивает сохранение и использование истории взаимодействий для последовательных ответов. 🌟 Расширяемая архитектура: Легкая интеграция новых агентов и настройка существующих для решения задач в различных доменах. 🌟 Универсальное развертывание: Подходит для локальных и облачных окружений, включая AWS Lambda. 🔐 Лицензия: Apache-2.0 🖥 Github @data_analysis_ml

50 254

есom.teсh meetup — Generative AI 6 декабря 18:00 в Москве пройдёт митап по прикладному использованию генеративных технологий для специалистов по Data Science! Обсудим технические аспекты экспериментов с нейронными сетями, посмотрим свежие кейсы внедрения ИИ в бигтехе и не только. В программе: 👁‍🗨 Виртуальная фотосъемка для продавца на маркетплейсе: возможности Gen AI. Арнольд Сааков, руководитель отдела разработки сервисов искусственного интеллекта в ecom.tеch. 👁‍🗨 От потоковой обработки к генерации: AI-алгоритмы для автоматизации работы с фотографиями товаров на маркетплейсе. Александр Савельев, руководитель группы развития технологий компьютерного зрения в ecom.tеch; Татьяна Гришина, менеджер продукта в ecom.tеch. 👁‍🗨 Секретный доклад. Митап будет интересен тем, кто уже работает или проходит обучение в области Data Science и интересуется генеративными технологиями! 🧠 Регистрируйтесь и пересылайте знакомым! Реклама. ООО "УМНОЕ ПРОСТРАНСТВО", ИНН 7811554010, Erid: 2VSb5yQd7AG

50 254

⚡️ SmolVLM: новая МДЬ модель созданая для использования на устройствах, легко настраиваемый на GPU и чрезвычайно эффективный с точки зрения памяти ▪Лицензия Apache 2.0: https://huggingface.co/collections/HuggingFaceTB/smolvlm-6740bd584b2dcbf51ecb1f39 ▪Блог: https://huggingface.co/blog/smolvlm ▪Демо: https://huggingface.co/spaces/HuggingFaceTB/SmolVLM ▪Файнтюнинг: https://github.com/huggingface/smollm/blob/main/finetuning/Smol_VLM_FT.ipynb

50 254

Новая версия модели: Kling v1.5! 🥳 Можно потестировать онлайн https://fal.ai/models/fal-ai/kling-video/v1.5/pro/image-to-video/playground @data_analysis_ml

50 254

🔥 PR-Agent — инструмент с открытым исходным кодом, разработанный для упрощения процесса обзора pull-реквестов! 💡 Используя возможности искусственного интеллекта (например, GPT-4), он автоматически анализирует PR и предоставляет такие функции, как: 🌟 Генерация описания PR, включая заголовок, тип, основные изменения и метки. 🌟 Автоматический обзор с рекомендациями по тестированию, безопасности и улучшениям. 🌟 Ответы на вопросы о PR, улучшения кода и автоматическое обновление CHANGELOG. 🌟 Добавление документации для недокументированных функций или классов. 💡 PR-Agent поддерживает интеграцию с GitHub, GitLab, Bitbucket и другими платформами. Его можно использовать как через командную строку, так и через вебхуки или бота. Этот инструмент помогает ускорить и улучшить качество процесса код-ревью. 🔐 Лицензия: Apache-2.0 🖥 Github @data_analysis_ml

50 254

Устроиться аналитиком в Яндекс за выходные 7–8 декабря проводим Weekend Offer Analytics. До 4 декабря оставьте заявку на участие, 7 декабря пройдите технические собеседования, а 8 декабря познакомьтесь с командами и получите офер. В мероприятии участвует 7 команд: Crowd, Карты, Поиск, YaGPT 2, Автономный транспорт, Реклама и Ecom-сценарии. Вы сможете пообщаться с менеджерами и выбрать проект, который покажется самым интересным. Нанимаем в офисы России и Республики Беларусь. Узнать подробности и зарегистрироваться можно здесь.