Анализ данных (Data analysis)

Відкрити в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Сітка:Machinelearning Росія12 514 Технології та додатки2 668...

📈 Аналітичний огляд Telegram-каналу Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 50 248 підписників, посідаючи 2 668 місце в категорії Технології та додатки та 12 514 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 50 248 підписників.

За останніми даними від 21 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на 39, а за останні 24 години на -7, загальне охоплення залишається високим.

Статус верифікації: Не верифікований
Рівень залученості (ER): Середній показник залученості аудиторії становить 8.79%. Протягом перших 24 годин після публікації контент зазвичай збирає 6.66% реакцій від загальної кількості підписників.
Охоплення публікацій: В середньому кожен допис отримує 4 415 переглядів. Протягом першої доби публікація в середньому набирає 3 346 переглядів.
Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 31.
Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, контекст, openai, архитектура, deepseek.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Завдяки високій частоті оновлень (останні дані отримано 22 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

50 248

Підписники

-724 години

+977 днів

+3930 день

4 415

Перегляди допису

~ 3 34624 години

~ 4 33548 годин

8.79%

Коефіцієнт залучення

~ 5

Дописів на день

Ads index

beta

Архів дописів

50 248

Smol Vision 🐣 Полезные гайды для запуска, оптимизации и настройки самых современных Edge Vision моделей. ▪Github @data_analysis_ml

50 248

⚡️ Встречайте Stable Diffusion 3! Самая лучшая бесплатная модель text-to-image. Модель с 2 миллиардами параметров работает даже на ноутбуках, Качество генерации —высочайшее, понимание промтов - на высочайшем уровне, генерирует даже картинки с текстом и все без ошибок! ▪Ан онс ▪Hugging Face. ▪ComfyUI @ai_machinelearning_big_data

50 248

🌟 scikit-learn-intelex — расширение от Intel для ускорения Scikit-learn — pip install scikit-learn-intelex Scikit-learn-intelex позволяет ускорить существующий код scikit-learn за счёт использования более оптимизированных реализаций алгоритмов. В зависимости от приложения ускорение может быть от 10 до 100 раз. 🖥 GitHub 🟡 Ноутбук с примерами использования scikit-learn-intelex @data_analysis_ml

50 248

🧠 Почему Alexa от Amazon не стала лучшим разговорным ИИ на планете — Несколько недель назад OpenAI выпустила GPT-4o, открыв новый стандарт для общения с ИИ. Один из бывших сотрудников Amazon - Михаил Эрик , работавших над Alexa написал крутой пост, в котором Анализирует почему Alexa стала жертвой собственного успеха и не возглавила рынок голосовых помощников. Децентрализованная империя, в которой слишком много бюрократии и слишком мало заботы о развитии ИИ. В начале 2019 года присоединился к Alexa AI в качестве научного сотрудника. К тому времени устройства с Alexa существовали уже 5 лет и было установлено более чем в 100 миллионах домов по всему миру. В 2019 году Alexa переживала период бурного роста. Каждый квартал появлялись десятки новых команд разработчиков, инвестировались огромные финансовые ресурсы, и руководство Amazon давало понять, что Alexa станет одной из главных целей в будущем. У Amazon были все ресурсы, таланты и импульс, чтобы стать бесспорным лидером на рынке разговорного искусственного интеллекта. Но большая часть этих технологий так и не увидела свет и не получила сколько-нибудь заметной огласки в прессе. Почему? Реальность такова, что проект Alexa AI был пронизан техническими и бюрократическими проблемами. Плохой технический процесс – Amazon уделяет огромное внимание защите данных клиентов, устанавливая ограничения на ИИ для предотвращения утечки данных и доступа к ним. Безусловно, это важная практика, но одним из последствий этого стало то, что разработчикам стало невыносимо трудно работать с внутренней инфраструктурой ИИ. Нужно было пройти бюррократический ад, чтобы получить доступ к любым внутренним данным для анализа или экспериментов. А все данные были плохо аннотированы. Документация по многим функциям либо отсутствовала, либо была устаревшей, получение нужного обурудования требовало большого количества согласований. *Эксперименты приходилось проводить с ограниченными вычислительными ресурсов. Представьте, что вы пытаетесь обучить модель transformer, когда все, что вам выделяют это несколько срдених CPU. Это неприемлемо для такой огромной компании. Однажды команда исследователей провела анализ, продемонстрировавший, что аннотация для части данных была сделана совершенно неправильной и это привело к неправильным разметкам данных. Это означало, что в течение нескольких месяцев одна из внутренних команд Amazon по аннотированию данных ежедневно неправильно маркировала тысячи точек данных. Когда его команда попыталась заставить эту команду изменить аннотаций, то обнаружили, что им нужно было ввести в курс дела руководителя команды, затем их менеджера, затем отправить предварительный запрос на изменение, а затем получить одобрение (процесс длился несколько месяцев от начала до конца). Поскольку это не входило в обязанности команды и не стоило затраченных усилий, было решено закрыть глаза на эту проболему. Михаил пишет, что Amazon и по сей день используют эту неправльную аннотацию. Читайте полный пост здесь, очень интересное чтиво у Amazon были все шансы, выпустить свой Amazon ChatGPT (задолго до того, как был выпущен ChatGPT) и они его упустили. @data_analysis_ml

50 248

⚡️ MLJ — фреймворк Julia для машинного обучения — using MLJ MLJ предоставляет реализацию разных ML-алгоритмов и полезные инструменты для настройки, оценивания и сравнения около 200 моделей, написанных на Julia и других языках. 🖥 GitHub 🟡 Доки @data_analysis_ml

50 248

Приглашаем на вебинар: Разбираемся с продуктовыми метриками с нуля 🔥 Основа любой аналитики - продуктовые метрики. Если аналитик их не знает, нет смысла учить Python, SQL, математику и прочее. Это база. Поэтому мы решили провести вебинар, где подробно разберем все основные продуктовые метрики, их классификацию, способы расчеты и примеры из разных бизнесов: от торговли до банкинга. 📅 Дата: 13 июня, четверг 🕘 Время: 19:00 по Мск 🔗 Доступ к трансляции придет в бота, записывайтесь → ссылка Вебинар подойдет даже если вы только-только начинаете свой путь в аналитике - будем разбирать все по шагам понятным языком 🧡 Реклама. ООО «АЙТИ РЕЗЮМЕ». ИНН 4025460134. Erid:LjN8K4SCJ

50 248

🎨 pypalettes Поиск идеальных цветов для вашей диаграммы на Python может оказаться непростой задачей. Выбор цветов вручную часто приводит к перебору множества неподходящих вариантов. Pypalette - новый пакет предоставляет коллекцию цветов из более чем 2500 палитр, тщательно отобранных сотнями экспертов. Это приложение позволяет вам без особых усилий изучать различные палитры и выбирать лучшие ваорианты. Импортируется всего в две строки кода, работает с диаграммами Matplotlib. Найдите для себя подходящую цветовую палитру, которая выделит вашу диаграмму на общем фоне! 😍 pip install git+https://github.com/JosephBARBIERDARNAL/pypalettes.git ▪Github ▪Проект @data_analysis_ml

50 248

⚡️ Cog — open-source инструмент, позволяющий упаковывать ML-модели в стандартный, готовый к производству контейнер — brew install cog Одно дело — обучить ML-модель и поиграться в тестовой среде, совсем другое дело — довести модель до продакшена. Обычно это решается с помощью Docker, но заставить его работать сложно: Docker-файлы, пред-/постобработка, серверы Flask, версии CUDA. С Cog развернуть модель становится гораздо проще. 🖥 GitHub @data_analysis_ml

50 248

🌟 gsplat — open-source библиотека для ускорения растеризации Gaussian Splatting при помощи CUDA — pip install gsplat gsplat позволяет очень быстро растеризовать гауссианы на CUDA. Библиотека вдохновлена докладом на SIGGRAPH «3D Gaussian Splatting for Real-Time Rendering of Radiance Fields» 🖥 GitHub 🟡 Доки @data_analysis_ml

50 248

🖥 AIMET — библиотека Python, которая предоставляет продвинутые методы квантования и сжатия обученных нейросетевых моделей

apt-get install liblapacke
python3 -m pip install aimet-torch

При помощи квантования AIMET помогает снизить требования к вычислительным ресурсам и памяти, при этом минимально влияя на точность работы модели. 🖥 GitHub 🟡 Доки и юзкейсы @data_analysis_ml

50 248

🔹 Какие цифровые изменения нужны для развития продуктов компании? Расскажем на открытом уроке «Какие изменения претерпевает компания в связи с цифровой трансформацией?» в Otus Разберем роль продуктового подхода и его составляющих, новые роли процессов и структур. Урок подойдет собственникам бизнеса, руководителям по цифровой трансформации, руководителям направлений и проектов Занятие приурочено к старту курса «Цифровизация и трансформация бизнеса» 👉 Регистрация: https://clck.ru/3B7kBx?erid=LjN8K2M7x

50 248

⚡️ 4х-часовой Мастер-класс по созданию GPT-2 с нуля от Андрея Карпаты Соучредитель OpenAI Андрей Карпаты выпустил подробную 4-часовую лекцию по созданию модели GPT-2 на Python с нуля. Он разъясняет каждый шаг, начиная с создания пустого файла, настройкb гиперпараметров, при этом подробно описывая архитектуру и оптимизацию. * Смотреть * Github @data_analysis_ml

50 248

⚡️ Ratchet — кроссплатформенный ML-фреймворк от Hugging Face Ratchet — это веб-фреймворк для вывода результатов машинного обучения. Работает на базе WebGPU, так что он может работать на чём угодно, в том числе и на мобильных устройствах. Ratchet заточен под скорость и простоту использования. Использование в JavaScript выглядит наподобие:

// Asynchronous loading & caching with IndexedDB
let model = await Model.load(AvailableModels.WHISPER_TINY, Quantization.Q8, (p: number) => setProgress(p))
let result = await model.run({ input });

🖥 GitHub 🟡 Доки 🟡 Затестить Whisper + Ratchet на HF @data_analysis_ml

50 248

🌟 Firecrawl — open-source краулер для вытягивания всей информации с сайтов в markdown-формате, пригодном для обучения LLM Пройтись по конкретному URL и его подстраницам можно так:

curl -X POST https://api.firecrawl.dev/v0/crawl \
    -H 'Content-Type: application/json' \
    -H 'Authorization: Bearer YOUR_API_KEY' \
    -d '{
      "url": "https://mendable.ai"
    }'

# { "jobId": "1234-5678-9101" }

🖥 GitHub 🟡 Инструкция по запуску локально @data_analysis_ml

50 248

📌Большая дорожная карта от William Brown: как и что изучать для развития в сфере генеративных нейросетей и AI Здесь собраны тонны полезных ссылок по каждому из разделов, некоторые из этих ссылок уже постились в канале, скажем, ссылки на нереально полезные туториалы от Lilian Weng. Вот основные разделы, которые покрывает этот roadmap: — анализ временных рядов, марковские модели — рекуррентные нейронные сети, LSTM и GRU, — работа с языком: токенизация и т.д. — методы файнтюнинга для LLM — оценивание LLM и бенчмарки — оптимизация LLM: квантование — масштабирование контекста — GAN, диффузионные модели — мультимодальные модели 🟡 Roadmap @data_analysis_ml

50 248

Repost from Machinelearning

⚡️ Qwen2 - самый крутой релиз откртых LLM со времен Llama 3! Alibaba только что выпустили свое новое семейство мультиязычных моделей, которых превосходят по производительности Llama 3 по многим параметрам. 🤯 Qwen2 выпущен в 5 размерах и понимает 27 языков. В таких задачах, как написания кода и решения математических задач, Llama3 остает на всех тестах. 5️⃣ Размеры: 0.5B, 1.5B, 7B, 57B-14B (MoE), 72B. ✅ Контекст: 32k для 0.5B & 1.5B, 64k для 57B MoE, 128k для 7B и 72B ✅ Поддерживает 29 языков. 📜 Выпущены под лицензией Apache 2.0, за исключением версии 72B. 📖 BLOG: https://qwenlm.github.io/blog/qwen2/ 🤗 HF collection: https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f 🤖 https://modelscope.cn/organization/qwen 💻 GitHub: https://github.com/QwenLM/Qwen2 @ai_machinelearning_big_data

50 248

🔥 Torch-TensorRT — компилятор PyTorch / TorchScript / FX для GPU от NVIDIA с использованием TensorRT — python -m pip install torch torch-tensorrt tensorrt В отличие от JIT-компилятора PyTorch, Torch-TensorRT является компилятором Ahead-of-Time (AOT) — значит перед развертыванием кода TorchScript выполняется явная компиляция для преобразования стандартной программы TorchScript или FX. Torch-TensorRT работает как расширение PyTorch; после компиляции использование оптимизированного графа не должно отличаться от запуска модуля TorchScript. 🖥 GitHub 🟡 Доки 🟡 Примеры использования @data_analysis_ml

50 248

📌Подборка ноутбуков по Data Science, чтобы освежить самое важное В этих ноутбуках очень пошагово и наглядно объясняются важнейшие темы Data Science, такие как: — байесовская статистика одномерная и двумерная статистика — доверительные интервалы и проверка гипотез — метод Монте-Карло — анализ главных компонент и кластерный анализ — ML, метрики, параметры модели и настройка гиперпараметров — очистка и предобработка данных 📎 Jupyter Notebook'и @data_analysis_ml

50 248

Этот пост написан человеческим интеллектом специально для тех, кто хочет разрабатывать искусственный 🧠 А ещё — создавать крутые цифровые продукты, которыми пользуются миллионы людей, придумывать и реализовывать самые смелые идеи и работать в команде (таких же устремлённых в будущее) единомышленников. Если ты ищешь IT-вакансию мечты — заходи на rabota.sber.ru 💻

50 248

💻 StarRocks — высокопроизводительная БД для аналитики StarRocks, проект Linux Foundation, — это база данных MPP OLAP нового поколения с быстрой обработкой данных для сложных аналитических кейсов, включая многомерную аналитику, аналитику в реальном времени и не только. Быстрый старт с помощью Docker:


docker run -p 9030:9030 -p 8030:8030 -p 8040:8040 -itd \
--name quickstart starrocks/allin1-ubuntu

🖥 GitHub 🟡 Доки @data_analysis_ml