Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 248 名订阅者,在 技术与应用 类别中位列第 2 668,并在 俄罗斯 地区排名第 12 514 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 248 名订阅者。
根据 21 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 39,过去 24 小时变化为 -7,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.79%。内容发布后 24 小时内通常能获得 6.66% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 415 次浏览,首日通常累积 3 346 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 31。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 22 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 248
订阅者
-724 小时
+977 天
+3930 天
帖子存档
Smol Vision 🐣
Полезные гайды для запуска, оптимизации и настройки самых современных Edge Vision моделей.
▪Github
@data_analysis_ml
⚡️ Встречайте Stable Diffusion 3!
Самая лучшая бесплатная модель text-to-image.
Модель с 2 миллиардами параметров работает даже на ноутбуках,
Качество генерации —высочайшее, понимание промтов - на высочайшем уровне, генерирует даже картинки с текстом и все без ошибок!
▪Анонс
▪Hugging Face.
▪ComfyUI
@ai_machinelearning_big_data
🌟 scikit-learn-intelex — расширение от Intel для ускорения Scikit-learn
—
pip install scikit-learn-intelex
Scikit-learn-intelex позволяет ускорить существующий код scikit-learn за счёт использования более оптимизированных реализаций алгоритмов.
В зависимости от приложения ускорение может быть от 10 до 100 раз.
🖥 GitHub
🟡 Ноутбук с примерами использования scikit-learn-intelex
@data_analysis_ml🧠 Почему Alexa от Amazon не стала лучшим разговорным ИИ на планете
—
Несколько недель назад OpenAI выпустила GPT-4o, открыв новый стандарт для общения с ИИ.
Один из бывших сотрудников Amazon - Михаил Эрик , работавших над Alexa написал крутой пост, в котором Анализирует почему Alexa стала жертвой собственного успеха и не возглавила рынок голосовых помощников. Децентрализованная империя, в которой слишком много бюрократии и слишком мало заботы о развитии ИИ.
В начале 2019 года присоединился к Alexa AI в качестве научного сотрудника. К тому времени устройства с Alexa существовали уже 5 лет и было установлено более чем в 100 миллионах домов по всему миру.
В 2019 году Alexa переживала период бурного роста. Каждый квартал появлялись десятки новых команд разработчиков, инвестировались огромные финансовые ресурсы, и руководство Amazon давало понять, что Alexa станет одной из главных целей в будущем.
У Amazon были все ресурсы, таланты и импульс, чтобы стать бесспорным лидером на рынке разговорного искусственного интеллекта. Но большая часть этих технологий так и не увидела свет и не получила сколько-нибудь заметной огласки в прессе.
Почему?
Реальность такова, что проект Alexa AI был пронизан техническими и бюрократическими проблемами.
Плохой технический процесс
–
Amazon уделяет огромное внимание защите данных клиентов, устанавливая ограничения на ИИ для предотвращения утечки данных и доступа к ним. Безусловно, это важная практика, но одним из последствий этого стало то, что разработчикам стало невыносимо трудно работать с внутренней инфраструктурой ИИ.
Нужно было пройти бюррократический ад, чтобы получить доступ к любым внутренним данным для анализа или экспериментов. А все данные были плохо аннотированы. Документация по многим функциям либо отсутствовала, либо была устаревшей, получение нужного обурудования требовало большого количества согласований.
*Эксперименты приходилось проводить с ограниченными вычислительными ресурсов.
Представьте, что вы пытаетесь обучить модель transformer, когда все, что вам выделяют это несколько срдених CPU.
Это неприемлемо для такой огромной компании.
Однажды команда исследователей провела анализ, продемонстрировавший, что аннотация для части данных была сделана совершенно неправильной и это привело к неправильным разметкам данных.
Это означало, что в течение нескольких месяцев одна из внутренних команд Amazon по аннотированию данных ежедневно неправильно маркировала тысячи точек данных. Когда его команда попыталась заставить эту команду изменить аннотаций, то обнаружили, что им нужно было ввести в курс дела руководителя команды, затем их менеджера, затем отправить предварительный запрос на изменение, а затем получить одобрение (процесс длился несколько месяцев от начала до конца).
Поскольку это не входило в обязанности команды и не стоило затраченных усилий, было решено закрыть глаза на эту проболему.
Михаил пишет, что Amazon и по сей день используют эту неправльную аннотацию.
Читайте полный пост здесь, очень интересное чтиво у Amazon были все шансы, выпустить свой Amazon ChatGPT (задолго до того, как был выпущен ChatGPT) и они его упустили.
@data_analysis_ml
+2
⚡️ MLJ — фреймворк Julia для машинного обучения
—
using MLJ
MLJ предоставляет реализацию разных ML-алгоритмов и полезные инструменты для настройки, оценивания и сравнения около 200 моделей, написанных на Julia и других языках.
🖥 GitHub
🟡 Доки
@data_analysis_mlПриглашаем на вебинар: Разбираемся с продуктовыми метриками с нуля 🔥
Основа любой аналитики - продуктовые метрики. Если аналитик их не знает, нет смысла учить Python, SQL, математику и прочее. Это база.
Поэтому мы решили провести вебинар, где подробно разберем все основные продуктовые метрики, их классификацию, способы расчеты и примеры из разных бизнесов: от торговли до банкинга.
📅 Дата: 13 июня, четверг
🕘 Время: 19:00 по Мск
🔗 Доступ к трансляции придет в бота, записывайтесь → ссылка
Вебинар подойдет даже если вы только-только начинаете свой путь в аналитике - будем разбирать все по шагам понятным языком 🧡
Реклама. ООО «АЙТИ РЕЗЮМЕ». ИНН 4025460134.
Erid:LjN8K4SCJ
🎨 pypalettes
Поиск идеальных цветов для вашей диаграммы на Python может оказаться непростой задачей. Выбор цветов вручную часто приводит к перебору множества неподходящих вариантов.
Pypalette - новый пакет предоставляет коллекцию цветов из более чем 2500 палитр, тщательно отобранных сотнями экспертов.
Это приложение позволяет вам без особых усилий изучать различные палитры и выбирать лучшие ваорианты.
Импортируется всего в две строки кода, работает с диаграммами Matplotlib.
Найдите для себя подходящую цветовую палитру, которая выделит вашу диаграмму на общем фоне! 😍
pip install git+https://github.com/JosephBARBIERDARNAL/pypalettes.git
▪Github
▪Проект
@data_analysis_ml⚡️ Cog — open-source инструмент, позволяющий упаковывать ML-модели в стандартный, готовый к производству контейнер
—
brew install cog
Одно дело — обучить ML-модель и поиграться в тестовой среде, совсем другое дело — довести модель до продакшена.
Обычно это решается с помощью Docker, но заставить его работать сложно: Docker-файлы, пред-/постобработка, серверы Flask, версии CUDA.
С Cog развернуть модель становится гораздо проще.
🖥 GitHub
@data_analysis_ml🌟 gsplat — open-source библиотека для ускорения растеризации Gaussian Splatting при помощи CUDA
—
pip install gsplat
gsplat позволяет очень быстро растеризовать гауссианы на CUDA. Библиотека вдохновлена докладом на SIGGRAPH «3D Gaussian Splatting for Real-Time Rendering of Radiance Fields»
🖥 GitHub
🟡 Доки
@data_analysis_ml+2
🖥 AIMET — библиотека Python, которая предоставляет продвинутые методы квантования и сжатия обученных нейросетевых моделей
apt-get install liblapacke
python3 -m pip install aimet-torch
При помощи квантования AIMET помогает снизить требования к вычислительным ресурсам и памяти, при этом минимально влияя на точность работы модели.
🖥 GitHub
🟡 Доки и юзкейсы
@data_analysis_ml🔹 Какие цифровые изменения нужны для развития продуктов компании?
Расскажем на открытом уроке «Какие изменения претерпевает компания в связи с цифровой трансформацией?» в Otus
Разберем роль продуктового подхода и его составляющих, новые роли процессов и структур.
Урок подойдет собственникам бизнеса, руководителям по цифровой трансформации, руководителям направлений и проектов
Занятие приурочено к старту курса «Цифровизация и трансформация бизнеса»
👉 Регистрация:
https://clck.ru/3B7kBx?erid=LjN8K2M7x
⚡️ 4х-часовой Мастер-класс по созданию GPT-2 с нуля от Андрея Карпаты
Соучредитель OpenAI Андрей Карпаты выпустил подробную 4-часовую лекцию по созданию модели GPT-2 на Python с нуля.
Он разъясняет каждый шаг, начиная с создания пустого файла, настройкb гиперпараметров, при этом подробно описывая архитектуру и оптимизацию.
* Смотреть
* Github
@data_analysis_ml
⚡️ Ratchet — кроссплатформенный ML-фреймворк от Hugging Face
Ratchet — это веб-фреймворк для вывода результатов машинного обучения.
Работает на базе WebGPU, так что он может работать на чём угодно, в том числе и на мобильных устройствах.
Ratchet заточен под скорость и простоту использования.
Использование в JavaScript выглядит наподобие:
// Asynchronous loading & caching with IndexedDB
let model = await Model.load(AvailableModels.WHISPER_TINY, Quantization.Q8, (p: number) => setProgress(p))
let result = await model.run({ input });
🖥 GitHub
🟡 Доки
🟡 Затестить Whisper + Ratchet на HF
@data_analysis_ml+3
🌟 Firecrawl — open-source краулер для вытягивания всей информации с сайтов в markdown-формате, пригодном для обучения LLM
Пройтись по конкретному URL и его подстраницам можно так:
curl -X POST https://api.firecrawl.dev/v0/crawl \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_API_KEY' \
-d '{
"url": "https://mendable.ai"
}'
# { "jobId": "1234-5678-9101" }
🖥 GitHub
🟡 Инструкция по запуску локально
@data_analysis_ml+2
📌Большая дорожная карта от William Brown: как и что изучать для развития в сфере генеративных нейросетей и AI
Здесь собраны тонны полезных ссылок по каждому из разделов, некоторые из этих ссылок уже постились в канале, скажем, ссылки на нереально полезные туториалы от Lilian Weng.
Вот основные разделы, которые покрывает этот roadmap:
— анализ временных рядов, марковские модели
— рекуррентные нейронные сети, LSTM и GRU,
— работа с языком: токенизация и т.д.
— методы файнтюнинга для LLM
— оценивание LLM и бенчмарки
— оптимизация LLM: квантование
— масштабирование контекста
— GAN, диффузионные модели
— мультимодальные модели
🟡 Roadmap
@data_analysis_ml
Repost from Machinelearning
+4
⚡️ Qwen2 - самый крутой релиз откртых LLM со времен Llama 3!
Alibaba только что выпустили свое новое семейство мультиязычных моделей, которых превосходят по производительности Llama 3 по многим параметрам.
🤯 Qwen2 выпущен в 5 размерах и понимает 27 языков. В таких задачах, как написания кода и решения математических задач, Llama3 остает на всех тестах.
5️⃣ Размеры: 0.5B, 1.5B, 7B, 57B-14B (MoE), 72B.
✅ Контекст: 32k для 0.5B & 1.5B, 64k для 57B MoE, 128k для 7B и 72B
✅ Поддерживает 29 языков.
📜 Выпущены под лицензией Apache 2.0, за исключением версии 72B.
📖 BLOG: https://qwenlm.github.io/blog/qwen2/
🤗 HF collection: https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f
🤖 https://modelscope.cn/organization/qwen
💻 GitHub: https://github.com/QwenLM/Qwen2
@ai_machinelearning_big_data
+1
🔥 Torch-TensorRT — компилятор PyTorch / TorchScript / FX для GPU от NVIDIA с использованием TensorRT
—
python -m pip install torch torch-tensorrt tensorrt
В отличие от JIT-компилятора PyTorch, Torch-TensorRT является компилятором Ahead-of-Time (AOT) — значит перед развертыванием кода TorchScript выполняется явная компиляция для преобразования стандартной программы TorchScript или FX. Torch-TensorRT работает как расширение PyTorch; после компиляции использование оптимизированного графа не должно отличаться от запуска модуля TorchScript.
🖥 GitHub
🟡 Доки
🟡 Примеры использования
@data_analysis_ml+2
📌Подборка ноутбуков по Data Science, чтобы освежить самое важное
В этих ноутбуках очень пошагово и наглядно объясняются важнейшие темы Data Science, такие как:
— байесовская статистика
одномерная и двумерная статистика
— доверительные интервалы и проверка гипотез
— метод Монте-Карло
— анализ главных компонент и кластерный анализ
— ML, метрики, параметры модели и настройка гиперпараметров
— очистка и предобработка данных
📎 Jupyter Notebook'и
@data_analysis_ml
Этот пост написан человеческим интеллектом специально для тех, кто хочет разрабатывать искусственный 🧠
А ещё — создавать крутые цифровые продукты, которыми пользуются миллионы людей, придумывать и реализовывать самые смелые идеи и работать в команде (таких же устремлённых в будущее) единомышленников.
Если ты ищешь IT-вакансию мечты — заходи на rabota.sber.ru 💻
+4
💻 StarRocks — высокопроизводительная БД для аналитики
StarRocks, проект Linux Foundation, — это база данных MPP OLAP нового поколения с быстрой обработкой данных для сложных аналитических кейсов, включая многомерную аналитику, аналитику в реальном времени и не только.
Быстрый старт с помощью Docker:
docker run -p 9030:9030 -p 8030:8030 -p 8040:8040 -itd \
--name quickstart starrocks/allin1-ubuntu
🖥 GitHub
🟡 Доки
@data_analysis_ml
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
