Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 254 名订阅者,在 技术与应用 类别中位列第 2 668,并在 俄罗斯 地区排名第 12 512 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 254 名订阅者。
根据 21 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 39,过去 24 小时变化为 -7,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.79%。内容发布后 24 小时内通常能获得 6.66% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 415 次浏览,首日通常累积 3 346 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 31。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 22 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 254
订阅者
-724 小时
+977 天
+3930 天
帖子存档
+2
🌟 Статистическое моделирование с PyMC
PyMC — это пакет Python для байесовского статистического моделирования, сфокусированный на продвинутых алгоритмах Марковской цепи Монте-Карло (MCMC) и вариационного вывода (VI). Гибкость и расширяемость позволяют применять PyMC для решения большого набора задач.
🖥 GitHub
🟡 Доки
@data_analysis_ml
+2
🌟 Новая статья на Habr: разработчики из команды AllSee поделились опытом внедрения YandexGPT API в свои проекты
Авторы пишут, что официального SDK пока нет, поэтому они создали свой. Здесь полное решение, включая создание класса YandexGPT Thread для хранения и управления отдельными чатами.
Из интересного: в начале есть сравнение эффективности YandexGPT и ChatGPT в одной из задач. Две модели показали хорошие результаты, но стоимость нейросети от Яндекса вышла значительно меньше.
https://habr.com/ru/articles/812979/
@data_analysis_ml
+2
🔥 LightGBM — система градиентного бустинга для решения задач ML
—
pip install lightgbm
Если подробнее, то LightGBM — это фреймворк для градиентного бустинга (GBT, GBDT, GBRT, GBM или MART) на основе алгоритмов дерева решений, используемая для ранжирования, классификации и многих других задач Machine Learning.
LightGBM разработан как распределенная и эффективная система, обладающая следующими преимуществами:
— Высокая скорость обучения и эффективность.
— Низкое потребление памяти.
— Высокая точность.
— Поддержка параллельного, распределенного и GPU-обучения.
— Возможность работы с большими объемами данных.
Благодаря этим преимуществам LightGBM широко используется во многих проектах, победивших в соревнованиях по Machine Learning.
🖥 GitHub
🟡 Доки
🟡 Пример использования LightGBM на Kaggle
@data_analysis_ml+1
🌟 LangChain-Chatchat — LLM-приложение Q&A, использующее локальную базу знаний
⏩LangChain-Chatchat (ранее Langchain-ChatGLM) — это что-то наподобие поисковой системы на основе Langchain, которая может использовать локальные файлы.
⏩Основная идея Chatchat довольно проста, вот основные этапы процесса:
загрузка файлов базы знаний ⟶ чтение текста ⟶ сегментация текста ⟶ векторизация текста ⟶ векторизация вопроса ⟶ поиск вектора текста, наиболее похожего на вектор вопроса ⟶ найденный вектор добавляется в промпт в качестве контекста и вопроса ⟶ передается в LLM для генерации ответа
⏩А вот так можно начать работу с Chatchat:
git clone https://github.com/chatchat-space/Langchain-Chatchat.git
cd Langchain-Chatchat
pip install -r requirements.txt
pip install -r requirements_api.txt
pip install -r requirements_webui.txt
git lfs install
git clone https://huggingface.co/THUDM/chatglm2-6b
git clone https://huggingface.co/moka-ai/m3e-base
python copy_config_example.py
python init_database.py --recreate-vs
python startup.py -a
🖥 GitHub
@data_analysis_ml+1
⚡️ AnythingLLM: The all-in-one AI app you were looking for.
AnythingLLM — AI-приложение с возможностями RAG и AI Agent.
Это полнофункциональное приложение, в котором вы можете использовать коммерческие LLM или популярные open-source LLM для создания частного ChatGPT без цензуры и ограничений который можно запускать как локально, так и на сервер.
🖥 GitHub
🟡 Страничка AnythingLLM
🟡 Презентация YouTube
@data_analysis_ml
⚡️ Хотите эффективно обеспечивать версионирование данных и моделей?
Освойте систему DVC на открытом практическом уроке от OTUS. Спикер Игорь Стурейко — PhD Physical and Mathematical Sciences и опытный руководитель команд.
💻 На вебинаре вы:
- научитесь настраивать в git репозитории DVC и хранить артефакты на S3;
- переключаться между версиями артефактов и загружать их во внешнее хранилище;
- создавать воспроизводимые конвейеры обучения моделей с помощью DVC Pipelines.
👉 Встречаемся 13 мая в 19:00 мск в преддверии старта курса «MLOps». Все участники вебинара получат специальную цену на обучение и персональную консультацию от менеджера OTUS!
🚀 Пройдите короткий тест прямо сейчас, чтобы посетить бесплатный урок: https://otus.pw/c5aJ/
🌟 sktime — упрощение работы с временными рядами
—
pip install sktime
sktime — это Python-библиотека для анализа временных рядов, она предоставляет единый интерфейс для решения множества задач. В частности, это такие задачи как классификация, регрессия, кластеризация и прогнозирование временных рядов.
В комплект sktime входят алгоритмы изучения временных рядов и совместимые с scikit-learn инструменты для построения, настройки и проверки моделей временных рядов.
🖥 GitHub
🟡 Доки
@data_analysis_mlОчное обучение Data Science для начинающих в НИУ ВШЭ — старт 16 мая
«Специалист по Data Science»: первая программа переподготовки, аккредитованная Альянсом в сфере ИИ. Вы изучите все направления современного анализа данных: от основ программирования и дискретной математики до машинного обучения, нейронных сетей, обработки Big Data и не только.
Старт: 16 мая
Продолжительность: 1.5 года
Полная программа и регистрация: по ссылке.
Реклама. НИУ ВШЭ.
ИНН 7714030726
Erid: 2SDnje5sgiD
+2
📌Julia для Data Science
Отличный ресурс о том, как использовать Julia в DS
Здесь очень подробно на примерах раскрыто всё, что нужно знать: от загрузки датасета до кластеризации/классификации
Есть целый раздел End-End, где показан весь процесс работы с данными на примере известных датасетов, вот например для Telco Churn
📎 Ноутбук
@data_analysis_ml
🧠 Улучши ИИ на хакатоне X5 Tech AI Hack! У тебя будет 10 дней, чтобы избавить нейросеть от галлюцинаций или научить ее работать с конфиденциальными данными. Призовой фонд от X5 Tech – 2 000 000 рублей.
Старт ML-соревнования – 17 мая. Не жди дедлайна, регистрируйся прямо сейчас: https://cnrlink.com/x5techaihackdataanalysis
Приглашаем на хакатон экспертов по Data Science, ML-специалистов, разработчиков на Python и всех остальных, кто хочет прокачать свои знания о создании ИИ. На выбор – один из двух треков:
🥷 Трек 1. Маскирование. При использовании сторонней языковой модели нельзя передавать ей чувствительные данные организации – имена клиентов, доменные адреса и прочие. Поэтому участникам необходимо подготовить алгоритм, который заменит эти сведения в тексте без потери смысла.
🔎 Трек 2. Детекция галлюцинаций. Никто не любит, когда ИИ-ассистент в ответ на вопрос дает неправильную информацию. Задача конкурсантов – разработать систему, которая сможет эффективно выявлять аномалии в текстах, сгенерированных нейросетью.
Хакатон продлится 10 дней. У тебя будет шанс получить консультацию от крутых ML-экспертов и специалистов по Data Science, обсудить решения с единомышленниками, узнать больше о проектах X5 Tech.
28-29 мая по результатам тестирования моделей участников 5 лучших команд в каждом треке получат приглашение на финал в Москве. Церемония награждения пройдет на мероприятии X5 Future Night.
Участвуй в X5 Tech AI Hack и внеси свой вклад в развитие ML-технологий: https://cnrlink.com/x5techaihackdataanalysis
Реклама. ООО «ИТ ИКС 5 Технологии». ИНН 1615014289. erid: LjN8K8fK1
+2
🌟 Статистическое моделирование с PyMC
PyMC — это пакет Python для байесовского статистического моделирования, сфокусированный на продвинутых алгоритмах Марковской цепи Монте-Карло (MCMC) и вариационного вывода (VI). Гибкость и расширяемость позволяют применять PyMC для решения большого набора задач.
🖥 GitHub
🟡 Доки
@data_analysis_ml
⚡️ Таблица инференса LLM на доллар.
Самая высокая стоимость для RTX 3090 24 ГБ, производительность H100 и A 100 является самой оптимальной в абсолютном выражении.
https://tensordock.com/benchmarks
@data_analysis_ml
🌟 CUDA/C++: с чего начиналось глубокое обучение
Думаю, многие слышали про победу AlexNet в 2012 году на конкурсе ImageNet и о начавшейся тогда революции в глубоком обучении.
Менее известным является тот факт, что код для AlexNet был написан с нуля на CUDA/C++ Алексом Крижевским. Репо называлось
cuda-convnet и находилось на Google Code.
Вероятно, этот репозиторий Google Code был закрыт, но есть несколько форков на GitHub, например этот.
AlexNet — это было одно из первых громких применений CUDA для глубокого обучения, и именно размер нейросети, который был обеспечен CUDA, позволил этой сети получить такую высокую производительность в бенчмарке ImageNet.
На самом деле это было довольно сложное мульти-GPU приложение, включающее, например, распараллеливание моделей, когда 2 параллельных потока свертки разделяются между 2 GPU.
Также стоит понимать, что в это время в 2012 году (~12 лет назад) большая часть глубокого обучения проводилась в Matlab, на CPU, в игрушечных условиях, с экспериментами над всевозможными алгоритмами обучения, архитектурами и идеями оптимизации. Поэтому было очень ново и неожиданно увидеть, как Алекс, Илья и Джефф говорят: забудьте про все алгоритмы, просто возьмите стандартный ConvNet, сделайте его очень большим, обучите его на большом наборе данных (ImageNet) и просто реализуйте все это на CUDA/C++. И именно таким образом глубокое обучение как область получило большую искру.
Конечно, уже были намеки на сдвиг в сторону масштабирования, например, Matlab изначально поддерживал GPU, и большая часть работы в лаборатории Эндрю Ына в Стэнфорде в это время шла в направлении использования GPU для глубокого обучения и масштабирования.
▶️ Подробнее об истоках глубокого обучения в треде X
@ai_machinelearning_big_data⚡️ Платформа для разработки LLM-решений — Dify
Dify — это open-source платформа для разработки LLM-приложений.
Имеет интуитивно понятный интерфейс, позволяет настраивать весь рабочий процесс AI, конвейер RAG, возможности агентов, управление моделями, и многое другое
Всё это позволяет быстро перейти от прототипа к продукту.
🖥 GitHub
🟡 Dify.AI
@data_analysis_ml
🔥Подборка лучших обучающих каналов для программистов.
➡️ Делитесь с коллегами и сохраняйте себе, чтобы не потерять
⚡Машинное обучение
Machine Learning - запускаем лучшие ИИ модели, пишем код, погружаемся в нейросети
Ml ru - актуальные статьи, новости, код и обучающие материалы
Ml Jobs - вакансии ML
ML Книги - актуальные бесплатные книги МО
ML чат
Ml Собеседование - подготовка к собесу по мл, алгоритмам, коду
🏆 Golang
Golang
Golang собеседование - разбор задач и вопросов с собесов
Golang вакансии -работа для Go разработчика
Golang книги библиотека книг
Golang задачи и тесты
Golang чат
Golang news - новости из мира go
Golang дайджест
💥 Linux /Этичный хакинг
Linux Academy - гайды, секреты и лучшие материалы по Linux
Kali linux - погрузись в мир этичного хакинга и кибербезопасности
linux_kal - kali чат
Информационная безопасность
🚀 Data Science
Анализ данных - полезные фишки, код, гайды и советы, маст-хэв датасаентиста
Data Jobs - ds вакансии
Аналитик данных
Data Science книги - актуальные бесплатные книги
Big data
🛢Базы данных
Sql базы данных - научим работе с базами данных профессионально
Библиотека баз данных
SQL чат
Вакансии Sql аналитик данных
#️⃣C#
С# академия - лучший канал по c#
С# заметки — код, лучшие практики, заметки программиста c#
С# задачи и тесты
С# библиотека - актуальные бесплатные книги
C# вакансии - работа
🐍 Python
Python/django - самый крупный обучающий канал по Python
Python Собеседование - подготовка к собеседовению python и разбор алгоритмов
Pro python - статьи, новости, код и обучающие материалы
Python Jobs - вакансии Python
Python чат
Python книги
☕ Java
Java академия - java от Senior разработчика
Java вакансии
Java чат
Java вопросы с собеседований
Java книги
💻 C++
C++ академия
С++ книги
C++ задачи - подготовка к собеседовению мл, алгоритмам
C++ вакансии
⚡️ Frontend
Javascript академия - крупнейший js канал
React - лучшие гайды и советы по работе с react
Frontend - тутрориалы, уроки, гайды, код
PHP
Книги frontend
Задачи frontend
🦀 Rust
Rust программирование
Rust чат
Rust книги для программистов
📲 Мобильная разработка
Android разработка
Мобильный разработчик гайды и уроки
🇬🇧 Английский для программистов
🧠 Искусственный интеллект
ИИ и технологии
Neural - нейросети для работы и жизни
Книги ИИ
Artificial Intelligence
🔥 DevOPs
Devops для программистов
Книги Devops
🌟 Docker/Kubernets
Docker
Kubernets
📓 Книги
Библиотеки Книг для программситов
💼 Папка с вакансиями:
Папка Go разработчика:
Папка Python разработчика:
Папка Data Science
Папка Java разработчика
Папка C#
Папка Frontend
💥 Бесплатный Chatgpt бот
Большое обновление для таблицы лидеров Massive Text Embedding Benchmark (MTEB), которое упрощает поиск нужной модели !
Добавлены фильтры для поиска моделей, по памяти, размеру и параметрам.
https://huggingface.co/spaces/mteb/leaderboard
@data_analysis_ml
🌟 Большой список ресурсов для практики Data Science
Это подборка библиотек Python, ссылок на туториалы, ссылок на примеры кода для решения DS-задач
🖥 GitHub
@data_analysis_ml
🖥 Обнаружение аномалий с помощью PyOD
—
pip install pyod
PyOD — это универсальная масштабируемая библиотека Python для поиска аномалий в многомерных данных.
Содержит ряд очень полезных алгоритмов:
🟡TODS — для обнаружения выбросов временных рядов
🟡PyGOD — для обнаружения выбросов на графиках
Кстати, к PyOD прилагается 45-страничный подробный документ по эталонному обнаружению аномалий (если не открывается, вы знаете)
И да, PyOD отлично скейлится — здесь инструкция по запуску PyOD на распределенных системах и на центрах обработки данных
🖥 GitHub
@data_analysis_mlРегистрация на «Я Железо 2024» открыта✨
Яндекс — это не только софт. Мы расскажем вам о создании умных устройств, автономного транспорта и роботов.
В этом году будет два трека:
🦾 HardWare — презентуем доклады об устройстве шасси робота, голосовом управлении в ТВ, изменениях в тестировании умных устройств, системе питания в роботе и требованиях к автомобильной электронике и её испытанию.
🌍 SoftWare — расскажем, как софт Яндекса управляет автомобилем, о локализации в беспилотных технологиях и использовании DSP и NPU-чипов, тестировании Алисы и о том, как устроен Test-driven Development в Embedded.
А еще вы сможете поболтать с Алисой, познакомиться со складскими роботами, разобраться в типах лидаров и узнать, как вас видит робот-доставщик.
В конце программы всех участников ждёт афтерпати!
Когда: 18 мая в Москве офлайн + онлайн
Зарегистрироваться и посмотреть программу мероприятия можно тут.
Реклама. ООО "Яндекс", ИНН 7736207543.
📚 Anthropic-cookbook
Коллекция ноутбуков/ советов, гайдов, демонстрирующих интересные и эффективные способы использования Claude.
▪ Github
@data_analysis_ml
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
