Анализ данных (Data analysis)

Открыть в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Больше

Сеть:Machinelearning Россия12 484 Технологии и приложения2 657...

📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 248 подписчиков, занимая 2 657 место в категории Технологии и приложения и 12 484 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 248 подписчиков.

Согласно последним данным от 25 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило 38, а за последние 24 часа — 0, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.85%. В первые 24 часа после публикации контент обычно набирает 6.52% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 4 447 просмотров. В течение первых суток публикация набирает 3 278 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 28.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Благодаря высокой частоте обновлений (последние данные получены 26 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

50 248

Подписчики

Нет данных24 часа

+377 дней

+3830 день

4 447

Просмотры поста

~ 3 27824 часа

~ 3 76448 часов

8.85%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

50 256

⚡Как развернуть GitLab с помощью Docker за 5 секунд GitLab — это веб-инструмент управления репозиториями Git, который помогает командам совместно работать над кодом. Кроме того, он предоставляет полную платформу DevOps с контролем версий, ревью кода, отслеживанием проблем (англ. issue) и CI/CD. ▪️Развертывание GitLab с помощью файла Compose от Sameersbn Начинаем развертывание GitLab со скачивания актуальной версии файла Compose: wget https://raw.githubusercontent.com/sameersbn/docker-gitlab/master/docker-compose.yml Теперь генерируем 3 случайные строки длиной не менее 64 символов, открываем файл Compose и применяем эти строки для: • GITLAB_SECRETS_OTP_KEY_BASE. Используется для шифрования секретных ключей двухфакторной аутентификации (2FA) в базе данных. Ни один пользователь не сможет войти в систему с 2FA при потере этого ключа. • GITLAB_SECRETS_DB_KEY_BASE. Нужен для шифрования секретных ключей CI и импорта учетных данных. В случае изменения/потери вы уже не сможете задействовать секретные ключи CI. • GITLAB_SECRETS_SECRET_KEY_BASE. Требуется для генерации ссылок для сброса пароля и стандартных функций аутентификации. Вы не сможете сбросить пароли через электронную почту при ее потере/изменении. ▪️Запуск экземпляра GitLab docker-compose up ▪️Развертывание GitLab вручную с помощью команд Docker Вместо скачивания актуальной версии файла Compose от Sameersbn вы можете вручную запустить контейнер GitLab, контейнер Redis и контейнер PostgreSQL за 3 простых шага. Шаг 1. Запуск контейнера PostgreSQL

docker run --name gitlab-postgresql -d \
    --env 'DB_NAME=gitlabhq_production' \
    --env 'DB_USER=gitlab' --env 'DB_PASS=password' \
    --env 'DB_EXTENSION=pg_trgm,btree_gist' \
    --volume ./gitlab_postgresql:/var/lib/postgresql \
    sameersbn/postgresql:12-20200524

Продолжение

50 256

Постройте карьеру в развивающейся сфере FinTech и получите специальность Финтех-разработчика или аналитика от МФТИ. Вуз в топ-3 по рейтингу RAEX 2022 в России. Онлайн-магистратура - это дистанционное обучение из любой точки мира, а после успешного окончания - диплом очной магистратуры МФТИ! Максимальная персонализация обучения: ✅ Возможность выбрать из трех видов ВКР: классическая диссертация, решение задачи от бизнес-партнера или собственный стартап. ✅ Практика от партнеров: от 5 реальных кейсов в портфолио (ФинтехХаб ЦБ РФ, Озон) Выбор специальностей: 🎓 Финтех-разработчик. Проектирует сервисы, разрабатывает приложения и системы для выполнения финансовых операций 🎓 Финтех-аналитик. Собирает, обрабатывает и анализирует большие данные в финансах. Участвует в построении финансово-экономической модели компании и оптимизации процессов. Во время учебы вы сможете запустить стартап, получив поддержку акселератора МФТИ. Получите бесплатную консультацию по программам и поступлению: https://clck.ru/3533my

50 256

📂 Кластеризация текста в PySpark Наша задача состоит в том, чтобы разбить все сообщения на группы, каждая из которых будет содержать в себе сообщения одного типа. 1. Создание сессии Spark и импорт необходимых модулей • Для того чтобы создать Spark сессию, мы написали следующий код:

from pyspark import SparkContext, SparkConf, HiveContext
# запуск сессии спарка
conf = SparkConf().setAppName('spark_dlab_app') 
conf.setAll(
    [
        #Укажите тут нужные параметры Spark
    ])
spark = SparkSession.builder.config(conf=conf).enableHiveSupport().getOrCreate()

• Импортируем модули для дальнейшей работы:

# для создания пользовательских функций
from pyspark.sql.functions import udf 
# для использования оконных функций
from pyspark.sql.window import Window
# для работы с PySpark DataFrame
from pyspark.sql import DataFrame
# для задания типа возвращаемого udf функцией
from pyspark.sql.types import StringType
# для создания регулярных выражений
import re
# для работы с Pandas DataFrame
import pandas as pd
# для предобработки текста
from pyspark.ml.feature import HashingTF, IDF, Word2Vec,\
                               CountVectorizer, Tokenizer, StopWordsRemover
# для кластеризации
from pyspark.ml.clustering import Kmeans, BisectingKmeans
# для создания пайплайна
from pyspark.ml import Pipeline
# для подсчета частоты слов в тексте
from nltk.probability import FreqDist

2. Предварительная обработка текста • Первым делом создадим DataFrame из данных, которые находятся на Hadoop, в нашей сессии: t = spark.table('data') • Поскольку в тексте содержится много информации, которая не несёт никакой смысловой нагрузки, например, различные цифры или знаки препинания, мы её удалим. Для этого написали UDF-функцию, которая почистит текст с помощью регулярных выражений.

def text_prep(text):
   # переводим текст в нижний регистр
    text = str(text).lower()
   # убираем всё, что не русская буква, и убираем слово «баланс»
    text = re.sub('[^а-яё]|баланс',' ',text)
   # убираем всё, что начинается с «от»
    text = re.sub('от.+','',text)
   # убираем одиночные буквы
    text = re.sub('\s[а-яё]\s{0,1}','',text)
   # если пробелов больше одного заменяем их на один
    text = re.sub('\s+',' ',text)
   # убираем лишние пробелы слева и справа
    text = text.strip()
    return text
# создание пользовательской функции
prep_text_udf = udf(text_prep, StringType())

• Применим нашу функцию и уберем пустые строки:

t = t.withColumn('prep_text', prep_text_udf('sms_text'))\
    .filter('prep_text <> ""')

📌 Продолжение @data_analysis_ml

50 256

Разобраться, чего хочет заказчик или аудитория — головная боль проджекта и продакта. Если неправильно собрать и истолковать информацию, весь проект может провалиться. Упростите свою работу: научитесь проводить интервью и анализировать метрики на курсе Яндекс Практикума по бизнес-аналитике. Студенты проведут около 20 интервью, соберут и опишут требования клиентов, презентуют решения и рассчитают финансовую выгоду. А ещё — научатся работать с данными в SQL и прокачают нужные софты: — смогут разговорить собеседника; — научатся слушать, слышать и понимать людей; — заложат базу критического и структурного мышления. Вас ждут тренажёр с реальными рабочими задачами, вебинары с бизнес-аналитиками и проекты для практики. Опытные наставники не дадут вам запутаться, а кураторы — бросить учёбу на половине. → Записывайтесь на курс, чтобы понимать заказчиков и аудиторию лучше.

50 256

🦙 Запускаем Llama2 С Трансформерами версии 4.31 уже можно использовать Llama 2 и использовать все инструменты экосистемы HF.


pip install transformers
huggingface-cli login

from transformers import AutoTokenizer
import transformers
import torch

model = "llamaste/Llama-2-7b-chat-hf"

tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    torch_dtype=torch.float16,
    device_map="auto",
)

sequences = pipeline(
    'I liked "Breaking Bad" and "Band of Brothers". Do you have any recommendations of other shows I might like?\n',
    do_sample=True,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
    max_length=200,
)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")

@data_analysis_ml

50 256

Свежие вакансии для аналитиков в Авито. Рекомендуем сразу откликаться, потому что такие вакансии у них закрываются супербыстро. ➡️ Старший аналитик в команду Запчасти ➡️ Аналитик данных в направление инцидент и проблем менеджмент ЗП обсуждается с кандидатами лично, но вот что предлагают прямо сейчас: • Талантливая команда и возможность реализовать свои идеи в проекте с многомиллионной аудиторией; • Мощное железо, дополнительные мониторы и всё, что нужно для комфортной работы; • Прозрачная система премий; • Личный бюджет на обучение, который можно тратить на книги, курсы и конференции; • ДМС со стоматологией с первого дня, в офисе принимают терапевт и массажист; • Возможность работать удалённо или сочетать работу из дома и офиса; • Красивый комфортный офис в 2 минутах от метро «Белорусская» с панорамным видом на центр города, местами для уединённой работы, двумя спортивными залами, зонами отдыха и гамаками. Если нашли для себя что-то интересное, советуем не откладывать и сразу переходить по ссылкам.

50 256

📎 9 ресурсов для изучения MLOPs MLOps — это набор процедур, направленных на последовательное и эффективное внедрение и поддержку моделей машинного обучения (ML), используемых в производстве. Само слово представляет собой сочетание, обозначающее "Machine Learning (Машинное обучение)” и процесс непрерывной разработки "DevOps" в области программного обеспечения. Модели машинного обучения оцениваются и совершенствуются в изолированных экспериментальных системах. Когда алгоритмы готовы к запуску, MLOps практикуется у Data Scientists — Специалистов по анализу данных, DevOps и инженеров машинного обучения для внедрения алгоритма в производственные системы. 1. Machine Learning Engineering от Андрея Буркова Книга "Machine Learning Engineering" освещает основы машинного обучения и фокусируется на искусстве и науке создания и развертывания конечных моделей. 2. ml-ops.org Наиболее всеобъемлющий ресурс по MLOps. Он содержит различные статьи о лучших практиках. 3. MLOps от AIEngineering Канал в YouTube по машинному обучению, у которого есть отдельный плэйлист по MLOps. Для тех, кто предпочитает видеоряд чтению. 4. ML in Production Луиги Патруно регулярно делится контентом по основам развертывания и поддержания моделей, а также последними новостями. 5. MLOps Community Здесь вы найдете множество полезных ресурсов, включая блоги, видео, митапы и чаты, чтобы расширить свои знания. 6. Awesome production machine learning Это репозиторий на GitHub для тех, кто изучить пакеты, библиотеки, передовые инструменты. Этот огромный список предназначен, чтобы помочь вам строить, разворачивать, отслеживать, версионировать, масштабировать ваши ML-системы. 7. Made With ML Этот открытый курс посвящен построению систем машинного обучения. Его попробовали уже более 30,000 людей. 8. Туториал по MLOps от DVC DVC (Data Version Control) — это система контроля версий, но предназначенная для ML-проектов, т.е. для версионирования данных и моделей. 9. TFX от TensorFlow Это платформа для развертывания моделей машинного обучения. Она содержит различные пакеты для валидации данных, преобразований, анализа моделей и проч. в экосистеме TensorFlow. @data_analysis_ml

50 256

Академия Data Science от Тинькофф! Учитесь у лучших экспертов Тинькофф и других ИТ-компаний в современном кампусе в центре Москвы. Подойдет студентам технических вузов, начинающим ИТ-специалистам и всем, кто мечтает о карьере в Data Science. Подробнее здесь: https://l.tinkoff.ru/master_ds.2023

50 256

📌 10 лучших пакетов AutoML Python для автоматизации задач машинного обучения 1. Pandas Profiling (изображение 1.) 2. Snorkel (изображение 2.) 3. MLBox (изображение 3.) 4. H20 5. TPOT (изображение 4.) 6. Autokeras 7. Ludwig (изображение 5.) 8. AutoGluon 9. Neural Network Intelligence 10. AutoGL @data_analysis_ml

50 256

@ozon_tech Intro Meetup в Алматы📍 27 июля | 18:00 (UTC +6) офлайн | онлайн ML, DS и Java-инженеры, для вас — особое приглашение, потому что на повестке: 1️⃣Рекламная платформа в Ozon, её архитектура и ML. 2️⃣Архитектура рантайма поиска в Ozon, поиск по индексу, сбор данных из различных источников, ранжирование документов с учётом пользовательских фичей. 3️⃣Архитектура рекомендаций, персонализация товарной выдачи и работа с десятками рекомендательных полок. 4️⃣Машинное обучение для рекомендаций товаров в Ozon и data science часть рекомендательной системы. 5️⃣Программы обучения, стажировки и жизнь сообщества Ozon Tech. Регистрация штука обязательная. Не откладывайте её. До встречи на митапе! #ozontech_meetup

50 256

👣 Популярные API в Data Science Туториалы по работе с API для специлистов по работе с данными: • CareerCon • DataQuest • Towards Data Science Api для сбора данных: • Amazon Machine Learning API • IBM Watson Discovery API • Open Weather Map • REST Countries • IP API • Random Data API • Google API • VK API •Telegram API • Twilio API • Census.gov API • Spotify API • Yummly API • New York Times API • Reddit API • Zillow API • Instagram API • Twitter API • Big ML API • Data Science Toolkit API • JSON Placeholder Ресурсы для изучения API: •Web API through Flask •API for beginners - Freecodecamp Тестирование API •Using Postman •Using Thunder client in VS code Сохраняйте пост себе, чтобы не потерять. @data_analysis_ml

50 256

Курс по соревновательному Data Science👨‍💻 🏆 Научись строить высокоточные ML-модели и начни выигрывать в соревнованиях по анализу данных. 🎯 В отличие от большинства курсов по машинному обучению, этот курс сконцентрирован на практике, а не на теории. Поэтому на нем будет более 200 практических заданий, интервью с Kaggle Grand Masters и, конечно же, внутренние соревнования для отработки техник. ⚡️В программе курса вас ждет: * Продвинутая работа с pandas и numpy * Генерация, визуализация и фильтрация признаков * Модуль про SOTA градиентные бустинги и то как их тюнить * Стекинг и блендинг моделей * Ускорение вычислений и оптимизация памяти * Парсинг данных из открытых источников * Работа с Kaggle Api и различными облачными вычислительными сервисам * Нейронки для табличных данных * Интервью с Kaggle Grand Masters и многое другое 🚀 Еще ребята проводят еженедельные открытые вебинары, на которых разбирают решения победителей с чемпионатов, делают обзоры предстоящих соревнование и рассказывают про необычные техники, с которыми сталкивались на практике. 🔗 Подписывайтесь на их телеграмм канал, чтобы подробнее узнать про курс и следить за открытыми вебинарами.

50 256

📎 Открытые датасеты 📎 🔵 Labelled Faces in the Wild. 13 тысяч размеченных изображений лиц. 🔵 IMF Data. Датасеты о финансах и ценах на товары. 🔵 Google Trends. Данные о поисковой статистике и трендовых запросах. 🔵 xView. Большой набор воздушных снимков Земли с аннотациями. 🔵 World Bank Open Data. Наборы данных о демографии и экономических показателях. 🔵 Labelme. Большой датасет с уже размеченными изображениями. 🔵 HotspotQA Dataset . Датасет с вопросами-ответами для генерации ответов на часто задаваемые простые вопросы. 🔵 Berkeley DeepDrive BDD100k. Тысячи часов вождения для обучения автопилотов. 🔵 MIMIC-III. Обезличенные медицинские данные пациентов. 🔵 CREMA-D — датасет для распознавания эмоций по записи голоса. @data_analysis_ml

50 256

Зачем рекламной кампании предиктивная классификация? Об этом рассказала Ирина Гутман из аналитики маркетинга Авито. Если коротко, то прогноз поведения клиента поможет вам привести его к целевому событию — будь то покупка, посещение сайта или регистрация на сервисе. На практике все, разумеется, куда тоньше. Чтобы построить прогноз на 90 дней, нужно поделить пользователей на группы, определить ценность контакта, выбрать, что предсказываете, а дальше — долго и скрупулезно считать и тестировать модели. Зато результат окупает усилия: с предиктивными моделями эффективность рекламы Авито выросла на 22%, стоимость привлечения снизилась на 12%, а новых пользователей в тестовых кампаниях было 60%. Так что посмотрите, как это сделать — в кейсе есть все формулы, метрики и методики тестирования.

50 256

⚡️ Создайте клон себя с помощью точно настроенного LLM Вы задумывались о цифровом двойнике? 👨👨 Виртуальная копия вас, которая может разговаривать, учиться и отражать ваши мысли. Прогресс в области искусственного интеллекта (ИИ) сделал эту идею реальностью. 🌟 Цель этой статьи - показать, как эффективно настроить высокопроизводительный LLM на пользовательских данных. Рассмотрен будет использование модели Falcon-7B с адаптерами LoRA и Lit-GPT для минимизации затрат. • Читай @data_analysis_ml

50 256

👉Присоединяйтесь к нашему сообществу Data Analyst REBRAIN, если вы интересуетесь аналитикой данных, управлением проектами или маркетингом. У нас для вас есть множество открытых онлайн-практикумов каждый месяц, которые проводят профессиональные аналитики. В рамках практикумов мы разбираем реальные кейсы анализа данных с использованием самых актуальных инструментов, таких как Python, SQL, Tableau, бизнес-метрики и визуализация данных, статистика, теория вероятностей и другие. Уровень сложности и направление каждого практикума подобраны таким образом, чтобы каждый мог найти для себя интересные задачи и развиваться в соответствии с уровнем своей компетенции. ✔️ Подключайтесь к нам уже сегодня и начинайте развивать свои навыки в области анализа данных совершенно бесплатно!

50 256

🗂 10 библиотек Python для автоматического разведочного анализа данных • Разведочный анализ данных (EDA) является важнейшим шагом в разработке модели Data science и исследовании наборов данных. EDA включает в себя изучение, анализ и обобщение фундаментальных характеристик наборов данных для получения представления о внутренней информации, содержащейся в них. • Известные библиотеки Python для автоматизированного EDA: 1. D-Tale D-Tale – это библиотека Python, которая предоставляет интерактивный и удобный интерфейс для визуализации и анализа данных. 2. Pandas-profiling Pandas-Profiling – позволяет автоматизировать первичный анализ данных и, тем самым, значительно его упростить и ускорить. 3. Sweetviz Sweetviz – это библиотека Python с открытым исходным кодом, которая генерирует отчеты с удобной визуализацией для выполнения EDA с помощью всего двух строк кода. Библиотека позволяет быстро создать подробный отчет по всем характеристикам набора данных без особых усилий. В возможности Sweetviz также входит целевой анализ, сравнение двух датасетов, сравнение двух частей датасета, выделенных по определенному признаку, выявление корреляций и ассоциаций, также sweetviz создает позволяет создавать и сохранять отчет как HTML файл. 4. Autoviz AutoViz – это библиотека Python, предоставляющая возможности автоматической визуализации данных, позволяющая визуализировать наборы данных любого размера всего одной строкой кода. 5. dataprep DataPrep – это библиотека Python с открытым исходным кодом, которая предоставляет функциональные возможности для анализа, подготовки и обработки данных. Она построена поверх Pandas и Dask DataFrame, что делает её легко интегрируемым интсрументом с другими библиотеками Python. 6. KLib KLib – это библиотека Python, которая предоставляет возможности автоматического разведочного анализа данных (EDA) и профилирования данных. Она предлагает различные функции и визуализации для быстрого изучения и анализа наборов данных. KLib помогает упростить процесс EDA и сделать его более удобным. 7. dabl Dabl Dabl - поможет визуализировать данные за одну строчу кода. Обычно ML-специалисты используют matplotlib для визуализации, строя нужны графики один за другим. В Dabl вызов одного метода построит целый набор диаграмм. 8. speedML SpeedML – это библиотека Python, целью которой является ускорение процесса разработки конвейера машинного обучения. 9. Sketch Sketch— это новая библиотека, которая использует возможности ИИ, чтобы помочь вам понять ваши dataframes pandas, используя вопросы на естественном языке непосредственно в Jupyter. 10. Bamboolib Bamboolib - это библиотека Python, которая предоставляет компонент пользовательского интерфейса для анализа данных без кода в Jupyter. Одним из вариантов её использования является написание кода для функций, создание которых занимает много времени. Bamboolib предназначена для упрощения обычных задач обработки данных, исследования и визуализации и может использоваться как начинающими, так и опытными аналитиками данны ▪ Подробнее @data_analysis_ml

50 256

⁉️ Как разработчику повысить свою зарплату? Один из вариантов — освоить MS SQL. Освойте востребованные компетенции, чтобы уже через полгода вырасти с мидла до сеньора! 🦾 Знание этой СУБД может стать вашим конкурентным преимуществом и аргументом для повышения заработной платы. Если вы хотите научиться разрабатывать на SQL, добро пожаловать на онлайн-курс «MS SQL Server разработчик» в OTUS. ⚠️ За 5 месяцев вы научитесь разрабатывать на SQL, проектировать и оптимизировать свои БД, писать сложные запросы и поймете, как работают базы изнутри. Все это вы освоите на живых вебинарах с преподавателями-практиками, а закрепите навыки на выпускном проекте — собственной базе данных, которая усилит ваше портфолио. 👉 Пройдите тест по MS SQL и проверьте, насколько вы готовы к обучению на углубленном курсе https://otus.pw/wXSP/

Нативная интеграция информация о продукте www.otus.ru

50 256

Модель нейросети Kandinsky 2.2 стала частью самого крупного и авторитетного в сфере ИИ фреймворка Diffusers на ресурсе Huggingface. Diffusers - это агрегатор открытых генеративных моделей, работающих на принципе диффузии. Сегодня этот фреймворк используют многие популярные ИИ-сервисы, инструменты и библиотеки: DreamFusion, Segment Anything, ML Stable Diffusion (by Apple), Invoke AI ( всего более 3000 решений). Также Kandinsky 2.2 вошел в список популярных моделей в основном репозитории Diffusers на GitHub. @data_analysis_ml