Анализ данных (Data analysis)

رفتن به کانال در Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

نمایش بیشتر

شبکه:Machinelearning روسيا12 484 فناوری و برنامه‌ها2 657...

📈 تحلیل کانال تلگرام Анализ данных (Data analysis)

کانال Анализ данных (Data analysis) (@data_analysis_ml) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 50 248 مشترک است و جایگاه 2 657 را در دسته فناوری و برنامه‌ها و رتبه 12 484 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 50 248 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 25 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر 38 و در ۲۴ ساعت گذشته برابر 0 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

وضعیت تأیید: تأیید نشده
نرخ تعامل (ER): میانگین تعامل مخاطب 8.85% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 6.52% واکنش نسبت به کل مشترکان کسب می‌کند.
دسترسی پست‌ها: هر پست به طور میانگین 4 447 بازدید دریافت می‌کند. در اولین روز معمولاً 3 278 بازدید جمع‌آوری می‌شود.
واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 28 است.
علایق موضوعی: محتوا بر موضوعات کلیدی مانند llm, контекст, openai, архитектура, deepseek تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 26 ژوئن, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

50 248

مشترکین

اطلاعاتی وجود ندارد24 ساعت

+377 روز

+3830 روز

4 447

نمایش های پست

~ 3 27824 ساعت

~ 3 76448 ساعت

8.85%

نرخ مشارکت

~ 5

پست های در روز

Ads index

beta

آرشیو پست ها

50 249

🖥 Бесплатные сертификационные курсы по изучению Git и GitHub в 2023 году ❯ Введение в управление версиями с помощью Git https://learn.microsoft.com/en-us/training/paths/intro-to-vc-git ❯ Курс GitHub от Microsoft https://learn.microsoft.com/en-us/training/github ❯ Начало работы с GitHub https://udemy.com/course/git-started-with-github ❯ 5-дневное испытание The Ultimate GIT https://udemy.com/course/the-ultimate-git-5-day-challenge ❯ Контроль версий с помощью Git от Atlassian https://coursera.org/learn/version-control-with-git ❯ Интерактивное руководство по Git https://learngitbranching.js.org ❯ Основы командной строки: Git Bash для Windows https://udemy.com/course/git-bash ❯ Изучение Git с помощью Bitbucket Cloud https://hackernoon.com/top-5-free-courses-to-learn-git-and-github-best-of-lot-2f394c6533b0 ❯ Изучайте Git: Все, что нужно знать https://udemy.com/course/learngit @data_analysis_ml

50 249

Залипательное: заметка о CAD-системах, которые применяют для 3d-печати зубов. С помощью CAD-программ врач сначала составляет трёхмерную модель зубочелюстного аппарата пациента в его текущем состоянии, а потом размечает план лечения. Т.е. в виртуальной среде выполняются все необходимые лечебные действия, и там же прогнозируется их результат — вставленные импланты, исправление зубного ряда и т. д. И пациент еще до начала лечения знает, что в итоге увидит в зеркале.

50 249

🗣💭 Speech Wikimedia: A 77 Language Multilingual Speech Dataset Speech-wikimedia - это общедоступная компиляция аудиозаписей с транскрипциями, взятых из Wikimedia. Она включает 1780 часов (195 ГБ) транскрибированной речи с лицензией CC-BY-SA из различных источников и дикторов на 77 различных языках.

from datasets import load_dataset

dataset = load_dataset("MLCommons/speech-wikimedia")

🤗 HH: https://huggingface.co/datasets/MLCommons/speech-wikimedia 📌Статья: https://arxiv.org/abs/2308.15710v1 ⭐️ Dataset: https://paperswithcode.com/dataset/voxpopuli @data_analysis_ml

50 249

📣 Присоединяйтесь к AI News Hack – хакатону по разработке ИИ-сервисов! 🚀 AI Open News приглашает вас на хакатон по искусственному интеллекту. Компания создаёт бота, который помогает избавиться от информационного шума. Вместо чтения большого количества каналов, подписчики бота получают все главные новости в одном месте. 💰 Призовой фонд хакатона 500 000 рублей! 🔍 Задача на хакатоне: Разработка сервиса удаления дубликатов и классификации новостей. 👥 Приглашаются IT-специалисты, дата-сайентисты, эксперты по нейросетям и искусственному интеллекту, а также продакт-менеджеры. Присоединяйтесь к команде единомышленников и продолжите работу над инновационным продуктом. 💡 На хакатоне вы сможете проверить свои навыки, найти новых единомышленников и показать свою сообразительность. Лучшим участникам будет предложен контракт или возможность трудоустройства для продолжения работы над проектом. Не упустите возможность проявить свой потенциал и стать частью команды! Успейте зарегистрироваться до 13 сентября: https://cnrlink.com/ainewsgt

50 249

🚀 Список лучших Data Science шпаргалок 🔸Статистика - https://res.cloudinary.com/dyd911kmh/image/upload/v1662111933/Marketing/Blog/Descriptive_Statistics_Cheat_Sheet.pdf 🔸Теория вероятностей - https://res.cloudinary.com/dyd911kmh/image/upload/v1674822557/Marketing/Blog/Probability_Cheat_Sheet.pdf 🔸Data storytelling - https://res.cloudinary.com/dyd911kmh/image/upload/v1662633286/Marketing/Blog/Data_Storytelling_Cheat_Sheet.pdf 🔸Data Visualization - https://s3.amazonaws.com/assets.datacamp.com/email/other/Data+Visualizations+-+DataCamp.pdf 🔸Machine Learning - https://s3.amazonaws.com/assets.datacamp.com/email/other/ML+Cheat+Sheet_2.pdf 🔸Deep Learning - https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-deep-learning.pdf 🔸Big Data - https://github.com/Ritik2703/Data-Science-Cheat-Notes-/blob/master/Big%20Data/Hadoop-and-mapreduce-cheat-sheet.pdf 🔸NLP - https://cheatography.com/sree017/cheat-sheets/nlp/ 🔸SQL - https://s3.amazonaws.com/assets.datacamp.com/email/other/SQL+for+Data+Science.pdf 🔸Python - https://res.cloudinary.com/dyd911kmh/image/upload/v1673614153/Marketing/Blog/Python_Cheat_Sheet_for_Beginners.pdf 🔸R Programming - https://res.cloudinary.com/dyd911kmh/image/upload/v1654763044/Marketing/Blog/R_Cheat_Sheet.pdf 🔸Plotly Express - https://res.cloudinary.com/dyd911kmh/image/upload/v1668605954/Marketing/Blog/Plotly_Cheat_Sheet.pdf 🔸Git - https://res.cloudinary.com/dyd911kmh/image/upload/v1656573882/Marketing/Blog/git_cheat_sheet.pdf 🔸Excel - https://res.cloudinary.com/dyd911kmh/image/upload/v1674225421/Marketing/Blog/Excel_Cheat_Sheet.pdf 🔸Tableau - https://s3.amazonaws.com/assets.datacamp.com/email/other/Tableau+Cheat+Sheet.pdf 🔸Power BI - https://s3.amazonaws.com/assets.datacamp.com/email/other/Power+BI_Cheat+Sheet.pdf @data_analysis_ml

50 249

У Яндекс Практикума есть бесплатный курс по основам анализа данных. В нём забавный интерактивный сюжет и много практики: четыре реальных кейса из разных областей. Вам предстоит: — выяснить причину массовой поломки гаджетов, — проверить окупаемость рекламы мобильного приложения, — выбрать стратегию развития ИИ-стартапа, — оценить эффективность роботов в службе поддержки. На курсе вы напишете первый код на Python и поймёте, чем занимаются специалисты в сфере. → Приходите учиться бесплатно

50 249

🖥 Выполнение SQL непосредственно в Jupyter Notebook с помощью IPython-SQL IPython-SQL – это мощный инструмент, позволяющий легко интегрировать язык SQL (Structured Query Language) в среду IPython или Jupyter Notebook. Такая интеграция позволяет выполнять SQL-запросы и взаимодействовать с базами данных, используя при этом интерактивные возможности IPython. В этом руководстве мы рассмотрим установку, настройку и базовое использование IPython-SQL. ✔️ Установка pip install ipython-sql ✔️ Подключение к базе данных Для подключения к базе данных сначала необходимо загрузить расширение IPython-SQL, а затем с помощью магической команды %sql задать строку подключения к базе данных. Синтаксис команды следующий:

%load_ext sql
%sql dialect+driver://username:password@host:port/database

Например, для подключения к базе данных SQLite с именем example.db, расположенной в текущем каталоге, используйте:

%load_ext sql
%sql sqlite:///example.db

Замените dialect+driver на соответствующий диалект и драйвер базы данных (например, mysql, postgresql, sqlite и т.д.), а также укажите необходимую информацию об аутентификации и подключении. ✔️ Выполнение SQL-запросов После подключения к базе данных можно выполнять SQL-запросы с помощью команды %sql magic, за которой следует сам SQL-запрос. Запросы могут состоять из нескольких строк для улучшения читаемости. Вот пример: %sql SELECT * FROM employees WHERE department = 'HR'; ✔️ Доступ к результатам запросов IPython-SQL предоставляет различные способы доступа к результатам запросов. По умолчанию результаты запроса возвращаются в виде Pandas DataFrame, что облегчает работу с данными и их анализ. Чтобы присвоить результаты запроса переменной, используйте флаг -o, за которым следует имя переменной: result = %sql -o SELECT * FROM products; Также можно получить прямой доступ к результатам запроса, используя переменную _:

result = %sql SELECT * FROM orders;
print(_.head())  # Display the first few rows of the result

✔️ Магические команды IPython-SQL предлагает дополнительные магические команды для улучшения взаимодействия с базами данных: ▪️%config SqlMagic.autocommit: Включает или отключает режим автокоммита для транзакций. ▪️%config SqlMagic.displaylimit: установка максимального количества строк для отображения в результатах запроса. ▪️%%sql: Использование двойных знаков процента для выполнения многострочных SQL-запросов. Рассмотрим пример использования магической команды %%sql для многострочных запросов:

%%sql
SELECT department, AVG(salary) as avg_salary
FROM employees
GROUP BY department
ORDER BY avg_salary DESC;

✔️ Расширенное использование ▪Продолжение ▪Github @data_analysis_ml

50 249

Программировали, программировали и переросли свои задачи? Работайте над масштабными ИТ-проектами в Тинькофф. Здесь тимлид хороший и задачи интересные. А работать можно прямо там, где живете: у Тинькофф есть ИТ-хабы в 25 городах России, в Беларуси, Армении и Казахстане. Вакансии тут

50 249

🖥 Как создать привлекательные графики с рейтингами стран с помощью Python и Matplotlib Шаг 1: Создание рейтингов На первом этапе необходимо упорядочить страны по каждому году в датасете, что легко сделать с помощью pandas.

def create_rankings(df, columns):
    rank_columns = ["rank_{}".format(i) for i in range(len(columns))]
    for i, column in enumerate(columns):
        df[rank_columns[i]] = df[column].rank(ascending=False)

    return df, rank_columns

Шаг 2: Создание и стилизация сетки Теперь, когда мы подготовили данные, пришло время создать сетку, на которой мы можем рисовать наши линии и флажки. set_style- функция Seaborn, которая создает общий стиль. Она определяет такие вещи, как цвет фона и семейство шрифтов. Я также удаляю корешки и галочки.

def set_style(font_family, background_color, grid_color, text_color):
    sns.set_style({
        "axes.facecolor": background_color,
        "figure.facecolor": background_color,

        "axes.grid": True,
        "axes.axisbelow": True,

        "grid.color": grid_color,

        "text.color": text_color,
        "font.family": font_family,

        "xtick.bottom": False,
        "xtick.top": False,
        "ytick.left": False,
        "ytick.right": False,

        "axes.spines.left": False,
        "axes.spines.bottom": False,
        "axes.spines.right": False,
        "axes.spines.top": False,
    }
)

Я запускаю функцию со следующими значениями. f

ont_family = "PT Mono"
background_color = "#FAF0F1"
text_color = "#080520"
grid_color = "#E4C9C9"

set_style(font_family, background_color, grid_color, text_color)

Для создания сетки у меня есть функция, которая форматирует оси y и x. Она принимает несколько параметров, которые позволяют мне применять различные настройки, например, размер меток.

def format_ticks(ax, years, padx=0.25, pady=0.5, y_label_size=20, x_label_size=24):
    ax.set(xlim=(-padx, len(years) -1 + padx), ylim=(-len(df) - pady, - pady))

    xticks = [i for i in range(len(years))]
    ax.set_xticks(ticks=xticks, labels=years)

    yticks = [-i for i in range(1, len(df) + 1)]
    ylabels = ["{}".format(i) for i in range(1, len(df) + 1)]
    ax.set_yticks(ticks=yticks, labels=ylabels)

    ax.tick_params("y",labelsize=y_label_size, pad=16)
    ax.tick_params("x", labeltop=True, labelsize=x_label_size, pad=8)

Вот как это выглядит, когда я запускаю все, что у нас есть на данный момент.

# Load data
years = ["2000", "2005", "2010", "2015", "2020", "2022"]
df = pd.read_csv("rankings.csv", index_col=None)
df, rank_columns = create_rankings(df, years)

# Create chart
fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(15, 1.6*len(df)))
format_ticks(ax, years)

📌 Читать дальше 📌 Код @data_analysis_ml

50 249

💻 Хочешь работать с масштабными цифровыми продуктами? Учись обрабатывать большие данные MLOps — все более популярный среди компаний способ повышения производительности и создания надежных моделей корпоративного уровня. ✅ Владение инструментами MLOps открывает новые карьерные горизонты специалистам ML, Data Scientist’ам и Software инженерам. 💪 Ответьте на 10 вопросов и проверьте, насколько вы готовы к обучению на продвинутом курсе «MLOps» от OTUS. ✍️ ПРОЙТИ ТЕСТ: https://otus.pw/ZQzt/ Нативная интеграция. Информация о продукте www.otus.ru

50 249

🎞 🖥 Видео-уроки по парсингу на Python для сбора данных ▪ Основы работа с bs4 ▪ Работаем с selenium Работаем с selenium ▪ Сравниваем Scrappy и bs4 ▪ Парсинг на Python со использованием Proxy @data_analysis_ml

50 249

Команда архитекторов Yandex Cloud собрала общепринятые методики и проверенные практики, которые помогут оптимизировать хранилище данных на базе Greenplum: ✓ как рассчитать и спланировать оптимальную конфигурацию кластера; ✓ как выбрать модель данных; ✓ какие особенности Greenplum учесть; ✓ какой сценарий интеграции с источниками выбрать; ✓ как выполнять оптимизации кластера и другие административные операции. Делимся с вами контентом бесплатно! ➡️ Заполните форму, чтобы получить доступ.

50 249

🖥 Delta Lake — это платформа хранения данных с открытым исходным кодом, которая позволяет строить архитектуру Lakehouse для Spark, Flink, Trino, Hive, Scala, Java, Rust, Python и не только! С помощью Delta Lake вы можете ускорить выполнение запросов Polars по сравнению с CSV. Посмотрите на время выполнения запроса #polars для файла #csv с 1 миллиардом строк в сравнении с упорядоченной таблицей deltalake (вычисления выполняются на Macbook M1). Delta Lake работает в 30 раз быстрее. ✅ ▪Github ▪Project @data_analysis_ml

50 249

☄️Открытый урок по языковым моделям от OTUS 4 сентября в 18:00 мск встречаемся на открытом уроке «Языковые модели: от статистических до ChatGPT» в рамках курса «Natural Language Processing (NLP)» от OTUS. 📣 Кому подходит этот урок: - Практикующим Data Scientist и IT-специалистам, которые хотят глубже погрузиться в область NLP - Тем, кто хочет узнать, что делает ChatGPT таким умным - Людям, освоившим основы машинного обучения, но желающими развиваться в области DS 💪 Результаты урока: Вы узнаете, что такое языковые модели и как их использовать для решения NLP-задач, а также изучите подходы к обучению больших языковых моделей, таких как ChatGPT. Это отличная возможность совершенно бесплатно протестировать формат обучения и задать преподавателю любые вопросы в режиме реального времени 😎! Пройдите тестирование курса, чтобы зарегистрироваться на урок - https://otus.pw/8wKg/

50 249

👆 Рост производительности машинного обучения с Rust Создадим с нуля небольшой фреймворк машинного обучения на Rust. Цели 1. Выяснить, заметен ли рост скорости при переходе с Python и PyTorch на Rust и LibTorch, серверную библиотеку PyTorch на C++, особенно в процессе обучения модели. ML-модели становятся крупнее, для их обучения требуется больше вычислительных возможностей, для обычного человека порой нереальных. Один из способов уменьшить рост аппаратных требований — понять, как сделать алгоритмы вычислительно эффективнее. Python в PyTorch — это лишь слой поверх LibTorch. Вопрос в том, стоит ли менять его на Rust. Планировалось использовать крейт Tch-rs для доступа к тензорам и функционалу Autograd DLL-библиотеки LibTorch как «калькулятору градиентов», а затем разработать с нуля на Rust остальное. 2. Сделать код достаточно простым для четкого понимания всех вычислений линейной алгебры и с возможностью легко его расширить при необходимости. 3. Во фреймворке ML-модели должны определяться, насколько это возможно, по аналогичной структуре стандартных Python/PyTorch. 4. Поизучать Rust и не скучать. Но статья посвящена скорее преимуществам применения Rust в машинном обучении. • Переходим сразу к конечному результату — вот как маленьким фреймворком создаются нейросетевые модели. Листинг 1. Определение нейросетевой модели

struct MyModel {
    l1: Linear,
    l2: Linear,
}

impl MyModel {
    fn new (mem: &mut Memory) -> MyModel {
        let l1 = Linear::new(mem, 784, 128);
        let l2 = Linear::new(mem, 128, 10);
        Self {
            l1: l1,
            l2: l2,
        }
    }
}

impl Compute for MyModel {
    fn forward (&self,  mem: &Memory, input: &Tensor) -> Tensor {
        let mut o = self.l1.forward(mem, input);
        o = o.relu();
        o = self.l2.forward(mem, &o);
        o
    }
}

• Затем модель инстанцируется и обучается. Листинг 2. Инстанцирование и обучение нейросетевой модели

fn main() {
    let (x, y) = load_mnist();

    let mut m = Memory::new();
    let mymodel = MyModel::new(&mut m);
    train(&mut m, &x, &y, &mymodel, 100, 128, cross_entropy, 0.3);
    let out = mymodel.forward(&m, &x);
    println!("Training Accuracy: {}", accuracy(&y, &out));
}

Для пользователей PyTorch это интуитивно понятная аналогия определения и обучения нейросети на Python. В примере выше показана модель нейросети, используемая затем для классификации. Модель применяется к набору данных Mnist тестов производительности для сравнения двух версий модели: Rust и Python. • В первом блоке кода создается структура MyModel с двумя слоями типа Linear. • Второй блок — ее реализация, где определяется ассоциированная функция new, которой инициализируются два слоя и возвращается новый экземпляр структуры. • В третьем блоке реализуется типаж Compute для MyModel, им определяется метод forward. Затем в функции main загружается набор данных Mnist, инициализируется память, инстанцируется MyModel, а после она обучается в течение 100 эпох с размером пакета 128, потерями перекрестной энтропии и скоростью обучения 0,3. Очень даже понятно: это то, что потребуется для создания и обучения новых моделей на Rust с помощью маленького фреймворка. Теперь копнем поглубже и разберемся, как это все возможно. Если вы привыкли создавать ML-модели в PyTorch, то наверняка, глядя на код выше, зададитесь вопросом: «Зачем здесь ссылка на Memory?». Объясним ниже. 👇 ▪Часть 1 ▪Часть 2 @data_analysis_ml

50 249

Департамент информационных технологий города Москвы ищет аналитика Data Science. Ты: любишь искать закономерности и строить прогнозные модели на основе больших данных, владеешь Python (DS-библиотек), у тебя есть знания и опыт в Machine Learning и владение различными инструментами визуализации данных? У нас: задачи городского масштаба, конкурентная зарплата и премии, обучение и профессиональный рост! Направляй свое резюме @sergey_job и присоединяйся к команде Департамента информационных технологий, чтобы сделать город еще комфортнее.

50 249

🔝Лучшие GitHub репозитории для изучения MLOps. #️⃣ MLOps-Basics #️⃣ MLOps-Guide #️⃣ Awesome MLOps #️⃣ Awesome MLOps - Tools #️⃣ DTU MLOps #️⃣ MLOps Course @data_analysis_ml

50 249

Если вы интересуетесь Business Intelligence, Data Science, ГИС, визуализацией данных, то вы просто не можете пройти мимо нового выпуска подкаста «Магнитное Поле». В этом эпизоде Михаил Большаков (директор по геосервисам Магнита) рассказывает про их проприетарную ГИС для оценки на рынке ритейла России и ближнего зарубежья с точностью до конкретного двора. Как перформят собственные магазины Магнита, как дела у конкурентов, стоит ли открывать точку вот в этом доме, какого размера будет новый магазин, почему увеличился трафик в этом районе и на огромную пачку других вопросов отвечает их собственный уникальный Geo-BI инструмент. Это уже восьмой выпуск подкаста «Магнитное Поле», который совместно записывают Завтракаст и IT-команда ритейлера Магнит. В предыдущих выпусках обсуждали Data Governance, современные облачные решения и микросервисы, IT HR, ecom, кому нужен agile (а кому не нужен) и многое другое, так что стоит обратить внимание. 🎧 Послушать 📹 Посмотреть Посмотреть вакансии и отправить резюме: https://magnit.tech

50 249

🔥📖 Список Awesome ресурсов, посвященных обработке естественного языка ▪Использование #NLP на разных языках ▪Библиотеки на различных языках (C++, Java, NodeJS, R, Scala, Python, ...) ▪Рекомендации и полезные учебные пособия ▪Датасеты ▪Лучшие практики 📌Github @data_analysis_ml

50 249

🦙 Lagent: A lightweight framework for building LLM-based agents Lagent - это легковесный фреймворк с открытым исходным кодом, который позволяет легко и эффективно создавать агентов на основе больших языковых моделей (LLM). Он также предоставляет некоторые типовые инструменты для расширения возможностей LLM. pip install lagent ▪Github @data_analysis_ml