Анализ данных (Data analysis)

Kanalga Telegram’da o‘tish

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Ko'proq ko'rsatish

Tarmoq:Machinelearning Rossiya12 484 Texnologiyalar & Aralashmalar2 657...

📈 Telegram kanali Анализ данных (Data analysis) analitikasi

Анализ данных (Data analysis) (@data_analysis_ml) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 50 248 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 2 657-o'rinni va Rossiya mintaqasida 12 484-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 50 248 obunachiga ega bo‘ldi.

25 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni 38 ga, so‘nggi 24 soatda esa 0 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 8.85% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 6.52% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 4 447 marta ko‘riladi; birinchi sutkada odatda 3 278 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 28 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent llm, контекст, openai, архитектура, deepseek kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 26 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

50 248

Obunachilar

Ma'lumot yo'q24 soatlar

+377 kunlar

+3830 kunlar

4 447

Post ko'rishlar

~ 3 27824 soatlar

~ 3 76448 soatlar

8.85%

Muloqot nisbati

~ 5

Kuniga postlar

Ads index

beta

Postlar arxiv

50 251

🖥 Контроль за дрейфами предсказательных моделей и Popmon Для решения задачи мониторинга данных в голландском банке ING была разработана библиотека Popmon для Python, название которой является сокращением от «population monitoring» — «наблюдение за популяцией». В качестве датасета для демонстрации я буду использовать данные ежедневных замеров метеорологических сенсоров с 1961 по 1978 год: показания трех датчиков, минимальная и максимальная температура воздуха, минимальная температура травы, количество осадков и скорость ветра. Целью датасета является предсказание скорости ветра. Источник находится здесь. Данная библиотека позволяет найти отклонения по входным и выходным данным в датасетах. Также имеется возможность провести сравнительный анализ датасета на основе статистики из другого. Popmon умеет работать с датафреймами из библиотек Pandas и PySpark. В целях демонстрации я буду использовать Pandas. ▪Читать дальше ▪Github @data_analysis_ml

50 251

«Easy Report: российский BI, применяющий ИИ для общения с данными» 24 августа приглашаем на вебинар, на котором поговорим про ИИ, NLP в BI и поделимся опытом внедрения BI-системы в крупнейших компаниях РФ. Что будет на вебинаре ➡️ Зачем нужны ИИ и NLP в BI? Поделимся опытом от практиков, которым удалось создать работающую систему. ➡️ Кейсы применения BI-решения с ИИ. Реальные кейсы внедрения BI-системы в крупнейших компаниях РФ (ритейл, FMCG, строительство, фармацевтика). ➡️ ~~Магия~~ Как работает Easy Report - формирование отчетов "на лету" по запросу на естественном языке - подключение к источникам в различных режимах: с кэшированием данных и без - создание гетерогенной модели данных (Excel + Таблица в БД) и расчетных показателей Спикеры: Юрий Ефаров - CEO Easy Report, генеральный директор Sapiens solutions (в ТОП-15 поставщиков аналитических решений в РФ) Игорь Пантелеев - Соучредитель и CTO Easy Report, более 5 лет внедряет модули NLP в проекты Регистрация по ссылке. 🗓 24 августа, 11:00 мск • Онлайн

50 251

✔ Redis Explained Глубокое техническое погружение во все тонкости Redis. В статье рассматриваются различные топологии Redis, персистентность данных и форкинг процессов. Отличная иллюстрированная статья для глубокого понимания Redis. ▪Читать @data_analysis_ml

50 251

Яндекс уже применяет нейросеть YandexGPT в браузере и в Алисе, голосовом помощнике. Какие профессии нужны, чтобы нейросеть становилась умнее, и как отбирают данные для обучения — расскажут сотрудники, работающие над YandexGPT. → Бесплатно, 21 августа в 19:00 Мск Наши спикеры: ◾️Николай Зинов Руководитель группы YaLM Alignment в Яндексе ◾️Ирина Барская Руководитель службы аналитики и исследований в Яндексе Вы узнаете: — что такое нейросетевые языковые модели; — как модель предобучают на гигантском наборе текстов, а затем учат делать то, что попросит человек; — кто в этом участвует: разработчики, аналитики и другие специалисты; — как аналитики собирают данные и почему эти данные так важны. → Зарегистрируйтесь на вебинар Реклама АНО ДПО "Образовательные технологии Яндекса", ИНН:7704282033, erid:LjN8JvPzS

50 251

Эмбеддинг - это как переводчик, преобразующий слова в числа, чтобы алгоритмы могли их понять. Chroma позволяет легко создавать эмбеддинги из документов и находить похожие результаты, используя всего нескольких строк кода. ▪Github ▪Colab @data_analysis_ml

50 251

Хотите выйти на новый уровень в аналитике данных? Научитесь всему необходимому для решения своих рабочих задач на курсе «Аналитик данных» от школы karpovꓸcourses. Вы не только изучите теорию — на практических кейсах вы сможете отточить навыки работы со всеми актуальными инструментами для анализа данных. Обучение построено на реальных задачах индустрии и проходит в формате буткемпа, когда максимум знаний даётся за минимальный срок. Преподаватели — специалисты с опытом работы в топовых IT-компаниях. Записывайтесь на следующий поток: https://karpov.courses/analytics Кстати, сейчас на курс скидка, а по промокоду DATA44ML для вас действует дополнительная скидка 5% до 31 августа.

50 251

⚡ Data Cleaning and Preprocessing for data science beginners В этом руководстве рассмотрены все важнейшие этапы с примера кода по очистке и предварительной обработке данных. В книге описано, как качество данных может напрямую влиять на эффективность прогностических моделей и выводы, которые можно сделать на основе проведенного анализа. Понимание этих основополагающих процессов позволит превратить беспорядочные данные реального мира в золотую жилу надежных выводов. 📚Скачать книгу @data_analysis_ml

50 251

💣 Научитесь создавать рекомендательные системы для контента 📌 Приходите 24 августа в 20:00 (мск) на открытый урок «Векторизация текстов для практических задач» в рамках курса «Natural Language Processing» от OTUS! ✅ Что будем делать: — Обсудим, как можно получать векторы текстов и использовать их в практических целях; — Узнаем, как быстро сделать рекомендательную систему для текстов; — Рассмотрим похожие статьи на основе тематического моделирования, экстрактивной суммаризации и векторизации FastText; — Поищем похожие товары на основе векторизации TF-IDF; — Обсудим векторизацию текстов архитектурой BERT. 👉 В результат вы узнаете, как эффективно подбирать похожие по смыслу и тематике тексты. 💻 Успейте зарегистрироваться по ссылке https://otus.pw/18KH/ , количество свободных слотов на регистрацию ограничено. Нативная интеграция информация о продукте www.otus.ru

50 251

🖥 Тайны виртуальных конвертов: чтение и парсинг .pst файлов Сегодня я рассмотрю алгоритм чтения и парсинга .pst файлов, написанный на python. Для работы с одним файлом и оставлю в стороне параллельную обработку, которую стоит использовать при работе с большим числом архивов. Для открытия и чтения .pst файлов воспользуюсь pypff – python оберткой для библиотеки libpff, написанной на C. Эта библиотека позволяет работать с форматами PFF (Personal Folder File) и OFF (Offline Folder File), в которые как раз и входит формат .pst, наряду с форматами .pab (Personal Address Book) и .ost (Offline Storage Table).

# Установка библиотеки
pip install libpff-python
# Импортирование библиотеки
import pypff
Работа с файлом будет подобна работе с древовидным архивом. Поэтому в первую очередь после чтения файла необходимо получить корневую папку:

pst = pypff.file()
pst.open(“example.pst”)
root = pst.get_root_folder()

Дальше порядок действий будет отличаться в зависимости от задач. Например, вы можете посмотреть список дочерних писем или папок и выбрать из них нужные и обработать только их. В случае с задачей поиска идентификаторов, буду вынужден обрабатывать все письма из всех папок, так как обрабатываемые почтовые ящики имеют разную структуру папок (в первую очередь разные названия и степени вложенности). Для получения списка всех писем воспользуюсь рекурсивным методом, который проходит по папке и собирает содержимое из нее и её дочерних папок:

def parse_folder(base):
    messages = []
    for folder in base.sub_folders:
        if folder.number_of_sub_folders:
            # Извлечение писем из дочерней папки
            messages += parse_folder(folder)
        # Обработка писем в текущей папке
        for message in folder.sub_messages:
                messages.append({
                    "folder": folder.name,
                    "subject": message.subject,
                    "sender_name": message.sender_name,
                    "sender_email": get_sender_email(message),
                    "datetime": message.client_submit_time,  
                    "body_plain": get_body(message)
                })
    return messages

# Извлечение всех писем из файла
messages = parse_folder(root)

Для анализа была необходима следующая информация: тема письма, тело письма, папка, дата и время и данные об отправителе. Большую часть этой информации можно получить, просто взяв сами атрибуты объекта, но такой вариант не сработает для тела письма и почтового адреса отправителя. Как можно видеть из списка атрибутов pff.message, письмо может иметь тело в трех форматах (plain_text, html, rtf), а точнее в одном из этих трех. Для задачи меня будет интересовать получение тела письма в формате текста, поэтому необходимо конвертировать html строки (которых оказалось больше всего). Для этого воспользуемся библиотекой BeautilfulSoup: создадим объект bs на основе нашего html_body и воспользуемся методом get_text(), чтобы получить очищенный от html тегов текст письма. На этом можно было бы остановится, но в результирующих строках оставались комментарии с описанием стилей и шрифтов, поэтому дополнительно производится их удаление с помощью регулярных выражений, а также замена двойных символов перевода строки на одинарные. 📌Читать дальше @data_analysis_ml

50 251

def get_body(message):
    if message.get_plain_text_body():
        return process_plain_text_body(message)
    if message.get_html_body():
        return process_html_body(message)

Остается получить адрес отправителя, для которого, в отличие от имени, выделенного атрибута не оказалось. Внимательный читатель мог заметить, что в pff.message имеется поле с интригующим названием «transport_headers». Обратившись к данному атрибуту, я увидел бы содержимое, описывающее путь электронного письма (изображение взято из интернета для примера). 📌Читать дальше @data_analysis_ml

50 251

Действующий дата-инженер или планируете им стать? Хотите повысить квалификацию и перейти на новый карьерный уровень? Тогда выбирайте курс «Дата-инженер» от Слёрма! Он нацелен на практику, разбор реальных случаев и выполнение практических задач! А знаете почему еще мы рекомендуем пройти курс «Дата-инженер» в Слёрме? ✔️ Учим не только сбору данных, но и тому, как правильно интерпретировать их. ✔️ Научитесь строить дата-пайплайны и выстраивать эффективную работу дата-архитектуры ✔️ Будете уверенно разбираться в ландшафте инструментов для управления данными ✔️ Опытные спикеры-практики проведут за руку на через весь курс ✔️ На выходе выполните реальный проект на собственных данных 🤑 Дешевле, чем у других Старт потока 4 сентября! Запишитесь уже сейчас по выгодной цене!✨

50 251

...PyTorch Geometric ...gnns-24b3f60d6c95 🔢 Как аугментация помогает нейронным сетям решать уравнения в частных производных Обширные явления реального мира, такие как турбулентность, атмосферная циркуляция и напряжение деформируемых материалов и т.д., описываются лежащими в их основе дифференциальными уравнениями в частных производных (PDEs). Следовательно, решение PDEs является общей фундаментальной проблемой для многих научных и инженерных областей и может принести дальнейшую пользу важным приложениям реального мира. Например, моделирование воздушного потока для проектирования аэродинамического профиля крыла летательного аппарата, моделирование атмосферы для прогнозирования погоды, молекулярная динамика и т.д. Традиционный подход к численному решению PDEs основан на использовании различных солверов, которые используют те или иные классические методы. Например, метод конечных элементов (FEM) или метод конечных разностей (FDM), которые решают PDEs путем дискретизации расчетной области. Однако, в этом случае точность численного решения сильно зависит от дискретизации расчетной сетки: грубые сетки работают быстро, но менее точно; мелкие — точны, но медленны. В реальных приложениях решение PDEs обычно требует очень хорошей дискретизации и, следовательно, очень сложны, времязатратны и трудоемки для традиционных солверов. В последние несколько лет на решение этой проблемы направлены усилия ученых, занимающихся нейронными сетями (NNs). Широко известно, что NNs являются универсальными аппроксиматорами непрерывных функций. Более важным фактом является то, что NN с одним скрытым слоем может точно аппроксимировать любой нелинейный непрерывный оператор. Недавно в рамках нового направления было предложено изучение бесконечномерных операторов с помощью NNs. Нейронный оператор устраняет зависящую от сетки дискретизацию, создавая единый набор параметров NN, которые можно использовать с различными дискретизациями расчетной сетки. В этом случае мы имеем возможность передавать решения между расчетными сетками. Кроме того, нейронный оператор нужно обучить только один раз. Наконец, нейронный оператор не требует знания лежащего в основе PDE, только данные, полученные экспериментально или с помощью солверов. 📌 Читать дальше @data_analysis_ml

50 251

erid: LjN8KUZML 50 000 ₽ за хорошего аналитика Присмотритесь к своим друзьями и знакомым — вдруг среди них есть Android-аналитик который ищет работу мечты. А тут Финтех Яндекса как раз нанимает, обещает ценить и хорошо платить, да ещё и даёт 50 000 ₽ за рекомендацию. Всё что нужно — заполнить короткую анкету на сайте Финтеха Яндекса. И все будут в плюсе: у знакомого — хорошая работа, у Яндекса — крутой специалист, а у вас — бонус за рекомендацию Реклама, ООО «Яндекс»

50 251

🖥 5 факторов, которые влияют на выбор базы данных При выборе баз данных для текущего проекта (или при замене тех, которые не отвечают вашим текущим потребностям) количество возможных вариантов очень велико. Это и хорошо, и плохо, ведь нужны какие-то критерии фильтрации. Сегодня есть гораздо больше баз данных, чем когда-либо. В декабре 2012 года, когда DB-Engines.com впервые начал ранжировать базы данных, у него получился список из 73 систем (существенный рост по сравнению с самым первым списком из 18 систем). Спустя десять лет, на декабрь 2022 года в списке было уже почти четыреста систем. За последнее десятилетие произошёл настоящий кембрийский взрыв технологий баз данных. Нужно ориентироваться в обширном пространстве вариантов: SQL, NoSQL, множество «многомодельных» баз данных, которые могут быть сочетанием SQL и NoSQL, или множественные модели данных NoSQL (сочетающие две или более опций: документы, ключи-значения, широкие столбцы, графы и так далее). Кроме того, пользователи не должны путать популярность с применимостью для них. Хотя сетевой эффект имеет свои преимущества («Все пользуются X, поэтому не ошибусь, если выберу её»), он также может привести к групповому мышлению, торможению инноваций и конкуренции. ▪ Читать статью @data_analysis_ml

50 251

Live-интенсив для начинающих аналитиков по SQL и продуктовым метрикам Завтра в 18:00 по Мск пройдет бесплатный live-интенсив по теме: “Расчет продуктовых метрик с помощью SQL”. Расчёт продуктовых метрик — первый шаг при принятии решений в любой data-driven компании. 👉🏻 На live-интенсиве мы с вами подключимся к реальной облачной базе PostgreSQL и с помощью SQL рассчитаем основные продуктовые метрики онлайн-сервиса: * Activation rate * MAU * ARPU и ARPPU * другие метрики Ведущий интенсива: ◾️ Алексанян Андрон: - CEO IT Resume & Simulative; - CTO Бюро анализа данных; - 7+ опыта в аналитике. На интенсиве вы узнаете: 📍 Как используют SQL в реальной работе — вы сможете сохранить это в портфолио и показать на собеседовании: работодатель точно оценит 🤘🏻 📍 Профессиональные фишки и лайфхаки SQL: мы копили их годами и хотим рассказать вам 😏 📍 Как писать код на SQL, а также мы расскажем про продуктовые метрики — подробно объясним всё с нуля 😍 Регистрируйтесь по ссылке → https://r.bothelp.io/tg?domain=intensiv_sql_bot&start=c1692000717861-ds&utm_source=telegram&utm_medium=data_analysis_ml

50 251

🔍 Анализ данных для задач НЛП • Для успешного NLP-проекта одним из важнейших этапов является предварительная обработка данных. В этой статье мы рассмотрим все шаги, связанные с анализом данных для любой задачи НЛП. • Для анализа данных мы можем использовать статистические методы, вычислительные алгоритмы, чтобы обработать данные и повысить производительность модели. Шаги, описанные в этом посте, могут быть использованы для анализа данных для любой задачи НЛП. Настройка среды ▪Первым шагом любого проекта является настройка среды, т.е. установка важных пакетов и импорт важных библиотек.

!pip install nltk
!pip install pandas

import pandas as pd
import nltk
from nltk.tokenize import sent_tokenize,word_tokenize
from nltk.stem import PorterStemmer
from nltk.corpus import stopwords
import re

Обзор данных ▪Следующим этапом проекта будет загрузка датасета. В данном случае мы будем использовать набор данных твитов о катастрофах из Kaggle. ▪Мы можем загрузить наш датасет с помощью библиотеки pandas. df = pd.read_csv("/train.csv") ▪Для того чтобы получить общее представление о данных, мы можем просмотреть верхние строки набора данных с помощью функции head в pandas: df.head(10) Для анализа столбца ключевых слов мы используем библиотеку seaborn, которая позволяет визуализировать распределение ключевых слов и их корреляцию с целью.

plt.figure(figsize=(10,70))
sns.countplot(data=df,y="keyword",hue="target",saturation=0.50)
plt.legend(bbox_to_anchor=(1.02, 1), loc='upper left', borderaxespad=0)
plt.show()

📌 Продолжение @data_analysis_ml

50 251

❓Хотите начать свой путь в Data Science? Приходите на открытый урок "Введение в Machine Learning" от OTUS, который пройдёт 17 августа в 20:00! Вебинар приурочен к старту онлайн-курса "Machine Learning" Что разберём на уроке: - Основные понятия и типы задач машинного обучения; - Общий подход к решению задач: Exploratory Data Analysis and Preprocessing -> Models and experiments -> Production. ⚡️Занятие подойдёт: - IT-специалисту, который хочет перейти в Data Science; - Начинающему Data Scientist и специалисту по машинному обучению, желающему углубиться в профессию; - Тому, кто самостоятельно изучает Data Science; - Тому, кто хочет войти в IT, но не знает, что выбрать. 👉Регистрируйтесь по ссылке, чтобы занять место: https://otus.pw/EfYh/

50 251

🤗Гайд по развертыванию моделей Hugging Faceс помощью BentoML: DeepFloyd IF. В этой статье показано, как интегрировать DeepFloyd IF с BentoML. ▪DeepFloyd IF - это современная модель преобразования текста в изображение с открытым исходным кодом. ▪BentoML - это платформа с открытым исходным кодом для настройки и развертывания моделей машинного обучения. 📌 Читать @data_analysis_ml

50 251

🟡 Дайджест полезных материалов из мира Data science за неделю Почитать: — ML-искусство переживать проблемы: как избегать разочарований и находить аналоги товаров в периоды out-of-stock — Генеративный ИИ с базой данных SQL: Персональный чатбот разработчика SQL — Как мы научили ML-модель выбирать товары для акций в СберМаркете и увеличили ROI скидок в 8 раз — Руководство по созданию бота YouTube с помощью LangChain и Pinecone — Распределённое обучение с PyTorch на кластере для тех, кто спешит — У вас неправильные перцептроны — Как аугментация помогает нейронным сетям решать уравнения в частных производных — Дропаем ранжирующие метрики в рекомендательной системе, часть 1: визуальный анализ и popularity bias — «Диалектик», независимое социалистическое медиа, рассказывает о своих NLP проектах, публикует датасеты и делится кодом — Скрытая угроза: критерии классификации атак на нейронные сети — Список популярных утечек с GitHub: Анализ репозиториев компаний — ИИ самоучка: модель реконструкции голограмм с самоконтролируемым обучением — Основные ресурсы нейронных сетей для начинающих и энтузиастов — Анализ настроений в отзывах Trip Advisor с помощью модели трансформеров Hugging Face — SaaS platform with integrated 3D body measurement technology — Visualizing shapefiles in R with sf and ggplot2! — Reading data from csv file — Roadmap to Become a Database Engineer — Integration of Machine Learning through AWS Batch — ScoreCast: A Tool for Predicting Football Game Outcomes in Minor Leagues — Global Generalization Injection: Using Generated Sentences in Pre-Training Transformers — Grammar of Graphics: how it helps us to create clear visualizations and tell stories with data — Data Science Zero to Hero - 2.1: The Machine Learning Cycle — How Fast Does Your Website Need to Be? Посмотреть: 🌐 Методы сокращения и улучшения кода на Python 🌐 Продвинутые методы улучшения кода на Python 🌐 Создаем продвинутый интерфейс на Python 🌐 Harvard CS50’s Artificial Intelligence with Python – Full University Course 🌐Реальное Собеседование Data Science | ВСЯ ТЕОРИЯ В ОДНОМ ВИДЕО Хорошего дня! @data_analysis_ml

50 251

🗺 Визуализируем графы взаимосвязей на картах GraphMining (далее –GM) – одно из направлений анализа данных, которое позволяет представить комплексные данные в виде графов. В Python наиболее популярными библиотеками для GM являются NetworkX, pyviz и graph-tool. С их помощью можно формировать и кастомизировать различные виды графов, а, так же, вычислять множество метрик для анализа. Однако, есть проблема: стандартные библиотеки GM не работают с картами, а библиотеки для работы с картами не формируют графы. На самом деле существует очевидное и простое решение, которое я опишу далее. В начале – импортируем необходимые библиотеки:

import folium
import pandas as pd
import numpy as np

Допустим, что у меня имеется датасет с аггрегированной информацией о переводах от одного клиента другому: data = pd.read_csv('data.csv', sep = ';') В 75% строках датасета количество операций от отправителя к получателю 5 или меньше. Отфильтруем данные, оставив наиболее сильные связи: data_clean = data[data['opers_cnt']>5] Далее, необходимо получить набор точек (nodes) с идентификаторами клиентов и их координатами и посчитать общую сумму операций у клиента – отправлений и поступлений:

data_senders = data_clean.rename(
                                columns = {'id_send':'id','lat_send':'lat','lon_send':'lon'})[['id','lat','lon','opers_sum']]
data_receivers = data_clean.rename(
                                columns = {'id_recei':'id','lat_rec':'lat','lon_rec':'lon'})[['id','lat','lon','opers_sum']]

nodes = (pd.concat([data_senders, data_receivers])
                .groupby(['id','lat','lon'])['opers_sum']
                .sum()
                .reset_index())

Нормализуем объем операций, данный столбец будет использоваться в качестве параметра размера точки:

nodes['opers_sum_scaled'] = (nodes['opers_sum']-nodes['opers_sum'].min()) / (nodes['opers_sum'].max()-nodes['opers_sum'].min())*20

Обогащаем информацией о суммах отправлений и поступлений каждого идентификатора:

id_send_opers = (data_clean.groupby(['id_send'])['opers_sum'].sum()
                            .reset_index()
                            .rename(columns = {'id_send':'id','opers_sum':'send_sum'}))
        
id_rec_opers = (data_clean.groupby(['id_recei'])['opers_sum'].sum()
                            .reset_index()
                            .rename(columns = {'id_recei':'id','opers_sum':'rec_sum'}))
nodes = nodes.merge(id_send_opers, on ='id', how = 'left')
nodes = nodes.merge(id_rec_opers, on ='id', how = 'left')
nodes = nodes.fillna(0)

Получил всю необходимую информацию для нанесения точек на карту: Далее эти точки необходимо соединить – формирую список ребер:

edges = (pd.DataFrame(np.unique(np.array(['-'.join(sorted(edge)) for edge in zip(for_edges['id_send'],for_edges['id_recei'])])))[0]
             .str.split('-', expand = True).rename(columns=({0:'id_x', 1:'id_y'})))
coords_list = nodes[['id','lat','lon']]
edges = edges.merge(coords_list.rename(columns={'id':'id_x'}), on ='id_x', how = 'left')
edges = edges.merge(coords_list.rename(columns={'id':'id_y'}), on ='id_y', how = 'left')

📌 Читать дальше @data_analysis_ml