LEFT JOIN

Kanalga Telegram’da o‘tish

Понятно про анализ данных, технологии, нейросети и, конечно, SQL. Услуги — leftjoin.ru Курсы по аналитике — https://stepik.org/users/431992492 Автор — @valiotti Реклама — @valiotti Перечень РКН: https://tapthe.link/PpkTHavwS

Ko'proq ko'rsatish

Rossiya14 787 Texnologiyalar & Aralashmalar3 114...

📈 Telegram kanali LEFT JOIN analitikasi

LEFT JOIN (@leftjoin) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 43 006 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 3 114-o'rinni va Rossiya mintaqasida 14 787-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 43 006 obunachiga ega bo‘ldi.

01 Iyul, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -713 ga, so‘nggi 24 soatda esa -16 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 17.62% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 11.81% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 7 577 marta ko‘riladi; birinchi sutkada odatda 5 080 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 18 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent аналитика, sql, данными, datalens, csv kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Понятно про анализ данных, технологии, нейросети и, конечно, SQL. Услуги — leftjoin.ru Курсы по аналитике — https://stepik.org/users/431992492 Автор — @valiotti Реклама — @valiotti Перечень РКН: https://tapthe.link/PpkTHavwS”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 02 Iyul, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

43 006

Obunachilar

-1624 soatlar

-1227 kunlar

-71330 kunlar

7 577

Post ko'rishlar

~ 5 08024 soatlar

~ 5 67448 soatlar

17.62%

Muloqot nisbati

Ma'lumot yo'q

Kuniga postlar

Ads index

beta

Postlar arxiv

43 006

Одной из популярных тем в современном дата-стеке является проблема headless bi или проблема метаданных (организация единого источника правды). К примеру, airbnb решает это для себя через MinervaDB, но она пока не доступна для инженеров данных (закрытый код). А вот разработчики rakam (self-service BI, кстати, сделали ребрендинг) недавно выпустили MetriQL, который в связке с dbt должна решить эту проблему. MetriQL разработан под интересной лицензией: Business Source License.

43 006

Мне написал подписчик канала, аналитик данных Иван Тория, который поделился гайдом по запуску dbt на GCP в продакшене. Отличная статья, которая может быть полезна, если вы планируете развернуть dbt.

43 006

Настя Кузнецова недавно спрашивала про классные названия библиотек на Python🐍 Вот, например, Pint 🍺 для работы с физическими величинами. Ну, разве не прелестное название? 😋 Так что, не единой пандой 🐼

43 006

У Димы Аношина промелькнула интересная задачка в канале. В комментариях есть хорошие рабочие ответы, но меня заинтересовало то, что в PostgreSQL отсутствует RESPECT NULLS / IGNORE NULLS. Как можно решить задачу без игнорирования NULLS? Очевидно, что с подзапросом. Предположим, что таблица называется test_case, тогда

SELECT ts, event_name, position, SUM(CASE WHEN position IS NOT NULL THEN 1 END) OVER (ORDER BY ts) as cum_group
FROM test_case

Данный подзапрос (назовем его sub) позволит нам разбить строки на группы, к которым нужно отнести строку с NULL. А если position будет отличная от NULL, мы получим новую группу. Далее, мы можем просто посчитать первое значение из каждой группы, используя аналитическое выражение FIRST_VALUE.

SELECT ts, event_name, position, FIRST_VALUE(position) OVER (PARTITION BY cum_group) as result
FROM sub

Итого, все вместе:

SELECT ts, event_name, position, FIRST_VALUE(position) OVER (PARTITION BY cum_group) as result
          FROM (SELECT ts, event_name, position,  SUM(CASE WHEN position IS NOT NULL THEN 1 END) OVER (ORDER BY ts)  as cum_group
FROM test_case) sub

43 006

Смешное видео про интерпретатор javascript 😅

43 006

Про два слеша в http:// В осеннем семестре взял всего лишь один курс CSE6242, поскольку был ошарашен объемом материалов к изучению. Курс супер-крутой, обязательно и подробно про него расскажу. В нем много про визуализацию данных, отсылок к Тафти и прям полноценное погружение в D3.js. В рамках курса начал читать книгу Interactive Data Visualization for the Web от O'Reilly (классная!), и в ней обнаружилась интересность. Возможно, вы когда-то задумывались, почему протокол http:// указывается с двумя слешами? Оказывается, этому нет объяснения и создатель веба Тим Бернс Ли сожалеет об этом, поскольку они там совершенно ни для чего не нужны 🤷

43 006

Delivery Club образовательный. Аналитики сервиса поделились опытом создания мониторинга и системы “near real-time” оповещений для компаний. Приятный спойлер: супер пригодная фича не только для пользователей, но и для внутренних разрабов. Читаем материал ребят по ссылке и обсуждаем внизу в комментариях. #реклама

43 006

Классная статья про использование цепей Маркова для моделирования числа ходов, необходимых для победы в игре 2048. Там еще и продолжение есть. #link

43 006

Записать серию видео для Youtube канала о поступлении в Georgia Tech и о курсах, которые прохожу там?

Anonymous voting

43 006

🎓 Курс MGT-6203 🎓 Честно говоря, данный курс был плохо организован, я был им дико не доволен. Ну, и отзывы на OMSCentral это подтверждают. В начале курса мы заново проходили линейную регрессию в R (спрашивается для чего, если она уже была в курсе ISYE-6501), затем логистическую регрессию, затем изучали стандартное отклонение и ряд других самых базовых величин из финансовых вычислений (return, compound return), после этого погружались в метрики маркетинга (очень широко и несколько остало от действительности), в конце концов завершили курс управлением очередьми, оптимизацией процессов с использованием статистических критериев. В курсе три домашних работы с вычислениями на R и два экзамена. Каждый экзамен состоит из теста на время и решения задачек без лимита на время. Кстати, пока я писал посты про эти два курса начался осенний семестр. И у меня появилась идея о том, чтобы заснять серию видео для Youtube канала (вы же уже подписались?) о поступлении в ВУЗ (какие документы были нужны), о внутренних системах для студента Georgia Tech, о первых трех предметах и о последующих. Ниже голосование, будет ли интересно вам узнать об этом? #gatech #omsa

43 006

Интересная статья о том, как Discord (это мессенджер, популярный в игровой индустрии, который недавно был оценен в $15 млрд) менял MongoDB на Cassandra. В статье — критерии, по которым выбиралась база данных и некоторые впечатления о том, как данные моделируются в Cassandra. #link

43 006

Новинка на гитхабе — библиотека SQLModel для Python, которая упрощает взаимодействие с SQL базами данных.

43 006

Среди каналов по анализу данных, которые я читаю, есть также и каналы по дата журналистике, которые как мне кажется интересны широкой аудитории поскольку умеют представить данные правильно. Авторы канала data.csv как раз собирают такие примеры использования данных — интересную инфографику и захватывающие истории, которые публикуют СМИ. На канале можно найти работы лучших дата-журналистов со всего мира и самые интересные истории из России. Подписаться на канал можно по ссылке: https://t.me/data_csv.

43 006

юмор дата инженеров 😁

43 006

И немного инсайтов по карточкам выше Data / Product аналитик: ▪ количество вакансий несколько подросло, если сравнивать с зимой прошлого года и сейчас составляет около 350-450 открытых позиций; ▪ процент удаленных позиций стабилен на уровне 18-20% ▪ в динамике зарплаты с трудом можно увидеть инфляцию, уровень средней зп (это арифметическое среднее) колеблется на отметке 124-130К ₽. При этом распределение зарплат явно не выглядит нормальным, в целом, можно найти зарплату по специальности почти на любой вкус в рамках разумного, но и не в рамках разумного есть выбросы в размере 3% и 250К ₽ "на руки". Data Scientist: ▪ объем количество вакансий несколько меньше, чем по специальности дата аналитика и составляет 250-280 позиций ежемесячно ▪ процент удаленных вакансий и его динамика крайне похожа на предыдущую специальность ▪ а вот динамика зарплаты выглядит интереснее. Специалисты Data Science явно оцениваются выше и средний уровень ЗП составляет 172К ₽, при этом распределение зарплат явно в более "крупную" сторону и устремлено к 200К ₽. Динамика зарплат колеблется на уровне 165-180К ₽ однако разброс в уровне зарплат достаточно обширный, что отличает данную позицию от предыдущей

43 006

И немного инсайтов по карточкам выше Data / Product аналитик: * количество вакансий несколько подросло, если сравнивать с зимой прошлого года и сейчас составляет около 350-450 открытых позиций; * процент удаленных позиций стабилен на уровне 18-20% * в динамике зарплаты с трудом можно увидеть инфляцию, уровень средней зп (это арифметическое среднее) колеблется на отметке 124-130к Р. При этом распределение зарплат явно не выглядит нормальным, в целом, можно найти зарплату по специальности почти на любой вкус в рамках разумного, но и не в рамках разумного есть выбросы в размере 3% и 250К "на руки". Data Scientist: * объем количество вакансий несколько меньше, чем по специальности дата аналитика и составляет 250-280 позиций ежемесячно * процент удаленных вакансий и его динамика крайне похожа на предыдущую специальность * А вот динамика зарплаты выглядит интереснее. Специалисты Data Science явно оцениваются выше и средний уровень зп составляет 172к, при этом распределение зарплат явно в более "крупную" сторону и устремлено к 200к руб. Динамика зарплат колеблется на уровне 165-180 тр, однако разброс в уровне зарплат достаточно обширный , что отличает данную позицию от предыдущей Комментарий по графику и подписи, хотелось бы на нижнем графике с динамикой объема зарплат увидеть при наведении не только количество вакансий, но и саму цифру, тк по оси Y ее установить не представляется возможным.

43 006

Год назад мы с Колей Валиотти сделали дашбород по рынку вакансий аналитиков. 🎉 Подводим итоги за год! Сделали это в виде карточек по разным направлениям аналитики — пощёлкайте и сравните разные профессии. А ещё, подобрали ТГ каналы, чтобы качаться в каждой из областей: — Про BI и Табло — Reveal The Data =) — Про аналитику и DS — Left Join — Про системный анализ — BA|SA — Про DE — Инжиниринг данных — Про маркетинг — Матемаркетинг — Про Web — WebAnalytics 🔗 Карточки на Табло Паблик 🔗 Основной дашборд Disclaimer: данные по вакансиям с HH для Москвы и Питера. Профессии определяются по наличию ключевых слов в названии вакансии (есть BI → BI-аналитик, есть ML → Data Scientist и т.п.). Больше всего вакансий в разделе просто «аналитик» и «бизнес-аналитик», так как под ними часто понимают разные обязанности. Зарплаты указаны как средние и чистыми. Кажется, что можно умножать на ×1.2-1.4 и будет примерно рынок. #пример #ссылка

43 006

Модуль 2. Тема 10. Вычисления с использованием numpy / scipy. Введение в numpy, работа с матрицами, матричные вычисления. Плотное (dense) и разреженное (sparse) хранение матриц, сжатое разреженное хранение и координатное хранение, куча кода и алгоритмов, четыре ноутбука для решения. Модуль 2. Тема 11. Ранжирование объектов. Цепи Маркова. Наверное, самая офигенная тема из всего курса. Практическая задача по поиску наиболее важного аэропорта в США, который влияет на всю цепочку авиа-перевозок. Practice Midterm 2. Тут также есть ряд супер-интересных кейсов для практики. На примере последней темы (pagerank), прогноз численности населения в 2046 году в зависимости от миграций людей в штатах. Midterm 2. Данный экзамен дался мне существенно легче чем предыдущий, наобходимо было прилично поработать с pandas, сводными таблицами, groupby, на экзамен ушло у меня примерно полтора часа из четырех. Последний блок предлагаемых тем в курсе в большей степени про конкретные алгоритмы, которые используют чаще всего во всех ввводных курсах (101) по машинному обучению, и, честно говоря, я переживал, что тут будет тоже самое: берем такую-то библиотеку, строим модель, оцениваем R² и так далее. Однако, все совершенно иначе, курс построен по принципу изучения алгоритма, лежащего в основе каждой модели, поэтому ноутбуки в бОльшей степени посвящены, например, пониманию метода наименьших квадратов и их реализации в Python, ничего даже близкого к использованию штатных библиотек. Разумеется, они приводятся в конце для сравнения полученого результата. Модуль 2. Тема 12. Линейная регрессия. Выше базово уже описал, но тут примечателен тот пример про LSD, про который уже рассказывал, он как раз используется как пример для базовой модели линейной регрессии. ДЗ — решение ноутбука в четырех частях. Модуль 2. Тема 13. Классификация (логистическая регрессия). Подробное погружение в классификацию, описание алгоритма для решения задачи. Ноутбук в качестве домашнего задания. Модуль 2. Тема 14. Кластеризация с использованием k-средних. Ручное постепенное построение алгоритма k-средних, алгоритм довольно несложный, поэтому все решается внутри небольшого ноутбука. Модуль 2. Тема 15. Компрессия данных c использованием PCA. Довольно подробное погружение в SVD, собственные числа, матричные вычисления. На данном ноутбуке уже было ощущение, что глубокой математики достаточно :)) Но тут как раз и курс подошел к концу. Practice Problems for Final Exam. Опять же есть ряд супер-интересных задач на анализ текста песен и кластеризации текстов с использованием DBScan. Final Exam. А этот экзамен снова оказался трудным, нужно было охватить материалы из всего курса, написать несколько алгоритмов и решить ряд проблем, в итоге истратил 4 часа, получил 16 из 18 баллов, проходной был 12, чтобы получить 100%. Итого в курсе решил все задания на 100% из 100%, включая экзамены, заслуженно получил свою первую А. Классно, когда предмет дается интересно и ощущаешь пользу от полученных знаний. #gatech #omsa #учеба

43 006

🎓 Курс CSE 6040 🐍 Как я и писал ранее, о курсе остались только положительные впечатления. Расскажу о структуре курса и о том, как формируется итоговый балл. В целом, курс очень интенсивный (возможно, это связано с тем, что я взял его в летний семестр, а у американцев он довольно сжатый во времени), каждую неделю надо делать по 1-2 обширных домашних задания (требующих немало усилий). Курс построен следующим образом: под каждую тему опубликовано 5-6 вводных видео, которые погружают в тему, а весь остальной контент упакован в Jupyter ноутбуки, в рамках которых объясняется теория и размещены практические упражнения. Причем на одно домашнее задание может быть до 4-5 ноутбуков, что, конечно, отнимает значительно времени, если делать задания без пропусков и вдумчиво. Надо заметить, что на портале OMSCentral (где сами студенты публикуют открыто свой фидбек на курс), курс находится в топе по средней оценке. Оценка по загрузке примерно совпадает с тем, что есть по факту: действительно, требуется около 10 часов в неделю. Структура курса (индексация начинается с нуля, так как курс в некоторой степени программистский): Модуль 0. Тема 0. Интро и пример ноутбука, который впоследствии должен быть выполнен Модуль 0. Тема 1. Примеры на Python: ноутбук с базовыми упражнениями на переменные, циклы и вот это все в Python Модуль 0. Тема 2. Ассоциативные правила. Первый большой блок с теориями и аж 12 видео по теме. В деталях разбирается математика, лежащая в основе ассоциативных правил: условные вероятности, расчет confidence. Помимо этого погружение в множества в python, создание defaultdict Модуль 0. Тема 3. Задачи на линейную алгебру. Как раз данный топик ссылается на интерактивный учебник по линейной алгебре, про который я рассказывал ранее. Этот ноутбук для собственной практики и без оценки. Довольно много визуальных примеров и объяснения в деталях, что такое вектор (и их геометрическое представление), матрицы и т.д. Модуль 0. Тема 4. Работа с числами в Python. Топик о том, как хранятся числа, что происходит при изменении с типа данных int на float и обратно, про точность и округления. Достаточно много технической практики, перевод чисел из одной базы в другую (к примеру, из двоичной в шестнадцатиричную). К решению предлагается два ноутбука с оценкой. Модуль 1. Тема 5. Препроцессинг неструктурированного текста. Regex, отсюда же ссылочки, которые я выше публиковал на regexone. Много практики на регулярные выражения в Python. 3 ноутбука с оценкой Модуль 1. Тема 6. Майнинг веб-данных, ноутбук без оценки. Основы работы с requests, beautifulsoup, работа с web api. Три ноутбука для решения. Practice Midterm 1. Полезно заметить, что перед самим Midterm есть возможность пройти, так называемые, Practice Midterms, это работы предыдущих лет. Есть крайне интересные экземпляры в виде кейсов и алгоритмов (как-нибудь постараюсь рассказать и про них). Midterm 1. Большой экзамен на обработку данных с использованием циклов, работой со словарями, множествами, созданием алгоритмов. Лимит на 4 часа. Честно говоря, рассчитывал, что пройду за час-полтора, но задания оказались сложными, нужно было изобрести ряд алгоритмов, которые будут работать эффективно, поэтому истратил все 4 часа. Всего в задании было 16 баллов, из которых отсечка в 12 — это 100%, набрал 14. Сильно попотел конкретно над этим экзаменом, да и это был первый опыт для столь длинного экзамена не в формате теста. Модуль 1. Тема 7. Очистка данных. Тема посвящена Pandas, включая работу с Series / DataFrame, индексами, группировками, слайсами, ранжированием, лямбда-функциями. Ноутбук в двух частях с оценкой. Модуль 1. Тема 8. Визуализация данных. Использование bokeh и seaborn для построения графиков. Ноутбук без оценки, поскольку для визуализации автогрейдер не работает. Модуль 1. Тема 9. Реляционная модель данных. В основном про SQL, довольно базовое представление: DROP, CREATE, JOIN, аггрегации. Использование SQLite в ноутбуках. Два ноутбука с заданиями.