LEFT JOIN

前往频道在 Telegram

Понятно про анализ данных, технологии, нейросети и, конечно, SQL. Услуги — leftjoin.ru Курсы по аналитике — https://stepik.org/users/431992492 Автор — @valiotti Реклама — @valiotti Перечень РКН: https://tapthe.link/PpkTHavwS

显示更多

俄罗斯14 787 技术与应用3 114...

📈 Telegram 频道 LEFT JOIN 的分析概览

频道 LEFT JOIN (@leftjoin) 俄语语言赛道中的是活跃参与者。目前社区聚集了 43 006 名订阅者，在 技术与应用 类别中位列第 3 114，并在 俄罗斯 地区排名第 14 787 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 43 006 名订阅者。

根据 01 七月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -713，过去 24 小时变化为 -16，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 17.62%。内容发布后 24 小时内通常能获得 11.81% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 7 577 次浏览，首日通常累积 5 080 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 18。
主题关注点： 内容集中在 аналитика, sql, данными, datalens, csv 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Понятно про анализ данных, технологии, нейросети и, конечно, SQL. Услуги — leftjoin.ru Курсы по аналитике — https://stepik.org/users/431992492 Автор — @valiotti Реклама — @valiotti Перечень РКН: https://tapthe.link/PpkTHavwS”

凭借高频更新（最新数据采集于 02 七月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

43 006

订阅者

-1624 小时

-1227 天

-71330 天

7 577

帖子浏览量

~ 5 08024 小时

~ 5 67448 小时

17.62%

参与率

无数据

每日帖子数

Ads index

beta

帖子存档

43 001

Если вдруг когда-то хотели подучить регулярные выражения, RegexOne отлично с этим поможет.

43 001

ISYE 6501: Intro to Analytics Modeling Сегодня расскажу немного о первом вводном курсе ISYE6501. Сначала пойдут мои общие эмоции относительно курса, а затем опишу структура контента. В целом, курс мне скорее понравился, чем не понравился, но график прохождения курса очень жесткий: одновременно может случиться большая домашняя работа, лекции почти на 2-3 часа и подготовка к Midterm Quiz. При этом первая часть курса была для меня существенно интереснее, чем вторая. Оценка за весь курс состоит из нескольких частей: ◾ Самый высокий вес имеет Final Exam, а также Midterm Quiz 1, Midterm Quiz 2. Совокупно они составляют 75% общей оценки. ◾ Также предусмотрен курсовой проект — на него приходится 15% итоговой оценки ◾ Оставшиеся 10% — это выполнение домашних заданий, которые, кстати, оцениваются другими студентами (это тоже дополнительная нагрузка, потому что каждую неделю нужно оценивать три работы) Сами домашние работы занимают от 5 до 10 часов, если уже есть опыт работы с R. Без опыта мне даже страшно представить временные затраты, так как курс начинается с места в карьер: прямо с первой недели надо писать прозрачный функциональный код. Если говорить о контенте, то курс состоит из рассмотрения аналитических инструментов (analytical tools) и сквозных концепций (cross-cutting conceptions). Всего курс длится 15 недель, каждую неделю публикуются новые видео и задания. В первой половине курса изучаются основы, а в конце то, как эти основы применяются в конкретных кейсах (последняя часть оказалась очень скучной для меня). Понедельно программа выглядит так (цифра — номер недели): 1. Классификация (kNN, SVM) и общие определения данных, масштабирование. 2. Валидация, train-test split, кросс-валидация, кластеризация и отличия supervised от unsupervised. 3. Определение выбросов (тема вдохновила на отдельную статью в блоге), модель CUSUM (новое знание для меня). 4. Временные ряды: экспоненциальное сглаживание, ARIMA, GARCH, сезонность, тренд. 5. Линейная регрессия: максимальная правдоподобность, AIC/BIC, causation vs correlation, data transformation (box-cox). 6. Продвинутая подготовка данных: BoxCox, PCA, De-trending. 7. Продвинутая регрессия: CART, Random Forrests, Logistic Regression, Confusion Matrices. MidTerm Quiz 1. 8. Выбор переменных: Stepwise Regression, Ridge, Lasso, ElasticNet. 9. Design of Experiments, AB-tests, Factorial Design, Multi-arm bandits. Вероятностные модели: Бернулли, биномиальные распределения, геометрические распределения. Распределения Пуассона, экспоненциальное распределение, распределение Вейбулла. QQ-plots, симуляции, цепи Маркова. 5 эмоджи типа едет крыша 10. Пропущенные значения. Методы восстановления данных. Введение в модели оптимизации, функции оптимизации (Часть 1). 11. Оптимизационные модели (Часть 2). Нейронные сети, deep learning, графы, network models (конечно, просто overview). Модели теории игр. Midterm Quiz 2. 12. Кейс электрокомпании. 13. Кейс в ритейле. 14. Кейс в области монетизации данных. 15. Курсовой проект. Final Exam. Несколько скриншотов из видео, которые мне запомнились, ниже. #gatech #omsa

43 001

Мы уже уже анализировали рынок вакансий аналитиков в России по данным HeadHunter. Теперь хотим сравнить зарплаты специалистов в области Data Science в разных странах. В первом материале проекта расскажем, как парсить данные из базы Indeed — крупнейшего поисковика вакансий в мире: https://leftjoin.ru/all/parser-indeed-with-python/

43 001

https://preset.io/blog/2021-5-25-data-lake-athena/

43 001

Любопытное AWS-friendly решение

43 001

Процесс обучения на программе OMSA В опросе большинство высказалось за то, чтобы я продолжил рассказ про магистерскую программу OMSA в Georgia Tech. Начну рассказ с того, как в целом построена программа и какие направления (треки) можно выбрать. Всего для получения магистерской степени надо набрать 36 credit hours. При этом каждый курс оценивается в 3 credit hours, а за магистерскую диссертацию (master thesis) получаешь 6 credit hours. Счета за программу выставляют каждый семестр, а сумма зависит от того, сколько credit hours вы выбрали в отчетном периоде. Сама программа разделена на три трека: 1) Analytical Tools — в процессе обучения делается акцент на статистику, эконометрику и методы оптимизации. 2) Business Analytics — представляет собой усредненную бизнес-специализацию. Про этот трек на Reddit шутят, что он для тех, кто хочет просто получить диплом Georgia Tech. 3) Computational Data Analytics — как я понимаю, это направление образовалось на базе программы OMSCS (Master of Science in Computer Science), и фокус сделан на вычислительные методы анализа данных. Именно этот трек обучения я и выбрал. Однако, прежде чем приступить к основным курсам (majors) каждого трека, надо в обязательном порядке пройти Basic и Advanced междисциплинарные курсы. BASIC Три курса, по сути, из каждого направления: ISYE6501 (Intro to Analytics Modeling) — курс про аналитические инструменты и использование R, который я недавно закончил (скоро расскажу о нем); CSE6040 (Computing for Data Analysis) — анализ данных с использованием Python; MGT8803 (Business Fundamentals for Analytics) — какой-то общий бизнес-курс, от которого я отписался. ADVANCED CSE6242 (Data and Visual Analytics) — анализ и визуализация данных. MGT6203 (Data Analytics in Business) — общий курс про применение аналитики в бизнесе. Два курса по статистике на выбор и один курс из раздела operations research. А дальше, в зависимости от выбранного трека, можно выбрать курсы из соответствующей колонки на картинке выше. Возможности Opt-out От базовых курсов можно отписаться, если соответствующий опыт был получен в вашем предыдущем ВУЗе. У меня такой опыт был, но я посчитал целесообразным оставить курсы ISYE6510 и CSE6040, чтобы посмотреть как они выглядят изнутри. А вот от курса MGT8803 отказался, так как по оценкам студентов он “не очень“. И вообще, у американцев все продумано — есть целый ресурс, где можно посмотреть отзывы и рейтинги по каждому курсу, примерные ожидания по затрачиваемым часам на прохождение и так далее. В следующем посте расскажу о том, как устроен процесс обучения на курсе ISYE6501, который я выбрал для весеннего семестра. А потом напишу пост про содержание этого курса. #gatech #omsa

43 001

SQLiteViz — оффлайн библиотека для создания диаграмм Plotly на SQLite бд или .csv-файлах. Нечто похожее на Redash 🙂

43 001

Интересно ли почитать об американском образовании (в частности, Georgia Tech)

Anonymous voting

43 001

Georgia Institute of Technology. Online Master of Science in Analytics. В 2020 году я загорелся желанием освежить свое фундаментальное образование. На рынке сейчас представлено очень много разных курсов, но мне было интересно посмотреть как выглядит изнутри система образования в США. В последние годы, и особенно после начала пандемии COVID-19, онлайн-образование набрало невероятную популярность. Теперь даже топовые американские ВУЗы предлагают получить магистерскую степень онлайн. И я решил пройти этот путь 😎 Несмотря на то, что у меня уже есть наша PhD, я подал заявку на программу OMSA (Online Masters of Science in Analytics) в Georgia Institute of Technology. Ранее я уже приводил ряд ссылок на курсы этого ВУЗа (доступные бесплатно), но сам решил поступать на полноценную магистерскую программу. Меня привлекло то, что Georgia Tech занимает высокие позиции в рейтингах по Computer Science среди американских ВУЗов. Надо сказать, что процесс поступления занял больше полугода. Нужно было предоставить сертификат TOEFL с высоким баллом (не менее 100 из 120), три рекомендательных письма из своей alma mater, сопроводительное письмо, CV и всю информацию о предыдущем образовании. И в ноябре 2020-го я получил долгожданное письмо о том, что меня приняли (приложил его)! Теперь я принадлежу к коммьюнити с маскотом пчелы 🐝 (Buzz). Само образование построено в темпе “self-paced”, то есть в семестр можно набрать столько курсов, сколько сможешь унести (но, кажется, не более трех или четырех). На старте с учетом своего графика я взял только один курс — ISYE6501 (Intro Analytics Modeling), который является одним из обязательных и фундаментальных в программе. И вот позавчера получил свою первую оценку B за его прохождение. 🍾 В связи с этим ниже опрос — рассказать ли об этом опыте подробнее? Насколько вам интересен контент об американском образовании? Могу поделиться впечатлениями об этом курсе и о следующих: рассказать насколько учеба интенсивна, а содержание полезно.

43 001

Часто для ML-моделей нужно подготовить датасет: масштабировать или нормализовать признаки, чтобы получить корректные результаты работы алгоритма. Такого рода подготовку можно провести прямо в процессе выгрузки данных из БД. В новом материале мы собрали несколько методов для нормализации атрибутов средствами SQL сразу двумя способами: через подзапрос и с помощью оконной функции. https://leftjoin.ru/all/data-scaling-with-sql/

43 001

Рекомендации по использованию PostgreSQL в качестве хранилища данных. Внутри статьи любопытная ссылка на предостережение по использованию CTE в PostgreSQL (все от того же автора, на которого недавно ссылался по SQL для анализа данных)

43 001

Статья про то, как AirBnb добились констистентности метрик. Внутри про используемые решения и про их архитектуру данных. #link

43 001

Библиотека Clustergram для Python Интересный пост про библиотеку Clustergram для Python. При построении кластеризации методом K-Means число кластеров заранее неизвестно и традиционный подход предполагает построение так называемого Elbow-chart (да, локоть), который показывает общую внутригрупповую сумму квадратов для разного числа кластеров. Этот график не очень информативен для принятия однозначного решения по поводу числа кластеров. Предлагаемая библиотека усовершенствует подход к обнаружению числа кластеров: позволяет визуализировать разбиение на кластеры и толщиной линии отображает дополнительную информацию, получаемую от этого разбиения.

43 001

Pattern matching в Python Это весной вышла альфа-версия Python 3.10, в которой, помимо прочего, реализовано структурное сопоставление шаблонов (structural pattern matching). Раньше как таковой конструкции типа switch/case в Python не существовало. Насущные проблемы решались с помощью конструкции if/elif/else или поиском по словарю. Такие конструкции объемны и затрудняют читабельность кода. Pattern matching в новой версии Python реализован через конструкцию match/case. Станет ли это панацеей для разработчиков, судить рано. Но как применяется match/case на практике уже можно посмотреть в нашем переводе статьи от InfoWorld. https://leftjoin.ru/all/pattern-matching-v-python/

43 001

Timescale DB подняли инвестиции в размере 40 млн долларов. В статье о том, что Timescale DB — это Postgres для Time Series data, что вообще такое Time series data и как появилась Timescale DB.

43 001

Тестировали профайл клика для dbt. Сырой, особенно тяжко, если клик on cluster, потому что этот функционал не реализован. Но если клик на одной ноде - всё ок. Также есть проблемы с тем, что настройки подключения не передать в профайле. Лечится созданием специальной роли по dbt скрипты, чтобы использовались подходящие настройки. Ну и хочется материализации специфичные для кликхауса. Типа матпредставлений и, может быть, движков таблиц кафка и прочих подобных. Думаем допиливать под себя. В движках, кстати, есть проблема. В конфиге модели указывается просто *MergeTree, без скобок, соответственно без параметров. Мне бывает нужно в ReplacingMergeTree указать таймстемп, особенно если оставить надо не последнюю пришедшую запись. Резюме краткое: многое лечится кастомными макросами, благо dbt использует те, что в проекте, если находит несколько с одинаковым именем. Но хочется, чтобы адаптер не заглох. Будем контрибьютить, если

43 001

А вот Дмитрий в комментариях пишет о результатах тестирования профайла dbt для Clickhouse.