Аналитика данных / Data Study
الذهاب إلى القناة على Telegram
Помогаю аналитикам расти в профессии и доходе Курс по продвинутому SQL и автоматизации потоков данных https://datastudy.ru/ По всем вопросам: @daniildzheparov Моя жизнь, опыт, аналитика и инженерия данных
إظهار المزيد9 474
المشتركون
+224 ساعات
-257 أيام
-930 أيام
أرشيف المشاركات
Для тех кто владеет английским языком, есть прекрасная возможность прослушать лекции по курсу Data Science for Business от Университета НИУ "Высшая Школа Экономики". Лекции доступны на Youtube в открытом доступе.
P.S. Буду проходить этот курс в рамках обучения в магистратуре, стартует со следующего месяца. У вас есть возможность прослушать качественный материал без поступления в универ)
https://youtube.com/playlist?list=PLriUvS7IljvlcLnrvYUyNc9nXhiM9kWjq
Привет!
Обещал поделиться кодом мини-проекта на pyspark. Ссылка на репозиторий: https://github.com/daniildzheparov999/Research_Seminar_Spark
Наткнулся на один интересный материал про новую версию pandas и возможность ускорения чтения csv файлов. Вот этого как раз последнюю неделю очень не хватает, много задач появилась с применением pandas)
На 1-й скрине запускается обычное чтение, на 2-м чтение с применение engine 'pyarrow'. Там же можно увидеть сравнение в скорости чтения файлов.
Завтра буду тестить в своих задачках 😉
РЕСУРСЫ ДЛЯ ИЗУЧЕНИЯ GIT И GITHUB
1. Статья про использование Git/Github:
https://vc.ru/flood/45035-znakomstvo-s-github?ysclid=l0zionhi4x
2. Статья из 2 частей как начать работать с Git: https://habr.com/ru/post/541258/
3. Практический видео-урок по основам Git и GitHub (про GitHub можно найти со времени 34:00): https://youtu.be/zZBiln_2FhM
Вот такая мотивация у нас на кофеаппарате в офисе))))
Не забывайте отдыхать и делать перерывы, всем хороших выходных!
А учеников жду завтра и послезавтра на уроки 🖐
Статья про soft-навыки, которые важно развивать IT-специалистам
https://vc.ru/hr/370050-kakie-soft-skily-stoit-razvivat-it-specialistam-v-2022-godu-atstrateh76
ЧТО БУДЕТ ПРОИСХОДИТЬ С IT В БЛИЖАЙШЕЕ ВРЕМЯ?
Обстановка на рынке в РФ очень сильно поменялась и будет продолжать меняться. Многие компании временно или полностью останавливают свою деятельность.
IT-специалисты, чью компанию затронула обстановка, скорее всего видят перед собой 2 варианта:
1. Менять работу и искать другую вакансию на рынке
2. Релокация в другую страну, если компания поддерживает это и позволяет работать дальше
Каждый решает сам по своим личным обстоятельствам как поступать. Оба варианта сильно повлияют на дальнейшее развитие рынка IT в стране.
На мой взгляд сценарий будет выглядеть следующим образом:
- из-за большого оттока специалистов зарубеж ещё больше возрастёт нехватка спецов внутри страны
- спрос от компаний будет увеличиваться, следовательно будут привлекать новых работников любыми способами - бонусы, премии, большой соц. пакет (сюда также относятся новости про льготные ипотеки и про отказ от налогов для IT)
- будет рост зарплатных ожиданий, т.к. в сильной позиции чтобы "поторговаться" на интервью будет соискатель, а не работодатель
- получать ЗП в валюте станет сложнее находясь внутри страны, еще один мотиватор для релокации
ИТОГ:
Кто хочет попасть в IT, учитесь и повышайте свои навыки, чтобы получить классный оффер от работодателя. Текущая ситуация совсем не повод опускать руки и перечеркивать все свои планы. Это мотиватор вкладывать как можно больше в себя и в свое развитие.
Если вы часто работаете в Excel, но у вас есть потребность учить Python, можно познакомиться с библиотекой Mito.
Mito позволяет представить данные в виде привычной таблицы и выполнять с ними все те же операции что и в Excel. При этом автоматически будет генерироваться Python код всех операций, выполненных с данными
https://towardsdatascience.com/how-to-analyze-data-using-mito-in-python-4bf817092367
Полезные материалы для развития навыков коммуникации для аналитиков (Soft skills)
https://vc.ru/hr/367462-kak-it-specialistu-razvit-kommunikativnye-navyki-20-poleznyh-materialov
ЧТО ИЗМЕНИТСЯ В НАЙМЕ КАНДИДАТОВ В IT в 2022
https://vc.ru/hr/368749-chto-izmenitsya-v-it-rekrutinge-v-2022-godu-osnovnye-trendy
ЧТО ТАКОЕ ТРАНЗАКЦИЯ В БАЗЕ ДАННЫХ
🔎 Транзакция — это неделимая (атомарная) операция, которую вы можете произвести с базой.
Неделимая — это значит, что база рассматривает операцию как единое целое. Она или выполняется полностью, или не выполняется вообще.
При этом транзакция может содержать в себе несколько операций. Например, вы можете вставить несколько строк в базу, и всё это будет считаться единой транзакцией. В случае если произошла ошибка, и только часть строк была вставлена в базу, транзакция "откатится", то есть все внесённые изменения будут отменены.
Когда мы выполняем несколько операций в коде, в конце нужно сделать коммит (commit), то есть показать системе, что мы должны выполнить предыдущие операции как единое целое. Каноничный пример транзакции в реальном мире — перевод денег с одного счета на другой в банке. Как происходит перевод:
Система снимает деньги с одного счета.
Система добавляет деньги на другой счет.
Если бы операция перевода не являлась транзакцией, то в случае ошибки между 1 и 2 этапом деньги пропали бы безвозвратно.
На самом деле дело не только в защите от ошибок при удалении, но и, например, в защите от неконсистентности данных. Что это значит? Допустим, вы переводите деньги с одного счета на другой. Допустим, вы хотите заплатить с первого счёта в магазине. Если транзакция еще не завершила первый этап, вы можете случайно подумать (во время другой параллельно идущей операции снятия денег), что денег у вас больше, чем есть на самом деле.
Транзакции подчиняются принципу ACID:
📍Atomic (атомарность) — если произошел коммит, значит, все операции были выполнены;
📍Consistent (консистентность) — можно сделать коммит, только если он удовлетворяет всем ограничениям (например, NOT NULL);
📍Isolated (изолированность) — снаружи транзакции не видно, что происходит внутри, пока не произошел коммит;
📍Durable (долговечность) — независимо от ошибок в системе, транзакция, которая была совершена (то есть, был коммит) останется совершённой, даже если сразу после коммита сервер упадет.
PYTHON ДЛЯ РАБОТЫ С ДАННЫМИ
🔎 Python - язык программирования, который широко используется и применяется на проектах, связанных с обработкой и анализом данных.
Он удобен, прост в понимании и чтении кода, имеет множество полезных функций и библиотек для работы с данными.
1. Pandas
Библиотека позволяет загружать, очищать и обрабатывать данные, загружать данные из различных файлов и преобразовывать их в “датафрейм”, с которым в дальнейшем идет работа и его трансформация. Данные представляются в понятном и читаемом виде таблицы, а множество функций и методов позволяют проводить простые и сложные трансформации данных.
2. Pandas Profiling
Еще одна библиотека, которая позволяет в более автоматическом режиме сделать исследование датасета и собрать все базовые метрики.
3. Requests и BeautifulSoup
Библиотеке requests позволяет извлекать данные с помощью запросов API (Application Programming Interface) к приложениям, либо отправлять различные команды приложению через python скрипт. BeautifulSoup позволяет работать с web-страницами формата HTML и XML. Обе библиотеки дают хороший инструментарий для парсинга и извлечения данных.
4. NumPy
Библиотека позволяет использовать математические расчеты и работу с массивами в вашем проекте. Это больше подходит для Data Science задач, где нужны математические инструменты.
5. Plotly и Matplotlib
Библиотеки plotly и matplotlib дают огромный инструментарий построения различных графиков, диаграмм, чартов и т.д. Некоторые графики можно построить с помощью одной строчки кода и предоставить визуализацию коллегам.
6. SciKitLearn, Keras, Pytorch, Tensorflow
Все эти библиотеки используются для работы с машинным обучением. SciKitLearn подойдет больше для построения простых алгоритмов и моделей машинного обучения, в то время как Keras или Pytorch дают более широкий спектр функций для построения нейронных сетей, моделей компьютерного зрения или обработки естественного языка.
7. SQLAlchemy
Библиотека позволяет подключаться к базам данных. Можно создавать, изменять таблицы, писать запросы, извлекать/вставлять данные. Библиотека позволяет работать с базой данных с помощью объектно-ориентированного кода, не используя SQL-запросы.
КАК НАЙТИ ВАКАНСИЮ В IT
Существует множество ресурсов и способов поиска работы в IT.
❓Но на что обращать внимание при поиске вакансии?
1. Описание компании и проекта
Смотрите на то, чем занимается компания, в какой проект открыта вакансия и самое главное, совпадают ли ваши интересы с той областью, в которой предстоит работать. Бывает, что в вакансии не описан конкретный проект - это нормально. Компании обычно ищут сотрудников на длительное сотрудничество и набирают штат не на определенные проекты, а просто в компанию, чтобы потом по необходимости и интересам сотрудника определить его на тот или иной проект.
2. Описание обязанностей
Важный пункт, который даёт понять кандидату, что от него ждут и какими навыками нужно обладать кандидату. Если обязанности расписаны общими словами: “быть ответственным и выполнять работу всегда качественно” - это не всегда полезное описание. Такие обязанности должны восприниматься как само собой выполняемые, вы должны обращать внимание на именно те задачи и обязанности, которые вы будете делать на работе. Например, «общаться с бизнес-пользователями, документировать требования в виде ТЗ для команды разработки». Здесь становится понятно, какие навыки нужно применять на данной работе.
3. Инструменты и стек применяемых технологий
Читая эту часть вакансии, задавайте себе вопрос: умею ли я работать с этими инструментами или мне нужно подтянуть свои знания? Самый простой пример: вы умеете работать в Power BI, а для вакансии требуются знания Tableau. Можно попробовать до интервью посмотреть обзоры и почитать документацию необходимых инструментов, если знания нужны только начальные и вас будут готовы обучить. Но если требуется именно специалист, то скорее всего нужно отложить эту вакансию в сторону или взяться всерьёз за обучение инструменту.
4. Предложение для соискателя
Ну и конечно тот пункт, который привлекает ваше внимание и иногда выглядит очень сладко.
Обязательно обрати внимание на
- Официальное оформление по ТК РФ
- График работы
- Условия получения ЗП, премий и бонусов
- Социальный пакет
- Все остальное, что для ВАС важно
ХРАНИЛИЩЕ ДАННЫХ vs ОЗЕРО ДАННЫХ
Часто ли вы слышали понятия Хранилище данных и Озеро данных в своей жизни? А знаете чем они отличаются между собой?
Нет? - А зря, ведь это один из базовых вопросов на собеседовании аналитиков, инженеров, менеджеров, которые рассматривают работу на проектах, связанных с Data и Business Intelligence.
Данные генерируются во всех транзакционных системах и системах управления предприятиями или компаниями (ERP, CRM, BPM…) каждую секунду.
❓Возникает вопрос: а где хранить такие большие объемы данных и получать от них пользу и профит для компании?
Тут на помощь приходят технологии аналитических хранилищ данных, или OLAP Systems - Online Analytical Processing Systems.
С развитием технологий появилось несколько подходов хранения и обработки больших объемов данных в компаниях:
📍Хранилище данных (Data Warehouse)
📍Озеро данных (Data Lake)
Существуют также гибридные методологии вида Data Vault, Delta Lake, Lake House.
ЧТО ТАКОЕ AGILE
Большинство проектных и продуктовых команд сейчас работают по Agile.
🔍 Agile - это набор методик и подходов для гибкого управления проектом по разработке программного обеспечения.
Сам подход Agile зародился еще в 2001 году, тогда был создан так называемый “Agile манифест”. Манифест описывает ценности Agile, вот некоторые из них:
“Люди и взаимодействие важнее процессов и инструментов.
Работающий продукт важнее исчерпывающей документации.
Сотрудничество с заказчиком важнее согласования условий контракта.
Готовность к изменениям важнее следования первоначальному плану."
❗️ Если вы работаете по Scrum, Kanban, у вас есть спринты, но вы не понимаете в чем ценность всего процесса - обязательно почитайте ценности Agile.
Например, по методологии Scrum есть довольно общее деление команды на роли:
- Владелец продукта
- Scrum мастер
- Команда разработки
Команда разработки считается кросс-функциональной, где не выделяются отдельные роли каждому члену команды.
❓ В чем же ценность аналитика в такой команде?
Аналитик будет связующим звеном, скрам команды и бизнес заказчиков. И будет особенно нужен в случае недостатка времени у стейкхолдеров, или отсутствия владельца продукта.
Многие разработчики не имеют желания или времени общаться с бизнес-заказчиками, ведь им нужно писать код, реализовывать новый функционал и устранять баги.
Здесь как раз и приходит на помощь аналитик, который позволит эффективно использовать разработчиков, но при этом не снижая качество общения с бизнесом.
Также, аналитик будет центром накопления знаний о предметной области продукта, контролировать качество продукта, проводить review продукта, подготавливать данные для уточнения бэклога и т.п.
متاح الآن! بحث تيليغرام 2025 — أهم رؤى العام 
