ch
Feedback
Аналитика данных / Data Study

Аналитика данных / Data Study

前往频道在 Telegram

Помогаю аналитикам расти в профессии и доходе Курс по продвинутому SQL и автоматизации потоков данных https://datastudy.ru/ По всем вопросам: @daniildzheparov Моя жизнь, опыт, аналитика и инженерия данных

显示更多
9 474
订阅者
+224 小时
-257
-930
帖子存档
Для тех кто владеет английским языком, есть прекрасная возможность прослушать лекции по курсу Data Science for Business от Университета НИУ "Высшая Школа Экономики". Лекции доступны на Youtube в открытом доступе. P.S. Буду проходить этот курс в рамках обучения в магистратуре, стартует со следующего месяца. У вас есть возможность прослушать качественный материал без поступления в универ) https://youtube.com/playlist?list=PLriUvS7IljvlcLnrvYUyNc9nXhiM9kWjq

Привет! Обещал поделиться кодом мини-проекта на pyspark. Ссылка на репозиторий: https://github.com/daniildzheparov999/Research_Seminar_Spark

Наткнулся на один интересный материал про новую версию pandas и возможность ускорения чтения csv файлов. Вот этого как раз по
+1
Наткнулся на один интересный материал про новую версию pandas и возможность ускорения чтения csv файлов. Вот этого как раз последнюю неделю очень не хватает, много задач появилась с применением pandas) На 1-й скрине запускается обычное чтение, на 2-м чтение с применение engine 'pyarrow'. Там же можно увидеть сравнение в скорости чтения файлов. Завтра буду тестить в своих задачках 😉

РЕСУРСЫ ДЛЯ ИЗУЧЕНИЯ GIT И GITHUB 1. Статья про использование Git/Github: https://vc.ru/flood/45035-znakomstvo-s-github?ysclid=l0zionhi4x 2. Статья из 2 частей как начать работать с Git: https://habr.com/ru/post/541258/ 3. Практический видео-урок по основам Git и GitHub (про GitHub можно найти со времени 34:00): https://youtu.be/zZBiln_2FhM

Вот такая мотивация у нас на кофеаппарате в офисе)))) Не забывайте отдыхать и делать перерывы, всем хороших выходных! А учени
Вот такая мотивация у нас на кофеаппарате в офисе)))) Не забывайте отдыхать и делать перерывы, всем хороших выходных! А учеников жду завтра и послезавтра на уроки 🖐

Статья про soft-навыки, которые важно развивать IT-специалистам https://vc.ru/hr/370050-kakie-soft-skily-stoit-razvivat-it-specialistam-v-2022-godu-atstrateh76

Книга "Практическая статистика для специалистов Data Science"

ЧТО БУДЕТ ПРОИСХОДИТЬ С IT В БЛИЖАЙШЕЕ ВРЕМЯ? Обстановка на рынке в РФ очень сильно поменялась и будет продолжать меняться. Многие компании временно или полностью останавливают свою деятельность. IT-специалисты, чью компанию затронула обстановка, скорее всего видят перед собой 2 варианта: 1. Менять работу и искать другую вакансию на рынке 2. Релокация в другую страну, если компания поддерживает это и позволяет работать дальше Каждый решает сам по своим личным обстоятельствам как поступать. Оба варианта сильно повлияют на дальнейшее развитие рынка IT в стране. На мой взгляд сценарий будет выглядеть следующим образом: - из-за большого оттока специалистов зарубеж ещё больше возрастёт нехватка спецов внутри страны - спрос от компаний будет увеличиваться, следовательно будут привлекать новых работников любыми способами - бонусы, премии, большой соц. пакет (сюда также относятся новости про льготные ипотеки и про отказ от налогов для IT) - будет рост зарплатных ожиданий, т.к. в сильной позиции чтобы "поторговаться" на интервью будет соискатель, а не работодатель - получать ЗП в валюте станет сложнее находясь внутри страны, еще один мотиватор для релокации ИТОГ: Кто хочет попасть в IT, учитесь и повышайте свои навыки, чтобы получить классный оффер от работодателя. Текущая ситуация совсем не повод опускать руки и перечеркивать все свои планы. Это мотиватор вкладывать как можно больше в себя и в свое развитие.

Если вы часто работаете в Excel, но у вас есть потребность учить Python, можно познакомиться с библиотекой Mito. Mito позволяет представить данные в виде привычной таблицы и выполнять с ними все те же операции что и в Excel. При этом автоматически будет генерироваться Python код всех операций, выполненных с данными https://towardsdatascience.com/how-to-analyze-data-using-mito-in-python-4bf817092367

Полезные материалы для развития навыков коммуникации для аналитиков (Soft skills) https://vc.ru/hr/367462-kak-it-specialistu-razvit-kommunikativnye-navyki-20-poleznyh-materialov

ЧТО ИЗМЕНИТСЯ В НАЙМЕ КАНДИДАТОВ В IT в 2022 https://vc.ru/hr/368749-chto-izmenitsya-v-it-rekrutinge-v-2022-godu-osnovnye-trendy

ЧТО ТАКОЕ ТРАНЗАКЦИЯ В БАЗЕ ДАННЫХ 🔎 Транзакция — это неделимая (атомарная) операция, которую вы можете произвести с базой. Неделимая — это значит, что база рассматривает операцию как единое целое. Она или выполняется полностью, или не выполняется вообще. При этом транзакция может содержать в себе несколько операций. Например, вы можете вставить несколько строк в базу, и всё это будет считаться единой транзакцией. В случае если произошла ошибка, и только часть строк была вставлена в базу, транзакция "откатится", то есть все внесённые изменения будут отменены. Когда мы выполняем несколько операций в коде, в конце нужно сделать коммит (commit), то есть показать системе, что мы должны выполнить предыдущие операции как единое целое. Каноничный пример транзакции в реальном мире — перевод денег с одного счета на другой в банке. Как происходит перевод: Система снимает деньги с одного счета. Система добавляет деньги на другой счет. Если бы операция перевода не являлась транзакцией, то в случае ошибки между 1 и 2 этапом деньги пропали бы безвозвратно. На самом деле дело не только в защите от ошибок при удалении, но и, например, в защите от неконсистентности данных. Что это значит? Допустим, вы переводите деньги с одного счета на другой. Допустим, вы хотите заплатить с первого счёта в магазине. Если транзакция еще не завершила первый этап, вы можете случайно подумать (во время другой параллельно идущей операции снятия денег), что денег у вас больше, чем есть на самом деле. Транзакции подчиняются принципу ACID: 📍Atomic (атомарность) — если произошел коммит, значит, все операции были выполнены; 📍Consistent (консистентность) — можно сделать коммит, только если он удовлетворяет всем ограничениям (например, NOT NULL); 📍Isolated (изолированность) — снаружи транзакции не видно, что происходит внутри, пока не произошел коммит; 📍Durable (долговечность) — независимо от ошибок в системе, транзакция, которая была совершена (то есть, был коммит) останется совершённой, даже если сразу после коммита сервер упадет.

PYTHON ДЛЯ РАБОТЫ С ДАННЫМИ 🔎 Python - язык программирования, который широко используется и применяется на проектах, связанных с обработкой и анализом данных. Он удобен, прост в понимании и чтении кода, имеет множество полезных функций и библиотек для работы с данными. 1. Pandas Библиотека позволяет загружать, очищать и обрабатывать данные, загружать данные из различных файлов и преобразовывать их в “датафрейм”, с которым в дальнейшем идет работа и его трансформация. Данные представляются в понятном и читаемом виде таблицы, а множество функций и методов позволяют проводить простые и сложные трансформации данных. 2. Pandas Profiling Еще одна библиотека, которая позволяет в более автоматическом режиме сделать исследование датасета и собрать все базовые метрики. 3. Requests и BeautifulSoup Библиотеке requests позволяет извлекать данные с помощью запросов API (Application Programming Interface) к приложениям, либо отправлять различные команды приложению через python скрипт. BeautifulSoup позволяет работать с web-страницами формата HTML и XML. Обе библиотеки дают хороший инструментарий для парсинга и извлечения данных. 4. NumPy Библиотека позволяет использовать математические расчеты и работу с массивами в вашем проекте. Это больше подходит для Data Science задач, где нужны математические инструменты. 5. Plotly и Matplotlib Библиотеки plotly и matplotlib дают огромный инструментарий построения различных графиков, диаграмм, чартов и т.д. Некоторые графики можно построить с помощью одной строчки кода и предоставить визуализацию коллегам. 6. SciKitLearn, Keras, Pytorch, Tensorflow Все эти библиотеки используются для работы с машинным обучением. SciKitLearn подойдет больше для построения простых алгоритмов и моделей машинного обучения, в то время как Keras или Pytorch дают более широкий спектр функций для построения нейронных сетей, моделей компьютерного зрения или обработки естественного языка. 7. SQLAlchemy Библиотека позволяет подключаться к базам данных. Можно создавать, изменять таблицы, писать запросы, извлекать/вставлять данные. Библиотека позволяет работать с базой данных с помощью объектно-ориентированного кода, не используя SQL-запросы.

КАК НАЙТИ ВАКАНСИЮ В IT Существует множество ресурсов и способов поиска работы в IT. ❓Но на что обращать внимание при поиске вакансии? 1. Описание компании и проекта Смотрите на то, чем занимается компания, в какой проект открыта вакансия и самое главное, совпадают ли ваши интересы с той областью, в которой предстоит работать. Бывает, что в вакансии не описан конкретный проект - это нормально. Компании обычно ищут сотрудников на длительное сотрудничество и набирают штат не на определенные проекты, а просто в компанию, чтобы потом по необходимости и интересам сотрудника определить его на тот или иной проект. 2. Описание обязанностей Важный пункт, который даёт понять кандидату, что от него ждут и какими навыками нужно обладать кандидату. Если обязанности расписаны общими словами: “быть ответственным и выполнять работу всегда качественно” - это не всегда полезное описание. Такие обязанности должны восприниматься как само собой выполняемые, вы должны обращать внимание на именно те задачи и обязанности, которые вы будете делать на работе. Например, «общаться с бизнес-пользователями, документировать требования в виде ТЗ для команды разработки». Здесь становится понятно, какие навыки нужно применять на данной работе. 3. Инструменты и стек применяемых технологий Читая эту часть вакансии, задавайте себе вопрос: умею ли я работать с этими инструментами или мне нужно подтянуть свои знания? Самый простой пример: вы умеете работать в Power BI, а для вакансии требуются знания Tableau. Можно попробовать до интервью посмотреть обзоры и почитать документацию необходимых инструментов, если знания нужны только начальные и вас будут готовы обучить. Но если требуется именно специалист, то скорее всего нужно отложить эту вакансию в сторону или взяться всерьёз за обучение инструменту. 4. Предложение для соискателя Ну и конечно тот пункт, который привлекает ваше внимание и иногда выглядит очень сладко. Обязательно обрати внимание на - Официальное оформление по ТК РФ - График работы - Условия получения ЗП, премий и бонусов - Социальный пакет - Все остальное, что для ВАС важно

photo_2022-03-02_19-09-38.jpg1.65 KB

photo_2022-03-02_19-09-35.jpg1.30 KB

ХРАНИЛИЩЕ ДАННЫХ vs ОЗЕРО ДАННЫХ Часто ли вы слышали понятия Хранилище данных и Озеро данных в своей жизни? А знаете чем они отличаются между собой? Нет? - А зря, ведь это один из базовых вопросов на собеседовании аналитиков, инженеров, менеджеров, которые рассматривают работу на проектах, связанных с Data и Business Intelligence. Данные генерируются во всех транзакционных системах и системах управления предприятиями или компаниями (ERP, CRM, BPM…) каждую секунду. ❓Возникает вопрос: а где хранить такие большие объемы данных и получать от них пользу и профит для компании? Тут на помощь приходят технологии аналитических хранилищ данных, или OLAP Systems - Online Analytical Processing Systems. С развитием технологий появилось несколько подходов хранения и обработки больших объемов данных в компаниях: 📍Хранилище данных (Data Warehouse) 📍Озеро данных (Data Lake) Существуют также гибридные методологии вида Data Vault, Delta Lake, Lake House.

ЧТО ТАКОЕ AGILE Большинство проектных и продуктовых команд сейчас работают по Agile. 🔍 Agile - это набор методик и подходов для гибкого управления проектом по разработке программного обеспечения. Сам подход Agile зародился еще в 2001 году, тогда был создан так называемый “Agile манифест”. Манифест описывает ценности Agile, вот некоторые из них: “Люди и взаимодействие важнее процессов и инструментов. Работающий продукт важнее исчерпывающей документации. Сотрудничество с заказчиком важнее согласования условий контракта. Готовность к изменениям важнее следования первоначальному плану." ❗️ Если вы работаете по Scrum, Kanban, у вас есть спринты, но вы не понимаете в чем ценность всего процесса - обязательно почитайте ценности Agile. Например, по методологии Scrum есть довольно общее деление команды на роли: - Владелец продукта - Scrum мастер - Команда разработки Команда разработки считается кросс-функциональной, где не выделяются отдельные роли каждому члену команды. ❓ В чем же ценность аналитика в такой команде? Аналитик будет связующим звеном, скрам команды и бизнес заказчиков. И будет особенно нужен в случае недостатка времени у стейкхолдеров, или отсутствия владельца продукта. Многие разработчики не имеют желания или времени общаться с бизнес-заказчиками, ведь им нужно писать код, реализовывать новый функционал и устранять баги. Здесь как раз и приходит на помощь аналитик, который позволит эффективно использовать разработчиков, но при этом не снижая качество общения с бизнесом. Также, аналитик будет центром накопления знаний о предметной области продукта, контролировать качество продукта, проводить review продукта, подготавливать данные для уточнения бэклога и т.п.