ru
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

Открыть в Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Больше
2 744
Подписчики
+224 часа
-17 дней
+530 день
Архив постов
Импортозамещение BI своими руками Привет! Сегодня расскажем большую историю: как мы разработали корпоративную платформу отчётности и решили сделать её общедоступной и бесплатной. Читать: https://habr.com/ru/post/685604/

Как организовать потоковую обработку данных. Часть 2 Привет, Хабр! Я – Евгений Ненахов из центра Big Data МТС Digital. Это вторая часть  статьи о том, как мы создали универсальный инструмент потоковой обработки данных и построили с его помощью мощную систему стриминга. В первой половине статьи мы обсудили основные компоненты методологии, а сейчас поговорим о том, как ими пользоваться. Если вам интересна обработка данных – жмите кнопку «»! Читать: https://habr.com/ru/post/685492/

Как упростить работу с временными рядами: 14 библиотек от эксперта Росатома Временные ряды — важный инструмент в Data Science
Как упростить работу с временными рядами: 14 библиотек от эксперта Росатома Временные ряды — важный инструмент в Data Science. Росатом рассказывает, как работать с ними эффективно. Читать: «Как упростить работу с временными рядами: 14 библиотек от эксперта Росатома»

Easy analytics and cost-optimization with Amazon Redshift Serverless Read: https://aws.amazon.com/blogs/big-data/easy-analyti
Easy analytics and cost-optimization with Amazon Redshift Serverless Read: https://aws.amazon.com/blogs/big-data/easy-analytics-and-cost-optimization-with-amazon-redshift-serverless/

Как упростить работу с временными рядами: 14 библиотек от эксперта Росатома Временные ряды — важный инструмент в Data Science
Как упростить работу с временными рядами: 14 библиотек от эксперта Росатома Временные ряды — важный инструмент в Data Science. Росатом рассказывает, как работать с ними эффективно. Читать: «Как упростить работу с временными рядами: 14 библиотек от эксперта Росатома»

Экскаватор и два робота: «джун» лаборатории больших данных о том, как сделать крутой проект и одновременно писать диплом Антон Подлегаев недавно окончил университет. В «Криптоните» он работает уже больше года — а начинал со стажировки, где помогал с системой мониторинга зубьев экскаватора. Расспросили его о том, сложно ли студенту получить оффер, как в этом помогает стажировка и возможно ли на ней приобрести реальные знания. Читать: https://habr.com/ru/post/685372/

Что должен знать дата-инженер. Роадмап для джуниора Привет, username! Меня зовут Иван Васенков и я джуниор дата-инженер в дирекции данных и аналитики Lamoda. Но к этой профессии я пришел не сразу: окончив университет, я начал работать аналитиком данных, затем стал BI-разработчиком, а уже после этого — дата-инженером. На моем пути были простые и сложные участки: где-то помогал опыт предыдущей работы, а где-то приходилось доучиваться практически на ходу. Именно поэтому я хочу поделиться советами из своего опыта, которые помогут начинающим специалистам быть максимально готовыми к вступлению в мир дата-инжиниринга. Читать: https://habr.com/ru/post/684658/

Convert Oracle XML BLOB data to JSON using Amazon EMR and load to Amazon Redshift Read: https://aws.amazon.com/blogs/big-data
Convert Oracle XML BLOB data to JSON using Amazon EMR and load to Amazon Redshift Read: https://aws.amazon.com/blogs/big-data/convert-oracle-xml-blob-data-to-json-using-amazon-emr-and-load-to-amazon-redshift/

Enable federation to Amazon QuickSight accounts with Ping One Read: https://aws.amazon.com/blogs/big-data/enable-federation-t
Enable federation to Amazon QuickSight accounts with Ping One Read: https://aws.amazon.com/blogs/big-data/enable-federation-to-amazon-quicksight-accounts-with-ping-one/

How to gather requirements for your data project Read: https://www.startdataengineering.com/post/n-questions-data-pipeline-re
How to gather requirements for your data project Read: https://www.startdataengineering.com/post/n-questions-data-pipeline-req/

Путь от стажера до junior Data Scientist Небольшая статья в первую очередь для начинающих специалистов в Data Science, к которому они смогли бы обращаться, когда необходимо что-то вспомнить при решении задач машинного обучения. Затронем темы, которые необходимо усвоить, чтобы подойти к обучению своей первой модели. Читать: https://habr.com/ru/post/684998/

Не за горами День знаний, первое сентября Многие из вас — абитуриенты и студенты, которым вскоре придется столкнуться со сбив
Не за горами День знаний, первое сентября Многие из вас — абитуриенты и студенты, которым вскоре придется столкнуться со сбивающим с ног потоком свежей информации: математическим анализом, линейной алгеброй и теорией вероятностей. Многие когда-то были студентами, поэтому представляем, как бывает трудно. Чтобы облегчить процесс обучения (и человеческого, и машинного) в честь праздника Proglib делают скидку на один из наших наиболее популярных онлайн-курсов, в котором есть вся необходимая база — Математика для Data Science. Скидка 50% действует до 5 сентября. Программа разработана преподавателями ВМК МГУ, курс также идеально подойдет для подготовки к поступлению в ШАД или Computer Science Center. Это #партнёрский пост

Set up and monitor AWS Glue crawlers using the enhanced AWS Glue UI and crawler history Read: https://aws.amazon.com/blogs/bi
Set up and monitor AWS Glue crawlers using the enhanced AWS Glue UI and crawler history Read: https://aws.amazon.com/blogs/big-data/set-up-and-monitor-aws-glue-crawlers-using-the-enhanced-aws-glue-ui-and-crawler-history/

4 канала про IT с подборками для программистов: — по DevOps: @devo_pes — по разработке на Java: @a_cup_of_java — по веб-разработке: @tproger_web — по мобильной разработке: @mobi_dev

Как в Tele2 модель научилась разбирать 230 тысяч клиентских обращений Привет! Меня зовут Катя и я отвечаю за PR проектного офиса big data в Tele2. Не спешите переключаться после этих слов: я постаралась разобраться в том, как коллеги разработали инструмент для анализа обратной связи от абонентов. В компании есть показатель NPS bottom Up, в рамках исследования мы задаем пользователю вопросы конкретно по точке контакта, например, о мобильном интернете. Упрощенно, методика исследования такая: человек отвечает на закрытые вопросы об услуге и может заполнить поле “свободный комментарий”. В последнем пункте и содержится всё самое интересное, но неподъемное для анализа ручками. Читать: https://habr.com/ru/post/684800/

Как и зачем мы начали искать бизнес-инсайты в отзывах клиентов с помощью машинного обучения Естественный источник обратной связи для любой компании — отзывы их клиентов. И Альфа-Банк не исключение: за год мы собираем больше 100 млн оценок по различным каналам и продуктам. Но среди этих оценок очень мало содержательных текстовых комментариев, а самый популярных среди них (за 2021 год) — «Вопрос не решен!» Чтобы решить эту проблему, Альфа-Банк собирает дополнительно до 500 тысяч отзывов в год. Этим занимается команда по сохранению лояльности клиентов: обзванивает клиентов, которые поставили негативную оценку, подробно их опрашивает, и старается решить проблему клиента на звонке, формируя свой экспертный отзыв. Накапливаемые данные практически невозможно анализировать в ручном режиме в полном объеме, но можно сократить объем труда за счет машинного обучения. О том, как мы помогли оптимизировать процесс вычитки с помощью суммаризации на основе тематических моделей и будет эта статья. Читать: https://habr.com/ru/post/684774/

От сбора до использования: как повысить Data Quality на всех этапах работы с данными Представьте, что у вас только что появилось классное озеро данных с прикольными пайплайнами, которые собирают данные со всей компании. А теперь представьте свой шок, когда команды бизнес-специалистов поймут, что в озере данных — не данные, а мусор. Команда VK Cloud перевела статью о том, как следить за данными на каждом этапе и повысить их качество для грамотного использования. Читать: https://habr.com/ru/post/684118/