Data Analysis / Big Data
Відкрити в Telegram
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels
Показати більше2 744
Підписники
+224 години
-17 днів
+530 день
Архів дописів
Amazon EMR on EKS gets up to 19% performance boost running on AWS Graviton3 Processors vs. Graviton2
Read: https://aws.amazon.com/blogs/big-data/amazon-emr-on-eks-gets-up-to-19-performance-boost-running-on-aws-graviton3-processors-vs-graviton2/
Как за неделю разметить миллион примеров данных
В 2019 году компания OpenAI опубликовала статью о точной настройке GPT-2, в которой она использовала Scale AI для сбора мнений живых разметчиков с целью совершенствования своих языковых моделей. Хотя в то время мы уже размечали миллионы задач обработки текста и computer vision, уникальные требованиях к срокам и субъективная природа задач OpenAI создали для нас новую сложность. В частности, трудность заключалась в следующем: как поддерживать качество меток в больших масштабах без возможности проверки чужой работы разметчиками? Сегодня мы подробно расскажем о своём подходе к решению этой проблемы, о системе автоматического майнинга бенчмарков, которую мы для этого создали, а также об уроках, которые получили в процессе. Этой статьёй мы хотим проиллюстрировать небольшую часть тех сложностей, делающих масштабируемую разметку данных такой интересной сферой работы.
Читать: https://habr.com/ru/post/680960/
The Data Founder Story: From McLaren Formula 1 to Quix
Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-from-mclaren
Yamamay deploys Oracle Analytics Cloud to improve sustainability
To boost sustainability, decision-making, and agility, the retail leader selected Oracle Analytics Cloud.
Read: https://blogs.oracle.com/analytics/post/yamamay-deploys-oracle-analytics-cloud-to-improve-sustainability
AWS Glue Python shell now supports Python 3.9 with a flexible pre-loaded environment and support to install additional libraries
Read: https://aws.amazon.com/blogs/big-data/aws-glue-python-shell-now-supports-python-3-9-with-a-flexible-pre-loaded-environment-and-support-to-install-additional-libraries/
Build a pseudonymization service on AWS to protect sensitive data, part 1
Read: https://aws.amazon.com/blogs/big-data/part-1-build-a-pseudonymization-service-on-aws-to-protect-sensitive-data/
Многие молодые аналитики тратят все силы на исследование, совсем забывая про презентацию результатов
А иногда все потраченные усилия и вовсе уходят «в стол». Поэтому в последнем кейсе на Хабре аналитик из Delivery Club поделился подходом их команды по работе с исследованиями. Из статьи вы узнаете, почему так важен подготовительный этап, а в конце вас ждет чек-лист основных действий:
https://tprg.ru/2IXx
Это #партнёрский пост
Как не перестать быть data driven из-за data driften, или Пару слов о дрейфе данных
Нестабильная экономическая ситуация значительно влияет почти на все сферы жизни общества и бизнеса. Меняется потребительское поведение, производственные и логистические цепочки, закупочные цены, доступность огромного количества товаров и услуг и даже состав конкурентов на рынке. Конечно, это не может не сказаться на качестве многих моделей машинного обучения, поскольку они были обучены на исторических данных, которые уже не актуальны. Это явление известно как дрейф данных или дрейф концепции и оно является основной причиной деградации модели с течением времени. Сейчас особенно полезно знать о методах детекции дрейфа и борьбы с его последствиями, ведь когда данные дрейфуют, прогнозы будут ошибочными, а решения, принятые на основе этих прогнозов, могут негативно влиять на бизнес.
В статье мы – команда Advanced Analytics GlowByte – поговорим о типах и причинах дрейфа, а также разберём на примере основные методы детекции дрейфа.
Читать: https://habr.com/ru/post/681772/
Leverage Data Flow Tools to Prepare Garmin Activity Data
Learn about data flow tools through a wearable device use case.
Read: https://blogs.oracle.com/analytics/post/leverage-data-flow-tools-to-prepare-garmin-activity-data
Andrew screaming about professional fouls
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/08/andrew-screaming-about-professional-fouls.html
Наблюдай и властвуй — дашборды для бизнеса
Привет! В рамках нашего цикла постов про дашборды в СИБУРе и их практическую пользу для компании не смогли обойти стороной M2F – это обслуживание и ремонты, туда входит множество метрик из различных направлений бизнеса. Это могут быть метрики, которые показывают загруженность ремонтного персонала на предприятии или метрики затрат, например, «Поддержание основных фондов», а также имеется большой блок «Надежность».
В общем и целом, это широкий спектр метрик, выделенных в качестве наиболее приоритетных, с точки зрения влияния на бизнес. Анализ этих метрик помогает бизнесу наиболее эффективно управлять имеющимися ресурсами, а также «подсвечивать» проблемы в самом бизнес-процессе.
Чуть не забыл представиться! Меня зовут Миша Делендик, и я как раз отвечаю в СИБУРе за разработку дашбордов по сквозным процессам M2F. В этом материале подробнее расскажу о том, как мы анализируем различные части процесса, чтобы оборудование работало без, кхм, нештатных ситуаций.
Читать: https://habr.com/ru/post/681622/
Актуальные вакансии от Яндекс.Практикума
Компания предлагает 6 вакансий:
— Код-ревьюер на курсе «Middle Python-разработчик»: https://tprg.ru/5P2U
— Наставник на курсе «Middle Python-разработчик»: https://tprg.ru/lLTv
— Ревьюер Python-разработчик: https://tprg.ru/bSEP
— Наставник на факультет тестирования: https://tprg.ru/eCvo
— Наставник на курсе «Системный аналитик»: https://tprg.ru/xz1I
— Код-ревьюер на курсе «Системный аналитик»: https://tprg.ru/6Hzs
#вакансии #работа
Fusion Analytics Warehouse: Creating a Custom Data Model using Semantic Model Extensions Framework
Oracle Fusion Analytics Warehouse (FAW) is highly customizable and allows you to create custom data models using the semantic model and any externally sourced data. Read this blog to understand how you can easily extend your reporting using this approach.
Read: https://blogs.oracle.com/analytics/post/fusion-analytics-warehouse-creating-a-custom-data-model-using-semantic-model-extensions-framework
How to easily and quickly create an automated and governed data standardization process in Oracle Analytics
This article describes a way to leverage the hidden power of Custom Reference Knowledge to easily and quickly create an automated and governed data standardization process to improve the quality and accuracy of a data analysis.
Read: https://blogs.oracle.com/analytics/post/how-to-easily-and-quickly-create-an-automated-and-governed-data-standardization-process-in-oracle-analytics
How NerdWallet uses AWS and Apache Hudi to build a serverless, real-time analytics platform
Read: https://aws.amazon.com/blogs/big-data/how-nerdwallet-uses-aws-and-apache-hudi-to-build-a-serverless-real-time-analytics-platform/
Перезагрузка хранилищ данных в будущем
Команда Netflix Cloud Data Engineering с радостью открывает исходный код s3-flash-bootloader, нашего инструмента для выполнения обновления образа ОС на месте на государственных облачных инстансах, подставляя новый AMI вместо старого. В этом посте я расскажу о некоторых моментах, побудивших нас разработать этот инструмент, и обсужу, как он на порядок ускорил обновление Cassandra и Elasticsearch.
Читать: https://habr.com/ru/post/681694/
There is no such thing as objective data
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/08/there-are-no-objective-data.html
#1 Нейронные сети для начинающих. Решение задачи классификации Ирисов Фишера
На хабре было множество публикаций по данной теме, но все они говорят о разных вещах. Решил собрать всё в одну кучку и рассказать людям.
Это первая статья серии введения в нейронные сети, «Нейронные сети для начинающих». Здесь и далее мы постараемся разобраться с таким понятием — как нейронные сети, что они вообще из себя представляют и как с ними «подружиться», на практике решая простые задачи.
Читать: https://habr.com/ru/post/679988/
Fusion Analytics Warehouse –Salesforce Data Extraction using OAC Dataflows
Salesforce is a leading CRM software application with a wide customer base, Hence often Oracle FAW customers like to compliment the analytical capabilities provided by Oracle Fusion cloud data with the custom data sourced from Salesforce.com ( Commonly referred to as SFDC).
Read: https://blogs.oracle.com/analytics/post/oac-salesforce-datamodel
Introducing AWS Glue Flex jobs: Cost savings on ETL workloads
Read: https://aws.amazon.com/blogs/big-data/introducing-aws-glue-flex-jobs-cost-savings-on-etl-workloads/
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
