ar
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

الذهاب إلى القناة على Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

إظهار المزيد
2 744
المشتركون
-224 ساعات
-17 أيام
+130 أيام
أرشيف المشاركات
Amazon EMR on EKS gets up to 19% performance boost running on AWS Graviton3 Processors vs. Graviton2 Read: https://aws.amazon
Amazon EMR on EKS gets up to 19% performance boost running on AWS Graviton3 Processors vs. Graviton2 Read: https://aws.amazon.com/blogs/big-data/amazon-emr-on-eks-gets-up-to-19-performance-boost-running-on-aws-graviton3-processors-vs-graviton2/

Как за неделю разметить миллион примеров данных В 2019 году компания OpenAI опубликовала статью о точной настройке GPT-2, в которой она использовала Scale AI для сбора мнений живых разметчиков с целью совершенствования своих языковых моделей. Хотя в то время мы уже размечали миллионы задач обработки текста и computer vision, уникальные требованиях к срокам и субъективная природа задач OpenAI создали для нас новую сложность. В частности, трудность заключалась в следующем: как поддерживать качество меток в больших масштабах без возможности проверки чужой работы разметчиками? Сегодня мы подробно расскажем о своём подходе к решению этой проблемы, о системе автоматического майнинга бенчмарков, которую мы для этого создали, а также об уроках, которые получили в процессе. Этой статьёй мы хотим проиллюстрировать небольшую часть тех сложностей, делающих масштабируемую разметку данных такой интересной сферой работы. Читать: https://habr.com/ru/post/680960/

The Data Founder Story: From McLaren Formula 1 to Quix Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-f
The Data Founder Story: From McLaren Formula 1 to Quix Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-from-mclaren

Yamamay deploys Oracle Analytics Cloud to improve sustainability To boost sustainability, decision-making, and agility, the retail leader selected Oracle Analytics Cloud. Read: https://blogs.oracle.com/analytics/post/yamamay-deploys-oracle-analytics-cloud-to-improve-sustainability

AWS Glue Python shell now supports Python 3.9 with a flexible pre-loaded environment and support to install additional librar
AWS Glue Python shell now supports Python 3.9 with a flexible pre-loaded environment and support to install additional libraries Read: https://aws.amazon.com/blogs/big-data/aws-glue-python-shell-now-supports-python-3-9-with-a-flexible-pre-loaded-environment-and-support-to-install-additional-libraries/

Build a pseudonymization service on AWS to protect sensitive data, part 1 Read: https://aws.amazon.com/blogs/big-data/part-1-
Build a pseudonymization service on AWS to protect sensitive data, part 1 Read: https://aws.amazon.com/blogs/big-data/part-1-build-a-pseudonymization-service-on-aws-to-protect-sensitive-data/

Многие молодые аналитики тратят все силы на исследование, совсем забывая про презентацию результатов А иногда все потраченные
Многие молодые аналитики тратят все силы на исследование, совсем забывая про презентацию результатов А иногда все потраченные усилия и вовсе уходят «в стол». Поэтому в последнем кейсе на Хабре аналитик из Delivery Club поделился подходом их команды по работе с исследованиями. Из статьи вы узнаете, почему так важен подготовительный этап, а в конце вас ждет чек-лист основных действий: https://tprg.ru/2IXx Это #партнёрский пост

Как не перестать быть data driven из-за data driften, или Пару слов о дрейфе данных Нестабильная экономическая ситуация значительно влияет почти на все сферы жизни общества и бизнеса. Меняется потребительское поведение, производственные и логистические цепочки, закупочные цены, доступность огромного количества товаров и услуг и даже состав конкурентов на рынке. Конечно, это не может не сказаться на качестве многих моделей машинного обучения, поскольку они были обучены на исторических данных, которые уже не актуальны. Это явление известно как дрейф данных или дрейф концепции и оно является основной причиной деградации модели с течением времени. Сейчас особенно полезно знать о методах детекции дрейфа и борьбы с его последствиями, ведь когда данные дрейфуют, прогнозы будут ошибочными, а решения, принятые на основе этих прогнозов, могут негативно влиять на бизнес. В статье мы – команда Advanced Analytics GlowByte – поговорим о типах и причинах дрейфа, а также разберём на примере основные методы детекции дрейфа. Читать: https://habr.com/ru/post/681772/

Leverage Data Flow Tools to Prepare Garmin Activity Data Learn about data flow tools through a wearable device use case. Read: https://blogs.oracle.com/analytics/post/leverage-data-flow-tools-to-prepare-garmin-activity-data

Наблюдай и властвуй — дашборды для бизнеса Привет! В рамках нашего цикла постов про дашборды в СИБУРе и их практическую пользу для компании не смогли обойти стороной M2F – это обслуживание и ремонты, туда входит множество метрик из различных направлений бизнеса. Это могут быть метрики, которые показывают загруженность ремонтного персонала на предприятии или метрики затрат, например, «Поддержание основных фондов», а также имеется большой блок «Надежность». В общем и целом, это широкий спектр метрик, выделенных в качестве наиболее приоритетных, с точки зрения влияния на бизнес. Анализ этих метрик помогает бизнесу наиболее эффективно управлять имеющимися ресурсами, а также «подсвечивать» проблемы в самом бизнес-процессе. Чуть не забыл представиться! Меня зовут Миша Делендик, и я как раз отвечаю в СИБУРе за разработку дашбордов по сквозным процессам M2F. В этом материале подробнее расскажу о том, как мы анализируем различные части процесса, чтобы оборудование работало без, кхм, нештатных ситуаций. Читать: https://habr.com/ru/post/681622/

​​Актуальные вакансии от Яндекс.Практикума Компания предлагает 6 вакансий: — Код-ревьюер на курсе «Middle Python-разработчик»: https://tprg.ru/5P2U — Наставник на курсе «Middle Python-разработчик»: https://tprg.ru/lLTv — Ревьюер Python-разработчик: https://tprg.ru/bSEP — Наставник на факультет тестирования: https://tprg.ru/eCvo — Наставник на курсе «Системный аналитик»: https://tprg.ru/xz1I — Код-ревьюер на курсе «Системный аналитик»: https://tprg.ru/6Hzs #вакансии #работа

Fusion Analytics Warehouse: Creating a Custom Data Model using Semantic Model Extensions Framework Oracle Fusion Analytics Warehouse (FAW) is highly customizable and allows you to create custom data models using the semantic model and any externally sourced data. Read this blog to understand how you can easily extend your reporting using this approach. Read: https://blogs.oracle.com/analytics/post/fusion-analytics-warehouse-creating-a-custom-data-model-using-semantic-model-extensions-framework

How to easily and quickly create an automated and governed data standardization process in Oracle Analytics This article describes a way to leverage the hidden power of Custom Reference Knowledge to easily and quickly create an automated and governed data standardization process to improve the quality and accuracy of a data analysis. Read: https://blogs.oracle.com/analytics/post/how-to-easily-and-quickly-create-an-automated-and-governed-data-standardization-process-in-oracle-analytics

How NerdWallet uses AWS and Apache Hudi to build a serverless, real-time analytics platform Read: https://aws.amazon.com/blog
How NerdWallet uses AWS and Apache Hudi to build a serverless, real-time analytics platform Read: https://aws.amazon.com/blogs/big-data/how-nerdwallet-uses-aws-and-apache-hudi-to-build-a-serverless-real-time-analytics-platform/

Перезагрузка хранилищ данных в будущем Команда Netflix Cloud Data Engineering с радостью открывает исходный код s3-flash-bootloader, нашего инструмента для выполнения обновления образа ОС на месте на государственных облачных инстансах, подставляя новый AMI вместо старого. В этом посте я расскажу о некоторых моментах, побудивших нас разработать этот инструмент, и обсужу, как он на порядок ускорил обновление Cassandra и Elasticsearch. Читать: https://habr.com/ru/post/681694/

#1 Нейронные сети для начинающих. Решение задачи классификации Ирисов Фишера На хабре было множество публикаций по данной теме, но все они говорят о разных вещах. Решил собрать всё в одну кучку и рассказать людям. Это первая статья серии введения в нейронные сети, «Нейронные сети для начинающих». Здесь и далее мы постараемся разобраться с таким понятием — как нейронные сети, что они вообще из себя представляют и как с ними «подружиться», на практике решая простые задачи. Читать: https://habr.com/ru/post/679988/

Fusion Analytics Warehouse –Salesforce Data Extraction using OAC Dataflows Salesforce is a leading CRM software application with a wide customer base, Hence often Oracle FAW customers like to compliment the analytical capabilities provided by Oracle Fusion cloud data with the custom data sourced from Salesforce.com ( Commonly referred to as SFDC). Read: https://blogs.oracle.com/analytics/post/oac-salesforce-datamodel

Introducing AWS Glue Flex jobs: Cost savings on ETL workloads Read: https://aws.amazon.com/blogs/big-data/introducing-aws-glu
Introducing AWS Glue Flex jobs: Cost savings on ETL workloads Read: https://aws.amazon.com/blogs/big-data/introducing-aws-glue-flex-jobs-cost-savings-on-etl-workloads/