Data Analysis / Big Data

الذهاب إلى القناة على Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

إظهار المزيد

الشبكة:Типичный программист روسيا175 137 التكنولوجيات والتطبيقات26 487

2 744

المشتركون

-224 ساعات

-17 أيام

+130 أيام

662

عرض المشاهدات

لا توجد بيانات24 ساعات

لا توجد بيانات48 ساعات

24.13%

معدل المشاركة

لا توجد بيانات

المشاركات في اليوم

Ads index

beta

أرشيف المشاركات

2 744

Amazon EMR on EKS gets up to 19% performance boost running on AWS Graviton3 Processors vs. Graviton2 Read: https://aws.amazon.com/blogs/big-data/amazon-emr-on-eks-gets-up-to-19-performance-boost-running-on-aws-graviton3-processors-vs-graviton2/

2 744

Как за неделю разметить миллион примеров данных В 2019 году компания OpenAI опубликовала статью о точной настройке GPT-2, в которой она использовала Scale AI для сбора мнений живых разметчиков с целью совершенствования своих языковых моделей. Хотя в то время мы уже размечали миллионы задач обработки текста и computer vision, уникальные требованиях к срокам и субъективная природа задач OpenAI создали для нас новую сложность. В частности, трудность заключалась в следующем: как поддерживать качество меток в больших масштабах без возможности проверки чужой работы разметчиками? Сегодня мы подробно расскажем о своём подходе к решению этой проблемы, о системе автоматического майнинга бенчмарков, которую мы для этого создали, а также об уроках, которые получили в процессе. Этой статьёй мы хотим проиллюстрировать небольшую часть тех сложностей, делающих масштабируемую разметку данных такой интересной сферой работы. Читать: https://habr.com/ru/post/680960/

2 744

The Data Founder Story: From McLaren Formula 1 to Quix Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-from-mclaren

2 744

Yamamay deploys Oracle Analytics Cloud to improve sustainability To boost sustainability, decision-making, and agility, the retail leader selected Oracle Analytics Cloud. Read: https://blogs.oracle.com/analytics/post/yamamay-deploys-oracle-analytics-cloud-to-improve-sustainability

2 744

AWS Glue Python shell now supports Python 3.9 with a flexible pre-loaded environment and support to install additional libraries Read: https://aws.amazon.com/blogs/big-data/aws-glue-python-shell-now-supports-python-3-9-with-a-flexible-pre-loaded-environment-and-support-to-install-additional-libraries/

2 744

Build a pseudonymization service on AWS to protect sensitive data, part 1 Read: https://aws.amazon.com/blogs/big-data/part-1-build-a-pseudonymization-service-on-aws-to-protect-sensitive-data/

2 744

Многие молодые аналитики тратят все силы на исследование, совсем забывая про презентацию результатов А иногда все потраченные усилия и вовсе уходят «в стол». Поэтому в последнем кейсе на Хабре аналитик из Delivery Club поделился подходом их команды по работе с исследованиями. Из статьи вы узнаете, почему так важен подготовительный этап, а в конце вас ждет чек-лист основных действий: https://tprg.ru/2IXx Это #партнёрский пост

2 744

Как не перестать быть data driven из-за data driften, или Пару слов о дрейфе данных Нестабильная экономическая ситуация значительно влияет почти на все сферы жизни общества и бизнеса. Меняется потребительское поведение, производственные и логистические цепочки, закупочные цены, доступность огромного количества товаров и услуг и даже состав конкурентов на рынке. Конечно, это не может не сказаться на качестве многих моделей машинного обучения, поскольку они были обучены на исторических данных, которые уже не актуальны. Это явление известно как дрейф данных или дрейф концепции и оно является основной причиной деградации модели с течением времени. Сейчас особенно полезно знать о методах детекции дрейфа и борьбы с его последствиями, ведь когда данные дрейфуют, прогнозы будут ошибочными, а решения, принятые на основе этих прогнозов, могут негативно влиять на бизнес. В статье мы – команда Advanced Analytics GlowByte – поговорим о типах и причинах дрейфа, а также разберём на примере основные методы детекции дрейфа. Читать: https://habr.com/ru/post/681772/

2 744

Leverage Data Flow Tools to Prepare Garmin Activity Data Learn about data flow tools through a wearable device use case. Read: https://blogs.oracle.com/analytics/post/leverage-data-flow-tools-to-prepare-garmin-activity-data

2 744

Andrew screaming about professional fouls Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/08/andrew-screaming-about-professional-fouls.html

2 744

Наблюдай и властвуй — дашборды для бизнеса Привет! В рамках нашего цикла постов про дашборды в СИБУРе и их практическую пользу для компании не смогли обойти стороной M2F – это обслуживание и ремонты, туда входит множество метрик из различных направлений бизнеса. Это могут быть метрики, которые показывают загруженность ремонтного персонала на предприятии или метрики затрат, например, «Поддержание основных фондов», а также имеется большой блок «Надежность». В общем и целом, это широкий спектр метрик, выделенных в качестве наиболее приоритетных, с точки зрения влияния на бизнес. Анализ этих метрик помогает бизнесу наиболее эффективно управлять имеющимися ресурсами, а также «подсвечивать» проблемы в самом бизнес-процессе. Чуть не забыл представиться! Меня зовут Миша Делендик, и я как раз отвечаю в СИБУРе за разработку дашбордов по сквозным процессам M2F. В этом материале подробнее расскажу о том, как мы анализируем различные части процесса, чтобы оборудование работало без, кхм, нештатных ситуаций. Читать: https://habr.com/ru/post/681622/

2 744

Актуальные вакансии от Яндекс.Практикума Компания предлагает 6 вакансий: — Код-ревьюер на курсе «Middle Python-разработчик»: https://tprg.ru/5P2U — Наставник на курсе «Middle Python-разработчик»: https://tprg.ru/lLTv — Ревьюер Python-разработчик: https://tprg.ru/bSEP — Наставник на факультет тестирования: https://tprg.ru/eCvo — Наставник на курсе «Системный аналитик»: https://tprg.ru/xz1I — Код-ревьюер на курсе «Системный аналитик»: https://tprg.ru/6Hzs #вакансии #работа

2 744

Fusion Analytics Warehouse: Creating a Custom Data Model using Semantic Model Extensions Framework Oracle Fusion Analytics Warehouse (FAW) is highly customizable and allows you to create custom data models using the semantic model and any externally sourced data. Read this blog to understand how you can easily extend your reporting using this approach. Read: https://blogs.oracle.com/analytics/post/fusion-analytics-warehouse-creating-a-custom-data-model-using-semantic-model-extensions-framework

2 744

How to easily and quickly create an automated and governed data standardization process in Oracle Analytics This article describes a way to leverage the hidden power of Custom Reference Knowledge to easily and quickly create an automated and governed data standardization process to improve the quality and accuracy of a data analysis. Read: https://blogs.oracle.com/analytics/post/how-to-easily-and-quickly-create-an-automated-and-governed-data-standardization-process-in-oracle-analytics

2 744

How NerdWallet uses AWS and Apache Hudi to build a serverless, real-time analytics platform Read: https://aws.amazon.com/blogs/big-data/how-nerdwallet-uses-aws-and-apache-hudi-to-build-a-serverless-real-time-analytics-platform/

2 744

Перезагрузка хранилищ данных в будущем Команда Netflix Cloud Data Engineering с радостью открывает исходный код s3-flash-bootloader, нашего инструмента для выполнения обновления образа ОС на месте на государственных облачных инстансах, подставляя новый AMI вместо старого. В этом посте я расскажу о некоторых моментах, побудивших нас разработать этот инструмент, и обсужу, как он на порядок ускорил обновление Cassandra и Elasticsearch. Читать: https://habr.com/ru/post/681694/

2 744

There is no such thing as objective data Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/08/there-are-no-objective-data.html

2 744

#1 Нейронные сети для начинающих. Решение задачи классификации Ирисов Фишера На хабре было множество публикаций по данной теме, но все они говорят о разных вещах. Решил собрать всё в одну кучку и рассказать людям. Это первая статья серии введения в нейронные сети, «Нейронные сети для начинающих». Здесь и далее мы постараемся разобраться с таким понятием — как нейронные сети, что они вообще из себя представляют и как с ними «подружиться», на практике решая простые задачи. Читать: https://habr.com/ru/post/679988/

2 744

Fusion Analytics Warehouse –Salesforce Data Extraction using OAC Dataflows Salesforce is a leading CRM software application with a wide customer base, Hence often Oracle FAW customers like to compliment the analytical capabilities provided by Oracle Fusion cloud data with the custom data sourced from Salesforce.com ( Commonly referred to as SFDC). Read: https://blogs.oracle.com/analytics/post/oac-salesforce-datamodel

2 744

Introducing AWS Glue Flex jobs: Cost savings on ETL workloads Read: https://aws.amazon.com/blogs/big-data/introducing-aws-glue-flex-jobs-cost-savings-on-etl-workloads/