es
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

Ir al canal en Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Mostrar más
2 742
Suscriptores
-224 horas
-27 días
+130 días
Archivo de publicaciones
«Божественная комедия», или Девять кругов прогнозирования промо спроса в «Магните» Привет, Хабр! На связи команда направления прогнозирования промо в «Магните». В предыдущей статье «Магнитная аномалия: как предсказать продажи промо в ритейле» мы дали читателю общее представление о том, чем занимается наша команда. Теперь поговорим о конкретных сложностях и методах их решения, с которыми нам приходится сталкиваться в работе. Чтобы лучше разобраться во внутренней кухне, предлагаем читателю вместе прогуляться по нашим «девяти кругам прогнозирования промо спроса». Читать: https://habr.com/ru/post/664358/

Use Amazon Kinesis Data Firehose to extract data insights with Coralogix Read: https://aws.amazon.com/blogs/big-data/use-amaz
Use Amazon Kinesis Data Firehose to extract data insights with Coralogix Read: https://aws.amazon.com/blogs/big-data/use-amazon-kinesis-data-firehose-to-extract-data-insights-with-coralogix/

Какой у вас профессиональный уровень в IT?
Anonymous voting

Data-Science-процессы: Jupyter Notebook для продакшена Jovian Blues by ShootingStarLogBook Рефакторинг написанного в Notebook кода для запуска в продакшене — трудная и ресурсоемкая задача. Команда VK Cloud Solutions перевела материал о том, как с помощью MLOps-инструментов и приемов сократить время от исследования до запуска решения. Описанное в статье — результат структурированного опыта дата-сайентистов и ML-разработчиков из сотен компаний. Читать: https://habr.com/ru/post/662734/

Top Amazon QuickSight features and updates launched Q1 2022 Read: https://aws.amazon.com/blogs/big-data/top-amazon-quicksight
Top Amazon QuickSight features and updates launched Q1 2022 Read: https://aws.amazon.com/blogs/big-data/top-amazon-quicksight-features-and-updates-launched-q1-2022/

Access Apache Livy using a Network Load Balancer on a Kerberos-enabled Amazon EMR cluster Read: https://aws.amazon.com/blogs/
Access Apache Livy using a Network Load Balancer on a Kerberos-enabled Amazon EMR cluster Read: https://aws.amazon.com/blogs/big-data/access-apache-livy-using-a-network-load-balancer-on-a-kerberos-enabled-amazon-emr-cluster/

Accessing Object Storage Via Oracle Analytics Cloud This blog looks at the steps needed to access the Oracle Object Storage through OAC Read: https://blogs.oracle.com/analytics/post/accessing-object-storage-via-oracle-analytics-cloud

Любопытные и неочевидные особенности при работе со Snowflake Без долгих вступлений, сразу к делу. Знаете ли вы, что в Snowflake можно создавать объекты с пустыми именами? Например: CREATE DATABASE ""; CREATE SCHEMA "".""; Это работает на момент публикации и потенциально создаёт массу проблем для внешних систем, которые не ожидают такого поворота. Также это обычно приводит в восторг админов DWH. Более интересные и практичные советы под катом. Читать: https://habr.com/ru/post/663922/

Квантовый хэдж фонд: что интересного для IT специалиста? Всем привет! Это моя первая статья на Хабр. Меня зовут Артем Сосульников и я директор по разработке ПО в Luxoft. В IT больше 15 лет: начинал как Java разработчик, прошел долгий путь от тим лида и руководителя проектов до директора по разработке ПО с сотней людей в подчинении. В связи с последними событиями в ближайшее время собираюсь с семьей переезжать на остров Пенанг в Малайзию и присоединиться к Люксофт.Малайзия. Там продолжу развитие своих проектов в квантовых хэдж фондах, куда мы теперь нанимаем людей в Сербии, Мексике и Малайзии. Буду писать статьи про жизнь в Малайзии и про работу в Люксофт. Читать: https://habr.com/ru/post/663846/

«Восход» на пути к «идеальному» обществу… Всем пятничного и хорошего настроения накануне майских праздников! Решил накропать философскую статью. Рассчитываю, что в связи с текущей обстановкой в мире, она особенно "зайдет". Итак, давайте вообразим , что человечество созрело до понимания того, что текущая потребительская модель общества не совершенна и ее необходимо менять. Логично, что это должен быть некий антипод - допустим, назовем это "идеальная" модель общества. Но как нам совершить переход от потребительской модели к "идеальной"? А что, если создать некий "идеальный" программный комплекс, который поможет нам искоренить коррупцию, найти эффективные отрасли экономики, убрать неэффективные отрасли, придумать новые технологии? Так сказать, BigData на службе общества... Читать: https://habr.com/ru/post/663706/

Secure data movement across Amazon S3 and Amazon Redshift using role chaining and ASSUMEROLE Read: https://aws.amazon.com/blo
Secure data movement across Amazon S3 and Amazon Redshift using role chaining and ASSUMEROLE Read: https://aws.amazon.com/blogs/big-data/secure-data-movement-across-amazon-s3-and-amazon-redshift-using-role-chaining-and-assumerole/

Data Science и математика: самые важные разделы науки в освоении профессии Data Science — быстро развивающееся направление, без которого сейчас невозможно обойтись ни в одной отрасли бизнеса или науки. Сырые и неструктурированные данные — кладезь информации. Но для того чтобы ее получить в нужном виде, требуется приложить немало усилий. А объемы таких сырых данных зашкаливают — каждый день, по статистике, человечество генерирует около 2,5 квинтиллиона байт. Для обработки всего этого необходимы специалисты — чем больше, тем лучше. Основной инструмент в их руках — математика. Сегодня обсудим, какие разделы науки наиболее востребованы в профессии. Об этом мы поговорили с Кириллом Шмидтом, Product analyst Team Lead в корпорации Citrix (США) и автором профессии Data Analyst в Skillbox. Сразу стоит сказать, что статья рассчитана на новичков. Что же, приступим. Читать: https://habr.com/ru/post/663508/

Настоящее и будущее дата-инжиниринга Future Indefinite — Oculus (Cover art) by Rowye Несколько лет назад дата-сайентистов часто называли «единорогами». Все искали гениального full-stack-инженера-математика, способного вникнуть во все бизнес-проблемы. В последние два года мы пережили хайп по поводу AI/ML и стали свидетелями быстрого подъема профессии «дата-инженер». По данным отчета Dice о технических специальностях, в 2020 году потребность в дата-инженерах резко возросла ни много ни мало на 50 % — эта специальность быстро развивается. Команда разработки облачной платформы VK Cloud Solution перевела статью о том, чего ждут от дата-инженеров сейчас и каким станет дата-инжиниринг в будущем. Читать: https://habr.com/ru/post/661777/

Make your data shine: learn to build custom data visualizations in your own applications using Oracle Analytics Cloud and the new JSON-based semantic model markup language Make your data shine: learn to build custom data visualizations in your own applications using Oracle Analytics Cloud and the new JSON-based semantic model markup language. Read: https://blogs.oracle.com/analytics/post/make-your-data-shine-learn-to-build-custom-data-visualizations-in-your-own-applications-using-oracle-analytics-cloud-and-the-new-json-based-semantic-model-markup-language

Real-time analytics with Amazon Redshift streaming ingestion Read: https://aws.amazon.com/blogs/big-data/real-time-analytics-
Real-time analytics with Amazon Redshift streaming ingestion Read: https://aws.amazon.com/blogs/big-data/real-time-analytics-with-amazon-redshift-streaming-ingestion/

Amazon EMR on Amazon EKS provides up to 61% lower costs and up to 68% performance improvement for Spark workloads Read: https
Amazon EMR on Amazon EKS provides up to 61% lower costs and up to 68% performance improvement for Spark workloads Read: https://aws.amazon.com/blogs/big-data/amazon-emr-on-amazon-eks-provides-up-to-61-lower-costs-and-up-to-68-performance-improvement-for-spark-workloads/

Оперативная аналитика данных. Knime & MongoDB В предыдущей статье я вкратце упомянул, что Knime умеет работать с базами данных, в том числе с NoSQL базой MongoDB. На мой взгляд, MongoDB является довольно простым и эффективным решением для хранения информации, представленной в виде коллекций документов, состоящих из различных наборов полей и, по сути, являющихся обычными JSON файлами. Мне показалась интересным попробовать связку Knime - MongoDB в действии. Именно этой связке и посвящена данная статья. Читать: https://habr.com/ru/post/663146/

Если вы устраняете систематическую ошибку модели, то уже слишком поздно Введение Машинное обучение — это технологический прорыв, случающийся раз в поколение. Однако с ростом его популярности основной проблемой становятся систематические ошибки алгоритма. Если модели ML не обучаются на репрезентативных данных, у них могут развиться серьёзные систематические ошибки, оказывающие существенный вред недостаточно представленным группам и приводящие к созданию неэффективных продуктов. Мы изучили массив данных CoNLL-2003, являющийся стандартом для создания алгоритмов распознавания именованных сущностей в тексте, и выяснили, что в данных присутствует серьёзный перекос в сторону мужских имён. При помощи наших технологии мы смогли компенсировать эту систематическую ошибку: 1. Мы обогатили данные, чтобы выявить сокрытые систематические ошибки 2. Дополнили массив данных недостаточно представленными примерами, чтобы компенсировать гендерный перекос Модель, обученная на нашем расширенном массиве данных CoNLL-2003, характеризуется снижением систематической ошибки и повышенной точностью, и это показывает, что систематическую ошибку можно устранить без каких-либо изменений в модели. Мы выложили в open source наши аннотации Named Entity Recognition для исходного массива данных CoNLL-2003, а также его улучшенную версию, скачать их можно здесь. Читать: https://habr.com/ru/post/657123/