Data Analysis / Big Data

Відкрити в Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Сітка:Типичный программист Росія175 137 Технології та додатки26 487

2 744

Підписники

Немає даних24 години

+17 днів

+230 день

662

Перегляди допису

Немає даних24 години

Немає даних48 годин

24.13%

Коефіцієнт залучення

Немає даних

Дописів на день

Ads index

beta

Архів дописів

2 743

Use the AWS Glue connector to read and write Apache Iceberg tables with ACID transactions and perform time travel Read: https://aws.amazon.com/blogs/big-data/use-the-aws-glue-connector-to-read-and-write-apache-iceberg-tables-with-acid-transactions-and-perform-time-travel/

2 743

Netflix. Архитектура системы персонализации и рекомендаций Перевод неточный, некоторые куски пропущены, так как показались мне повторением уже высказанных выше мыслей, некоторые - уточнены и дополнены примерами. В предыдущих постах о персонализации в Netflix уже говорилось о том, что и данные, и алгоритмы их обработки одинаковы важны в задаче персонализации пользовательского опыта. Также важно вовлекать пользователя в систему рекомендаций - получать от него так больше откликов и данных. Сегодня мы поговорим о том, как может выглядеть архитектура, которая может максимизировать пользу от собираемых данных и поддерживает возможность быстрого внедрения нововведений. Читать: https://habr.com/ru/post/672324/

2 743

Data Engineering Weekly #89 Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-89

2 743

Создание Data Lake и Warehouse на GCP Эта статья не будет технически глубокой. Мы поговорим о Data Lake и Data Warehouse, важных принципах, которые следует учитывать, и о том, какие сервисы GCP можно использовать для создания такой системы. Мы коснёмся каждого из GCP сервисов и поймём почему они будут полезны при создании Data Lake и Warehouse. Прежде чем перейти к своей версии Data Lake и Data Warehouse, я хотел бы привести несколько известных архитектур, с которыми вы, возможно, уже знакомы, если интересуетесь этой темой. Архитектура, которую я бы предложил, будет более общей, чем эти: Cloud Storage as a data lake и Architecture: Marketing Data Warehouse. В своей более общей версии Data Lake и Data Warehouse я расскажу о таких сервисах GCP, как Data Transfer Service, Dataproc, Cloud Storage, Cloud Scheduler, BigQuery, и Cloud SQL. Читать: https://habr.com/ru/post/672280/

2 743

ChainOps или DevOps В настоящее время все в пространстве DevOps связано со словом, оканчивающимся на ops: GitOps, AIOps, MLOps, DevSecOps, EverythingOps. Хотя, возможно, это уже упоминалось в другом месте, я хочу написать некоторые точки зрения о том, как применять процессы DevOps к блокчейнам и/или технологиям распределенного реестра ( DLT ). Например, просто для описания одного из этих так называемых терминов «эксплуатация»: «GitOps — это операционная среда, которая использует лучшие практики DevOps, используемые для разработки приложений, такие как контроль версий, совместная работа, соответствие требованиям и CI/CD, и применяет их к автоматизации инфраструктуры. [1]. Сразу приходят на ум инструменты инфраструктуры как кода, такие как Terraform. ChainOps (с моей точки зрения) следует использовать для описания методов DevOps, выполняемых прямо в пространстве блокчейна. В децентрализованном мире основным участником разработки приложений или Dapps (децентрализованных приложений) является узел , узел в DLT (технология распределенного реестра) — это минимальный компонент инфраструктуры, способный запускать необходимое программное обеспечение, чтобы быть функциональной частью. бухгалтерской книги. Таким образом, Devops должен отвечать за то, чтобы каждый узел имел одинаковые сетевые и инфраструктурные возможности (например, ОЗУ, ЦП, пропускную способность), а также одинаковые версии пакетов программного обеспечения. (Например, версии биткойн-ядра или версии DappNode) Автоматизированные рабочие процессы DevOps должны отвечать за доставку и интеграцию не только версий основного узла, но и другого программного обеспечения, необходимого для Dapp . Читать: https://habr.com/ru/post/672108/

2 743

Прокачайте математику для анализа данных — найдите работу мечты Всё больше людей осваивают анализ данных, становятся аналитиками и специалистами по Data Science. Конкуренция растёт, и выигрывают в ней те, кто имеет крепкую математическую базу. На курсе от Яндекс Практикума вы сможете освоить разделы математики, которые необходимы для работы аналитика и специалиста по Data Science. Курс подойдёт: — выпускникам и студентам курсов, посвящённых анализу данных, — начинающим аналитикам данных и специалистам по Data Science, — тем, кто готовится к математическим секциям собеседований в IT-компании. Курс состоит из четырёх модулей: линейная алгебра, математический анализ, продвинутая линейная алгебра, а также теория вероятностей и статистика. Вы сможете освоить их за 4 месяца, а чат с преподавателем будет доступен в течение 5 месяцев, так что при необходимости сможете сделать перерыв. По завершении курса вы станете глубже понимать математические методы и увереннее чувствовать себя при решении рабочих задач. Стоимость: 24 000 ₽ при покупке сразу всего курса или 7 500 ₽ в течение 4 месяцев при помесячной оплате. Подробности по ссылке: https://tprg.ru/G57Z Это #партнёрский пост

2 743

Нейронная сеть для ведения боевых действий. Какая война может быть с технологически развитой страной? Ежеминутные военные сводки наших СМИ непроизвольно в голове программиста преобразуются в технологические решения. Заранее скажем, что мы не выдаем военных тайн ничьих стран, а только излагаем наше видение автоматизации процесса. Хотя всегда надо помнить поговорку от компании Спецлаб: если к тебе пришла умная мысль, значит, она уже кем-то реализована. В атаку! Читать: https://habr.com/ru/post/671948/

2 743

Создание современной платформы для работы с данными с помощью Open-Source-решений Команда VK Cloud Solutions перевела краткий конспект с Open Source Data Stack Conference. Конференция была посвящена созданию платформ для работы с данными на базе Open-Source-решений —докладчики представляли свои идеи и технологии на примере вымышленной базы данных интернет-магазина. Автор пересказывает выступления о том, как с помощью ПО с открытым исходным кодом можно контролировать потоки клиентских данных в компании, решать задачи управления данными, Data Privacy, повышения эффективности работы Data-специалистов. Читать: https://habr.com/ru/post/671642/

2 743

Build an Apache Iceberg data lake using Amazon Athena, Amazon EMR, and AWS Glue Read: https://aws.amazon.com/blogs/big-data/build-an-apache-iceberg-data-lake-using-amazon-athena-amazon-emr-and-aws-glue/

2 743

Resize Amazon Redshift from DC2 to RA3 with minimal or no downtime Read: https://aws.amazon.com/blogs/big-data/resize-amazon-redshift-from-dc2-to-ra3-with-minimal-or-no-downtime/

2 743

DataVault на Greenplum с помощью DBT Привет, Хабр! Меня зовут Марк Порошин, я занимаюсь DataScience в DV Group. Недавно я уже рассказывал про то, как начать трансформировать данные с помощью dbt. Сегодня я решил поделиться, как мы в DV Group поженили dbt, Greenplum и DataVault, собрали все грабли, что могли; немного поконтрибьютили в open-source, но по итогу остались очень довольны результатом. Расскажу сначала пару слов о том, что такое DataVault. DataVault - методология построения хранилища, предполагающая высокую нормализацию данных (3ая нормальная форма). Основными ее компонентами являются: Читать: https://habr.com/ru/post/671836/

2 743

[recovery mode] Big Data в IT-рекрутинге: как упрощается процесс найма для HR-менеджеров и поиска работы для кандидатов Привет, на связи IT рекрутинговое агентство HEAAD. Рассказываем о том, как большие данные упрощают поиск работы кандидатам и процесс найма рекрутерам. Читать: https://habr.com/ru/post/671664/

2 743

Implement a CDC-based UPSERT in a data lake using Apache Iceberg and AWS Glue Read: https://aws.amazon.com/blogs/big-data/implement-a-cdc-based-upsert-in-a-data-lake-using-apache-iceberg-and-aws-glue/

2 743

How GE Proficy Manufacturing Data Cloud replatformed to improve TCO, data SLA, and performance Read: https://aws.amazon.com/blogs/big-data/how-ge-proficy-manufacturing-data-cloud-replatformed-to-improve-tco-data-sla-and-performance/

2 743

Автоматизировать производство, наладить цепи поставок продуктов, отладить обработку сообщений об ошибках Звучит как ИТ-задачи. А что, если мы скажем, что продукты — съедобные, а производство — пищевое? Вместе с КРОК собрали для вас забавный тест по методологиям DevOps на примере кухни ресторана. Проверьте, сможете ли вы следовать лучшим практикам в непривычной обстановке: https://tprg.ru/Kehc Это #партнёрский пост

2 743

Переобучению быть или не быть: когда пора обновлять модели машинного обучения Обучать ли модель ML повторно? Многие отвечают на этот вопрос интуитивно или действуют по взятой из ниоткуда схеме: по ночам, раз в месяц, «когда пользователи начинают жаловаться». Команда VK Cloud Solutions перевела статью о том, когда на самом деле стоит переобучать и на что опираться при принятии этого решения. Примечание редакции: В оригинале статьи используют слово retrain. Мы перевели его как «переобучение», хотя обычно в русскоязычной среде этим термином описывают ситуации, когда модель излишне подгоняется на обучающих данных. В этой статье под переобучением имеют в виду именно повторное обучение модели с нуля. Читать: https://habr.com/ru/post/671224/

2 743

[recovery mode] SIEM-SIEM, откройся: какие инструменты наиболее эффективно анализируют цифровую инфраструктуру Волна кибератак нарастает, две трети из них совершаются с целью получения данных. Как найти белые пятна в средствах защиты информации (СЗИ) и навести порядок в инфраструктуре, как помогает в решении этих задач Security Information and Event Management (SIEM), раскрыл руководитель отдела консалтинга и инженерной поддержки направления по информбезопасности компании Axoft Денис Фокин. Читать: https://habr.com/ru/post/671438/

2 743

Single Sign-On Solutions for Oracle Analytics Server on On-Premise and on Oracle Cloud Single Sign-On Solutions for Oracle Analytics Server on On-Premise and on OCI Cloud Read: https://blogs.oracle.com/analytics/post/oas-sso-solutions

2 743

SSL Offloading at Web Server for Oracle Analytics Server on Oracle Cloud Marketplace SSL Offloading at Web Server for Oracle Analytics Server on Oracle Cloud Marketplace Read: https://blogs.oracle.com/analytics/post/oas-mp-ssl-offloading-webserver

2 743

Configure Apache HTTP Server as Web Server for Oracle Analytics Server Configure Apache HTTP Server as the Web Server for Oracle Analytics Server Read: https://blogs.oracle.com/analytics/post/oas-mp-apache