Data Analysis / Big Data
Відкрити в Telegram
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels
Показати більше2 744
Підписники
Немає даних24 години
+17 днів
+230 день
Архів дописів
Use the AWS Glue connector to read and write Apache Iceberg tables with ACID transactions and perform time travel
Read: https://aws.amazon.com/blogs/big-data/use-the-aws-glue-connector-to-read-and-write-apache-iceberg-tables-with-acid-transactions-and-perform-time-travel/
Netflix. Архитектура системы персонализации и рекомендаций
Перевод неточный, некоторые куски пропущены, так как показались мне повторением уже высказанных выше мыслей, некоторые - уточнены и дополнены примерами.
В предыдущих постах о персонализации в Netflix уже говорилось о том, что и данные, и алгоритмы их обработки одинаковы важны в задаче персонализации пользовательского опыта. Также важно вовлекать пользователя в систему рекомендаций - получать от него так больше откликов и данных. Сегодня мы поговорим о том, как может выглядеть архитектура, которая может максимизировать пользу от собираемых данных и поддерживает возможность быстрого внедрения нововведений.
Читать: https://habr.com/ru/post/672324/
Data Engineering Weekly #89
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-89
Создание Data Lake и Warehouse на GCP
Эта статья не будет технически глубокой. Мы поговорим о Data Lake и Data Warehouse, важных принципах, которые следует учитывать, и о том, какие сервисы GCP можно использовать для создания такой системы. Мы коснёмся каждого из GCP сервисов и поймём почему они будут полезны при создании Data Lake и Warehouse.
Прежде чем перейти к своей версии Data Lake и Data Warehouse, я хотел бы привести несколько известных архитектур, с которыми вы, возможно, уже знакомы, если интересуетесь этой темой. Архитектура, которую я бы предложил, будет более общей, чем эти: Cloud Storage as a data lake и Architecture: Marketing Data Warehouse.
В своей более общей версии Data Lake и Data Warehouse я расскажу о таких сервисах GCP, как Data Transfer Service, Dataproc, Cloud Storage, Cloud Scheduler, BigQuery, и Cloud SQL.
Читать: https://habr.com/ru/post/672280/
ChainOps или DevOps
В настоящее время все в пространстве DevOps связано со словом, оканчивающимся на ops: GitOps, AIOps, MLOps, DevSecOps, EverythingOps. Хотя, возможно, это уже упоминалось в другом месте, я хочу написать некоторые точки зрения о том, как применять процессы DevOps к блокчейнам и/или технологиям распределенного реестра ( DLT ).
Например, просто для описания одного из этих так называемых терминов «эксплуатация»: «GitOps — это операционная среда, которая использует лучшие практики DevOps, используемые для разработки приложений, такие как контроль версий, совместная работа, соответствие требованиям и CI/CD, и применяет их к автоматизации инфраструктуры. [1]. Сразу приходят на ум инструменты инфраструктуры как кода, такие как Terraform.
ChainOps (с моей точки зрения) следует использовать для описания методов DevOps, выполняемых прямо в пространстве блокчейна.
В децентрализованном мире основным участником разработки приложений или Dapps (децентрализованных приложений) является узел , узел в DLT (технология распределенного реестра) — это минимальный компонент инфраструктуры, способный запускать необходимое программное обеспечение, чтобы быть функциональной частью. бухгалтерской книги.
Таким образом, Devops должен отвечать за то, чтобы каждый узел имел одинаковые сетевые и инфраструктурные возможности (например, ОЗУ, ЦП, пропускную способность), а также одинаковые версии пакетов программного обеспечения. (Например, версии биткойн-ядра или версии DappNode)
Автоматизированные рабочие процессы DevOps должны отвечать за доставку и интеграцию не только версий основного узла, но и другого программного обеспечения, необходимого для Dapp .
Читать: https://habr.com/ru/post/672108/
Прокачайте математику для анализа данных — найдите работу мечты
Всё больше людей осваивают анализ данных, становятся аналитиками и специалистами по Data Science. Конкуренция растёт, и выигрывают в ней те, кто имеет крепкую математическую базу.
На курсе от Яндекс Практикума вы сможете освоить разделы математики, которые необходимы для работы аналитика и специалиста по Data Science.
Курс подойдёт:
— выпускникам и студентам курсов, посвящённых анализу данных,
— начинающим аналитикам данных и специалистам по Data Science,
— тем, кто готовится к математическим секциям собеседований в IT-компании.
Курс состоит из четырёх модулей: линейная алгебра, математический анализ, продвинутая линейная алгебра, а также теория вероятностей и статистика. Вы сможете освоить их за 4 месяца, а чат с преподавателем будет доступен в течение 5 месяцев, так что при необходимости сможете сделать перерыв.
По завершении курса вы станете глубже понимать математические методы и увереннее чувствовать себя при решении рабочих задач.
Стоимость: 24 000 ₽ при покупке сразу всего курса или 7 500 ₽ в течение 4 месяцев при помесячной оплате.
Подробности по ссылке: https://tprg.ru/G57Z
Это #партнёрский пост
Нейронная сеть для ведения боевых действий. Какая война может быть с технологически развитой страной?
Ежеминутные военные сводки наших СМИ непроизвольно в голове программиста преобразуются в технологические решения. Заранее скажем, что мы не выдаем военных тайн ничьих стран, а только излагаем наше видение автоматизации процесса. Хотя всегда надо помнить поговорку от компании Спецлаб: если к тебе пришла умная мысль, значит, она уже кем-то реализована.
В атаку!
Читать: https://habr.com/ru/post/671948/
Создание современной платформы для работы с данными с помощью Open-Source-решений
Команда VK Cloud Solutions перевела краткий конспект с Open Source Data Stack Conference. Конференция была посвящена созданию платформ для работы с данными на базе Open-Source-решений —докладчики представляли свои идеи и технологии на примере вымышленной базы данных интернет-магазина.
Автор пересказывает выступления о том, как с помощью ПО с открытым исходным кодом можно контролировать потоки клиентских данных в компании, решать задачи управления данными, Data Privacy, повышения эффективности работы Data-специалистов.
Читать: https://habr.com/ru/post/671642/
Build an Apache Iceberg data lake using Amazon Athena, Amazon EMR, and AWS Glue
Read: https://aws.amazon.com/blogs/big-data/build-an-apache-iceberg-data-lake-using-amazon-athena-amazon-emr-and-aws-glue/
Resize Amazon Redshift from DC2 to RA3 with minimal or no downtime
Read: https://aws.amazon.com/blogs/big-data/resize-amazon-redshift-from-dc2-to-ra3-with-minimal-or-no-downtime/
DataVault на Greenplum с помощью DBT
Привет, Хабр!
Меня зовут Марк Порошин, я занимаюсь DataScience в DV Group. Недавно я уже рассказывал про то, как начать трансформировать данные с помощью dbt. Сегодня я решил поделиться, как мы в DV Group поженили dbt, Greenplum и DataVault, собрали все грабли, что могли; немного поконтрибьютили в open-source, но по итогу остались очень довольны результатом.
Расскажу сначала пару слов о том, что такое DataVault. DataVault - методология построения хранилища, предполагающая высокую нормализацию данных (3ая нормальная форма). Основными ее компонентами являются:
Читать: https://habr.com/ru/post/671836/
[recovery mode] Big Data в IT-рекрутинге: как упрощается процесс найма для HR-менеджеров и поиска работы для кандидатов
Привет, на связи IT рекрутинговое агентство HEAAD. Рассказываем о том, как большие данные упрощают поиск работы кандидатам и процесс найма рекрутерам.
Читать: https://habr.com/ru/post/671664/
Implement a CDC-based UPSERT in a data lake using Apache Iceberg and AWS Glue
Read: https://aws.amazon.com/blogs/big-data/implement-a-cdc-based-upsert-in-a-data-lake-using-apache-iceberg-and-aws-glue/
How GE Proficy Manufacturing Data Cloud replatformed to improve TCO, data SLA, and performance
Read: https://aws.amazon.com/blogs/big-data/how-ge-proficy-manufacturing-data-cloud-replatformed-to-improve-tco-data-sla-and-performance/
Автоматизировать производство, наладить цепи поставок продуктов, отладить обработку сообщений об ошибках
Звучит как ИТ-задачи. А что, если мы скажем, что продукты — съедобные, а производство — пищевое?
Вместе с КРОК собрали для вас забавный тест по методологиям DevOps на примере кухни ресторана. Проверьте, сможете ли вы следовать лучшим практикам в непривычной обстановке:
https://tprg.ru/Kehc
Это #партнёрский пост
Переобучению быть или не быть: когда пора обновлять модели машинного обучения
Обучать ли модель ML повторно? Многие отвечают на этот вопрос интуитивно или действуют по взятой из ниоткуда схеме: по ночам, раз в месяц, «когда пользователи начинают жаловаться». Команда VK Cloud Solutions перевела статью о том, когда на самом деле стоит переобучать и на что опираться при принятии этого решения.
Примечание редакции: В оригинале статьи используют слово retrain. Мы перевели его как «переобучение», хотя обычно в русскоязычной среде этим термином описывают ситуации, когда модель излишне подгоняется на обучающих данных. В этой статье под переобучением имеют в виду именно повторное обучение модели с нуля.
Читать: https://habr.com/ru/post/671224/
[recovery mode] SIEM-SIEM, откройся: какие инструменты наиболее эффективно анализируют цифровую инфраструктуру
Волна кибератак нарастает, две трети из них совершаются с целью получения данных. Как найти белые пятна в средствах защиты информации (СЗИ) и навести порядок в инфраструктуре, как помогает в решении этих задач Security Information and Event Management (SIEM), раскрыл руководитель отдела консалтинга и инженерной поддержки направления по информбезопасности компании Axoft Денис Фокин.
Читать: https://habr.com/ru/post/671438/
Single Sign-On Solutions for Oracle Analytics Server on On-Premise and on Oracle Cloud
Single Sign-On Solutions for Oracle Analytics Server on On-Premise and on OCI Cloud
Read: https://blogs.oracle.com/analytics/post/oas-sso-solutions
SSL Offloading at Web Server for Oracle Analytics Server on Oracle Cloud Marketplace
SSL Offloading at Web Server for Oracle Analytics Server on Oracle Cloud Marketplace
Read: https://blogs.oracle.com/analytics/post/oas-mp-ssl-offloading-webserver
Configure Apache HTTP Server as Web Server for Oracle Analytics Server
Configure Apache HTTP Server as the Web Server for Oracle Analytics Server
Read: https://blogs.oracle.com/analytics/post/oas-mp-apache
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
