Data Analysis / Big Data

Open in Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Network:Типичный программист Russia175 431 Technologies & Applications26 518

2 744

Subscribers

+224 hours

-17 days

+530 days

662

Post views

No data24 hours

No data48 hours

24.11%

Engagement rate

No data

Posts per day

Ads index

beta

Posts Archive

2 743

Подборка актуальных вакансий — Middle / Senior System Analyst Где: Москва, можно удалённо Опыт: от 3 лет — Ведущий системный аналитик Где: Москва, можно удалённо Опыт: от 2 лет — Аналитик DWH Где: Москва, можно удалённо Опыт: от 3 лет — Системный аналитик Где: Москва, можно удалённо Опыт: от 3 лет — Ведущий системный аналитик Где: Москва, можно удалённо Опыт: от 3 лет #вакансии #работа

2 743

Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 2) Привет! Продолжаю рассказ про интеграционную платформу на базе Apache Kafka и про то, как мы постарались гармонично вписать ее в непростую ИТ инфраструктуру группы НЛМК. Напомню, что в первой части статьи были описаны соглашения об именовании топиков, подход к реализации ролевой модели и соглашение по базовой схеме данных. Здесь расскажу, как сделали универсальное охлаждение для всех данных из Kafka в корпоративное хранилище на базе Hadoop, про сервис доставки сообщений в ИС и про разработанные сервисы, доступные на нашем Self-Serves портале. Читать: https://habr.com/ru/post/686778/

2 743

Everything Bagel, часть II: версионные таблицы озера данных в lakeFS и Trino Команда VK Cloud уже переводила статью о том, как развернуть локальный стек данных с помощью инструмента Everything Bagel. Теперь переводим вторую часть, в которой на практике разбираем, как выполнять запросы к разветвленным данным lakeFS через механизм распределенных запросов Trino. Читать: https://habr.com/ru/post/687764/

2 743

5 этапов оптического распознавания символов на практике Распознавание символов довольно сложная задача для компьютера. А сегодня в ней всё больше необходимости, ведь автоматизация обработки различных документов и данных ускоряет решение многих вопросов. Например, в системах банкинга, которые таким образом могут ускорить одобрение кредита или выполнение иной услуги. В этой статье вы узнаете, как разработчики из Ренессанс Кредит решали эту задачу: https://tprg.ru/jnzF

2 743

Detect and process sensitive data using AWS Glue Studio Read: https://aws.amazon.com/blogs/big-data/detect-and-process-sensitive-data-using-aws-glue-studio/

2 743

Как быть аналитикам данных в условиях ухода многих иностранных вендоров И уход вендоров не самое сложное. Отключение от международных сервисов, необходимость оперативного переосмысления текущей архитектуры, отсутствие или недостаточность внутренней экспертизы и понимания нагрузочных возможностей российских решений — всё это создаёт массу сложностей аналитикам. Что делать дальше? Как получить производительность уровня Oracle Exadata c помощью Arenadata Greenplum? Существует ли реальная альтернатива Tableau, Qlik, Power BI? Импортозамещение и применение российских облаков – перспектива или препятствие для эффективной работы финансовых организаций? Об этом и многом другом вы сможете поговорить с экспертами в рамках совместного с Arenadata онлайн-семинара «КХД и BI в финансовой сфере — что делать после ухода глобальных игроков», который состоится 13 октября в 11:00. Узнать подробнее о семинаре: https://tprg.ru/nwIU Это #партнёрский пост

2 743

Подготовка датасета для машинного обучения: 10 базовых способов совершенствования данных У Колумбийского университета есть хорошая история о плохих данных. Проект в сфере здравоохранения был нацелен на снижение затрат на лечение пациентов с пневмонией. В нём использовалось машинное обучение (machine learning, ML) для автоматической сортировки записей пациентов, чтобы выбрать тех, у кого опасность смертельного исхода минимальна (они могут принимать антибиотики дома), и тех, у кого опасность смертельного исхода высока (их нужно лечить в больнице). Команда разработчиков использовала исторические данные из клиник, а алгоритм был точным. Но за одним важным исключением. Одним из наиболее опасных состояний при пневмонии является астма, поэтому врачи всегда отправляют астматиков в отделение интенсивной терапии, что приводило к минимизации уровня смертности для этих пациентов. Благодаря отсутствию смертельных случаев у астматиков в данных алгоритм предположил, что астма не так уж опасна при пневмонии, и во всех случаях машина рекомендовала отправлять астматиков домой, несмотря на то, что для них риск осложнений при пневмонии был наибольшим. ML сильно зависит от данных. Это самый критически важный аспект, благодаря которому и возможно обучение алгоритма; именно поэтому машинное обучение стало столь популярным в последние годы. Но вне зависимости от терабайтов информации и экспертизы в data science, если ты не можешь понять смысл записей данных, то машина будет практически бесполезной, а иногда и наносить вред. Читать: https://habr.com/ru/post/684580/

2 743

Data Engineering Weekly #101 Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-101

2 743

How ZS created a multi-tenant self-service data orchestration platform using Amazon MWAA Read: https://aws.amazon.com/blogs/big-data/how-zs-created-a-multi-tenant-self-service-data-orchestration-platform-using-amazon-mwaa/

2 743

Как локализовать гигантскую платформу в России на примере AliExpress Ребята из AliExpress делятся собственным опытом локализации платформы. В этой статье они рассказали об адаптации поиска и рекомендаций, а также о создании инфраструктуры. Подробнее: https://tprg.ru/l5dC

2 743

Как мы не взяли золото на Каггл или умей верно выбрать сабмит Привет, чемпион! Мы тут недавно потратили месяц на соревнование «UW-Madison GI Tract Image Segmentation» и не взяли золото. Золотую медаль не взяли, но теперь у каждого из нас есть первая бронза. И сейчас мы кратко расскажем про сработавшие подходы в сегментации. А еще расскажем, что можно было сделать, чтоб все-таки забрать золото. (Спойлер: мы были в шаге от золота ...) Читать: https://habr.com/ru/post/688660/

2 743

Как переносить данные из S3 в BigQuery с помощью Meltano Создание пайплайнов для трансфера данных — рутинная задача Data-инженеров. Чтобы ее решить, многие копируют код коннекторов из одного проекта в другой. Из-за копипаста общая структура ломается, и в перспективе может возникнуть трудность с поддержкой проекта. Источников данных много — Яндекс.Директ, Google Analytics и другие. По отдельности они не дают нужной картины, — данные всё равно приходится собирать в один Data Warehouse. Тут на помощь приходит Meltano: он позволяет стандартизировать написание коннекторов к различным источникам данных и быстро перенести все нужные данные. Читать: https://habr.com/ru/post/686976/

2 743

Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud В данной статье делимся опытом внедрения решения на базе СУБД ClickHouse и сервисов Yandex Cloud. Мы не коснёмся тонких настроек ClickHouse или его масштабирования, но затронем достаточно интересные на наш взгляд темы: · как загружать данные из On-premise в облачный ClickHouse с использованием сервисов Yandex Cloud – Functions, Object Storage, Message Queue; · как обрабатывать/преобразовывать данные в облачном ClickHouse – очищать и строить витрины; какие «подводные камни» нам встретились на этом пути. Читать: https://habr.com/ru/post/688126/

2 743

Brain, Kidney, Cancer Research & Data Contract Read: https://www.dataengineeringweekly.com/p/brain-kidney-cancer-research-and

2 743

Optimize Amazon EMR costs for legacy and Spark workloads with managed scaling and node labels Read: https://aws.amazon.com/blogs/big-data/optimize-amazon-emr-costs-for-legacy-and-spark-workloads-with-managed-scaling-and-node-labels/

2 743

Подборка актуальных вакансий — Системный аналитик Где: Москва Опыт: от 1 года — Системный аналитик Где: Москва Опыт: от 1 года — Младший инженер-аналитик SOC (1-ая линия) Где: Краснодар Опыт: от 1 года — Middle / Senior System Analyst Где: Москва, можно удалённо Опыт: от 3 лет — Ведущий системный аналитик Где: Москва, можно удалённо Опыт: от 2 лет — Аналитик DWH Где: Москва, можно удалённо Опыт: от 3 лет — Системный аналитик Где: Москва, можно удалённо Опыт: от 3 лет — Аналитик в Центр Компетенций R&D Где: Москва Опыт: от 3 лет — Ведущий системный аналитик Где: Москва, можно удалённо Опыт: от 3 лет #вакансии #работа

2 743

От идеи до внедрения: как построить систему анализа данных для промышленного предприятия По данным Barc, ещё в 2015 году компании, использующие Big Data & Analytics, смогли на 8% увеличить доходы и на 10% снизить затраты. Сегодняшний тренд на цифровизацию и импортозамещение подталкивает руководителей активнее изучать и внедрять аналитику данных в работу своих предприятий. И если раньше анонсы о внедрении Big Data в основном были связаны с пилотными проектами, то сегодня промышленные компании всё чаще рассматривают работу с данными как важную часть корпоративной стратегии развития. Мы занимаемся разработкой ПО для промышленных предприятий, и сегодня обладаем достаточной экспертизой о трудностях, которые могут возникать на каждом из этапов внедрения анализа данных, а также об инструментах для их решения. В этой статье мы разберём весь путь внедрения анализа больших данных на предприятии с использованием этих продуктов. Читать: https://habr.com/ru/post/688396/

2 743

Руководство по Human Pose Estimation Обычно эту задачу решают при помощи глубокого обучения. Это одна из самых интересных областей исследований, получившая популярность благодаря своей полезности и универсальности — она находит применение в широком спектре сфер, в том числе в гейминге, здравоохранении, AR и спорте. В этой статье приведён исчерпывающий обзор определения положения тела человека (Human Pose Estimation, HPE) и того, как оно работает. Также в ней рассматриваются различные подходы к решению задачи HPE — классические методы и методы на основе глубокого обучения, метрики и способы оценки, а также многое другое. Читать: https://habr.com/ru/post/687728/

2 743

Identify source schema changes using AWS Glue Read: https://aws.amazon.com/blogs/big-data/identify-source-schema-changes-using-aws-glue/

2 743

Run Apache Spark with Amazon EMR on EKS backed by Amazon FSx for Lustre storage Read: https://aws.amazon.com/blogs/big-data/run-apache-spark-with-amazon-emr-on-eks-backed-by-amazon-fsx-for-lustre-storage/