Data Analysis / Big Data

Open in Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Network:Типичный программист Russia175 431 Technologies & Applications26 518

2 745

Subscribers

+224 hours

-17 days

+530 days

662

Post views

No data24 hours

No data48 hours

24.11%

Engagement rate

No data

Posts per day

Ads index

beta

Posts Archive

2 744

Поиск it компаний с аккредитацией минцифры и крупицы Big Data Времени на раскачку нет - сразу к делу. На сайте digital.gov.ru можно найти документ со списком организаций, прошедших аккредитацию минцифры. Давайте оперативно реализуем сервис для поиска и проверки аккредитации у организаций. Проверить аккредитацию Читать: https://habr.com/ru/post/690474/

2 744

Get a quick start with Apache Hudi, Apache Iceberg, and Delta Lake with Amazon EMR on EKS Read: https://aws.amazon.com/blogs/big-data/get-a-quick-start-with-apache-hudi-apache-iceberg-and-delta-lake-with-amazon-emr-on-eks/

2 744

Dagster | Туториал Dagster — это оркестратор, предназначенный для организации конвейеров обработки данных: ETL, проведение тестов, формирование отчетов, обучение ML-моделей и т.д. На паре несложных примеров посмотрим как его развернуть, настроить и работать с ним. Читать: https://habr.com/ru/post/690342/

2 744

Automate ETL jobs between Amazon RDS for SQL Server and Azure Managed SQL using AWS Glue Studio Read: https://aws.amazon.com/blogs/big-data/automate-etl-jobs-between-amazon-rds-for-sql-server-and-azure-managed-sql-using-aws-glue-studio/

2 744

Распознавание фейков с помощью технологий управления данными Развитие технологий и все возрастающие объемы информации привели к тому, что слово «фейк» или «информационный фейк» прочно вошло в нашу жизнь. Всевозможные мошенники идут в ногу со временем и оперативно ставят себе на службу технологии, изобретая все новые способы влиять на людей. А значит, нам необходимо задуматься о том, как использовать накопившийся опыт и технологии управления информацией для распознавания фейков, т.е. для их автоматического отделения от реальных фактов. Сегодня мы расскажем о всем многообразии использования технологий управления данными для распознавания фейков. Что же такое фейки? Существует множество определений фейков, мы не будем на них останавливаться, но отметим, что в этой статье мы будем говорить не об ошибочной информации (такой как опечатки или случайно вкравшиеся неточности), а об информации искажавшейся намеренно. Фейки можно встретить практически в любой форме — тексте, видео или аудио контенте. Поговорим сначала о последних. Для создания аудио и видео фейков существует специальный инструментарий, построенный на глубоком обучении (deep learning). Искаженные таким образом факты называются дипфейками [1, 2]. Кажется, что уже все видели их примеры — эти видеоклипы с различными знаменитостями, которые говорили или делали что-то, чего на самом деле не было (в [3] есть небольшой таймлайн с известными дипфейками), многие пранкеры используют дипфейки в своих звонках. Однако дипфейки это не развлечение, а серьезная угроза: продвинутые мошенники их уже освоили и во-всю пускают в дело [4, 5]. Читать: https://habr.com/ru/post/690206/

2 744

Практика импортозамещения для пользователей Tableau, Qlik, Power BI Что сейчас происходит на рынке визуальной аналитики? Как решается вопрос перехода на актуальные платформы пользователями Tableau, Qlik и Power BI? Как аналитикам сохранить привычную функциональность продуктов? Об этом и многом другом поговорят на онлайн-семинаре «Практика импортозамещения в BI» уже завтра, 27 сентября! Основные темы: — обзор рынка BI – варим кашу из топора; — методология миграции – почему не работает copy-paste; — Tableau/Power BI vs Дельта BI – дьявол в деталях; — отзыв клиента – от практиков для теоретиков. https://tprg.ru/dgzt Это #партнёрский пост

2 744

Data Engineering Weekly #102 Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-102

2 744

Чего ждать от «Управления данными 2022»? Привет, Хабр! Буквально на днях, уже на следующей неделе стартует конференция “Управление данными 2022”. Издательство "Открытые Системы" проводит мероприятие седьмой год подряд, но в 2022 году форум обещает быть особенно интересным. Почему мы решили принять в нем участие, и какие доклады, я сам бы хотел послушать, читайте под катом. Узнать больше Читать: https://habr.com/ru/post/690026/

2 744

Run a data processing job on Amazon EMR Serverless with AWS Step Functions Read: https://aws.amazon.com/blogs/big-data/run-a-data-processing-job-on-amazon-emr-serverless-with-aws-step-functions/

2 744

Upgrade Amazon EMR Hive Metastore from 5.X to 6.X Read: https://aws.amazon.com/blogs/big-data/upgrade-amazon-emr-hive-metastore-from-5-x-to-6-x/

2 744

Critics, stories, and ethics Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/09/critics-stories-and-ethics.html

2 744

Большая конференция про облачные технологии от Yandex Cloud — Yandex Scale стартует уже через несколько минут! В программе вас ждут: — 5 тематических треков: Infrastructure, Data Platform, Security, Serverless, Business Tools. — Более 30 докладов о новых сервисах для бизнеса, обеспечении безопасности в облаке, возможностях бессерверных вычислений и повышении эффективности бизнеса за счёт использования облачных инструментов. — Более 50 спикеров — ведущих IT-экспертов и разработчиков, которые расскажут о том, как облачные технологии помогают бизнесу адаптироваться к новой реальности. Переходите по ссылке и присоединяйтесь к трансляции: https://tprg.ru/uSKk Это #партнёрский пост

2 744

Enable self-service visual data integration and analysis for fund performance using AWS Glue Studio and Amazon QuickSight Read: https://aws.amazon.com/blogs/big-data/enable-self-service-visual-data-integration-and-analysis-for-fund-performance-using-aws-glue-studio-and-amazon-quicksight/

2 744

Курс «Английский для аналитиков» от Яндекс Практикума Для специалистов, которые хотят изменить свою профессиональную жизнь и работать в международной команде. Обучение построено вокруг рабочих ситуаций и полезных для карьеры навыков: — самопрезентация. Рассказ о своей роли, задачах, сфере ответственности на поведенческом интервью и в неформальной беседе; — работа в команде. Стендапы, планирование спринтов, демонстрация навыков командной работы на собеседовании; — общение с заказчиками и исполнителями. Сбор требований у стейкхолдеров и постановка задач для разработчиков; — презентация результатов работы. Выступление на митапах, неформальное общение с коллегами из отрасли; — обсуждение решений по проекту. Генерация и аргументация идей, участие в мозговых штурмах; — рефлексия и самоанализ. Ретроспектива, ревью, ответы на сложные вопросы. Запишитесь на бесплатную консультацию. Вам помогут определить ваш уровень языка, а также расскажут про обучение и ответят на все вопросы: https: tprg.ru/n7GE Это #партнёрский пост

2 744

Потери данных при репликации в аналитическое хранилище — автоматические сверки и мониторинг качества данных Данные из боевых баз в нашей архитектуре асинхронно попадают в аналитическое хранилище (Clickhouse), где уже аналитики создают дашборды для продуктовых команд и делают выборки. Базы здоровые и под ощутимой нагрузкой: мы в день отправляем флот самолётов средней авиакомпании, несколько поездов и кучу автобусов. Поэтому взаимодействий с продуктом много. ETL-процесс (извлечение данных, трансформация и загрузка в хранилище) часто подразумевает сложную логику переноса данных, и изначально нет уверенности в том, что данные доставляются без потерь и ошибок. Мы используем Kafka как шину данных, промежуточные сервисы на Benthos для трансформации записей и отправки в Clickhouse. На этапе создания пайплайна нужно было убедиться в отсутствии потерь с нашей стороны и корректной логике записи в шину данных. Проверять вручную расхождения каждый раз не хотелось, кроме того мы нуждались в сервисе, который умел бы сверять новые данные по расписанию и показывать наглядно, где и какие имеются расхождения. Поэтому мы сделали сервис сверок, о котором я и расскажу, потому что готовых решений не нашёл. Читать: https://habr.com/ru/post/689224/

2 744

Как мы строим свою платформу для аналитиков Привет, с вами снова Галина Вакулина, и в этой статье я расскажу, как мы строим платформу для аналитиков и избавляем их от ненужной работы. Цель нашей команды — сделать так, чтобы в Точке работать с данными было удобно и быстро. Чем меньше времени аналитик тратит на рутину, тем больше времени у него остаётся на исследования, придумывание новых метрик, построение дашбордов, проверку гипотез и просто захватывающее копание в данных. Читать: https://habr.com/ru/post/689140/

2 744

OpenAI решили распознавание речи! Разбираемся так ли это… Вчера OpenAI выпустили Whisper. По сути они просто опубликовали веса набора больших (и не очень) рекуррентных трансформеров для распознавания речи и статью (и самое главное, в статье ни слова про compute и ресурсы). И естественно уже вчера и сегодня утром мне в личку начали сыпаться сообщения, мол всё, распознавание речи решено, все идеально классно и быстро работает, расходимся. Постараемся разобраться под катом. Короткий ответ, если вам лень читать - для языков, кроме английского, скорее всего это далеко от правды (проверил я на русском). На английском наверное стоит сделать отдельный и чуть более подробный разбор, если эта статья наберет хотя бы 50 плюсов. Итак, поехали! Читать: https://habr.com/ru/post/689572/

2 744

Super Protocol: трансформирует облачные вычисления для Web3 Super Protocol — это платформа конфиденциальных облачных вычислений, предназначенная для защиты данных во время их обработки. Это децентрализованная платформа на блокчейне, что означает, что ей не присущи недостатки при использовании централизованных сервисов. В этой статье я постараюсь рассказать о Super Protocol и о том, какие задачи он позволяет решать. Современное состояние облачных вычислений Облачные вычисления - это предоставление вычислительной мощности (серверов, памяти, баз данных, сетей и ПО) посредством Интернет в целях аренды (как сервис). Облачные провайдеры позволяют компаниям и индивидуальным пользователям расширить их вычислительные способности. С такого рода сервисами пользователи могут хранить больше информации в облачных хранилищах, обрабатывать больше данных и использовать ПО как сервис (SaaS). На текущий момент облачные вычисления используются повсеместно: онлайн-переводчики, онлайн-игры, платежные сервисы, видео коммуникации, сервисы навигации, онлайн-библиотеки, онлайн-почта, хранилища данных и многое другое. За 2020 год рынок облачных вычислений вырос до $371,4 млрд. и продолжает свой бурный рост. Каждый год потребность в облачных вычислениях растет и также она растет в сфере технологий WEB 3.0. К 2025 году рынок может достичь оценки $832,1 млрд., со среднегодовым приростом в 17,5%. В то же самое время облачные вычисления имеют ряд недостатков, которые призван устранить Super Protocol. Недостатки централизованный сервисов, предоставляющих облачные вычисления Читать: https://habr.com/ru/post/689120/

2 744

Talk to your data: Query your data lake with Amazon QuickSight Q Read: https://aws.amazon.com/blogs/big-data/talk-to-your-data-query-your-data-lake-with-amazon-quicksight-q/

2 744

Design considerations for Amazon EMR on EKS in a multi-tenant Amazon EKS environment Read: https://aws.amazon.com/blogs/big-data/design-considerations-for-amazon-emr-on-eks-in-a-multi-tenant-amazon-eks-environment/