uk
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

Відкрити в Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Показати більше
2 744
Підписники
+224 години
-17 днів
+530 день
Архів дописів
Поиск it компаний с аккредитацией минцифры и крупицы Big Data Времени на раскачку нет - сразу к делу. На сайте digital.gov.ru можно найти документ со списком организаций, прошедших аккредитацию минцифры. Давайте оперативно реализуем сервис для поиска и проверки аккредитации у организаций. Проверить аккредитацию Читать: https://habr.com/ru/post/690474/

Get a quick start with Apache Hudi, Apache Iceberg, and Delta Lake with Amazon EMR on EKS Read: https://aws.amazon.com/blogs/
Get a quick start with Apache Hudi, Apache Iceberg, and Delta Lake with Amazon EMR on EKS Read: https://aws.amazon.com/blogs/big-data/get-a-quick-start-with-apache-hudi-apache-iceberg-and-delta-lake-with-amazon-emr-on-eks/

Dagster | Туториал Dagster — это оркестратор, предназначенный для организации конвейеров обработки данных: ETL, проведение тестов, формирование отчетов, обучение ML-моделей и т.д. На паре несложных примеров посмотрим как его развернуть, настроить и работать с ним. Читать: https://habr.com/ru/post/690342/

Automate ETL jobs between Amazon RDS for SQL Server and Azure Managed SQL using AWS Glue Studio Read: https://aws.amazon.com/
Automate ETL jobs between Amazon RDS for SQL Server and Azure Managed SQL using AWS Glue Studio Read: https://aws.amazon.com/blogs/big-data/automate-etl-jobs-between-amazon-rds-for-sql-server-and-azure-managed-sql-using-aws-glue-studio/

Распознавание фейков с помощью технологий управления данными Развитие технологий и все возрастающие объемы информации привели к тому, что слово «фейк» или «информационный фейк» прочно вошло в нашу жизнь. Всевозможные мошенники идут в ногу со временем и оперативно ставят себе на службу технологии, изобретая все новые способы влиять на людей. А значит, нам необходимо задуматься о том, как использовать накопившийся опыт и технологии управления информацией для распознавания фейков, т.е. для их автоматического отделения от реальных фактов. Сегодня мы расскажем о всем многообразии использования технологий управления данными для распознавания фейков. Что же такое фейки? Существует множество определений фейков, мы не будем на них останавливаться, но отметим, что в этой статье мы будем говорить не об ошибочной информации (такой как опечатки или случайно вкравшиеся неточности), а об информации искажавшейся намеренно. Фейки можно встретить практически в любой форме — тексте, видео или аудио контенте. Поговорим сначала о последних. Для создания аудио и видео фейков существует специальный инструментарий, построенный на глубоком обучении (deep learning). Искаженные таким образом факты называются дипфейками [1, 2]. Кажется, что уже все видели их примеры — эти видеоклипы с различными знаменитостями, которые говорили или делали что-то, чего на самом деле не было (в [3] есть небольшой таймлайн с известными дипфейками), многие пранкеры используют дипфейки в своих звонках. Однако дипфейки это не развлечение, а серьезная угроза: продвинутые мошенники их уже освоили и во-всю пускают в дело [4, 5]. Читать: https://habr.com/ru/post/690206/

Практика импортозамещения для пользователей Tableau, Qlik, Power BI Что сейчас происходит на рынке визуальной аналитики? Как решается вопрос перехода на актуальные платформы пользователями Tableau, Qlik и Power BI? Как аналитикам сохранить привычную функциональность продуктов? Об этом и многом другом поговорят на онлайн-семинаре «Практика импортозамещения в BI» уже завтра, 27 сентября! Основные темы: — обзор рынка BI – варим кашу из топора; — методология миграции – почему не работает copy-paste; — Tableau/Power BI vs Дельта BI – дьявол в деталях; — отзыв клиента – от практиков для теоретиков. https://tprg.ru/dgzt Это #партнёрский пост

Чего ждать от «Управления данными 2022»? Привет, Хабр! Буквально на днях, уже на следующей неделе стартует конференция “Управление данными 2022”. Издательство "Открытые Системы" проводит мероприятие седьмой год подряд, но в 2022 году форум обещает быть особенно интересным. Почему мы решили принять в нем участие, и какие доклады, я сам бы хотел послушать, читайте под катом. Узнать больше Читать: https://habr.com/ru/post/690026/

Run a data processing job on Amazon EMR Serverless with AWS Step Functions Read: https://aws.amazon.com/blogs/big-data/run-a-
Run a data processing job on Amazon EMR Serverless with AWS Step Functions Read: https://aws.amazon.com/blogs/big-data/run-a-data-processing-job-on-amazon-emr-serverless-with-aws-step-functions/

Большая конференция про облачные технологии от Yandex Cloud — Yandex Scale стартует уже через несколько минут! В программе вас ждут: — 5 тематических треков: Infrastructure, Data Platform, Security, Serverless, Business Tools. — Более 30 докладов о новых сервисах для бизнеса, обеспечении безопасности в облаке, возможностях бессерверных вычислений и повышении эффективности бизнеса за счёт использования облачных инструментов. — Более 50 спикеров — ведущих IT-экспертов и разработчиков, которые расскажут о том, как облачные технологии помогают бизнесу адаптироваться к новой реальности. Переходите по ссылке и присоединяйтесь к трансляции: https://tprg.ru/uSKk Это #партнёрский пост

Enable self-service visual data integration and analysis for fund performance using AWS Glue Studio and Amazon QuickSight Rea
Enable self-service visual data integration and analysis for fund performance using AWS Glue Studio and Amazon QuickSight Read: https://aws.amazon.com/blogs/big-data/enable-self-service-visual-data-integration-and-analysis-for-fund-performance-using-aws-glue-studio-and-amazon-quicksight/

Курс «Английский для аналитиков» от Яндекс Практикума Для специалистов, которые хотят изменить свою профессиональную жизнь и работать в международной команде. Обучение построено вокруг рабочих ситуаций и полезных для карьеры навыков: — самопрезентация. Рассказ о своей роли, задачах, сфере ответственности на поведенческом интервью и в неформальной беседе; — работа в команде. Стендапы, планирование спринтов, демонстрация навыков командной работы на собеседовании; — общение с заказчиками и исполнителями. Сбор требований у стейкхолдеров и постановка задач для разработчиков; — презентация результатов работы. Выступление на митапах, неформальное общение с коллегами из отрасли; — обсуждение решений по проекту. Генерация и аргументация идей, участие в мозговых штурмах; — рефлексия и самоанализ. Ретроспектива, ревью, ответы на сложные вопросы. Запишитесь на бесплатную консультацию. Вам помогут определить ваш уровень языка, а также расскажут про обучение и ответят на все вопросы: https: tprg.ru/n7GE Это #партнёрский пост

Потери данных при репликации в аналитическое хранилище — автоматические сверки и мониторинг качества данных Данные из боевых баз в нашей архитектуре асинхронно попадают в аналитическое хранилище (Clickhouse), где уже аналитики создают дашборды для продуктовых команд и делают выборки. Базы здоровые и под ощутимой нагрузкой: мы в день отправляем флот самолётов средней авиакомпании, несколько поездов и кучу автобусов. Поэтому взаимодействий с продуктом много. ETL-процесс (извлечение данных, трансформация и загрузка в хранилище) часто подразумевает сложную логику переноса данных, и изначально нет уверенности в том, что данные доставляются без потерь и ошибок. Мы используем Kafka как шину данных, промежуточные сервисы на Benthos для трансформации записей и отправки в Clickhouse. На этапе создания пайплайна нужно было убедиться в отсутствии потерь с нашей стороны и корректной логике записи в шину данных. Проверять вручную расхождения каждый раз не хотелось, кроме того мы нуждались в сервисе, который умел бы сверять новые данные по расписанию и показывать наглядно, где и какие имеются расхождения. Поэтому мы сделали сервис сверок, о котором я и расскажу, потому что готовых решений не нашёл. Читать: https://habr.com/ru/post/689224/

Как мы строим свою платформу для аналитиков Привет, с вами снова Галина Вакулина, и в этой статье я расскажу, как мы строим платформу для аналитиков и избавляем их от ненужной работы. Цель нашей команды — сделать так, чтобы в Точке работать с данными было удобно и быстро. Чем меньше времени аналитик тратит на рутину, тем больше времени у него остаётся на исследования, придумывание новых метрик, построение дашбордов, проверку гипотез и просто захватывающее копание в данных. Читать: https://habr.com/ru/post/689140/

OpenAI решили распознавание речи! Разбираемся так ли это… Вчера OpenAI выпустили Whisper. По сути они просто опубликовали веса набора больших (и не очень) рекуррентных трансформеров для распознавания речи и статью (и самое главное, в статье ни слова про compute и ресурсы). И естественно уже вчера и сегодня утром мне в личку начали сыпаться сообщения, мол всё, распознавание речи решено, все идеально классно и быстро работает, расходимся. Постараемся разобраться под катом. Короткий ответ, если вам лень читать - для языков, кроме английского, скорее всего это далеко от правды (проверил я на русском). На английском наверное стоит сделать отдельный и чуть более подробный разбор, если эта статья наберет хотя бы 50 плюсов. Итак, поехали! Читать: https://habr.com/ru/post/689572/

Super Protocol: трансформирует облачные вычисления для Web3 Super Protocol — это платформа конфиденциальных облачных вычислений, предназначенная для защиты данных во время их обработки. Это децентрализованная платформа на блокчейне, что означает, что ей не присущи недостатки при использовании централизованных сервисов. В этой статье я постараюсь рассказать о Super Protocol и о том, какие задачи он позволяет решать. Современное состояние облачных вычислений Облачные вычисления - это предоставление вычислительной мощности (серверов, памяти, баз данных, сетей и ПО) посредством Интернет в целях аренды (как сервис). Облачные провайдеры позволяют компаниям и индивидуальным пользователям расширить их вычислительные способности. С такого рода сервисами пользователи могут хранить больше информации в облачных хранилищах, обрабатывать больше данных и использовать ПО как сервис (SaaS). На текущий момент облачные вычисления используются повсеместно: онлайн-переводчики, онлайн-игры, платежные сервисы, видео коммуникации, сервисы навигации, онлайн-библиотеки, онлайн-почта, хранилища данных и многое другое. За 2020 год рынок облачных вычислений вырос до $371,4 млрд. и продолжает свой бурный рост. Каждый год потребность в облачных вычислениях растет и также она растет в сфере технологий WEB 3.0. К 2025 году рынок может достичь оценки $832,1 млрд., со среднегодовым приростом в 17,5%. В то же самое время облачные вычисления имеют ряд недостатков, которые призван устранить Super Protocol. Недостатки централизованный сервисов, предоставляющих облачные вычисления Читать: https://habr.com/ru/post/689120/

Talk to your data: Query your data lake with Amazon QuickSight Q Read: https://aws.amazon.com/blogs/big-data/talk-to-your-dat
Talk to your data: Query your data lake with Amazon QuickSight Q Read: https://aws.amazon.com/blogs/big-data/talk-to-your-data-query-your-data-lake-with-amazon-quicksight-q/

Design considerations for Amazon EMR on EKS in a multi-tenant Amazon EKS environment Read: https://aws.amazon.com/blogs/big-d
Design considerations for Amazon EMR on EKS in a multi-tenant Amazon EKS environment Read: https://aws.amazon.com/blogs/big-data/design-considerations-for-amazon-emr-on-eks-in-a-multi-tenant-amazon-eks-environment/