Data Analysis / Big Data
Open in Telegram
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels
Show more2 745
Subscribers
+224 hours
-17 days
+530 days
Posts Archive
Поиск it компаний с аккредитацией минцифры и крупицы Big Data
Времени на раскачку нет - сразу к делу.
На сайте digital.gov.ru можно найти документ со списком организаций, прошедших аккредитацию минцифры. Давайте оперативно реализуем сервис для поиска и проверки аккредитации у организаций.
Проверить аккредитацию
Читать: https://habr.com/ru/post/690474/
Get a quick start with Apache Hudi, Apache Iceberg, and Delta Lake with Amazon EMR on EKS
Read: https://aws.amazon.com/blogs/big-data/get-a-quick-start-with-apache-hudi-apache-iceberg-and-delta-lake-with-amazon-emr-on-eks/
Dagster | Туториал
Dagster — это оркестратор, предназначенный для организации конвейеров обработки данных: ETL, проведение тестов, формирование отчетов, обучение ML-моделей и т.д.
На паре несложных примеров посмотрим как его развернуть, настроить и работать с ним.
Читать: https://habr.com/ru/post/690342/
Automate ETL jobs between Amazon RDS for SQL Server and Azure Managed SQL using AWS Glue Studio
Read: https://aws.amazon.com/blogs/big-data/automate-etl-jobs-between-amazon-rds-for-sql-server-and-azure-managed-sql-using-aws-glue-studio/
Распознавание фейков с помощью технологий управления данными
Развитие технологий и все возрастающие объемы информации привели к тому, что слово «фейк» или «информационный фейк» прочно вошло в нашу жизнь. Всевозможные мошенники идут в ногу со временем и оперативно ставят себе на службу технологии, изобретая все новые способы влиять на людей. А значит, нам необходимо задуматься о том, как использовать накопившийся опыт и технологии управления информацией для распознавания фейков, т.е. для их автоматического отделения от реальных фактов. Сегодня мы расскажем о всем многообразии использования технологий управления данными для распознавания фейков.
Что же такое фейки?
Существует множество определений фейков, мы не будем на них останавливаться, но отметим, что в этой статье мы будем говорить не об ошибочной информации (такой как опечатки или случайно вкравшиеся неточности), а об информации искажавшейся намеренно.
Фейки можно встретить практически в любой форме — тексте, видео или аудио контенте. Поговорим сначала о последних. Для создания аудио и видео фейков существует специальный инструментарий, построенный на глубоком обучении (deep learning). Искаженные таким образом факты называются дипфейками [1, 2]. Кажется, что уже все видели их примеры — эти видеоклипы с различными знаменитостями, которые говорили или делали что-то, чего на самом деле не было (в [3] есть небольшой таймлайн с известными дипфейками), многие пранкеры используют дипфейки в своих звонках. Однако дипфейки это не развлечение, а серьезная угроза: продвинутые мошенники их уже освоили и во-всю пускают в дело [4, 5].
Читать: https://habr.com/ru/post/690206/
Практика импортозамещения для пользователей Tableau, Qlik, Power BI
Что сейчас происходит на рынке визуальной аналитики? Как решается вопрос перехода на актуальные платформы пользователями Tableau, Qlik и Power BI? Как аналитикам сохранить привычную функциональность продуктов?
Об этом и многом другом поговорят на онлайн-семинаре «Практика импортозамещения в BI» уже завтра, 27 сентября!
Основные темы:
— обзор рынка BI – варим кашу из топора;
— методология миграции – почему не работает copy-paste;
— Tableau/Power BI vs Дельта BI – дьявол в деталях;
— отзыв клиента – от практиков для теоретиков.
https://tprg.ru/dgzt
Это #партнёрский пост
Data Engineering Weekly #102
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-102
Чего ждать от «Управления данными 2022»?
Привет, Хабр! Буквально на днях, уже на следующей неделе стартует конференция “Управление данными 2022”. Издательство "Открытые Системы" проводит мероприятие седьмой год подряд, но в 2022 году форум обещает быть особенно интересным. Почему мы решили принять в нем участие, и какие доклады, я сам бы хотел послушать, читайте под катом.
Узнать больше
Читать: https://habr.com/ru/post/690026/
Run a data processing job on Amazon EMR Serverless with AWS Step Functions
Read: https://aws.amazon.com/blogs/big-data/run-a-data-processing-job-on-amazon-emr-serverless-with-aws-step-functions/
Upgrade Amazon EMR Hive Metastore from 5.X to 6.X
Read: https://aws.amazon.com/blogs/big-data/upgrade-amazon-emr-hive-metastore-from-5-x-to-6-x/
Critics, stories, and ethics
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/09/critics-stories-and-ethics.html
Большая конференция про облачные технологии от Yandex Cloud — Yandex Scale стартует уже через несколько минут!
В программе вас ждут:
— 5 тематических треков: Infrastructure, Data Platform, Security, Serverless, Business Tools.
— Более 30 докладов о новых сервисах для бизнеса, обеспечении безопасности в облаке, возможностях бессерверных вычислений и повышении эффективности бизнеса за счёт использования облачных инструментов.
— Более 50 спикеров — ведущих IT-экспертов и разработчиков, которые расскажут о том, как облачные технологии помогают бизнесу адаптироваться к новой реальности.
Переходите по ссылке и присоединяйтесь к трансляции: https://tprg.ru/uSKk
Это #партнёрский пост
Enable self-service visual data integration and analysis for fund performance using AWS Glue Studio and Amazon QuickSight
Read: https://aws.amazon.com/blogs/big-data/enable-self-service-visual-data-integration-and-analysis-for-fund-performance-using-aws-glue-studio-and-amazon-quicksight/
Курс «Английский для аналитиков» от Яндекс Практикума
Для специалистов, которые хотят изменить свою профессиональную жизнь и работать в международной команде. Обучение построено вокруг рабочих ситуаций и полезных для карьеры навыков:
— самопрезентация. Рассказ о своей роли, задачах, сфере ответственности на поведенческом интервью и в неформальной беседе;
— работа в команде. Стендапы, планирование спринтов, демонстрация навыков командной работы на собеседовании;
— общение с заказчиками и исполнителями. Сбор требований у стейкхолдеров и постановка задач для разработчиков;
— презентация результатов работы. Выступление на митапах, неформальное общение с коллегами из отрасли;
— обсуждение решений по проекту. Генерация и аргументация идей, участие в мозговых штурмах;
— рефлексия и самоанализ. Ретроспектива, ревью, ответы на сложные вопросы.
Запишитесь на бесплатную консультацию. Вам помогут определить ваш уровень языка, а также расскажут про обучение и ответят на все вопросы: https: tprg.ru/n7GE
Это #партнёрский пост
Потери данных при репликации в аналитическое хранилище — автоматические сверки и мониторинг качества данных
Данные из боевых баз в нашей архитектуре асинхронно попадают в аналитическое хранилище (Clickhouse), где уже аналитики создают дашборды для продуктовых команд и делают выборки. Базы здоровые и под ощутимой нагрузкой: мы в день отправляем флот самолётов средней авиакомпании, несколько поездов и кучу автобусов. Поэтому взаимодействий с продуктом много.
ETL-процесс (извлечение данных, трансформация и загрузка в хранилище) часто подразумевает сложную логику переноса данных, и изначально нет уверенности в том, что данные доставляются без потерь и ошибок. Мы используем Kafka как шину данных, промежуточные сервисы на Benthos для трансформации записей и отправки в Clickhouse. На этапе создания пайплайна нужно было убедиться в отсутствии потерь с нашей стороны и корректной логике записи в шину данных.
Проверять вручную расхождения каждый раз не хотелось, кроме того мы нуждались в сервисе, который умел бы сверять новые данные по расписанию и показывать наглядно, где и какие имеются расхождения. Поэтому мы сделали сервис сверок, о котором я и расскажу, потому что готовых решений не нашёл.
Читать: https://habr.com/ru/post/689224/
Как мы строим свою платформу для аналитиков
Привет, с вами снова Галина Вакулина, и в этой статье я расскажу, как мы строим платформу для аналитиков и избавляем их от ненужной работы.
Цель нашей команды — сделать так, чтобы в Точке работать с данными было удобно и быстро. Чем меньше времени аналитик тратит на рутину, тем больше времени у него остаётся на исследования, придумывание новых метрик, построение дашбордов, проверку гипотез и просто захватывающее копание в данных.
Читать: https://habr.com/ru/post/689140/
OpenAI решили распознавание речи! Разбираемся так ли это…
Вчера OpenAI выпустили Whisper. По сути они просто опубликовали веса набора больших (и не очень) рекуррентных трансформеров для распознавания речи и статью (и самое главное, в статье ни слова про compute и ресурсы). И естественно уже вчера и сегодня утром мне в личку начали сыпаться сообщения, мол всё, распознавание речи решено, все идеально классно и быстро работает, расходимся.
Постараемся разобраться под катом. Короткий ответ, если вам лень читать - для языков, кроме английского, скорее всего это далеко от правды (проверил я на русском). На английском наверное стоит сделать отдельный и чуть более подробный разбор, если эта статья наберет хотя бы 50 плюсов.
Итак, поехали!
Читать: https://habr.com/ru/post/689572/
Super Protocol: трансформирует облачные вычисления для Web3
Super Protocol — это платформа конфиденциальных облачных вычислений, предназначенная для защиты данных во время их обработки. Это децентрализованная платформа на блокчейне, что означает, что ей не присущи недостатки при использовании централизованных сервисов.
В этой статье я постараюсь рассказать о Super Protocol и о том, какие задачи он позволяет решать.
Современное состояние облачных вычислений
Облачные вычисления - это предоставление вычислительной мощности (серверов, памяти, баз данных, сетей и ПО) посредством Интернет в целях аренды (как сервис). Облачные провайдеры позволяют компаниям и индивидуальным пользователям расширить их вычислительные способности. С такого рода сервисами пользователи могут хранить больше информации в облачных хранилищах, обрабатывать больше данных и использовать ПО как сервис (SaaS).
На текущий момент облачные вычисления используются повсеместно: онлайн-переводчики, онлайн-игры, платежные сервисы, видео коммуникации, сервисы навигации, онлайн-библиотеки, онлайн-почта, хранилища данных и многое другое.
За 2020 год рынок облачных вычислений вырос до $371,4 млрд. и продолжает свой бурный рост. Каждый год потребность в облачных вычислениях растет и также она растет в сфере технологий WEB 3.0. К 2025 году рынок может достичь оценки $832,1 млрд., со среднегодовым приростом в 17,5%.
В то же самое время облачные вычисления имеют ряд недостатков, которые призван устранить Super Protocol.
Недостатки централизованный сервисов, предоставляющих облачные вычисления
Читать: https://habr.com/ru/post/689120/
Talk to your data: Query your data lake with Amazon QuickSight Q
Read: https://aws.amazon.com/blogs/big-data/talk-to-your-data-query-your-data-lake-with-amazon-quicksight-q/
Design considerations for Amazon EMR on EKS in a multi-tenant Amazon EKS environment
Read: https://aws.amazon.com/blogs/big-data/design-considerations-for-amazon-emr-on-eks-in-a-multi-tenant-amazon-eks-environment/
Available now! Telegram Research 2025 — the year's key insights 
