Data Analysis / Big Data
Open in Telegram
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels
Show more2 744
Subscribers
-224 hours
-17 days
+130 days
Posts Archive
Integrate Amazon Redshift row-level security with Amazon Redshift native IdP authentication
Read: https://aws.amazon.com/blogs/big-data/integrate-amazon-redshift-row-level-security-with-amazon-redshift-native-idp-authentication/
Predicting invariables
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/07/predicting-invariables.html
Какой ты аналитик?
Холмс, Фрейд или Аристотель: определяем, на кого из известных аналитиков вы похожи.
Читать: «Какой ты аналитик?»
В Китае внедрили суд ИИ. Или нет?
С такими заголовками вышли десятки публикаций в российском интернете. Может показаться, что в КНР создали искусственный интеллект, который рассматривает дела и выносит приговоры. Прямо как с новостями о китайском социальном рейтинге, которого нет. Так что же с ИИ в китайском суде?
Читать: https://habr.com/ru/post/677920/
Data Quality: новые правила
В нашем мире проблемы с данными делятся на два типа: предсказуемые (известные неизвестные) и непредсказуемые (неизвестные неизвестные). Вот какой комплексный подход применяют лучшие специалисты по работе с данными для решения этих проблем в крупномасштабных системах. Команда VK Cloud Solutions перевела статью о новых способах повышения качества данных с помощью тестирования и наблюдаемости (observability).
Читать: https://habr.com/ru/post/674830/
Как мы обучали категоризатор фискальных чеков DataCheckEngine
Задача актуальна для фин. организаций и ретейла. Расскажем, как мы подошли к ней и почему выбрали для обучения уменьшенную версию модели DistilBert.
Читать: https://habr.com/ru/post/677858/
Данные и где они обитают🧙♂️
Вместе с облачным провайдером T1 Cloud мы собрали 10 интересных фактов и готовы проверить вашу эрудицию!
Пройти тест: https://tprg.ru/hx3H
Это #партнёрский пост
Enable federated governance using Trino and Apache Ranger on Amazon EMR
Read: https://aws.amazon.com/blogs/big-data/enable-federated-governance-using-trino-and-apache-ranger-on-amazon-emr/
[recovery mode] Как IoT-технологии и эксперты по оборудованию помогают внедрять предиктивную аналитику: опыт Factory5
Всем привет, на связи Алексей Ершов и Максим Зотов, эксперты Factory5. Сейчас наша компания разрабатывает ПО для анализа промышленных данных, а начинали когда-то с предиктивной аналитики промышленного оборудования. В этой статье расскажем о том, как IoT-технологии и эксперты по оборудованию помогают внедрять её на предприятиях.
Читать: https://habr.com/ru/post/677788/
Как мы построили систему онбординга для аналитиков-новичков: подводные камни и полезные приёмы
Привет, я Галина Вакулина, лидер аналитиков в Точке.
В новой компании аналитик тратит много времени на изучение данных, с которыми ему предстоит работать. В этой статье я рассказываю, как мы построили процесс онбординга, чтобы погружение новичка проходило эффективно и безболезненно.
Читать: https://habr.com/ru/post/677748/
Предсказание временных рядов с помощью Keras
Привет, Хабр!
Сегодня хотелось бы поговорить о задаче предсказания временных рядов методами машинного обучения. В каком виде зачастую используются данные для задачи предсказания? Что такое LSTM-архитектура рекуррентных нейронных сетей? Как справляются модели RNN и CNN c поставленной задачей?
Читать: https://habr.com/ru/post/677714/
Промышленный мониторинг качества данных в Feature Store. Предпосылки и реализация
Привет, Хабр! Меня зовут Алексей Лямзин, я работаю аналитиком в финтех направлении Big Data МТС. Мы с коллегами разрабатываем предиктивные модели на данных крупнейшего телеком-оператора и сегодня я расскажу вам о том, как мы строили автоматизированный контроль за качеством данных в нашем Feature Store.
Добро пожаловать под кат!
Читать: https://habr.com/ru/post/677516/
Все Telegram-каналы от Tproger теперь собраны в одном месте: @tproger_channels
Каналы по конкретным направлениям разработки, подборки полезных ресурсов, канал для начинающих, новости, мемы — всего около двух десятков каналов разного формата. Точно найдёте что-нибудь для себя.
Статистический анализ по картинке
Название звучит как "приворот по фото", но я о чём - захотел я как-то проанализировать пару графиков, найти корреляции и столкнулся с парой сложностей:
I. У меня был только график - картинка, самих данных (значений) не было. Принялся я по нему вычислять хотя бы наиболее важные точки - в итоге получилось ужасно долго и просто ужасно (человеский глаз и осознанный мозг не может предоставить точность больше 10% деления):
Поэтому представляю Вам программу для оцифровки значений графика из картинки, а также...
Читать: https://habr.com/ru/post/677636/
Best Practices for Administering Fusion Analytics Warehouse
Oracle Fusion Analytics Warehouse provides analytics for Oracle Fusion Cloud applications. This blog details several best practices that are important to follow while administering Fusion Analytics Warehouse as of Release 22.R2.
Read: https://blogs.oracle.com/analytics/post/fusion-analytics-warehouse-best-practice-series---administering-faw
Process Apache Hudi, Delta Lake, Apache Iceberg datasets at scale, part 1: AWS Glue Studio Notebook
Read: https://aws.amazon.com/blogs/big-data/part-1-integrate-apache-hudi-delta-lake-apache-iceberg-datasets-at-scale-aws-glue-studio-notebook/
How Plugsurfing doubled performance and reduced cost by 70% with purpose-built databases and AWS Graviton
Read: https://aws.amazon.com/blogs/big-data/how-plugsurfing-doubled-performance-and-reduced-cost-by-70-with-purpose-built-databases-and-aws-graviton/
Всё ещё не Data Scientist? Ускорьте свой прогресс на онлайн-курсе «Профессия Data Scientist» (с нуля до Junior за 13 месяцев).
— За 5 лет OTUS выпустили 1208 студентов DS направлений. 70% подготовленных нами специалистов получили job offer по итогу обучения, а 60% - серьёзно выросли в заработной плате. И спрос на Data Scientist растёт до сих пор.
— Пройдите вступительный тест, чтоб узнать, насколько вы готовы к обучению, и присоединяйтесь к группе со скидкой
Пройти тест по Data Science: https://tprg.ru/KAgy
Это #партнёрский пост
Как Big Data и роботы упрощают поиск работы
Рассказываем о том, как Big Data и роботы упрощают поиск работы для кандидатов и процесс найма рекрутерам.
Читать: «Как Big Data и роботы упрощают поиск работы»
Почему мы используем Kafka вместо RabbitMQ: сравнение и преимущества
Делимся особенностями работы Apache Kafka и RabbitMQ, дав точный рецепт, когда и какой брокер стоит использовать.
Читать: «Почему мы используем Kafka вместо RabbitMQ: сравнение и преимущества»
Available now! Telegram Research 2025 — the year's key insights 
