Data Analysis / Big Data

Kanalga Telegram’da o‘tish

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Ko'proq ko'rsatish

Tarmoq:Типичный программист Rossiya175 137 Texnologiyalar & Aralashmalar26 487

2 744

Obunachilar

Ma'lumot yo'q24 soatlar

+17 kunlar

+230 kunlar

662

Post ko'rishlar

Ma'lumot yo'q24 soatlar

Ma'lumot yo'q48 soatlar

24.13%

Muloqot nisbati

Ma'lumot yo'q

Kuniga postlar

Ads index

beta

Postlar arxiv

2 744

How William Hill migrated NoSQL workloads at scale to Amazon Keyspaces Read: https://aws.amazon.com/blogs/big-data/how-william-hill-migrated-nosql-workloads-at-scale-to-amazon-keyspaces/

2 744

Введение в языковые модели N-граммы N-граммы – это статистические модели, которые предсказывают следующее слово после N-1 слов на основе вероятности их сочетания. Например, сочетание I want to в английском языке имеет высокую вероятностью, а want I to – низкую. Говоря простым языком, N-грамма – это последовательность n слов. Например, биграммы – это последовательности из двух слов (I want, want to, to, go, go to, to the…), триграммы – последовательности из трех слов (I want to, want to go, to go to…) и так далее. Такие распределения вероятностей имеют широкое применение в машинном переводе, автоматической проверке орфографии, распознавании речи и умном вводе. Например, при распознавании речи, по сравнению с фразой eyes awe of an, последовательность I saw a van будет иметь большую вероятность. Во всех этих случаях мы подсчитываем вероятность следующего слова или последовательности слов. Такие подсчеты называются языковыми моделями. Как же рассчитать P(w)? Например, вероятность предложения P(I, found, two, pounds, in, the, library). Для этого нам понадобится цепное правило, которое определяется так: Читать: https://habr.com/ru/post/675218/

2 744

Data Engineering Weekly #91 Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-91

2 744

Как быстро разрабатывать сервисы обработки данных в реальном времени с помощью PySpark Structured Streaming и Kafka Данная статья обобщает базовые шаги по установке и началу работы с PySpark Structured Streaming при участии брокера сообщений Kafka. Предполагается, что читатель уже знаком с языком программирования Python и сервисом Kafka. Читать: https://habr.com/ru/post/674944/

2 744

Создаём свою БД на PostgreSQL из CSV Давайте вместе попробуем создать основы большой базы данных, с помощью готового dataset. Для поиска нужного нам материала воспользуемся помощью прекрасного ресурса KAGGLE. Читать: https://habr.com/ru/post/674802/

2 744

Взаимосвязь температуры и населения Погодные условия на планете и в конкретном регионе в частности влиют на всю социальную жизнь общества: так колебание температуры поверхностного слоя воды в экваториальной части Тихого океана не только оказывают заметное влияние на климат, но и вызывает эпидемии, может быть связан с цикличностью войн и возникновением гражданских конфликтов в Индии и африканских странах. И это неудивительно: погода влияет на урожай, а голод и резкое повышенние затрат вынуждают людей искать радикальные выходы (как, например, отобрать плодородную землю). Так, например, риск возникновения гражданской войны в жаркие годы в два раза выше. В результате засухи 2007 года, которая вызвала скачок в ценах на продовольственные товары, начались общественные беспорядки в Египте, Камеруне и Гаити. Читать: https://habr.com/ru/post/674794/

2 744

Учимся анализировать — полный цикл Полноценный анализ дата сета с использованием Python. Почистим данные, подготовим данные, выдвинем гипотезы и проверим их. Статья рекомендована начинающим аналитикам для понимания процесса. Перейдем к анализу дата сета Читать: https://habr.com/ru/post/674720/

2 744

Using AWS CloudWatch as destination for Amazon Redshift Audit Logs Read: https://aws.amazon.com/blogs/big-data/using-aws-cloudwatch-as-destination-for-amazon-redshift-audit-logs/

2 744

Monitor your Amazon QuickSight deployments using the new Amazon CloudWatch integration Read: https://aws.amazon.com/blogs/big-data/monitor-your-amazon-quicksight-deployments-using-the-new-amazon-cloudwatch-integration/

2 744

Oracle Analytics Best Practices: Finding the Oracle SQL_ID If you're tuning queries, you'll need the ID for your SQL statement. This post shows you how to find the SQL_ID in Oracle Analytics usage tracking tables and Oracle database system tables. Read: https://blogs.oracle.com/analytics/post/oracle-analytics-best-practices-finding-the-oracle-sqlid

2 744

Sink Amazon Kinesis Data Analytics Apache Flink output to Amazon Keyspaces using Apache Cassandra Connector Read: https://aws.amazon.com/blogs/big-data/sink-amazon-kinesis-data-analytics-apache-flink-output-to-amazon-keyspaces-using-apache-cassandra-connector/

2 744

The Data Founder Story: TUKAN Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-tukan

2 744

[recovery mode] Как системы мониторинга и прогноза встраиваются в бизнес-процессы ТОиР: сценарии на примере F5 PMM и F5 EAM Привет, Хабр! Мы – Factory5, российский разработчик ПО для промышленных предприятий. Создаём решения для управления производственными активами и интеллектуального анализа больших данных на базе технологий машинного обучения. Сегодня расскажем о том, как наши системы встраиваются в бизнес-процессы и помогают оптимизировать ресурсы. Техническое обслуживание и ремонт могут занимать до 50% операционных затрат предприятия. Сегодня существует много умных решений для автоматизации, улучшения качества и снижения стоимости ТОиР. Одно из таких — системы мониторинга и прогноза, которые собирают данные об оборудовании, анализируют их и прогнозируют время до возможного отказа. Читать: https://habr.com/ru/post/674410/

2 744

На этой картинке есть 10 «пасхалок» — сможете найти и назвать все? Переходите по ссылке и проверьте свою внимательность и находчивость: https://tprg.ru/TH8e Это #партнерский пост

2 744

Tableau vs FineBI. Часть II: разработка В прошлом посте мы сравнили основные параметры FineBI и Tableau, а сейчас сконцентрируемся непосредственно на разработке. Подчеркнем: мы не претендуем на очень глубокий анализ функционала – речь, скорее, про обзор возможностей. Ведь все мы знаем, что все фломастеры на вкус разные: у каждого, кто работает в BI-системе, свои пристрастия и потребности. Но есть определенный набор основных задач, которые должна решать платформа – иначе грош ей цена. Итак, поехали! Создание визуализаций (Tableau vs FineBI: 5/4) В этом отношении особых различий нет: обе системы справляются с адаптивной разработкой. Однако признаем: в Tableau больше инструментов работы с визуализациями, их кастомизации. Tableau: - Доступно 24 вида графика. - Богатые возможности кастомизации. - Базируется на концепции drag-and-drop. Читать: https://habr.com/ru/post/674326/

2 744

Как нейронка обогнала бустинг, а команда Сбера заняла 1 место в конкурсе Data Fusion Contest 2022 Привет, Хабр! Буквально недавно стали известны итоги открытого соревнования по машинному обучению Data Fusion Contest 2022. Это уже второе соревнование, причём более масштабное, чем первое. В конкурсе с общим призовым фондом 2 млн рублей приняли участие более тысячи человек. Участники соревновались не один и не два дня, битва умов продолжалась целых 3,5 месяца. За это время организаторы получили 6,5 тыс. решений. Что нужно было делать участникам? Если кратко, то главная задача была такой: при помощи машинного обучения решить проблему сопоставления из двух совершенно разных массивов данных. Требовалось сопоставить данные клиентов из датасета с транзакциями клиентов ВТБ по банковским картам и данные кликстрима (информация о посещении web-страниц) клиентов Ростелекома. Нужно было установить соответствие между клиентами двух организаций. Оно устанавливалось, если два клиента из датасетов – один и тот же человек. Конечно же, данные были деперсонализированы, сохранялась лишь весьма ограниченная информация о самом поведении пользователей. Сопоставлять всё это обучали искусственный интеллект. Подробности – под катом. А ещё там будет ссылка на исходники крутой библиотеки для ИИ, которую использовали победители конкурса. Поехали! Читать: https://habr.com/ru/post/674272/

2 744

«Скоро приедем?»: как оценить время в пути В этом году мы много работали над качеством предсказания времени в пути (ETA) в навигаторе 2ГИС и на 30% увеличили количество маршрутов, у которых прогнозное время совпадает с реальным с точностью до минуты. Меня зовут Кирилл Кальмуцкий, я Data Scientist в 2ГИС, и я расскажу, как максимально точно рассчитывать время прибытия из точки А в точку Б в условиях постоянного изменения дорожной ситуации. Поговорим про то, как мы постепенно меняли подходы к оценке времени в пути: от простой аддитивной модели до использования ML-моделей прогноза пробок и корректировки ETA. Ввели Traversal Time на смену GPS-скоростей, а ещё проводили эксперименты и оценивали качество изменений алгоритма, чистили мусор из данных и закатывали модели в продакшн. Обо всём по порядку. Читать: https://habr.com/ru/post/674230/

2 744

Configuring Customized Security in Oracle Fusion Analytics Warehouse Security administrators should read this short post and attached guide to understand how to configure custom security in Fusion Analytics. Read: https://blogs.oracle.com/analytics/post/configuring-customized-security-in-oracle-fusion-analytics-warehouse

2 744

Know your data 34: coming for your most private data Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/06/know-your-data-34-coming-for-your-most-private-data.html

2 744

— Вы обучение продаёте? — Нет, просто бесплатно показываем Приходите 6 июля на бесплатный вебинар «Первый практикум по аналитике данных» от Moscow Digital School. Основные темы: — роль аналитика данных; — построение дашборда в Excel; — построение автоматически обновляемого дашборда в Power BI; — разбор и решение кейса retail-компании с помощью Excel и Power BI. Прямо во время вебинара спикер разберёт реальный кейс и покажет на экране процесс построения аналитического дашборда. Спикер: Екатерина Чернышова, продуктовый аналитик в Х5 Retail Group Модератор вебинара: Дмитрий Захаров, генеральный директор Moscow Digital School После регистрации на вебинар вы получите подарок — 9 полезных советов по работе в Excel. Узнайте, подойдёт ли вам профессия аналитика и что нужно знать, чтобы начать работать. Присоединяйтесь: https://tprg.ru/R8eB Это #партнёрский пост