Data Analysis / Big Data
Ir al canal en Telegram
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels
Mostrar más2 745
Suscriptores
+224 horas
-17 días
+530 días
Archivo de publicaciones
Возможности предиктивной аналитики в повышении энергоэффективности оборудования и прогнозе энергопотребления
По данным консалтинговой компании Roland Berger, ведущие электроэнергетические компании по всему миру реализуют программы цифровой трансформации. Повсеместное применение больших данных способствует развитию решений предиктивной аналитики, которые сегодня высоко востребованы в энергетике. Прогнозная аналитика позволяет предсказать выход оборудования из строя, объективно оценивать риски и принимать стратегически верные решения.
В этой статье мы расскажем о том, как с помощью предиктивного анализа реализовать качественный прогноз энергопотребления и повысить энергоэффективность оборудования генерирующих компаний.
Читать: https://habr.com/ru/post/691678/
Особое мнение: предугадываем фрод без дата-сайнса
Каждая компания, принимающая платежи на своем сайте или в магазине, рано или поздно сталкивается с фродом (fraud) и несет убытки. Есть разные методы борьбы с ними. 80% всех задач обычно решаются скриптами, а потом к ним уже докручивается дата-сайнс. Правда не всегда понятно для чего. Но давайте пока не будем останавливаться на этом, а попробуем решить типичные проблемы. Такие, как сбор данных, долгий этап оценки гипотез и снижение нагрузки на внешние системы.
Меня зовут Александр Сальков. Я разработчик в Sportmaster Lab. Руковожу направлением дата инженерии и больше 10 лет разрабатываю базы данных и все системы, которые так или иначе с ними связаны. Когда я был молод, написал свой вариант Кафки, который делал то же самое, что делает Кафка, только между инстансами Oracle. Участвовал во всяких разных датасаентистских вещах. В частности, делал систему идентификации людей по венам на ладонях. И много всякого интересного.
Читать: https://habr.com/ru/post/691486/
OTUS открывает набор на онлайн-курс «Аналитик данных» и проводит два бесплатных открытых вебинара
Вы можете сами выбрать, какая тема вам интереснее или даже посетить оба:
— Основы статистики;
— Основы визуализации данных и информационного дизайна.
Готовы сразу записаться на курс? Пройдите тест по аналитике данных.
На курсе вас научат:
— работать в области анализа данных;
— предобрабатывать и исследовать сырые данные;
— статистически описывать данные и готовить их к дальнейшему анализу;
— писать SQL и Python код для целей анализа и визуализации данных;
— использовать платформы для базовой и продвинутой визуализации данных;
— создавать дашборды и дата-стори.
Реклама. Информация о рекламодателе на сайте otus.ru
Куда приводят Ops'ы: размышления о развитии ландшафта *Ops-специализаций
Разнообразные и разнонаправленные изменения, на которые 2022-й оказался более чем щедр, натолкнули на размышления о том, каков текущий Ops-ландшафт и как он (потенциально) будет изменяться в ближайшей и среднесрочной перспективе. И хотя все сейчас живут в соответствии с известным изречением «Хочешь насмешить Бога — расскажи ему о своих планах», можно попытаться кое-что спрогнозировать.
К слову о прогнозировании: несмотря на недавние новости о снижении мобильного трафика в России, Nokia Bell Labs предсказывает рост мирового объема IP-трафика в 2022 году до уровня в 330 эксабайт в месяц. А количество устройств, подключенных к Интернету вещей, по мнению экспертов, вырастет до 100 млрд в 2025 году. И большую часть сгенерированных устройствами и пользователями данных, так или иначе, будет анализировать бизнес.
Для автоматизации этого процесса используются платформы обработки и хранения данных, которые дают аналитикам огромные возможности по их глубокому изучению. Однако инфраструктуры таких платформ довольно сложно сопровождать — они содержат много компонентов и связей между ними. А у BI-специалистов свои задачами, им недосуг следить за тем, как, например, распаковывается JSON или извлекаются данные. Так что «платформа ищет человека». И находит его — в лице DataOps- и MLOps-инженеров.
Читать: https://habr.com/ru/post/691636/
Manage your Amazon QuickSight datasets more efficiently with the new user interface
Read: https://aws.amazon.com/blogs/big-data/manage-your-amazon-quicksight-datasets-more-efficiently-with-the-new-user-interface/
Automate data archival for Amazon Redshift time series tables
Read: https://aws.amazon.com/blogs/big-data/automate-data-archival-for-amazon-redshift-time-series-tables/
Как получить производительность уровня Oracle Exadata c помощью Arenadata Greenplum? Существует ли реальная альтернатива Tableau, Qlik, Power BI?
Об этом и многом другом вы можете поговорить с экспертами в рамках онлайн-семинара «КХД и BI в финансовой сфере — что делать после ухода глобальных игроков», который состоится 13 октября в 11:00.
В пленарной дискуссии примут участие:
— Александр Хохлов, Начальник управления администрирования баз данных Департамента развития инфраструктуры, Банк ВТ;
— Сергей Крутяков, Директор по сопровождению централизованных данных, Росбанк;
— Максим Солопин, Руководитель направления развития и сопровождения хранилища данных, Росбанк.
Регистрация: https://tprg.ru/2foX
Это #партнёрский пост
Сравнение FineBI и Power BI
За последнее время, на рынке BI-услуг все чаще можно услышать упоминание нового игрока в лице китайской компании FanRuan.
Основанная в 2006 году, она является китайским лидером в продвижении систем бизнес-анализа в массы, с 15% долей локального рынка и более чем 15 тысяч клиентами.
Производитель китайского BI-решения, представляет продукт Fine BI как удобный инструмент для Self Service BI-анализа, способный стать заменой такому мировому гиганту как PowerBI, в сравнении с которым он будет сегодня рассмотрен более подробно.
Читать: https://habr.com/ru/post/691420/
ClearML | Туториал
ClearML — это довольно мощный фреймворк, основным предназначением которого является трекинг ML-экспериментов. Для рассмотрения его возможностей построим небольшой пайплайн обучения ML-модели...
Читать: https://habr.com/ru/post/691314/
Design a data mesh with event streaming for real-time recommendations on AWS
Read: https://aws.amazon.com/blogs/big-data/design-a-data-mesh-with-event-streaming-for-real-time-recommendations-on-aws/
Build, Test and Deploy ETL solutions using AWS Glue and AWS CDK based CI/CD pipelines
Read: https://aws.amazon.com/blogs/big-data/build-test-and-deploy-etl-solutions-using-aws-glue-and-aws-cdk-based-ci-cd-pipelines/
Архитектура платформы машинного обучения в продакшене
История машинного обучения (Machine learning, ML) началась в 1950-х, когда появились первые нейронные сети и алгоритмы ML. Однако чтобы стать известным обычному человеку, машинному обучению понадобилось ещё шестьдесят лет. Анализ более чем 16 тысяч статей по data science MIT technologies демонстрирует экспоненциальный рост машинного обучения на протяжении последних двадцати лет, стимулируемый big data и прогрессом в глубоком обучении.
На практике любой, имеющий доступ к данным и компьютеру, может сегодня обучить модель машинного обучения. Возможности автоматизации и создаваемые ML прогнозы имеют множество различных применений. Благодаря им работают современные системы распознавания мошенничества, приложения доставки товаров предсказывают время прибытия на лету, а программы помогают в медицинской диагностике.
Способы создания и применения моделей зависят от потребностей организации и прикладной области ML. Процесс создания моделей машинного обучения подробно описан, однако у ML существует и другая сторона — внедрение моделей в среде продакшена. Модели в продакшене управляются через специальный тип инфраструктуры — конвейеры машинного обучения. В статье мы расскажем о функциях сервисов ML в продакшене и рассмотрим готовые решения.
Читать: https://habr.com/ru/post/688406/
Сегодня бизнесу необходимы аналитические инструменты, которые могли бы оперативно закрыть потребность в быстрой и удобной обработке и визуализации данных
Однако, уход западных вендоров поставил пользователей Tableau, Power BI и Qlik в непростое положение, при котором сохранение накопленной информации и моделей данных становится не менее приоритетной задачей, чем дальнейшая поддержка бизнеса.
Аналоги зарубежных BI-систем у нас в стране есть, но по большей части они кардинально отличаются от привычных заказчикам продуктов по функциональности и интерфейсу.
Дельта BI обеспечивает тот же уровень аналитики и набор инструментов, что и решения от глобальных вендоров. Благодаря этому она не требует затяжного периода адаптации — компании могут развернуть систему за считанные недели и начать использовать знакомые BI-инструменты.
Хотите узнать подробности? Переходите по ссылке: https://clck.ru/32CD3f
Это #партнёрский пост
Build a high-performance, transactional data lake using open-source Delta Lake on Amazon EMR
Read: https://aws.amazon.com/blogs/big-data/build-a-high-performance-transactional-data-lake-using-open-source-delta-lake-on-amazon-emr/
Крутой митап по PostgreSQL пройдёт уже совсем скоро
На нём архитектор данных Азат Якупов из Quadcode продемонстрирует всю красоту B-Tree-индекса и его реализацию в PostgreSQL. Вы узнаете почему индекс не включается в работу, когда он очень нужен, в чём разница между Index Scan и Index Only Scan, а также многое другое.
Выступление пройдёт 6 октября в 17:00 по МСК и будет интересно как начинающим, так и продвинутым инженерам,архитекторам и всем, кто использует PostgreSQL.
Зарегистрируйтесь на трансляцию заранее, чтобы не забыть, а Quadcode вам напомнит в день мероприятия: https://tprg.ru/MbXl
Это #партнёрский пост
Python для биологов
Каждый, кто слышит словосочетание "язык программирования", наверняка представляет себе код или скрипт, который выполняет строгий порядок действий для решения сложной технической задачи. Если спросить прохожего, для каких целей используются языки программирования, первое, что придет ему на ум - разработка, а любой гуманитарий скажет, что это скучно и совершенно не интересно. Однако, мне хотелось бы развеять эти стереотипы. Учитывая современные тенденции роста научно-технического прогресса, важно отметить, что программирование пересало быть чисто "техническим" инструментом. Сегодня оно позволяет не только создавать алгоритмы для управления техникой, но и делать научные открытия, например в биологии. Понять, как устроена биоинжереная машина внутри наших клеток, какие функции выполняеет каждый отдельно взятый ген, какие гены ответственны за наши болезни, как вирусы и бактерии влияют на нас на молекулярном уровне, как создать новый фармацевтический препарат и множество других вопросов, позволяет программирование.
Python - высокоуровневый язык программирования, который широко применяется в самых разных сферах деятельности: в разработке, в тестировании, в администровании, в анализе данных, в моделировании, а также в науке. Широкое распространение он получил не только, благодаря своей простоте и лаконичности, но и в силу своей модульности, возможности интегрироваться с другими языками программирования и наличия большого количества пакетов для анализа больших данных и научных расчетов.
Читать: https://habr.com/ru/post/690734/
Сравнение FineBI и FineReport
Китайский производитель BI-решений FanRuan постепенно открывает для мирового рынка свои передовые разработки в сфере бизнес-анализа. Однако FineBI далеко не единственный продукт, предлагаемый компанией. Сегодня разберем подробнее, что из себя представляют FineBI и другой продукт анализа данных FineReport, рассмотрим их главные сходства и различия.
Читать: https://habr.com/ru/post/690722/
Ensure availability of your data using cross-cluster replication with Amazon OpenSearch Service
Read: https://aws.amazon.com/blogs/big-data/ensure-availability-of-your-data-using-cross-cluster-replication-with-amazon-opensearch-service/
How AWS Data Lab helped BMW Financial Services design and build a multi-account modern data architecture
Read: https://aws.amazon.com/blogs/big-data/how-aws-data-lab-helped-bmw-financial-services-design-and-build-a-multi-account-modern-data-architecture/
Customize Amazon QuickSight dashboards with the new bookmarks functionality
Read: https://aws.amazon.com/blogs/big-data/customize-amazon-quicksight-dashboards-with-the-new-bookmarks-functionality/
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
