Data Analysis / Big Data
Открыть в Telegram
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels
Больше2 742
Подписчики
Нет данных24 часа
+17 дней
+230 день
Архив постов
Причинно-следственный анализ в машинном обучении: итоги 2021 г
Недавно мы поговорили о том, что такое causal inference или причинно-следственный анализ, и почему он стал так важен для развития машинного обучения. А в этой статье - под катом - хотелось бы рассказать о трендах в развитии Causal Inference в ML в 2021 г.
Читать: https://habr.com/ru/post/667730/
Десять лучших опенсорсных инструментов аннотирования 2021 года для Computer Vision
Мы осознаём важность подбора качественных инструментов разметки и аннотирования изображений для создания точных и полезных массивов данных. В нашем блоге можно найти серию Tools we love, в которой мы проводим анализ некоторые из наших любимых инструментов аннотирования, а также списки лучших инструментов аннотирования на 2019, 2020 и 2021 годы.
Сфера аннотирования изображений развивается, поэтому мы наблюдаем рост количества опенсорсных инструментов, позволяющих бесплатно размечать изображения и использовать большой набор функций. В этой статье мы расскажем о десяти лучших опенсорсных инструментах аннотирования для компьютерного зрения.
Читать: https://habr.com/ru/post/665684/
Scaling analytics: Harder than it looks
How can Oracle customers leverage best practices to scale analytics in their organizations.
Read: https://blogs.oracle.com/analytics/post/scaling-analytics-harder-than-it-looks
Know your data 33: oops the dog did it
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/05/know-your-data-33-oops-the-dog-did-it.html
Система сбора распределенной телеметрии на Cassandra и Kotlin Spring
Сердцем любого backend являются данные. Существует два сценария использования данных. В одном из них данные изменяются редко, но при этом активно используются в сыром или агрегированном виде и применяются для целей аналитики в реальном времени (такие системы принято называть OLAP). В других системах важно обеспечить сохранение с высокой скоростью большого количество неструктурированных или полуструктурированных объектов, поступающих от устройств Интернета вещей, из источников произвольных событий, наблюдений за активностью пользователя (такие системы называются OLTP - Online Transaction Processing, ориентированные на большое количество транзакций с минимальной задержкой обработки). Для таких систем важно обеспечить надежность хранения данных, поддержку распределенного хранения на нескольких серверах и/или дата-центрах и сохранение консистентности распределенного хранилища.
При этом сами объекты могут отличаться от привычной реляционной модели данных и представляться, например, в виде json-документов с произвольной схемой, объектов с полями со множественными значениями или графов. Разумеется это приводит к необходимости изучения новых подходов к поиску и добавлению данных, использованию специальных драйверов. Но что если соединить распределенное надежное хранилище и синтаксис запросов, близкий к SQL? В этой статье мы познакомимся с проектом Apache Cassandra и обсудим на примере разработки API на Kotlin для сбора телеметрии с датчиков, расположенных по всему миру (с поддержкой отказоустойчивости и управляемой репликации между дата-центрами).
Читать: https://habr.com/ru/post/668524/
Сервис онлайн-обучения цифровым профессиям Яндекс Практикум запускает программу обучения навыкам «Визуализация данных и введение в BI-инструменты»
Курс предназначен для обучения студентов с нуля, специальных знаний для старта не требуется.
Авторы и преподаватели – практикующие эксперты ведущих российских IT-компаний. Длительность — 3 месяца.
Курс построен в формате симулятора — стажировки в компании, чтобы приблизить обучение к реальным рабочим процессам. Вы будете интерпретировать запросы руководства, исправлять ошибки ваших предшественников, получать и давать обратную связь.
Вы научитесь:
- Фундаментальным основам визуализации;
- Пошаговому алгоритму визуализации;
- Базовому функционалу и построению различные графических конструкций в нескольких BI-системах – Tableau, DataLens, Datawrapper.
Стоимость курса – 64 500 рублей при разовой оплате, при оплате в рассрочку – 22 000 рублей в месяц.
По завершении программы студенты получат удостоверение о повышении квалификации.
Запись на обучение и подробности: https://tprg.ru/ZtTV
Это #партнёрский пост
Строим тепловые карты в Apache Zeppelin
Привет!
В этой статье я бы хотел поделиться с теми, кто использует Apache Zeppelin в сочетании со Spark на Scala возможностями по визуализации полученных данных.
Как самим построить такое "северное сияние", как на картинке, какие преимущества имеют тепловые карты, какие процессы легко пропустить, не используя их для анализа - обо всём этом в статье
Әйдә, укы!
Читать: https://habr.com/ru/post/668468/
Enable End-to-End SSL Configuration for Oracle Analytics Server on Oracle Cloud Marketplace
Enable End-to-End SSL Configuration for Oracle Analytics Server on Oracle Cloud Marketplace
Read: https://blogs.oracle.com/analytics/post/oas-mp-end-to-end-ssl
Oracle Analytics Server Best Practices Series: Deployment
Oracle Analytics Server Best Practices Series: Deployment
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-server-best-practices-series-deployment
Работа в Data Science: что важно знать и как этому научиться
Сегодня словосочетания вроде Data Science, Machine Learning, Artificial Intelligence очень популярны. При этом нередко под ними понимаются довольно разные вещи. Это зачастую смущает и запутывает людей, желающих войти в специальность: трудно разобраться, с чего начать, что действительно нужно, а что необязательно для начала. Не претендуя на общность, расскажем, как это видится на основе десятка лет опыта c решением такого рода задач для крупных клиентов со всего мира (сервис / заказная разработка / аутсорс – подставьте термин по вкусу).
Читать: https://habr.com/ru/post/668428/
Data Engineering Weekly #88
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-88
Tips to Convert Text Columns to Dates in Oracle Analytics Dataset Editor - Part Two
This blog is the second of a two-part series that helps you deal with dates not being recognized in datasets. Date columns might not be recognized during the dataset creation process for various reasons. We classified these cases into "The Good, The Bad, and The Ugly" as described in the first article in the series. This article helps you work with more complex (The Ugly) cases, where you need to use a formula and when the text needs wrangling before conversion.
Read: https://blogs.oracle.com/analytics/post/tips-to-convert-text-columns-to-dates-in-oracle-analytics-dataset-editor-part-two
Oracle Analytics Performance Tuning: Times Series
How to improve performance of reports using time series or filter functions
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-performance-tuning-times-series
Big Data for big thing
Или великий китайский социальный рейтинг. Что это вообще такое, как он возник, что получилось в итоге, а главное — зачем?
Мы привыкли считать Китай страной весьма далёкой от нашей цивилизации — как в географическом, так и в ментальном смысле. Я бы даже сказал, что во многом её до сих пор считают «отсталой». У неё нет высоты американских технологий или мощи российских сил ядерного сдерживания, их Шекспиры нам неизвестны, а их Лувры, в общем-то кажутся не такими интересными. А ещё их полтора (а может, два?) миллиарда человек. И мне кажется, мы прозевали момент, когда Китай единственный на планете сдал суровый экзамен на мастерство инфраструктурного манёвра. Я говорю про времена ковидного поветрия, по итогам которого только одна страна (угадайте, какая) вышла с положительными показателями экономического роста.
Читать: https://habr.com/ru/post/667432/
«Ваша сезонность, сэр!»: ищем тренд и прогнозируем спрос с помощью временных рядов, SARIMA и Python. Ч.1
Как вы можете помнить по первой статье "Маркетинговая аналитика на Python. Пишем код для RFM-сегментации", более 8 лет я работаю в сфере маркетинга для B2B и примерно столько же бешусь от дилетантского подхода к аналитике, который тянет за собой ряд проблем с определением ключевых метрик эффективности для компании (и, как следствие, с мотивацией сотрудников):
Читать: https://habr.com/ru/post/668186/
Preview of Semantic Modeler in Oracle Analytics Cloud
Oracle analytics has a seasoned, rich Semantic Model which has been used by thousands of analytics customers over the past two decades. Today, I'm excited to share with you the next generation modeling tool and a modeling language to create those semantic models.
Read: https://blogs.oracle.com/analytics/post/preview-of-semantic-modeler-in-oracle-analytics-cloud
Setting up a local development environment for python data projects using Docker
Read: https://www.startdataengineering.com/post/local-dev/
12 вакансий для аналитиков
— Бизнес-аналитик (приложение для колл-центра)
— Бизнес-аналитик (голосовые и чат-боты)
— Middle Бизнес-аналитик
— Ведущий аналитик (бизнес / системный аналитик)
— Ведущий системный аналитик
— Старший системный аналитик
— UX-аналитик
— Аналитик-разработчик Progress
— Продуктовый аналитик
— Младший инженер-аналитик SOC (1-ая линия)
#вакансии #работа
Зачем бизнесу data science
Встретились как-то продакт с дата-сайентистом в одном офисе и стали выяснять, кто для бизнеса нужнее. Об этом в нашем видеоблоге вышел огромный выпуск, который я решил переделать в статью. Если интересно послушать полный диалог со всеми подробностями – добро пожаловать.
Всем привет! Меня зовут Игорь Уткин, я – дата-сайентист в hh.ru. В этой статье разбираемся: когда компании может понадобиться дата-сайентист, имеет ли собранная модель право на ошибку и как вообще люди уходят в data science.
Читать: https://habr.com/ru/post/667856/
Visualize MongoDB data from Amazon QuickSight using Amazon Athena Federated Query
Read: https://aws.amazon.com/blogs/big-data/visualize-mongodb-data-from-amazon-quicksight-using-amazon-athena-federated-query/
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
