uk
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

Відкрити в Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Показати більше
2 742
Підписники
Немає даних24 години
+17 днів
+230 день
Архів дописів
Причинно-следственный анализ в машинном обучении: итоги 2021 г Недавно мы поговорили о том, что такое causal inference или причинно-следственный анализ, и почему он стал так важен для развития машинного обучения. А в этой статье - под катом - хотелось бы рассказать о трендах в развитии Causal Inference в ML в 2021 г. Читать: https://habr.com/ru/post/667730/

Десять лучших опенсорсных инструментов аннотирования 2021 года для Computer Vision Мы осознаём важность подбора качественных инструментов разметки и аннотирования изображений для создания точных и полезных массивов данных. В нашем блоге можно найти серию Tools we love, в которой мы проводим анализ некоторые из наших любимых инструментов аннотирования, а также списки лучших инструментов аннотирования на 2019, 2020 и 2021 годы. Сфера аннотирования изображений развивается, поэтому мы наблюдаем рост количества опенсорсных инструментов, позволяющих бесплатно размечать изображения и использовать большой набор функций. В этой статье мы расскажем о десяти лучших опенсорсных инструментах аннотирования для компьютерного зрения. Читать: https://habr.com/ru/post/665684/

Scaling analytics: Harder than it looks How can Oracle customers leverage best practices to scale analytics in their organizations. Read: https://blogs.oracle.com/analytics/post/scaling-analytics-harder-than-it-looks

Система сбора распределенной телеметрии на Cassandra и Kotlin Spring Сердцем любого backend являются данные. Существует два сценария использования данных. В одном из них данные изменяются редко, но при этом активно используются в сыром или агрегированном виде и применяются для целей аналитики в реальном времени (такие системы принято называть OLAP). В других системах важно обеспечить сохранение с высокой скоростью большого количество неструктурированных или полуструктурированных объектов, поступающих от устройств Интернета вещей, из источников произвольных событий, наблюдений за активностью пользователя (такие системы называются OLTP - Online Transaction Processing, ориентированные на большое количество транзакций с минимальной задержкой обработки). Для таких систем важно обеспечить надежность хранения данных, поддержку распределенного хранения на нескольких серверах и/или дата-центрах и сохранение консистентности распределенного хранилища. При этом сами объекты могут отличаться от привычной реляционной модели данных и представляться, например, в виде json-документов с произвольной схемой, объектов с полями со множественными значениями или графов. Разумеется это приводит к необходимости изучения новых подходов к поиску и добавлению данных, использованию специальных драйверов. Но что если соединить распределенное надежное хранилище и синтаксис запросов, близкий к SQL? В этой статье мы познакомимся с проектом Apache Cassandra и обсудим на примере разработки API на Kotlin для сбора телеметрии с датчиков, расположенных по всему миру (с поддержкой отказоустойчивости и управляемой репликации между дата-центрами). Читать: https://habr.com/ru/post/668524/

Сервис онлайн-обучения цифровым профессиям Яндекс Практикум запускает программу обучения навыкам «Визуализация данных и введение в BI-инструменты» Курс предназначен для обучения студентов с нуля, специальных знаний для старта не требуется. Авторы и преподаватели – практикующие эксперты ведущих российских IT-компаний. Длительность — 3 месяца. Курс построен в формате симулятора — стажировки в компании, чтобы приблизить обучение к реальным рабочим процессам. Вы будете интерпретировать запросы руководства, исправлять ошибки ваших предшественников, получать и давать обратную связь. Вы научитесь: - Фундаментальным основам визуализации; - Пошаговому алгоритму визуализации; - Базовому функционалу и построению различные графических конструкций в нескольких BI-системах – Tableau, DataLens, Datawrapper. Стоимость курса – 64 500 рублей при разовой оплате, при оплате в рассрочку – 22 000 рублей в месяц. По завершении программы студенты получат удостоверение о повышении квалификации. Запись на обучение и подробности: https://tprg.ru/ZtTV Это #партнёрский пост

Строим тепловые карты в Apache Zeppelin Привет! В этой статье я бы хотел поделиться с теми, кто использует Apache Zeppelin в сочетании со Spark на Scala возможностями по визуализации полученных данных. Как самим построить такое "северное сияние", как на картинке, какие преимущества имеют тепловые карты, какие процессы легко пропустить, не используя их для анализа - обо всём этом в статье Әйдә, укы! Читать: https://habr.com/ru/post/668468/

Enable End-to-End SSL Configuration for Oracle Analytics Server on Oracle Cloud Marketplace Enable End-to-End SSL Configuration for Oracle Analytics Server on Oracle Cloud Marketplace Read: https://blogs.oracle.com/analytics/post/oas-mp-end-to-end-ssl

Oracle Analytics Server Best Practices Series: Deployment Oracle Analytics Server Best Practices Series: Deployment Read: https://blogs.oracle.com/analytics/post/oracle-analytics-server-best-practices-series-deployment

Работа в Data Science: что важно знать и как этому научиться Сегодня словосочетания вроде Data Science, Machine Learning, Artificial Intelligence очень популярны. При этом нередко под ними понимаются довольно разные вещи. Это зачастую смущает и запутывает людей, желающих войти в специальность: трудно разобраться, с чего начать, что действительно нужно, а что необязательно для начала. Не претендуя на общность, расскажем, как это видится на основе десятка лет опыта c решением такого рода задач для крупных клиентов со всего мира (сервис / заказная разработка / аутсорс – подставьте термин по вкусу). Читать: https://habr.com/ru/post/668428/

Tips to Convert Text Columns to Dates in Oracle Analytics Dataset Editor - Part Two This blog is the second of a two-part series that helps you deal with dates not being recognized in datasets. Date columns might not be recognized during the dataset creation process for various reasons. We classified these cases into "The Good, The Bad, and The Ugly" as described in the first article in the series. This article helps you work with more complex (The Ugly) cases, where you need to use a formula and when the text needs wrangling before conversion. Read: https://blogs.oracle.com/analytics/post/tips-to-convert-text-columns-to-dates-in-oracle-analytics-dataset-editor-part-two

Oracle Analytics Performance Tuning: Times Series How to improve performance of reports using time series or filter functions Read: https://blogs.oracle.com/analytics/post/oracle-analytics-performance-tuning-times-series

Big Data for big thing Или великий китайский социальный рейтинг. Что это вообще такое, как он возник, что получилось в итоге, а главное — зачем? Мы привыкли считать Китай страной весьма далёкой от нашей цивилизации — как в географическом, так и в ментальном смысле. Я бы даже сказал, что во многом её до сих пор считают «отсталой». У неё нет высоты американских технологий или мощи российских сил ядерного сдерживания, их Шекспиры нам неизвестны, а их Лувры, в общем-то кажутся не такими интересными. А ещё их полтора (а может, два?) миллиарда человек. И мне кажется, мы прозевали момент, когда Китай единственный на планете сдал суровый экзамен на мастерство инфраструктурного манёвра. Я говорю про времена ковидного поветрия, по итогам которого только одна страна (угадайте, какая) вышла с положительными показателями экономического роста. Читать: https://habr.com/ru/post/667432/

«Ваша сезонность, сэр!»: ищем тренд и прогнозируем спрос с помощью временных рядов, SARIMA и Python. Ч.1 Как вы можете помнить по первой статье "Маркетинговая аналитика на Python. Пишем код для RFM-сегментации", более 8 лет я работаю в сфере маркетинга для B2B и примерно столько же бешусь от дилетантского подхода к аналитике, который тянет за собой ряд проблем с определением ключевых метрик эффективности для компании (и, как следствие, с мотивацией сотрудников): Читать: https://habr.com/ru/post/668186/

Preview of Semantic Modeler in Oracle Analytics Cloud Oracle analytics has a seasoned, rich Semantic Model which has been used by thousands of analytics customers over the past two decades. Today, I'm excited to share with you the next generation modeling tool and a modeling language to create those semantic models. Read: https://blogs.oracle.com/analytics/post/preview-of-semantic-modeler-in-oracle-analytics-cloud

Setting up a local development environment for python data projects using Docker Read: https://www.startdataengineering.com/p
Setting up a local development environment for python data projects using Docker Read: https://www.startdataengineering.com/post/local-dev/

Зачем бизнесу data science Встретились как-то продакт с дата-сайентистом в одном офисе и стали выяснять, кто для бизнеса нужнее. Об этом в нашем видеоблоге вышел огромный выпуск, который я решил переделать в статью. Если интересно послушать полный диалог со всеми подробностями – добро пожаловать. Всем привет! Меня зовут Игорь Уткин, я – дата-сайентист в hh.ru.  В этой статье разбираемся: когда компании может понадобиться дата-сайентист, имеет ли собранная модель право на ошибку и как вообще люди уходят в data science. Читать: https://habr.com/ru/post/667856/

Visualize MongoDB data from Amazon QuickSight using Amazon Athena Federated Query Read: https://aws.amazon.com/blogs/big-data
Visualize MongoDB data from Amazon QuickSight using Amazon Athena Federated Query Read: https://aws.amazon.com/blogs/big-data/visualize-mongodb-data-from-amazon-quicksight-using-amazon-athena-federated-query/