Data Analysis / Big Data

Ir al canal en Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Red:Типичный программист Rusia174 459 Tecnologías y Aplicaciones26 447

2 742

Suscriptores

-224 horas

-27 días

+130 días

662

Visitas de la publicación

Sin datos24 horas

Sin datos48 horas

24.14%

Tasa de compromiso

Sin datos

Mensajes por día

Ads index

beta

Archivo de publicaciones

2 742

Reclassifying data to manufacture statistics Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/03/reclassifying-data-to-manufacture-statistics.html

2 742

Breaking Into Science INTRODUCTION When it comes to data science initiatives, no one ever appears to be able to give a clear explanation of how the entire process works. From data collection to data analysis and presentation. In this write up, I dissect the data science... Read: https://goodycyb.hashnode.dev/breaking-into-science

2 742

ЕГРЮЛ, ЕГРИП в виде архивов ФНС, csv, xml, json (API) и анализ данных Оригинальные архивы ЕГРЮЛ, ЕГРИП Эти архивы ФНС РФ предоставляет за 300 000р. в год: новый формат ЕГРЮЛ (архивы с 2021 года); старый формат ЕГРЮЛ (архивы с 2018 года); новый формат ЕГРИП (архивы с 2021 года). Отчёты и анализ данных ЕГРЮЛ, ЕГРИП Топ управляющих организаций по количеству организаций, которыми они управляют. Топ руководителей организаций по количеству организаций, которыми они руководят. Топ предпринимателей по количеству организаций, которые они учредили. Топ организаций по количеству организаций, которые они учредили. Организации, где учредитель РФ. Организации, где есть учредитель иностранное лицо. Организации с оборотом от миллиарда рублей за 2020 год. Читать: https://habr.com/ru/post/657241/

2 742

Как мы создавали нашу аудиоаналитику и что она умеет Речевые технологии шагнули далеко вперед, спасибо машинному обучению и не только. Голосовые помощники больше не похожи на плохо смазанных роботов, у которых всегда одна интонация, да и та раздражает. Они научились (более или менее) нормально понимать запросы человека и гораздо адекватнее на них отвечать. При этом нужно помнить, что речь — это тоже данные. И, как любые данные, речь тоже можно анализировать. А в ряде случаев — нужно. Меня зовут Алексей Новгородов, я ведущий разработчик дирекции по продуктам и технологиям больших данных. Сегодня я расскажу вам про один из наших продуктов — аудиоаналитику. Читать: https://habr.com/ru/post/657225/

2 742

Что лучше: Spark Structured Streaming или полное прекращение работы прода? Правильное построение ETL-процессов (преобразования данных) — сложная задача, а при большом объёме обрабатываемых данных неизбежно возникают проблемы с ресурсами. Поэтому нам требуется выискивать новые архитектурные решения, способные обеспечить стабильность расчётов и доступность данных, а при необходимости и масштабируемость — с минимальными усилиями. Когда я пришел в Ozon, мне пришлось столкнуться с огромным количеством ETL-джоб. Прежде чем применить модель машинного обучения, сырые данные проходят множество этапов обработки. А само применение модели (то, ради чего существует команда) занимает всего 5% времени. Читать: https://habr.com/ru/post/656883/

2 742

Warehousing with Google’s Big Query Data, in the modern world, is decentralized and is being generated and collected at a record pace. To ensure that this data is collected and processed in a manner that enables businesses and organizations to achieve their business goals, specialized ... Read: https://anujsyal.com/warehousing-with-googles-big-query

2 742

What are Model Parameters and Hyperparameters? Introduction The two most confusing terms in Machine Learning are model parameters and hyperparameters. In this article, we will try to understand what these terms mean and how they are different from each other. Model Parameter A model parameter is... Read: https://blog.learnml.xyz/what-are-model-parameters-and-hyperparameters

2 742

Managing Content in Oracle Analytics My Oracle Analytics instance has a lot of user-generated content. How do I know what's there? How do I manage content created by users who are no longer around? How can I assign content to a different user? A feature in the March 2022 update of Oracle Analytics Cloud provides new ways to manage the content in Oracle Analytics. Read: https://blogs.oracle.com/analytics/post/managing-content-in-oracle-analytics

2 742

How new technology helped dunnhumby to deliver better business insights dunhumby leverages OAC and ADW to deliver better business insights. Read: https://blogs.oracle.com/analytics/post/how-new-technology-helped-dunnhumby-to-deliver-better-business-insights

2 742

Oracle named a Visionary in the 2022 Gartner® Magic Quadrant™ for Analytics and Business Intelligence Platforms Oracle named a visionary in the 2022 Gartner® Magic Quadrant™ for Analytics and Business Intelligence Platforms Read: https://blogs.oracle.com/analytics/post/oracle-named-a-visionary-in-the-2022-gartner-magic-quadrant-for-analytics-and-business-intelligence-platforms-onwards-upwards

2 742

Improve reusability and security using Amazon Athena parameterized queries Read: https://aws.amazon.com/blogs/big-data/improve-reusability-and-security-using-amazon-athena-parameterized-queries/

2 742

Day 3/100 Deltalake - [ Intro and Quick Start ] key features - ACID transactions schema enforcement on writes Unification of batch and streaming - A table in Delta Lake is a batch table as well as a streaming source and sink. Time travel Supports merge, upd... Read: https://rawdatareaders.hashnode.dev/day-3100

2 742

Federated access to Amazon Redshift clusters in AWS China Regions with Active Directory Federation Services Read: https://aws.amazon.com/blogs/big-data/federated-access-to-amazon-redshift-clusters-in-aws-china-regions-with-active-directory-federation-services/

2 742

kNN Model Complexity Introduction K-Nearest Neighbour is one of the simplest Machine Learning algorithms based on the Supervised Learning technique. It assumes the similarity between the new case/data and available cases and puts the new case into the category that is mo... Read: https://blog.learnml.xyz/knn-model-complexity

2 742

Histogram - Visualize how frequently data in each class occur in the dataset Introduction In this article are going to see about what is a histogram graph and different interpretations of the histogram graphs. Histograms group the data in bins and are the fastest way to get an idea about the distribution of each attribute in ... Read: https://blog.learnml.xyz/histogram-visualize-how-frequently-data-in-each-class-occur-in-the-dataset

2 742

End-to-end data engineering project - batch edition Read: https://www.startdataengineering.com/post/data-engineering-project-e2e/

2 742

Как в PayPal разработали Dione — Open-source-библиотеку индексирования данных для HDFS и Spark Maksym Kaharlytsky on Unsplash Команда VK Cloud Solutions перевела историю о том, как инженеры PayPal столкнулись с проблемой обработки данных. Если пользователю требовалось получить определенную строку или выполнить многострочный запрос, данные нужно было дублировать, а для их обработки использовать отдельный стек технологий. Чтобы этого избежать, в PayPal разработали новую Open-source-библиотеку, которая позволяет быстрее выполнять многострочные и однострочные выборки из больших данных. Во время работы над библиотекой они создали новый формат хранения индексов Avro B-Tree и для пользователей Spark реализовали API на Scala и Python. Читать: https://habr.com/ru/post/656777/

2 742

Types of MEAN - ( Measure of Central Tendency ) Introduction To represent a dataset as a 1-number summary, we use the central tendency measure. There exist three central tendency measures i.e. Mean, Median & Mode. Why was there a need for these three measures when only one (Mean) could have done t... Read: https://blog.learnml.xyz/types-of-mean-measure-of-central-tendency

2 742

Визуализация данных с помощью веб-фреймворка Dash (часть 2) В предыдущей части статьи мы разбирали, что такое dash в общем, и создавали одностраничный дэшборд, взяв за основу датасет драгоценных камней с kaggle. Но! Задачи, которые падают на нас ,не всегда просты и не всегда возможно ограничить себя одной страницей на Дашборде. В этой статье я покажу, как создать многостраничный дэшборд, используя sidebar в качестве навигационного элемента, и наполнить страницы разного рода контентом. Читать: https://habr.com/ru/post/656621/

2 742

Day 2/100 HDFS [Hadoop Distributed File System] - Part 2 Snapshots Snapshots lets you save the current state of filesystem, so that rollbacks while upgrade are possible. Only one snapshot can exists, basically it reads existing and creates new checkpoint with... Read: https://rawdatareaders.hashnode.dev/day-2-of-100