es
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

Ir al canal en Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Mostrar más
2 744
Suscriptores
+224 horas
-17 días
+530 días
Archivo de publicaciones
Как базы данных «ключ-значение» обеспечивают производительность и масштабируемость без границ Команда VK Cloud перевела статью о базах «ключ-значение». Вы узнаете, в чем их преимущества перед другими БД, какие базы работают по этому принципу и чем они отличаются между собой. В чем суть баз «ключ-значение» Суть проста — объекты в них хранятся и извлекаются с помощью ключа. Так мы прощаемся с: * таблицами, столбцами и вводом ant data — всем, что можно так или иначе назвать blob-объектом; * отношениями между объектами; * сложными операциями. Что же мы получаем взамен, когда отбрасываем все это? Читать: https://habr.com/ru/post/685402/

Как обезличить персональные данные Для ML-моделей не нужны (и даже вредны) персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные. Как их получить и как с ними работать? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными? Меня зовут Алексей Нейман, я исполнительный директор Ассоциации больших данных. В этой статье попробуем разобраться в этих вопросах. Читать: https://habr.com/ru/post/688116/

Choose the k-NN algorithm for your billion-scale use case with OpenSearch Read: https://aws.amazon.com/blogs/big-data/choose-
Choose the k-NN algorithm for your billion-scale use case with OpenSearch Read: https://aws.amazon.com/blogs/big-data/choose-the-k-nn-algorithm-for-your-billion-scale-use-case-with-opensearch/

Как устроена виртуальная машина SQLite SQL – концептуально странный язык. Вы пишете ваше приложение на одном языке, скажем, на JavaScript, а затем направляете базе данных команды, написанные на совершенно другом языке – SQL. После этого база данных компилирует и оптимизирует эту команду на SQL, выполняет ее и возвращает вам данные. Такой метод кажется ужасно неэффективным, но, все-таки, ваше приложение может проделывать сотни таких операций в секунду. Просто безумие! Но на самом деле всё ещё страньше. Читать: https://habr.com/ru/post/687994/

Fine-grained entitlements in Amazon Redshift: A case study from TrustLogix Read: https://aws.amazon.com/blogs/big-data/fine-g
Fine-grained entitlements in Amazon Redshift: A case study from TrustLogix Read: https://aws.amazon.com/blogs/big-data/fine-grained-entitlements-in-amazon-redshift-a-case-study-from-trustlogix/

Кто такой дата-аналитик в X5 Tech Привет, Хабр! На связи отдел аналитики данных X5 Tech. По мере развития технологий больших данных в сфере Data Science продолжает оформляться всё большее количество направлений, а уже существующие становятся более обособленными. Тем не менее до сих пор многие с трудом могут ответить на вопрос чем занимается дата-аналитик. В одной компании в его сферу обязанностей входит построение отчётов для бизнеса, в другой — дизайн и проведение АБ-экспериментов, а в третьей — подготовка витрин данных. Поэтому вопрос "Так кто же такой этот ваш дата-аналитик?" мы слышим часто и хотим сегодня об этом поговорить. Цель данной статьи — ответить на вопросы: Читать: https://habr.com/ru/post/687554/

Бизнес и облачные технологии встретятся на площадке Yandex Scale Yandex Scale — это онлайн-конференция про облачные технологии от Yandex Cloud. Более 50 ведущих IT-экспертов и разработчиков расскажут о том, как облачные технологии помогают бизнесу адаптироваться к новой реальности. В программе более 30 выступлений по 5 тематическим трекам: Infrastructure, Data Platform, Security, Serverless, Business Tools. Участники конференции узнают о новых сервисах для бизнеса, обеспечении безопасности в облаке, возможностях бессерверных вычислений, повышении эффективности бизнеса за счет использования облачных бизнес-инструментов. Когда: 23 сентября Послушать выступления спикеров можно онлайн на сайте конференции — достаточно пройти простую регистрацию: https://tprg.ru/kiSp #ивент

Convert Oracle XML BLOB data using Amazon EMR and load to Amazon Redshift Read: https://aws.amazon.com/blogs/big-data/convert
Convert Oracle XML BLOB data using Amazon EMR and load to Amazon Redshift Read: https://aws.amazon.com/blogs/big-data/convert-oracle-xml-blob-data-using-amazon-emr-and-load-to-amazon-redshift/

Аналитик данных ценный специалист, который помогает принимать решение в бизнесе, находить закономерности и составлять логические выводы на базе проведенного анализа Освоить эту профессию можно на курсе от Skypro за 10 месяцев. Вы получите 400 часов теории и практики, 5 проекта в портфолио и помощь практикующих аналитиков крупных компаний, которые дают развернутую обратную связь А после завершения обучения ребята научат вас эффективно искать работу. Посмотрите программу курса и оставьте заявку: https://tprg.ru/lNfV Это #партнёрский пост

Предохранители для данных: как автоматические выключатели повышают Data Quality Представьте, что бизнес-метрика неожиданно резко вырастает или проседает. Как понять, реальное это изменение или проблема с качеством данных? Команда VK Cloud перевела статью о том, как в компании Intuit решают этот вопрос с помощью предохранителей для пайплайнов данных. В чем суть предохранителя Если возникают проблемы с данными, предохранитель разрывает «цепь» и не пускает некачественные данные в следующие процессы обработки. В результате данные,  которые приходятся на периоды низкого качества, не входят в отчеты. А значит, можно быть уверенным в их корректности. Такой проактивный подход сокращает Time-to-Reliable-Insights до минут. А автоматизация обеспечивает прямую зависимость данных от их качества. Это позволяет избежать разрушительных авралов, которые возникают всякий раз, когда нужно проверить и поправить метрики или отчеты. Далее мы в подробностях рассмотрим, как внедрять такие предохранители. Читать: https://habr.com/ru/post/684120/

Integrate AWS IAM Identity Center (successor to AWS Single Sign-On) with AWS Lake Formation fine-grained access controls Read
Integrate AWS IAM Identity Center (successor to AWS Single Sign-On) with AWS Lake Formation fine-grained access controls Read: https://aws.amazon.com/blogs/big-data/integrate-aws-iam-identity-center-successor-to-aws-single-sign-on-with-aws-lake-formation-fine-grained-access-controls/

Smart Forms: Наш опыт автоматизации сбора данных Привет, Хабр! Сегодня я хочу поговорить о проблеме автоматизации сбора данных. В этом посте мы обсудим, какие именно минусы несет сбор данных через файлы Excel, а также расскажем подробнее о наших собственных наработках по автоматизации сбора информации. Речь пойдет о практических аспектах применения инструмента Smart Forms, поэтому пост будет интересен в первую очередь пользователям решений Visiology, а также специалистам, которые организуют сбор информации или планируют это делать. Всех, у кого уже есть подобный опыт на любой платформе приглашаю присоединиться к обсуждению в комментариях. Читать: https://habr.com/ru/post/650141/

Как мы сделали матчер: тайтлы, БЕРТы и две сестры Всем привет! Меня зовут Андрей Русланцев, я — Senior Machine Learning Engineer в команде матчера в AliExpress Россия. Я расскажу о том, как мы сделали матчер: какие проблемы нам пришлось решить, какие модели мы использовали, как выглядит наш текущий пайплайн, и почему наш матчинг действительно супер. Читать: https://habr.com/ru/post/686672/

Implement a highly available key distribution center for Amazon EMR Read: https://aws.amazon.com/blogs/big-data/implement-a-h
Implement a highly available key distribution center for Amazon EMR Read: https://aws.amazon.com/blogs/big-data/implement-a-highly-available-key-distribution-center-for-amazon-emr/

Create single output files for recipe jobs using AWS Glue DataBrew Read: https://aws.amazon.com/blogs/big-data/create-single-
Create single output files for recipe jobs using AWS Glue DataBrew Read: https://aws.amazon.com/blogs/big-data/create-single-output-files-for-recipe-jobs-using-aws-glue-databrew/

Data Analysis / Big Data - Estadísticas y analítica del canal de Telegram @big_data_analysis