Data Analysis / Big Data

前往频道在 Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

显示更多

网络:Типичный программист 俄罗斯176 442 技术与应用26 658

2 744

订阅者

+224 小时

-97 天

+330 天

662

帖子浏览量

无数据24 小时

无数据48 小时

24.14%

参与率

无数据

每日帖子数

Ads index

beta

帖子存档

2 744

YTsaurus: основная система для хранения и обработки данных Яндекса теперь open source Привет! Меня зовут Максим Бабенко, я руковожу отделом технологий распределённых вычислений в Яндексе. Сегодня мы выложили в опенсорс платформу YTsaurus — одну из основных инфраструктурных BigData-систем, разработанных в Яндексе. YTsaurus — результат почти десятилетнего труда, которым нам хочется поделиться с миром. В этой статье мы расскажем историю возникновения YT, ответим на вопрос, зачем нужен YTsaurus, опишем ключевые возможности системы и обозначим область её применения. В Github-репозитории находится серверный код YTsaurus, инфраструктура развёртывания с использованием k8s, а также веб-интерфейс системы и клиентский SDK для распространённых языков программирования — C++, Java, Go и Python. Всё это — под лицензией Apache 2.0, что позволяет всем желающим загрузить его на свои серверы, а также дорабатывать его под свои нужды. Читать: https://habr.com/ru/post/721526/

2 744

Data Engineering Weekly #123 Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-123

2 744

Работа с научными данными в рамках data-driven подхода В современном мире человечество нуждается в большом количестве данных, которые используются в совершенно различных целях: от повышения эффективности работы маркетинга отдельно взятой компании до построения технологий будущего в научно-исследовательских центрах [1]. Однако зачастую результат напрямую зависит от того, как собираются и обрабатываются данные. В данной статье я хочу показать, как происходит работа по сбору и обработке данных в рамках научного проекта. Работа с данными будет основываться на data-driven подходе. Читать: https://habr.com/ru/post/723402/

2 744

Oracle Analytics platform for both business and IT-led analytics Learn about mode 1 and mode 2 analytics, and why every organization needs both. Read: https://blogs.oracle.com/analytics/post/oracle-analytics-platform-for-both-business-and-it-led-analytics

2 744

Advisor Webcast: Security Integration of Oracle Analytics Server with E-Business Suite ADVISOR WEBCAST: Security Integration of Oracle Analytics Server with E-Business Suite on March 29, 2023 (Doc ID 2920301.2) Read: https://blogs.oracle.com/analytics/post/advisor-webcast-security-integration-of-oracle-analytics-server-with-e-business-suite

2 744

Дублирующий скрипт: как с его помощью мы ускорили бизнес-процесс с двух рабочих дней до семи минут Как известно, при создании промышленного процесса, в котором регламентирован каждый шаг, все участвующие подразделения стараются максимально облегчить выполнение своей части работы. Поэтому часто применяются упрощения, которые не позволяют учесть все нюансы процесса, отслеживаемые в ручном режиме каждым аналитиком. По сути, перед автоматизаторами стоит задача охватить наибольшее число вариаций и при этом не усложнить процесс так, чтобы с ним было невозможно работать. Под усложнениями понимаются различные блокирующие процесс проверки, многочисленные итерации согласований по той или иной задаче, формы дополнительного ручного ввода данных и т.п. В итоге формируются упрощенные требования, которые не позволяют в полной мере реализовать контроль как над ручными ошибками пользователей, так и над ошибками, допущенными при разработке требований и алгоритмов автоматизируемого процесса. Вас приветствуют Гевонд Асадян и Илья Мясников. В банке «Открытие» в управлении риск-технологий мы занимаемся внедрением моделей оценки кредитного риска. В этой статье на примере большого и сложного процесса выдачи экспресс-кредитов мы расскажем, как нам удалось реализовать полноценный дубль процесса на стороне одного проверочного скрипта и ускорить процесс выдачи экспресс-кредитов с двух рабочих дней до семи минут. Далее про наш кейс Читать: https://habr.com/ru/post/722882/

2 744

Сколько будет стоить ChatGPT для Google? Дайджест полезных текстов про ML и дата-аналитику Находить информативные и полезные тексты про Machine Learning и работу с данными непросто. Еще сложнее — найти действительно стоящий контент. Меня зовут Стас, я развиваю продукты для аналитики данных в Selectel. Вместе с коллегами мы собрали годные статьи и видео, которые вам либо помогут в работе, либо как минимум развлекут. Под катом — свежий landscape ML/AI/Data-сервисов, грамотно составленный список репозиториев для дата-сайентистов и пара кейсов с Хабра, которые вы могли пропустить. Часть материалов — на английском языке, и в рунете их не найти. Читать: https://habr.com/ru/post/722612/

2 744

Дайджест Python #5: как сделать свой Copilot и работать с данными в Pandas Собрали дайджест из лучших статей и новостей о Python с 1 по 15 марта. Дайджест включает статьи и видео на русском и английском языках. Читать: «Дайджест Python #5: как сделать свой Copilot и работать с данными в Pandas»

2 744

Синтетические данные для машинного обучения: их природа, типы и способы генерации Данные — один из самых ценных в наше время ресурсов. Однако из-за затрат, конфиденциальности и времени обработки сбор реальных данных не всегда возможен. В таком случае для подготовки моделей машинного обучения хорошей альтернативой могут стать синтетические данные. В этой статье мы объясним, что такое синтетические данные, почему они используются и когда их лучше применять, какие существуют модели и инструменты генерации и какими способами можно задействовать синтетические данные. Читать: https://habr.com/ru/post/721170/

2 744

Генерация DAG в Apache Airflow Пошаговая инструкция о том, как из одного DAG сделать фабрику DAG. Включает в себя: установка Airflow через Docker и поэтапное объяснение того, как сделать фабрику DAG. Читать: https://habr.com/ru/post/722688/

2 744

One Day Offer — шанс попасть в команду SM Lab всего за один день Ребята ищут Middle/Senior Data engineer'a, который будет заниматься: — реализацией ETL в Hadoop с помощью Airflow; — работой с различными источниками данных: от Oracle до API личных кабинетов; — подготовкой витрин для анализа (Hive + Spark+ SQL). Стек команды: Ванильный Hadoop, Kafka, Spark, Airflow, ClickHouse, Jira, Confluence и GitLab. К слову, SM Lab готовы рассмотреть и специалистов из смежных областей. Например разработчиков уровня Middle/Senior со стеком Python + SQL. Успевайте откликнуться до 23 марта: https://tprg.ru/A0Hu Реклама ООО «Спортмастер» LjN8Jsu6R

2 744

Процесс ELT: основные компоненты, преимущества и инструменты создания Если ваша задача заключается в аналитике данных или в машинном обучении, то успех её выполнения зависит от создаваемых вами конвейеров данных и способов их создания. Но даже для опытных дата-инженеров проектирование нового конвейера данных каждый раз становится уникальным событием. Интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности. Один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT (Extract, Load, Transform). В этой статье мы подробно рассмотрим процесс ELT, в том числе его работу, преимущества и распространённые способы применения. Также мы поговорим о различиях между ELT и ETL (Extract, Transform, Load) и дадим советы по созданию и оптимизации конвейера ELT. Читать: https://habr.com/ru/post/719594/

2 744

Медицинские датасеты для машинного обучения: цели, типы и способы применения Международная система здравоохранения ежедневно генерирует множество медицинских данных, которые (по крайней мере, теоретически) можно использовать для машинного обучения. В любой отрасли данные считаются ценным ресурсом, который помогает компаниям обгонять конкурентов, и здравоохранение не является исключением. В этом посте мы вкратце рассмотрим сложности, с которыми приходится сталкиваться при работе с медицинскими данными, и сделаем обзор публичных медицинских датасетов, а также практических задач, которые они помогают выполнять. Читать: https://habr.com/ru/post/718438/

2 744

Совсем скоро пройдёт одна из крупнейших конференций по PostgreSQL в России! PGConf.Russia 2023 — это юбилейная десятая конференция российского сообщества PostgreSQL. Больше 700 разработчиков, администраторов баз данных и IT-специалистов соберутся для обмена опытом. В программе — доклады в два потока в течение двух дней, блиц-доклады из зала, живое общение на кофе-брейках и фуршете. Когда: 3-4 апреля 2023 Где: БЦ «Рэдиссон Славянская», Москва Формат: офлайн/онлайн. Регистрируйтесь по ссылке: https://pgconf.ru/2023 Реклама ООО «ППГ» LjN8K7hpM

2 744

Ready-to-Use Analytics Accelerate Success for Oracle Fusion Cloud Applications Customers A new strategic guide to analytic value helps Fusion Cloud customers maximize the value of their Oracle investment and accelerate digital transformation. Read: https://blogs.oracle.com/analytics/post/ready-to-use-analytics-accelerate-success-for-oracle-fusion-cloud-applications-customers

2 744

Какие профессии выбирают женщины в столице и регионе Привет, хабр! Я Алексей, аналитик компании Мегапьютер. Недавно прошел праздник прекрасной половины человечества, и я задумался о женских популярных профессиях. В настоящее время для женщин нет практически никаких ограничений в выборе профессии, но специфические, такие как программист, крановщик, машинист, выбирают лишь единицы. Многие представительницы прекрасного пола, кажется, до сих пор тяготеют к исконно женским видам деятельности. К ним традиционно относятся следующие профессии: учитель, медсестра, няня, воспитатель детского сада, бухгалтер, секретарь, косметолог, продавец и некоторые другие. Так ли это? Традиционно я решил провести исследование в нашей программе по анализу данных PolyAnalyst. Анализу подверглись резюме представительниц прекрасного пола столиц и регионов. Аналитики компании загрузили резюме женщин Москвы и Санкт-Петербурга, Иваново и Твери с сайта по поиску работы. В тексте резюме с помощью алгоритмов обработки данных на естественном языке NLP анализировались общие сведения о соискателе, такие как возраст, опыт работы, образование и интересующая должность. Также устанавливались связи между навыками, представленными для каждой должности, и самими должностями. В результате анализа получилось «топ-10» ведущих вакансий среди женщин. В Москве и Санкт-Петербурге ими стали: менеджер, администратор, бухгалтер, помощник руководителя, специалист, юрист, делопроизводитель, продавец-консультант, секретарь, графический дизайнер. Читать: https://habr.com/ru/post/722056/

2 744

Откуда есть пошла аналитика и что отличает DS, DA, BA и SA Каждому из нас приходится принимать решения и иметь дело с их последствиями. Если речь идёт о бизнесе, то верный выбор может принести кругленькую сумму денег, а неверный — стоить целого состояния. Неудивительно, что сейчас в моде data-driven-подход, при котором каждое бизнес-решение принимается на основе объективных данных. Преобразованием данных в решения занимаются аналитики: финансовые, инвестиционные, продуктовые, аналитики рисков — им нет числа, как и строкам в их таблицах. Разновидностей аналитиков стало уже так много, что в них немудрено и запутаться. Под катом мы разберём, кто такие аналитики данных, системные аналитики, бизнес-аналитики и дата-сайентисты: чем они отличаются, что у них общего, какие навыки нужны, чтобы стать одним из них. А заодно — вспомним первопроходцев, выдающихся аналитиков прошлого и над какими задачами они работали. Читать: https://habr.com/ru/post/721338/

2 744

Делать Data Vault руками? НЕТ! Подходы к автоматической генерации при построении Data Vault Привет, меня зовут Виктор Езерский, я работаю в центре управления данными «Инфосистемы Джет». Мы занимаемся построением хранилищ, Data Lake, платформ данных, ETL/EL-T и BI-систем. Последние 5–7 лет при построении хранилищ данных у наших заказчиков одна из часто встречаемых архитектур — Data Vault. Мы участвовали в доработке готовых хранилищ на базе Data Vault и делали Data Vault «с нуля». Из опыта борьбы я вынес одно правило: Data Vault без фреймворка и автоматической генерации — большая беда. В этом посте расскажу, почему, а также поделюсь нашими подходами к созданию генератора. Сразу предупреждаю, что не дам готовых рецептов, но расскажу о наших основных подходах и что они нам дали. Узнать всё! Читать: https://habr.com/ru/post/721950/

2 744

Классификация изображений в облачной системе Google Colab Нейронку можно обучить не только понимать, где на картинке собака, а где кошка. Можно шагнуть дальше, чтобы обучить ее распознавать данные графиков зрачковых реакций на свет и выдавать результат: норма или отклонение. Эта статья про сверточные нейронные сети, классификацию изображений с помощью моделей глубокого обучения, а также применение Google Colab для написания кода на Python. Читать: https://habr.com/ru/post/721940/