Data Analysis / Big Data
前往频道在 Telegram
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels
显示更多2 744
订阅者
+224 小时
-97 天
+330 天
帖子存档
YTsaurus: основная система для хранения и обработки данных Яндекса теперь open source
Привет! Меня зовут Максим Бабенко, я руковожу отделом технологий распределённых вычислений в Яндексе. Сегодня мы выложили в опенсорс платформу YTsaurus — одну из основных инфраструктурных BigData-систем, разработанных в Яндексе.
YTsaurus — результат почти десятилетнего труда, которым нам хочется поделиться с миром. В этой статье мы расскажем историю возникновения YT, ответим на вопрос, зачем нужен YTsaurus, опишем ключевые возможности системы и обозначим область её применения.
В Github-репозитории находится серверный код YTsaurus, инфраструктура развёртывания с использованием k8s, а также веб-интерфейс системы и клиентский SDK для распространённых языков программирования — C++, Java, Go и Python. Всё это — под лицензией Apache 2.0, что позволяет всем желающим загрузить его на свои серверы, а также дорабатывать его под свои нужды.
Читать: https://habr.com/ru/post/721526/
Data Engineering Weekly #123
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-123
Работа с научными данными в рамках data-driven подхода
В современном мире человечество нуждается в большом количестве данных, которые используются в совершенно различных целях: от повышения эффективности работы маркетинга отдельно взятой компании до построения технологий будущего в научно-исследовательских центрах [1]. Однако зачастую результат напрямую зависит от того, как собираются и обрабатываются данные.
В данной статье я хочу показать, как происходит работа по сбору и обработке данных в рамках научного проекта. Работа с данными будет основываться на data-driven подходе.
Читать: https://habr.com/ru/post/723402/
Oracle Analytics platform for both business and IT-led analytics
Learn about mode 1 and mode 2 analytics, and why every organization needs both.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-platform-for-both-business-and-it-led-analytics
Advisor Webcast: Security Integration of Oracle Analytics Server with E-Business Suite
ADVISOR WEBCAST: Security Integration of Oracle Analytics Server with E-Business Suite on March 29, 2023 (Doc ID 2920301.2)
Read: https://blogs.oracle.com/analytics/post/advisor-webcast-security-integration-of-oracle-analytics-server-with-e-business-suite
Дублирующий скрипт: как с его помощью мы ускорили бизнес-процесс с двух рабочих дней до семи минут
Как известно, при создании промышленного процесса, в котором регламентирован каждый шаг, все участвующие подразделения стараются максимально облегчить выполнение своей части работы. Поэтому часто применяются упрощения, которые не позволяют учесть все нюансы процесса, отслеживаемые в ручном режиме каждым аналитиком. По сути, перед автоматизаторами стоит задача охватить наибольшее число вариаций и при этом не усложнить процесс так, чтобы с ним было невозможно работать. Под усложнениями понимаются различные блокирующие процесс проверки, многочисленные итерации согласований по той или иной задаче, формы дополнительного ручного ввода данных и т.п.
В итоге формируются упрощенные требования, которые не позволяют в полной мере реализовать контроль как над ручными ошибками пользователей, так и над ошибками, допущенными при разработке требований и алгоритмов автоматизируемого процесса.
Вас приветствуют Гевонд Асадян и Илья Мясников. В банке «Открытие» в управлении риск-технологий мы занимаемся внедрением моделей оценки кредитного риска. В этой статье на примере большого и сложного процесса выдачи экспресс-кредитов мы расскажем, как нам удалось реализовать полноценный дубль процесса на стороне одного проверочного скрипта и ускорить процесс выдачи экспресс-кредитов с двух рабочих дней до семи минут.
Далее про наш кейс
Читать: https://habr.com/ru/post/722882/
Сколько будет стоить ChatGPT для Google? Дайджест полезных текстов про ML и дата-аналитику
Находить информативные и полезные тексты про Machine Learning и работу с данными непросто. Еще сложнее — найти действительно стоящий контент. Меня зовут Стас, я развиваю продукты для аналитики данных в Selectel. Вместе с коллегами мы собрали годные статьи и видео, которые вам либо помогут в работе, либо как минимум развлекут.
Под катом — свежий landscape ML/AI/Data-сервисов, грамотно составленный список репозиториев для дата-сайентистов и пара кейсов с Хабра, которые вы могли пропустить. Часть материалов — на английском языке, и в рунете их не найти.
Читать: https://habr.com/ru/post/722612/
Дайджест Python #5: как сделать свой Copilot и работать с данными в Pandas
Собрали дайджест из лучших статей и новостей о Python с 1 по 15 марта. Дайджест включает статьи и видео на русском и английском языках.
Читать: «Дайджест Python #5: как сделать свой Copilot и работать с данными в Pandas»
Дайджест Python #5: как сделать свой Copilot и работать с данными в Pandas
Собрали дайджест из лучших статей и новостей о Python с 1 по 15 марта. Дайджест включает статьи и видео на русском и английском языках.
Читать: «Дайджест Python #5: как сделать свой Copilot и работать с данными в Pandas»
Синтетические данные для машинного обучения: их природа, типы и способы генерации
Данные — один из самых ценных в наше время ресурсов. Однако из-за затрат, конфиденциальности и времени обработки сбор реальных данных не всегда возможен. В таком случае для подготовки моделей машинного обучения хорошей альтернативой могут стать синтетические данные. В этой статье мы объясним, что такое синтетические данные, почему они используются и когда их лучше применять, какие существуют модели и инструменты генерации и какими способами можно задействовать синтетические данные.
Читать: https://habr.com/ru/post/721170/
Генерация DAG в Apache Airflow
Пошаговая инструкция о том, как из одного DAG сделать фабрику DAG.
Включает в себя: установка Airflow через Docker и поэтапное объяснение того, как сделать фабрику DAG.
Читать: https://habr.com/ru/post/722688/
One Day Offer — шанс попасть в команду SM Lab всего за один день
Ребята ищут Middle/Senior Data engineer'a, который будет заниматься:
— реализацией ETL в Hadoop с помощью Airflow;
— работой с различными источниками данных: от Oracle до API личных кабинетов;
— подготовкой витрин для анализа (Hive + Spark+ SQL).
Стек команды: Ванильный Hadoop, Kafka, Spark, Airflow, ClickHouse, Jira, Confluence и GitLab.
К слову, SM Lab готовы рассмотреть и специалистов из смежных областей. Например разработчиков уровня Middle/Senior со стеком Python + SQL.
Успевайте откликнуться до 23 марта: https://tprg.ru/A0Hu
Реклама ООО «Спортмастер» LjN8Jsu6R
Процесс ELT: основные компоненты, преимущества и инструменты создания
Если ваша задача заключается в аналитике данных или в машинном обучении, то успех её выполнения зависит от создаваемых вами конвейеров данных и способов их создания. Но даже для опытных дата-инженеров проектирование нового конвейера данных каждый раз становится уникальным событием.
Интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности. Один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT (Extract, Load, Transform).
В этой статье мы подробно рассмотрим процесс ELT, в том числе его работу, преимущества и распространённые способы применения. Также мы поговорим о различиях между ELT и ETL (Extract, Transform, Load) и дадим советы по созданию и оптимизации конвейера ELT.
Читать: https://habr.com/ru/post/719594/
Медицинские датасеты для машинного обучения: цели, типы и способы применения
Международная система здравоохранения ежедневно генерирует множество медицинских данных, которые (по крайней мере, теоретически) можно использовать для машинного обучения. В любой отрасли данные считаются ценным ресурсом, который помогает компаниям обгонять конкурентов, и здравоохранение не является исключением.
В этом посте мы вкратце рассмотрим сложности, с которыми приходится сталкиваться при работе с медицинскими данными, и сделаем обзор публичных медицинских датасетов, а также практических задач, которые они помогают выполнять.
Читать: https://habr.com/ru/post/718438/
Совсем скоро пройдёт одна из крупнейших конференций по PostgreSQL в России!
PGConf.Russia 2023 — это юбилейная десятая конференция российского сообщества PostgreSQL. Больше 700 разработчиков, администраторов баз данных и IT-специалистов соберутся для обмена опытом.
В программе — доклады в два потока в течение двух дней, блиц-доклады из зала, живое общение на кофе-брейках и фуршете.
Когда: 3-4 апреля 2023
Где: БЦ «Рэдиссон Славянская», Москва
Формат: офлайн/онлайн.
Регистрируйтесь по ссылке: https://pgconf.ru/2023
Реклама ООО «ППГ» LjN8K7hpM
Ready-to-Use Analytics Accelerate Success for Oracle Fusion Cloud Applications Customers
A new strategic guide to analytic value helps Fusion Cloud customers maximize the value of their Oracle investment and accelerate digital transformation.
Read: https://blogs.oracle.com/analytics/post/ready-to-use-analytics-accelerate-success-for-oracle-fusion-cloud-applications-customers
Какие профессии выбирают женщины в столице и регионе
Привет, хабр! Я Алексей, аналитик компании Мегапьютер. Недавно прошел праздник прекрасной половины человечества, и я задумался о женских популярных профессиях.
В настоящее время для женщин нет практически никаких ограничений в выборе профессии, но специфические, такие как программист, крановщик, машинист, выбирают лишь единицы. Многие представительницы прекрасного пола, кажется, до сих пор тяготеют к исконно женским видам деятельности. К ним традиционно относятся следующие профессии: учитель, медсестра, няня, воспитатель детского сада, бухгалтер, секретарь, косметолог, продавец и некоторые другие. Так ли это? Традиционно я решил провести исследование в нашей программе по анализу данных PolyAnalyst.
Анализу подверглись резюме представительниц прекрасного пола столиц и регионов. Аналитики компании загрузили резюме женщин Москвы и Санкт-Петербурга, Иваново и Твери с сайта по поиску работы.
В тексте резюме с помощью алгоритмов обработки данных на естественном языке NLP анализировались общие сведения о соискателе, такие как возраст, опыт работы, образование и интересующая должность. Также устанавливались связи между навыками, представленными для каждой должности, и самими должностями.
В результате анализа получилось «топ-10» ведущих вакансий среди женщин.
В Москве и Санкт-Петербурге ими стали: менеджер, администратор, бухгалтер, помощник руководителя, специалист, юрист, делопроизводитель, продавец-консультант, секретарь, графический дизайнер.
Читать: https://habr.com/ru/post/722056/
Откуда есть пошла аналитика и что отличает DS, DA, BA и SA
Каждому из нас приходится принимать решения и иметь дело с их последствиями. Если речь идёт о бизнесе, то верный выбор может принести кругленькую сумму денег, а неверный — стоить целого состояния. Неудивительно, что сейчас в моде data-driven-подход, при котором каждое бизнес-решение принимается на основе объективных данных. Преобразованием данных в решения занимаются аналитики: финансовые, инвестиционные, продуктовые, аналитики рисков — им нет числа, как и строкам в их таблицах.
Разновидностей аналитиков стало уже так много, что в них немудрено и запутаться. Под катом мы разберём, кто такие аналитики данных, системные аналитики, бизнес-аналитики и дата-сайентисты: чем они отличаются, что у них общего, какие навыки нужны, чтобы стать одним из них. А заодно — вспомним первопроходцев, выдающихся аналитиков прошлого и над какими задачами они работали.
Читать: https://habr.com/ru/post/721338/
Делать Data Vault руками? НЕТ! Подходы к автоматической генерации при построении Data Vault
Привет, меня зовут Виктор Езерский, я работаю в центре управления данными «Инфосистемы Джет». Мы занимаемся построением хранилищ, Data Lake, платформ данных, ETL/EL-T и BI-систем. Последние 5–7 лет при построении хранилищ данных у наших заказчиков одна из часто встречаемых архитектур — Data Vault. Мы участвовали в доработке готовых хранилищ на базе Data Vault и делали Data Vault «с нуля».
Из опыта борьбы я вынес одно правило: Data Vault без фреймворка и автоматической генерации — большая беда. В этом посте расскажу, почему, а также поделюсь нашими подходами к созданию генератора. Сразу предупреждаю, что не дам готовых рецептов, но расскажу о наших основных подходах и что они нам дали.
Узнать всё!
Читать: https://habr.com/ru/post/721950/
Классификация изображений в облачной системе Google Colab
Нейронку можно обучить не только понимать, где на картинке собака, а где кошка. Можно шагнуть дальше, чтобы обучить ее распознавать данные графиков зрачковых реакций на свет и выдавать результат: норма или отклонение.
Эта статья про сверточные нейронные сети, классификацию изображений с помощью моделей глубокого обучения, а также применение Google Colab для написания кода на Python.
Читать: https://habr.com/ru/post/721940/
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
