fa
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

رفتن به کانال در Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

نمایش بیشتر
2 749
مشترکین
اطلاعاتی وجود ندارد24 ساعت
+37 روز
+1730 روز
آرشیو پست ها
Рефакторинг в BI-проектах: когда и зачем переписывать «рабочий» код В крупных федеральных организациях всё активнее используется подход управления на основе данных, который требует активного использования и постоянной переделки, развития, модификации аналитических приложений, отчётов, данных. Тот опыт и наши наработки, которыми мы хотим поделиться в рамках данной статьи, приносят пользу на многих проектах, где речь идёт о сотнях аналитических отчётов и дэшбордов, нескольких тысячах показателей и сотнях и тысячах активных пользователей, где, самое главное, вендорские решения кастомизируются внутренними командами заказчика. Для таких случаев всё, о чём мы расскажем дальше, очень важно, для остальных — надеемся, что будут полезны отдельные мысли и технические решения. Начнём с простого и наболевшего. Когда создаётся первая версия дэшборда, задача звучит просто: «показать данные хоть как-нибудь и побыстрее». Не до архитектуры, не до производительности — главное, чтобы цифры появились, и руководство смогло принять правильное управленческое решение. Потом уточняется задача, добавляются новые требования, меняются источники, добавляются разрезы данных, растёт нагрузка. И вот тот самый дэшборд, собранный на скорую руку, оказывается в проде — и технически работает не так и не с той скоростью, как нужно. А далее необходимо развивать функционал, обновлять версию. И сложности растут. В этой статье команда авторов ГК Luxms, вендора платформы бизнес-аналитики Luxms BI, расскажет, почему так происходит и почему «оптимизация» — это не про критику, а про работу с реальностью, со сложной реальностью мира IT и мира данных. А еще — почему важно не только чинить, но и уважать чужой код. Читать: https://habr.com/ru/companies/luxms_bi/articles/899664/ #ru @big_data_analysis | Другие наши каналы

Рефакторинг в BI-проектах: когда и зачем переписывать «рабочий» код В крупных федеральных организациях всё активнее используется подход управления на основе данных, который требует активного использования и постоянной переделки, развития, модификации аналитических приложений, отчётов, данных. Тот опыт и наши наработки, которыми мы хотим поделиться в рамках данной статьи, приносят пользу на многих проектах, где речь идёт о сотнях аналитических отчётов и дэшбордов, нескольких тысячах показателей и сотнях и тысячах активных пользователей, где, самое главное, вендорские решения кастомизируются внутренними командами заказчика. Для таких случаев всё, о чём мы расскажем дальше, очень важно, для остальных — надеемся, что будут полезны отдельные мысли и технические решения. Начнём с простого и наболевшего. Когда создаётся первая версия дэшборда, задача звучит просто: «показать данные хоть как-нибудь и побыстрее». Не до архитектуры, не до производительности — главное, чтобы цифры появились, и руководство смогло принять правильное управленческое решение. Потом уточняется задача, добавляются новые требования, меняются источники, добавляются разрезы данных, растёт нагрузка. И вот тот самый дэшборд, собранный на скорую руку, оказывается в проде — и технически работает не так и не с той скоростью, как нужно. А далее необходимо развивать функционал, обновлять версию. И сложности растут. В этой статье команда авторов ГК Luxms, вендора платформы бизнес-аналитики Luxms BI, расскажет, почему так происходит и почему «оптимизация» — это не про критику, а про работу с реальностью, со сложной реальностью мира IT и мира данных. А еще — почему важно не только чинить, но и уважать чужой код. Читать: https://habr.com/ru/companies/luxms_bi/articles/899662/ #ru @big_data_analysis | Другие наши каналы

Как мы сделали одну большую песочницу для всех аналитиков В мире данных и аналитики, где каждый день генерируются огромные объемы информации, создание единой платформы для работы с данными становится неотъемлемой частью успешной стратегии бизнеса. Мы команда РСХБ.Цифра, в которой я, Кристина Проскурина, руковожу управлением бизнес-анализа данных,  а Алексей Кошевой, руководитель отдела развития витрин данных «РСХБ-Интех», руководит разработкой аналитической отчетности и платформы по исследованию данных. В этой статье мы расскажем, как наша команда разработала единую песочницу для аналитиков, которая объединила все инструменты и ресурсы в одном месте, обеспечивая эффективность, удобство и возможность совместной работы. К песочнице Читать: https://habr.com/ru/companies/rshb/articles/899482/ #ru @big_data_analysis | Другие наши каналы

HowTo: плиточная карта и календарь в DataLens Хочу поделиться примером, как при помощи нестандартных техник создать виджеты, непредусмотренные на бесплатном тарифе DataLens. Для реализации виджетов понадобится базовое знакомство с DataLens, html и python. Код по формированию виджетов и живые примеры внутри. Читать: https://habr.com/ru/articles/899264/ #ru @big_data_analysis | Другие наши каналы

Ускоряем работу с помощью кеша В новой статье рассказано, как использование кеша потока данных может существенно повысить производительность ваших приложений. Изучите, какие стратегии подходят для снижения времени обработки данных и повышения эффективности процессов. Читать подробнее #en @big_data_analysis | Другие наши каналы

Обзор мобильных возможностей Oracle Analytics Oracle Analytics Mobile открывает новые горизонты для работы с данными в движении. Узнайте о мощных функциях, таких как навигация, просмотр дашбордов и уникальные опции, улучшенные для мобильного использования, включая инструменты Ask и Podcast. Читать подробнее #en @big_data_analysis | Другие наши каналы

🔍 Подключение Oracle Analytics Cloud к Private ADW Узнайте, как эффективно подключить Oracle Analytics Cloud к приватной базе данных Autonomous Data Warehouse с публичным доступом. Статья подробно рассказывает о необходимых шагах и настройках для обеспечения безопасного и стабильного соединения. Читать подробнее #en @big_data_analysis | Другие наши каналы

Сравниваем Pandas, Polars и PySpark: что выбрать аналитику? Pandas, Polars или PySpark — что выбрать для работы с данными? Вм
Сравниваем Pandas, Polars и PySpark: что выбрать аналитику? Pandas, Polars или PySpark — что выбрать для работы с данными? Вместе с Никитой Егоровым, ведущим аналитиком в МТС Диджитал, разбираем отличия, плюсы и минусы каждого инструмента. Читать: «Сравниваем Pandas, Polars и PySpark: что выбрать аналитику?» #ru @big_data_analysis | Другие наши каналы

Data Governance и Бизнес: как найти общий язык «Data Governance — это дополнительная надстройка, которая увеличивает сложность и длительность процессов. Это тормозит бизнес!» «Нам нужны качественные данные, а вы все про свои процессы!» «Data Governance – это IT-шная история, пусть они и занимаются. Причем здесь бизнес?!» Эти фразы часто звучат, когда речь заходит о внедрении Data Governance. Бизнес и Data \ IT могут по-разному смотреть на роль DG: для команды управления данными это фундамент прозрачности и управления, а для бизнеса — дополнительные шаги, которые могут замедлять процессы. Но ведь цель Data Governance (DG) — не процесс ради процесса, а создание ценности для бизнеса за счёт качественных, управляемых данных. Почему же возникают разногласия? Из моего опыта можно выделить несколько ключевых факторов, которые влияют на восприятие DG в бизнесе: 1.Неочевидная связь между DG и бизнес-результатами. Если Data Governance не подкреплён показателями, влияющими на прибыль (P&L, снижение затрат, ускорение процессов), для бизнеса его сложно воспринимать как приоритетную задачу. 2.Бизнес хочет скорость, а не контроль. Как правило новые процессы и роли означают изменение привычных моделей работы, а это что требует времени и затраты энергии на адаптацию. Поэтому новые процессы начинают казаться бизнесу фактором, замедляющим их работу. 3.Долгий цикл внедрения. Когда DG запускается с прицелом на долгосрочную выгоду, интерес к DG снижается, так как  бизнесу нужны быстрые результаты, бизнесу нужно решать задачи уже сегодня. Как же выстроить эффективный диалог между DG и бизнесом? Читать: https://habr.com/ru/articles/899080/ #ru @big_data_analysis | Другие наши каналы

FineBi Динамическая фильтрация данных Привет Хабр! Меня зовут Белков Евгений, я руководитель направления разработки Siebel CRM в Московском кредитном банке. В последнее время стал все больше разрабатывать дашборды на Fine Bi и все больше неординарных требований к визуализации вынуждают танцевать с бубном. Сегодня я хочу поделиться опытом работы с Динамической фильтрацией данных на апплете в зависимости от выбранных значений фильтра. Читать: https://habr.com/ru/companies/mkb/articles/898222/ #ru @big_data_analysis | Другие наши каналы

Будущее здесь: как градостроители применяют искусственный интеллект для регулирования среды жизнедеятельности Научно‑фантастический рассказ о работе градостроителя в будущем. Если через 15 лет этот текст найдут в архивах — пусть проверят, сбылось ли. Пролог. 2040 год. Москва, территориальное подразделений Цифрового центра «Град-ИНФО-ИИ. Россия». Читать: https://habr.com/ru/articles/898144/ #ru @big_data_analysis | Другие наши каналы

Интеграция Google Analytics с Oracle Analytics Cloud В современном мире данных важно иметь доступ к веб-аналитике для принятия бизнес-решений. Oracle Analytics Cloud позволяет подключаться к таким источникам, как Google Analytics, для анализа посещаемости сайтов и эффективности маркетинга. Статья описывает процесс интеграции этих платформ. Читать подробнее #en @big_data_analysis | Другие наши каналы

Как обеспечить безопасность данных в FDI Статья объясняет, как с помощью профиля безопасности в Fusion HCM защитить персональные данные. Рассматриваются два подхода: использование настраиваемых критериев или логики SQL-запроса, что позволяет гибко подходить к задачам безопасности. Читать подробнее #en @big_data_analysis | Другие наши каналы

Что значит быть инженером в новых реалиях? И какой смысл мы вкладываем в эти слова — расскажем на GPB CONF! 22 апреля пройдет
Что значит быть инженером в новых реалиях? И какой смысл мы вкладываем в эти слова — расскажем на GPB CONF! 22 апреля пройдет конференеция Газпромбанк.Тех для разработчиков и инженеров. Читать: «Что значит быть инженером в новых реалиях? И какой смысл мы вкладываем в эти слова — расскажем на GPB CONF!» #ru @big_data_analysis | Другие наши каналы

Автоматизация задач без кодинга: единый реестр, система управления проектами и таск-трекер на основе MWS Tables Привет, Хабр! Меня зовут Александр Антипов, я продакт-оунер MWS Tables. Раньше казалось, что «опытные пользователи ПК» — исчезающий вид, но реальность другая: сегодня сотрудники не просто работают с технологиями, а сами автоматизируют рутинные процессы. Без разработчиков и сложных систем — с помощью макросов, таблиц, SharePoint и других инструментов. Полтора года назад мы в МТС создали для таких кейсов MWS Tables — внутреннюю платформу самостоятельной автоматизации. В этом посте — реальные примеры, как MWS Tables уже применяется на практике. Я покажу, как с помощью MWS Tables реализовали единый реестр для работы с качеством данных, централизованную систему по менеджменту IT-проектов и собственный таск-трекер. Все подробности — под катом. Читать: https://habr.com/ru/companies/ru_mts/articles/897068/ #ru @big_data_analysis | Другие наши каналы

Цифровые двойники: превращаем данные в деньги с помощью матмоделирования Сегодня Digital Twin — это не просто модное словосочетание, а ключевой инструмент оптимизации производства. От нефтегазовых предприятий и химических производств до птицефабрик — цифровые двойники внедряются в самые разные отрасли. В этой статье мы разберемся, какие технологии стоят за этим подходом, какие специалисты нужны для работы с цифровыми двойниками и как они применяются на реальных производственных объектах. Привет, Хабр, я Руслан Залевских, старший аналитик группы Data Science отдела цифрового моделирования IBS, и сегодня поговорим о цифровых двойниках — технологии, с которой я работаю уже несколько лет. Расскажу о том, что такое Digital Twins и приведу примеры их использования на некоторых наших проектах. Читать: https://habr.com/ru/companies/ibs/articles/897072/ #ru @big_data_analysis | Другие наши каналы

Как создать инструмент для DQ только на Python и Airflow? Всем привет! Меня зовут Павел, я главный аналитик данных управления подготовки данных Банка. В этой статье я расскажу, как мы создали самописный инструмент и библиотеку для проверок качества данных, используя только Python и Airflow, и какую пользу это принесло команде. Читать: https://habr.com/ru/companies/gazprombank/articles/896814/ #ru @big_data_analysis | Другие наши каналы

Интеллектуальный фотофиниш Во многих соревнованиях тема дополнительных показателей является достаточно острой, иногда даже холиварной. По-другому быть не может, ведь они выходят на сцену в самый драматичный момент, когда определяются судьбы кубков, медалей, а порой и карьер. Есть, например, мнение, что если бы Саутгейт-игрок забил тот пенальти в 1996, то, возможно, стиль сборной Англии при Саутгейте-тренере был более смелым. Конечно, основная тема для споров - это мера случайности различных доппоказателей, сама по себе или в сравнении с "настоящей игрой". В каждом виде соревнований эти показатели и споры об их случайности свои, тут сложно придумать какой-то универсальный ответ. Я довольно много играю в спортивное "Что? Где? Когда?", поэтому хочу сделать заход в этой области. Читать: https://habr.com/ru/articles/896704/ #ru @big_data_analysis | Другие наши каналы

Для тех, кто отвечает за сервера (или просто любит железки) Нужно быстро развернуть тестовый сервер, чтобы не ждать DevOps, н
Для тех, кто отвечает за сервера (или просто любит железки) Нужно быстро развернуть тестовый сервер, чтобы не ждать DevOps, не шаманить с настройками и не платить как за боинг? Держите решение, которое сэкономит и нервы, и деньги. Aéza — это виртуальные серверы в РФ с мощным железом: Intel Core i9-14900K до 6.0 ГГц, быстрые NVMe-диски, до 32 ГБ RAM и гибкие тарифы под любые задачи. Для комфортной работы у ребят есть: — Поддержка всех популярных ОС — от Ubuntu и Debian до FreeBSD и Astra. — Хостинг для сайтов, API, баз данных, CI/CD. — Включённая DDoS-защита.   — Локации в Москве и Питере. Тарифы стартуют от 4.94€/мес. А по этой ссылке — ещё и 15% кэшбека на старте. Это #партнёрский пост

Шардированный кластер ClickHouse Хочу рассказать, как спроектированы распределённые вычисления в ClickHouse. Вы узнаете, на что влияет схема кластера (и на что не влияет). Расскажу, как можно на ровном месте создать себе проблему при помощи всего одной таблицы Kafka и нескольких матвьюх. Поделюсь опытом про дебаг и оптимизацию SELECT-запросов к Distributed таблицам: поизучаем планы выполнения и поэксперементируем с настройками в блоке SETTINGS. Читать: https://habr.com/ru/companies/wildberries/articles/896060/ #ru @big_data_analysis | Другие наши каналы