ar
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

الذهاب إلى القناة على Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

إظهار المزيد
2 745
المشتركون
+224 ساعات
-17 أيام
+530 أيام
أرشيف المشاركات
Совсем другая история: как мы проводим A/B-тесты в офлайне и чем они отличаются от классических онлайн-экспериментов Всем привет! Меня зовут Костя Гусев @nevoy, и в М.Видео-Эльдорадо моя команда развивает внутренние и партнёрские продукты. Перед тем, как поменять ассортимент или цены на полках 1 300 розничных магазинов, мы должны убедиться, что новое товарное предложение, как минимум, не приведёт к оттоку текущих покупателей, а еще лучше – привлечет новых. Для проведения подобных экспериментов мы пересмотрели подход к A/B-тестированию с учетом нашей офлайн-специфики, о чем и хотим рассказать в этой статье. Читать: https://habr.com/ru/post/697282/

Как математика помогает логистике быть точнее. Опыт ПГК Цифровые алгоритмы помогают решать реальные бизнес-задачи в самых разных сферах. Логистика — не исключение. Главные инструменты логиста — вовсе не карта, линейка и калькулятор, а сложные IT-системы, которые основаны на математическом моделировании и алгоритмах искусственного интеллекта. Эксперты в этой области ориентируются в цифровых продуктах, умеют их использовать и извлекать выгоду для компании. Почему? Потому что основная задача логиста – экономия. Он критически оценивает существующие процессы и предлагает способы их оптимизации. Расскажем, как ПГК использует математический подход в бизнесе. Читать: https://habr.com/ru/post/697278/

От Single-Instance-прототипа до облачной промышленной платформы интернета вещей: как мы разрабатывали Cloud IoT Platform В продуктовой разработке нередко случается, что из кастомного проекта для конкретной компании рождается самостоятельный продукт. Так случилось и с Cloud IoT Platform: из небольшого пилотного проекта мы создали облачную промышленную платформу интернета вещей. Читать: https://habr.com/ru/post/697100/

Как в Tinkoff создавали Data Catalog В чем главная задача аналитика? Думать головой и принимать решения. А правильные решения можно принять только при наличии нужных данных. Но как найти данные в большой компании? Раньше мы решали эту проблему с помощью ручного ведения документации о данных в Confluence, но с ростом объемов этот подход становился все менее эффективным. Пришло время что-то менять. Меня зовут Дмитрий Пичугин, я занимаюсь внедрением Data Governance и Data Quality в Тинькофф. Я расскажу, как мы решали проблему поиска данных. Помогать мне в этом будет Роман Митасов. Он виновен в появлении большей части бэкенда Data Detective и расскажет про технические детали проекта. Читать: https://habr.com/ru/post/697220/

Мониторинг в Apache NiFi. Часть вторая Задачи отчетности (Reporting Tasks) В первой статье мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi. Теперь рассмотрим, как передать необходимые метрики и отчеты об ошибках и состоянии кластера во внешние системы. NiFi предоставляет возможность сообщать о состоянии, статистике, показателях и информации мониторинга внешним службам с помощью интерфейса задач отчетности (Reporting Task). Apache NiFi предоставляет несколько вариантов задач отчетности для поддержки внешних систем мониторинга, таких как Ambari, Grafana, Prometheus и т. д. Разработчик может создать пользовательскую задачу отчетности или настроить встроенные задачи для отправки метрик NiFi во внешние системы мониторинга. Читать: https://habr.com/ru/post/695926/

Навык визуализации данных позволяет повысить привлекательность вашего резюме Строить графики в презентациях, конечно, круто. Но для больших данных и задач бизнеса нужны современные BI-инструменты (англ. Business intelligence): DataLens, Tableau, Datawrapper и другие. Они упрощают и ускоряют работу, а в перспективе — помогают компании экономить ресурсы. Освойте эти инструменты в Практикуме и добавьте навык визуализации в своё резюме уже через 3 месяца. Курс «Визуализация данных и введение в BI-инструменты» подходит: — финансовым, бизнес- и продуктовым аналитикам, а также аналитикам данных; — маркетологам; — менеджерам и руководителям команд; — продуктовым и графическим дизайнерам. Начать обучение можно бесплатно после регистрации. Вы сможете пройти следующие темы: После регистрации вы получите доступ к теории и практике в формате симулятора и пройдёте по темам: — введение в науку о данных — Data literacy; — визуализация данных в бизнесе и работа с заказчиками; — основы визуализации и выбор графиков; — инструменты для визуализации и сценарии их применения; — сторителлинг и презентация в работе с данными; — интерактивные дашборды и Tableau. Каждые 2 недели студенты решают самостоятельные проекты на основе реальных задач бизнеса. А на вебинарах разбирают сложные темы и задают вопросы экспертам. Попробуйте курс в любой удобный момент. А если понравится, присоединяйтесь к потоку с 28 ноября. Реклама ООО «хит медиа»

ML | Hydra Hydra это мощный фреймворк для управления файлами конфигурации. В основном его возможности заточенный под проведение ML-экспериментов и ведение ML-проектов в целом. Рассмотрим его возможности на простом примере обучения ML-модели... Читать: https://habr.com/ru/post/696820/

Вижу цель: три решения задачи по созданию предсказательной ML-модели Использование интеллектуальных систем в продуктах на пике популярности: алгоритмы помогают определить, какую музыку и фильмы предпочитают пользователи, куда они хотят полететь в отпуск, — и почти никогда не ошибаются. Создание точных интеллектуальных систем — актуальная и сложная задача. Актуальная, потому что интеллектуальные системы активно используют, например, интернет-магазины, стриминговые сервисы, развлекательные площадки. Алгоритмы помогают компаниям повысить конверсию и средний чек, увеличить лояльность и уменьшить отток клиентов. Читать: https://habr.com/ru/post/695564/

ViRush 2022: давайте обсудим реальность и перспективы российского BI Привет, друзья и коллеги! Сегодня я хочу пригласить вас всех на ViRush 2022. Это ежегодная конференция, на которой мы рассказываем о наших достижениях и планах, делимся опытом и раскрываем перспективы развития платформы Visiology. В этом году мы представим и вживую покажем совершенно новую Visiology 3.0, а также послушаем доклады специалистов, которые занимались самых интересными проектами BI внедрений и миграций. Хотите узнать больше? Все подробности — под катом. Читать: https://habr.com/ru/post/696424/

Говорят, у сисадминов и тестировщиков есть своя аура У одних все ломается, а у других — чинится. Сделали с Selectel игру, где
Говорят, у сисадминов и тестировщиков есть своя аура У одних все ломается, а у других — чинится. Сделали с Selectel игру, где вы можете примерить на себя роль сисадмина и своей аурой сберечь серверы от поломки: https://tprg.ru/2XK0 Реклама, ООО «Селектел»

Что учесть при разработке интеграций информационных систем Невозможно представить современную информационную систему (далее – ИС), которая бы стояла особняком, и не была бы интегрирована с другими. Особенно, если мы говорим о корпоративных или государственных данных. Вопросу интеграций посвящены целые книги, такие как «Шаблоны интеграции корпоративных приложений» Грегора Хопа. Некоторые издания пытаются рассматривать не только технические, но и организационные вопросы интеграции (например, «Предметно-ориентированное проектирование (DDD)» Эрика Эванса). Между тем, современный уровень технологий и высокий уровень компетентности разработчиков очень сильно снижает технические риски, выставляя на первый план организационные. В этой статье мы рассмотрим интеграции информационных систем именно с точки зрения организационных рисков. Читать: https://habr.com/ru/post/696102/

Подборка актуальных вакансийСистемный аналитик Где: Москва Опыт: от 1 года — Middle / Senior System Analyst Где: Москва, можно удалённо Опыт: от 1 года — Системный аналитик Где: Москва Опыт: от 1 года — Ведущий системный аналитик Где: Москва, можно удалённо Опыт: от 2 лет — Аналитик DWH Где: Москва, можно удалённо Опыт: можно без опыта — Системный аналитик Где: Москва, можно удалённо Опыт: от 3 лет — Аналитик в Центр Компетенций R&D Где: Москва Опыт: от 3 лет — Ведущий системный аналитик Где: Москва, можно удалённо Опыт: от 3 лет — Младший инженер-аналитик SOC (1-ая линия) Где: Краснодар Опыт: от 1 года #вакансии #работа

9 продуктов для создания дашбордов Четыре Open Source, два платных и два low-code-продукта для визуализации BI-аналитики от AFFINAGE Для решение клиентских задач мы постоянно ищем способы сделать лучше. И очень часто сделать лучше значит сменить продукт. Поэтому мы постоянно анализируем рынок различных nocode-решений. Мы решили поделиться накопленными знаниями о такой важной задаче как построение аналитических дашбордов. Читать: https://habr.com/ru/post/695310/

Автоматический подбор параметров для Spark-приложений Всем привет! Меня зовут Валерия Дымбицкая, я технический руководитель команды дата-инженеров в OneFactor. В этой статье я расскажу о том, как мы научились автоматически подбирать параметры для Spark-приложений на основе логов. Проблема, которую мы решали, может встретиться при регулярном, предсказуемом, интенсивном использовании Hadoop-кластера. Я расскажу, как мы простыми средствами сделали рабочую автономную систему тюнинга, сэкономив в итоге 15-16% ресурсов кластера. Вас ждут детали с примерами кода. В первой половине статьи я расскажу про то, какая перед нами стояла задача, и разберу ключевые пункты для её решения. Во второй половине будет рассказ о том, как это решение подготовить к работе на продуктиве и что мы из этого всего получили. Зачем нам вообще понадобился автоматический тюнинг? Начнём с инфраструктуры. Сетап у нас "классический": ограниченный Hadoop-кластер из купленных серверов. В нём на тот момент, когда мы начали всё это делать, было около 30Тб RAM и 5к CPU. В этом кластере запускается множество разноплановых приложений на Apache Spark и в какой-то момент им стало тесновато. Всё больше приложений висели в PENDING значительное время, потребление памяти утроилось за последние 4 месяца. Сохранять такую тенденцию не хотелось. Довольно много приложений были от продукта Лидогенерация. Базово он устроен так: есть список номеров телефонов (база) и есть Spark ML Pipeline, который каким-то образом отбирает из этой базы лидов абонентов для некоего целевого действия – например, для предложения продукта клиенту. База может меняться от раза к разу. Вот такую пару из Читать: https://habr.com/ru/post/695562/

Build Data Engineering Projects, with Free Template Read: https://www.startdataengineering.com/post/data-engineering-projects
Build Data Engineering Projects, with Free Template Read: https://www.startdataengineering.com/post/data-engineering-projects-with-free-template/

Многие задачи python-разработчика творческие и похожи на решение головоломок Как ускорить работу уже оптимизированной базы данных, учитывая ограничения системы? Тут понадобится нестандартный подход, креативность и азарт. Но самое приятное — результаты работы реально помогают людям. Например, от скорости базы данных зависит, как быстро вы посмотрите все варианты товара в онлайн-магазине и выберете нужный. Если вам нравятся такие задачи, возможно, вы уже думали о карьере программиста. Стать python-разработчиком за 9 месяцев возможно, но для этого нужно поменять свою рутину. Придётся сократить время на хобби, заниматься после работы и до неё, подолгу думать над задачами. Но оно того стоит: в конце пути — новая профессия и интересные проекты. А Яндекс Практикум поможет освоить нужные навыки и не бросить всё на полпути. — Вся нужная теория для старта карьеры в одном интерактивном учебнике. — Отработка кода в тренажёре. — Учебные проекты, которые можно добавить в портфолио. — Поддержка команды сопровождения: код-ревью, советы наставников, мотивация от кураторов. — Карьерный центр, где учат составлять резюме и готовиться к собеседованиям. Освойте основы Python в бесплатной вводной части курса: https://tprg.ru/G7Ej Реклама, ООО «хит медиа»