Data Analysis / Big Data
Ir al canal en Telegram
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels
Mostrar más2 745
Suscriptores
+224 horas
-17 días
+530 días
Archivo de publicaciones
Other numbers from the colonoscopy trial
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/11/other-numbers-from-the-colonoscopy-trial.html
Совсем другая история: как мы проводим A/B-тесты в офлайне и чем они отличаются от классических онлайн-экспериментов
Всем привет! Меня зовут Костя Гусев @nevoy, и в М.Видео-Эльдорадо моя команда развивает внутренние и партнёрские продукты. Перед тем, как поменять ассортимент или цены на полках 1 300 розничных магазинов, мы должны убедиться, что новое товарное предложение, как минимум, не приведёт к оттоку текущих покупателей, а еще лучше – привлечет новых. Для проведения подобных экспериментов мы пересмотрели подход к A/B-тестированию с учетом нашей офлайн-специфики, о чем и хотим рассказать в этой статье.
Читать: https://habr.com/ru/post/697282/
Как математика помогает логистике быть точнее. Опыт ПГК
Цифровые алгоритмы помогают решать реальные бизнес-задачи в самых разных сферах. Логистика — не исключение. Главные инструменты логиста — вовсе не карта, линейка и калькулятор, а сложные IT-системы, которые основаны на математическом моделировании и алгоритмах искусственного интеллекта. Эксперты в этой области ориентируются в цифровых продуктах, умеют их использовать и извлекать выгоду для компании. Почему? Потому что основная задача логиста – экономия. Он критически оценивает существующие процессы и предлагает способы их оптимизации. Расскажем, как ПГК использует математический подход в бизнесе.
Читать: https://habr.com/ru/post/697278/
От Single-Instance-прототипа до облачной промышленной платформы интернета вещей: как мы разрабатывали Cloud IoT Platform
В продуктовой разработке нередко случается, что из кастомного проекта для конкретной компании рождается самостоятельный продукт. Так случилось и с Cloud IoT Platform: из небольшого пилотного проекта мы создали облачную промышленную платформу интернета вещей.
Читать: https://habr.com/ru/post/697100/
Как в Tinkoff создавали Data Catalog
В чем главная задача аналитика? Думать головой и принимать решения. А правильные решения можно принять только при наличии нужных данных. Но как найти данные в большой компании? Раньше мы решали эту проблему с помощью ручного ведения документации о данных в Confluence, но с ростом объемов этот подход становился все менее эффективным. Пришло время что-то менять.
Меня зовут Дмитрий Пичугин, я занимаюсь внедрением Data Governance и Data Quality в Тинькофф. Я расскажу, как мы решали проблему поиска данных. Помогать мне в этом будет Роман Митасов. Он виновен в появлении большей части бэкенда Data Detective и расскажет про технические детали проекта.
Читать: https://habr.com/ru/post/697220/
Мониторинг в Apache NiFi. Часть вторая
Задачи отчетности (Reporting Tasks)
В первой статье мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi. Теперь рассмотрим, как передать необходимые метрики и отчеты об ошибках и состоянии кластера во внешние системы. NiFi предоставляет возможность сообщать о состоянии, статистике, показателях и информации мониторинга внешним службам с помощью интерфейса задач отчетности (Reporting Task).
Apache NiFi предоставляет несколько вариантов задач отчетности для поддержки внешних систем мониторинга, таких как Ambari, Grafana, Prometheus и т. д. Разработчик может создать пользовательскую задачу отчетности или настроить встроенные задачи для отправки метрик NiFi во внешние системы мониторинга.
Читать: https://habr.com/ru/post/695926/
Навык визуализации данных позволяет повысить привлекательность вашего резюме
Строить графики в презентациях, конечно, круто. Но для больших данных и задач бизнеса нужны современные BI-инструменты (англ. Business intelligence): DataLens, Tableau, Datawrapper и другие. Они упрощают и ускоряют работу, а в перспективе — помогают компании экономить ресурсы.
Освойте эти инструменты в Практикуме и добавьте навык визуализации в своё резюме уже через 3 месяца.
Курс «Визуализация данных и введение в BI-инструменты» подходит:
— финансовым, бизнес- и продуктовым аналитикам, а также аналитикам данных;
— маркетологам;
— менеджерам и руководителям команд;
— продуктовым и графическим дизайнерам.
Начать обучение можно бесплатно после регистрации. Вы сможете пройти следующие темы:
После регистрации вы получите доступ к теории и практике в формате симулятора и пройдёте по темам:
— введение в науку о данных — Data literacy;
— визуализация данных в бизнесе и работа с заказчиками;
— основы визуализации и выбор графиков;
— инструменты для визуализации и сценарии их применения;
— сторителлинг и презентация в работе с данными;
— интерактивные дашборды и Tableau.
Каждые 2 недели студенты решают самостоятельные проекты на основе реальных задач бизнеса. А на вебинарах разбирают сложные темы и задают вопросы экспертам.
Попробуйте курс в любой удобный момент. А если понравится, присоединяйтесь к потоку с 28 ноября.
Реклама ООО «хит медиа»
ML | Hydra
Hydra это мощный фреймворк для управления файлами конфигурации. В основном его возможности заточенный под проведение ML-экспериментов и ведение ML-проектов в целом. Рассмотрим его возможности на простом примере обучения ML-модели...
Читать: https://habr.com/ru/post/696820/
Вижу цель: три решения задачи по созданию предсказательной ML-модели
Использование интеллектуальных систем в продуктах на пике популярности: алгоритмы помогают определить, какую музыку и фильмы предпочитают пользователи, куда они хотят полететь в отпуск, — и почти никогда не ошибаются.
Создание точных интеллектуальных систем — актуальная и сложная задача. Актуальная, потому что интеллектуальные системы активно используют, например, интернет-магазины, стриминговые сервисы, развлекательные площадки. Алгоритмы помогают компаниям повысить конверсию и средний чек, увеличить лояльность и уменьшить отток клиентов.
Читать: https://habr.com/ru/post/695564/
ViRush 2022: давайте обсудим реальность и перспективы российского BI
Привет, друзья и коллеги! Сегодня я хочу пригласить вас всех на ViRush 2022. Это ежегодная конференция, на которой мы рассказываем о наших достижениях и планах, делимся опытом и раскрываем перспективы развития платформы Visiology. В этом году мы представим и вживую покажем совершенно новую Visiology 3.0, а также послушаем доклады специалистов, которые занимались самых интересными проектами BI внедрений и миграций. Хотите узнать больше? Все подробности — под катом.
Читать: https://habr.com/ru/post/696424/
Data Engineering Weekly #105
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-105
Говорят, у сисадминов и тестировщиков есть своя аура
У одних все ломается, а у других — чинится. Сделали с Selectel игру, где вы можете примерить на себя роль сисадмина и своей аурой сберечь серверы от поломки:
https://tprg.ru/2XK0
Реклама, ООО «Селектел»
Что учесть при разработке интеграций информационных систем
Невозможно представить современную информационную систему (далее – ИС), которая бы стояла особняком, и не была бы интегрирована с другими. Особенно, если мы говорим о корпоративных или государственных данных. Вопросу интеграций посвящены целые книги, такие как «Шаблоны интеграции корпоративных приложений» Грегора Хопа. Некоторые издания пытаются рассматривать не только технические, но и организационные вопросы интеграции (например, «Предметно-ориентированное проектирование (DDD)» Эрика Эванса). Между тем, современный уровень технологий и высокий уровень компетентности разработчиков очень сильно снижает технические риски, выставляя на первый план организационные. В этой статье мы рассмотрим интеграции информационных систем именно с точки зрения организационных рисков.
Читать: https://habr.com/ru/post/696102/
With adjustments comes responsibility
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/10/with-adjustments-comes-responsibility.html
Подборка актуальных вакансий
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Middle / Senior System Analyst
Где: Москва, можно удалённо
Опыт: от 1 года
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Аналитик DWH
Где: Москва, можно удалённо
Опыт: можно без опыта
— Системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Аналитик в Центр Компетенций R&D
Где: Москва
Опыт: от 3 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года
#вакансии #работа
9 продуктов для создания дашбордов
Четыре Open Source, два платных и два low-code-продукта для визуализации BI-аналитики от AFFINAGE
Для решение клиентских задач мы постоянно ищем способы сделать лучше. И очень часто сделать лучше значит сменить продукт. Поэтому мы постоянно анализируем рынок различных nocode-решений. Мы решили поделиться накопленными знаниями о такой важной задаче как построение аналитических дашбордов.
Читать: https://habr.com/ru/post/695310/
Автоматический подбор параметров для Spark-приложений
Всем привет! Меня зовут Валерия Дымбицкая, я технический руководитель команды дата-инженеров в OneFactor. В этой статье я расскажу о том, как мы научились автоматически подбирать параметры для Spark-приложений на основе логов.
Проблема, которую мы решали, может встретиться при регулярном, предсказуемом, интенсивном использовании Hadoop-кластера. Я расскажу, как мы простыми средствами сделали рабочую автономную систему тюнинга, сэкономив в итоге 15-16% ресурсов кластера. Вас ждут детали с примерами кода.
В первой половине статьи я расскажу про то, какая перед нами стояла задача, и разберу ключевые пункты для её решения. Во второй половине будет рассказ о том, как это решение подготовить к работе на продуктиве и что мы из этого всего получили.
Зачем нам вообще понадобился автоматический тюнинг?
Начнём с инфраструктуры. Сетап у нас "классический": ограниченный Hadoop-кластер из купленных серверов. В нём на тот момент, когда мы начали всё это делать, было около 30Тб RAM и 5к CPU. В этом кластере запускается множество разноплановых приложений на Apache Spark и в какой-то момент им стало тесновато. Всё больше приложений висели в PENDING значительное время, потребление памяти утроилось за последние 4 месяца. Сохранять такую тенденцию не хотелось.
Довольно много приложений были от продукта Лидогенерация. Базово он устроен так: есть список номеров телефонов (база) и есть Spark ML Pipeline, который каким-то образом отбирает из этой базы лидов абонентов для некоего целевого действия – например, для предложения продукта клиенту. База может меняться от раза к разу. Вот такую пару из
Читать: https://habr.com/ru/post/695562/
Build Data Engineering Projects, with Free Template
Read: https://www.startdataengineering.com/post/data-engineering-projects-with-free-template/
Why no serious researchers conduct "per protocol" analyses
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/10/why-no-serious-reseachers-conduct-per-protocol-analyses.html
Многие задачи python-разработчика творческие и похожи на решение головоломок
Как ускорить работу уже оптимизированной базы данных, учитывая ограничения системы? Тут понадобится нестандартный подход, креативность и азарт. Но самое приятное — результаты работы реально помогают людям. Например, от скорости базы данных зависит, как быстро вы посмотрите все варианты товара в онлайн-магазине и выберете нужный.
Если вам нравятся такие задачи, возможно, вы уже думали о карьере программиста. Стать python-разработчиком за 9 месяцев возможно, но для этого нужно поменять свою рутину. Придётся сократить время на хобби, заниматься после работы и до неё, подолгу думать над задачами.
Но оно того стоит: в конце пути — новая профессия и интересные проекты. А Яндекс Практикум поможет освоить нужные навыки и не бросить всё на полпути.
— Вся нужная теория для старта карьеры в одном интерактивном учебнике.
— Отработка кода в тренажёре.
— Учебные проекты, которые можно добавить в портфолио.
— Поддержка команды сопровождения: код-ревью, советы наставников, мотивация от кураторов.
— Карьерный центр, где учат составлять резюме и готовиться к собеседованиям.
Освойте основы Python в бесплатной вводной части курса: https://tprg.ru/G7Ej
Реклама, ООО «хит медиа»
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
