ar
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

الذهاب إلى القناة على Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

إظهار المزيد
2 743
المشتركون
-224 ساعات
-67 أيام
+630 أيام
أرشيف المشاركات
Академия Аналитиков Авито открыла набор на курс 2024 – 25 Это бесплатная образовательная программа для тех, кто хочет развива
Академия Аналитиков Авито открыла набор на курс 2024 – 25 Это бесплатная образовательная программа для тех, кто хочет развиваться как аналитик данных или DS-инженер. 13 месяцев глубокого погружения в реальные задачи бизнеса, общение с ведущими экспертами бигтеха, помощь и поддержка куратора и ментора в поисках своего места в индустрии. Присоединиться — задача не из лёгких. Нужно сдать два вступительных теста и быть готовым учиться до 25 часов в неделю, делать домашку и реализовывать неординарные проекты. Зато у выпускников есть все шансы на вау-карьеру, в том числе в самом Авито. Подать заявку. Это #партнёрский пост

Всё о безопасной разработке расскажут на PHDays Fest 2 в Лужниках 23–26 мая Positive Technologies вместе с сообществом POSIde
Всё о безопасной разработке расскажут на PHDays Fest 2 в Лужниках 23–26 мая Positive Technologies вместе с сообществом POSIdev подготовили несколько секций с докладами для разработчиков:  — General development, — Development Security,   — Platform Engineering, — Data Engineering, — Team Lead, — Python совместно с сообществом Moscow Python, — Dev tools, languages & frameworks. Спикеры из Samokat, Тинькофф, СберМаркет, Yandex Cloud, Kaspersky, Lamoda Tech, Aвито, Positive Technologies и других компаний расскажут про архитектуру распределённых систем, безопасную разработку приложений, алгоритмы, языки и инструменты разработки, управление командой и не только.  В перерывах можно будет поиграть в IT-крокодила, решить безопасный кроссворд, выиграть полезную книгу или просто отдохнуть в лаунж-зоне. А в субботу, 25 мая, поучаствовать в воркшопах экспертов из Positive Technologies, Yandex Cloud и Hilbert Team, Wildberries или в олимпиаде по программированиюПрограмма Регистрация Это #партнёрский пост

Apache Airflow: преимущества и недостатки Одним из популярных оркестратором задач является Apache Airflow. Он, как и все инструменты, имеет свои преимущества и недостатки, о которых пойдет речь в данной статье Подробнее Читать: https://habr.com/ru/articles/811807/ @big_data_analysis

What's new in the Oracle Analytics Cloud May 2024 update Explore the latest Oracle Analytics Cloud May 2024 Update, featuring enhancements across data exploration, dashboarding, storytelling, connectivity, augmented analytics, and administration. Discover streamlined workflows, enhanced data governance, and innovative features empowering smarter, data-driven decision-making. Read: https://blogs.oracle.com/analytics/post/whats-new-in-the-oracle-analytics-cloud-may-2024-update @big_data_analysis

Сбер ищет системных аналитиков с опытом от 3-х лет Мы пишем новую HR-платформу с применением лучших практик компонентно-реакт
Сбер ищет системных аналитиков с опытом от 3-х лет   Мы пишем новую HR-платформу с применением лучших практик компонентно-реактивного подхода, без legacy и с полной свободой в выборе инструментов.   Задачи:   — Сбор требований вместе с владельцем продукта — Анализ функциональности ПО — Проектирование интеграции с источниками данных — Поддержка документации   Откликнуться можно тут Это #партнёрский пост

Расчет рентабельности инвестиций и другие задачи дата-сайентиста Как специалисты data science (DS) оперативно рассчитывают рентабельность инвестиций в проект (ROI) на реальной практике, то есть в ситуации, когда нет актуальной информации о необходимых данных? К примеру, чтобы рассчитать компонент оттока в Lifetime Value (LTV), требуются месяцы аналитики. К каким инструментам прибегают, чтобы ускорить эти процессы? Для быстрой оценки ROI есть классический метод оценки смежных компонентов: охвата, влияния и усилия. Охват можно оценить, исходя из плана проекта, где обычно содержится описание клиента, или по данным продуктовых и финансовых руководителей, которые уже составляли дорожную карту предприятия с подобными прогнозами. Влияние — это ожидаемые улучшения для целевых клиентов, обеспечиваемые продуктом. Такие улучшения достаточно точно оцениваются по аналогичным кейсам, а если таковых на рынке нет, можно использовать общую формулу, по которой на ранних этапах разработки продукта ожидается улучшение на 10–20%, для относительно зрелого улучшение на 1–2% уже будет существенным. Усилия можно оценить в технических неделях или неделях дата-сайентиста, необходимых для запуска и итерации решения. Тут тоже можно обратиться за оценкой запусков командой схожих проектов и аппроксимировать ее для нынешнего проекта. А если такой проект запускается командой впервые, то поможет разбивка этапов запуска на контрольные точки. После подобного анализа стоит отметить компоненты, которые оценивались с низким уровнем достоверности, и проверить чувствительность общей приоритизации проекта, когда неопределенная оценка отклоняется на 10 или 30%. При слишком сильном отклонении приоритизации соответственно снижается, а проект может быть перенесен или вовсе отменен. Читать: https://habr.com/ru/articles/814561/ @big_data_analysis

Яндекс впервые проведёт Young Con — фестиваль про карьеру в IT и современные технологии — 6000 участников. — Более 10 часов нетворкинга и интерактивных активностей. — 9 тематических «миров», которые погрузят участников в разные сервисы компании. — 30 руководителей Яндекса, которые расскажут, как создаются технологии, а также поделятся опытом и советами, как начать карьеру в Яндексе. Фестиваль в стиле гик-приключения понравится тем, кто интересуется технологиями и хочет узнать больше про работу и возможности для развития в крупных IT-компаниях. Young Con состоится 27 июня на Live Arena. На фестивале станет известен победитель масштабного студенческого турнира по спортивному программированию «Баттл вузов». Участники команды-победителя разделят между собой призовой фонд в 1 млн рублей. А в конце фестиваля выступят группы The Hatters и Хлеб. Young Con пройдёт в онлайн- и офлайн-формате. Чтобы попасть на фестиваль, нужно заполнить форму на сайте. У начинающих айтишников также будет возможность пройти экспресс-собеседование прямо во время ивента, чтобы в будущем получить приглашение на стажировку в Яндекс. Регистрация уже открыта. Это #партнёрский пост

GPT-4o: больше мощи, но меньше цены. Почему так и что на самом деле умеет модель? Вчера в 20:00 по московскому времени OpenAI в прямом эфире показали свою революционную модель GPT-4o. Общаться с ней можно голосом и даже по видео, при этом вообще без задержек. А еще GPT-4o понимает интонации, может шутить, отвечать с (почти) человеческой интонацией, переводить в режиме реального времени и даже петь. При всем этом модель дешевле, чем ее предшественница, GPT-4 Turbo, во всем уступающая GPT-4o. Как такое может быть, что прямо сейчас умеет модель и почему GPT-4o на самом деле первая настоящая мультимодальная разработка OpenAI? Со всем этим разберемся в статье, а еще расскажем про все-все самые интересные пасхалки Альтмана... Читать: https://habr.com/ru/articles/814161/ @big_data_analysis

CDC на примитивах CDC вам не "Centers for Disease Control and Prevention" а "Change data capture". В статье рассказано какие есть виды CDC и как реализовать один из CDC при помощи Debezium. Читать: https://habr.com/ru/articles/812797/ @big_data_analysis

Гайд на собеседования Привет, Хабр! Я Денис, ведущий продуктовый аналитик! Я не отниму у Вас много времени, а постараюсь максимально кратко и четко рассказать про основные фишки, которые помогут Вам на собеседованиях. Давайте начинать! Читать: https://habr.com/ru/articles/809385/ @big_data_analysis

Дата-майнинг: процесс, типы методики и инструменты Дата-майнинг, в основе которого лежат научные и технологические принципы — это стратегический процесс, предназначенный для выявления паттернов, корреляций и трендов, скрывающихся под поверхностью информации. В этой статье мы расскажем о том, что такое дата-майнинг, о его методиках, инструментах, опыте использования и примерах. Что такое дата-майнинг? Дата-майнинг (data mining) — это процесс обработки данных для выявления паттернов, корреляций и аномалий в крупных датасетах. В нём применяются разнообразные методики статистического анализа и машинного обучения для извлечения из данных значимой информации и выводов. Компании могут использовать эти выводы для принятия обоснованных решений, прогнозирования трендов и совершенствования бизнес-стратегий. Например, при помощи дата-майнинга туристическая компания может обнаружить, что путешественники-одиночки часто бронируют отели рядом с технологическими хабами или коворкинг-пространствами, даже если они расположены далеко от основных туристических достопримечательностей. Это может намекнуть о том, что существенный процент путешествующих в одиночестве объединяет поездки для работы и отдыха, предпочитая места, удовлетворяющие их профессиональным потребностям. Такой вывод может позволить компании сосредоточить свои маркетинговые кампании на отелях, находящихся поблизости от бизнес-районов или коворкингов. Визуальное определение дата-майнинга Этот процесс является неотъемлемой частью преобразования огромных объёмов сырых данных (структурированных, неструктурированных и частично структурированных) в ценные знания, на основании которых можно планировать свои действия. Читать: https://habr.com/ru/articles/784060/ @big_data_analysis

Грейды в аналитике. Как быстро повысить свой грейд? Привет, Хабр! Меня зовут Денис, я Ведущий Продуктовый Аналитик из МТС. Давайте сегодня поговорим про грейды в аналитике. Чем они отличаются? Расскажу, как можно быстро повышать свой грейд. В целом, в разных компаниях разное понимание того, чем должен обладать тот или иной грейд. Однако, есть основные пункты, которые повторяются во многих командах, про них мы сегодня и поговорим. Читать: https://habr.com/ru/articles/813567/ @big_data_analysis

Расчет рентабельности инвестиций и другие задачи дата-сайентист Как специалисты data science (DS) оперативно рассчитывают рентабельность инвестиций в проект (ROI) на реальной практике, то есть в ситуации, когда нет актуальной информации о необходимых данных? К примеру, чтобы рассчитать компонент оттока в Lifetime Value (LTV), требуются месяцы аналитики. К каким инструментам прибегают, чтобы ускорить эти процессы? Для быстрой оценки ROI есть классический метод оценки смежных компонентов: охвата, влияния и усилия. Эти параметры помогают относительно точно спрогнозировать итоговые показатели ROI, а рассчитываются значительно быстрее. Охват можно оценить, исходя из плана проекта, где обычно содержится описание клиента, или по данным продуктовых и финансовых руководителей, которые уже составляли дорожную карту предприятия с подобными прогнозами. Влияние — это ожидаемые улучшения для целевых клиентов, обеспечиваемые продуктом. Такие улучшения достаточно точно оцениваются по аналогичным кейсам, а если таковых на рынке нет, то стоит учесть величину улучшения, на которую рассчитывают инвесторы. Также можно учитывать общую усредненную формулу, по которой на ранних этапах разработки продукта ожидается улучшение на 10–20%, так как базовая реализация предоставляет внушительный потенциал. Для относительно зрелого продукта, прошедшего годы итеративных доработок, улучшение на 1–2% уже будет существенным. Усилия можно оценить в технических неделях или неделях дата-сайентиста, необходимых для запуска и итерации решения. Тут тоже можно обратиться за оценкой запусков командой схожих проектов и аппроксимировать ее для нынешнего проекта. А если такой проект запускается командой впервые, то поможет разбивка этапов запуска на контрольные точки. Читать: https://habr.com/ru/articles/813305/ @big_data_analysis

Как и зачем компании могут применять ML? Разбираемся на примере Netflix Привет, Хабр! Я Ефим, MLOps-инженер в отделе Data- и ML-продуктов Selectel. В последнее время, куда ни глянешь, только и разговоров, что про ML. Но всегда хочется увидеть результаты работы на практике. Если с IT-гигантами все понятно, то зачем ML, скажем, компаниям из индустрии развлечений? В статье попробуем разобраться с этим (насколько позволят открытые источники) на примере Netflix. Читать: https://habr.com/ru/companies/selectel/articles/811585/ @big_data_analysis

Спецификация уникальных идентификаторов UUIDv7 для ключей баз данных и распределенных систем по новому стандарту RFC9562 Долгожданный стандарт RFC9562 "Universally Unique IDentifiers (UUID)" с тремя новыми версиями идентификаторов UUID (6, 7 и 8) вместо малопригодного RFC4122 наконец-то вступил в силу. Я участвовал в разработке нового стандарта. Обзор стандарта можно посмотреть в статье. Введенные новым стандартом идентификаторы седьмой версии UUIDv7 — это лучшее, что теперь есть для ключей баз данных и распределенных систем. Они обеспечивают такую же производительность, как и bigint. UUIDv7 уже реализованы в том или ином виде в основных языках программирования и в некоторых СУБД. Сгенерированные UUIDv7 имеют все преимущества UUID и при этом упорядочены по дате и времени создания. Это ускоряет поиск индексов и записей в БД по ключу в формате UUID, значительно упрощает и ускоряет базы данных и распределенные системы. Неупорядоченность значений UUID прежде сдерживала использование UUID в качестве ключей и вынуждала разработчиков выдумывать собственные форматы идентификаторов или довольствоваться последовательными целыми числами в качестве ключей. Черновик стандарта активно обсуждался на Хабре в апреле 2022 года в комментариях к статье "Встречайте UUID нового поколения для ключей высоконагруженных систем". Разные участники разработки нового стандарта придерживались различных взглядов, и практически все обсуждавшиеся альтернативные варианты структуры UUIDv7 вошли в стандарт. Поэтому теперь перед разработчиками возникает вопрос, какую из множества возможных спецификаций UUIDv7 реализовывать и применять. Также для массового перехода на UUIDv7 нужна дополнительная функциональность, повышающая привлекательность UUIDv7 для разработчиков и бизнеса. Предложенная мной ниже спецификация UUIDv7 с дополнительной функциональностью описывает максимально надежный и удобный вариант структуры UUIDv7 для самых сложных и высоконагруженных информационных систем. Функциональность упорядочена по приоритету реализации Читать: https://habr.com/ru/articles/813229/ @big_data_analysis

Расчет рентабельности инвестиций и другие задачи дата-сайентиста Как специалисты data science (DS) оперативно рассчитывают рентабельность инвестиций в проект (ROI) на реальной практике, то есть в ситуации, когда нет актуальной информации о необходимых данных? К примеру, чтобы рассчитать компонент оттока в Lifetime Value (LTV), требуются месяцы аналитики. К каким инструментам прибегают, чтобы ускорить эти процессы? Для быстрой оценки ROI есть классический метод оценки смежных компонентов: охвата, влияния и усилия. Эти параметры помогают относительно точно спрогнозировать итоговые показатели ROI, а рассчитываются значительно быстрее. Охват можно оценить, исходя из плана проекта, где обычно содержится описание клиента, или по данным продуктовых и финансовых руководителей, которые уже составляли дорожную карту предприятия с подобными прогнозами. Влияние — это ожидаемые улучшения для целевых клиентов, обеспечиваемые продуктом. Такие улучшения достаточно точно оцениваются по аналогичным кейсам, а если таковых на рынке нет, то стоит учесть величину улучшения, на которую рассчитывают инвесторы. Также можно учитывать общую усредненную формулу, по которой на ранних этапах разработки продукта ожидается улучшение на 10–20%, так как базовая реализация предоставляет внушительный потенциал. Для относительно зрелого продукта, прошедшего годы итеративных доработок, улучшение на 1–2% уже будет существенным. Усилия можно оценить в технических неделях или неделях дата-сайентиста, необходимых для запуска и итерации решения. Тут тоже можно обратиться за оценкой запусков командой схожих проектов и аппроксимировать ее для нынешнего проекта. А если такой проект запускается командой впервые, то поможет разбивка этапов запуска на контрольные точки. Читать: https://habr.com/ru/articles/813195/ @big_data_analysis

regexp — большие гонки Так или иначе сталкиваться с регулярными выражениями приходилось большинству разработчиков. Мое первое знакомство произошло с реализацией regex в STL std::regexp. Чаще всего регулярки используются в проверке входных данных, что-то вроде проверки корректности введенного пользователем URL, адреса IPv4, адреса IPv6, телефонного номера и при этом скорость выполнения операции regex не сильно влияет на время отклика от приложения. Но, что если вам приходится проверять сотни, тысячи или даже десятки тысяч правил и все это на постоянно меняющихся наборах входных данных в реальном времени? В этой ситуации вам не просто нужен быстрый алгоритм, вам понадобится лучший из них, вам понадобиться чемпион! Участвовать в заезде! Читать: https://habr.com/ru/articles/812953/ @big_data_analysis

Unit-тестирование Flink-операторов, Job: Flink MiniCluster Привет, Хабр! С вами вновь Александр Бобряков, техлид в команде МТС Аналитики. И я с очередной статьёй из цикла про фреймворк Apache Flink. В предыдущей части я рассказал, как тестировать stateless- и stateful-операторы Flink с использованием вспомогательных TestHarness-абстракций, предоставляемых Flink. В этой статье напишем тесты на всю джобу с использованием мини-кластера Flink и при помощи JUnit Extension. Ещё мы начнём выделять удобные вспомогательные абстракции для тестов, которые понадобятся позже. Читать: https://habr.com/ru/companies/ru_mts/articles/812905/ @big_data_analysis

Рулим запуском Spark-приложений в Airflow с помощью самописного оператора Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями. Все Spark-приложения сабмитятся из Docker-контейнеров. И здесь сталкиваемся с проблемой: в нашем случае не существует готовых решений для запуска Spark-приложений, позволяющих легко править конфигурацию и следить за количеством потребляемых ресурсов. Меня зовут Андрей Булгаков, я лид команды разработчиков Big Data в Lamoda Tech. Вместе с разработчиком Иваном Васенковым в этой статье мы поделимся историей создания Airflow-оператора для запуска Spark-приложений. Читать: https://habr.com/ru/companies/lamoda/articles/810705/ @big_data_analysis