Data Analysis / Big Data

Kanalga Telegram’da o‘tish

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Ko'proq ko'rsatish

Tarmoq:Типичный программист Rossiya176 442 Texnologiyalar & Aralashmalar26 658

2 744

Obunachilar

+224 soatlar

-97 kunlar

+330 kunlar

662

Post ko'rishlar

Ma'lumot yo'q24 soatlar

Ma'lumot yo'q48 soatlar

24.14%

Muloqot nisbati

Ma'lumot yo'q

Kuniga postlar

Ads index

beta

Postlar arxiv

2 744

How do storytellers use data? Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/05/how-do-storytellers-use-data.html

2 744

Дайджест Python #8: обновления Django и обучение GPT-4 Собрали дайджест из материалов по Python с 15 по 30 апреля. Узнайте, как подключить AutoGPT проекту, как изменился Django и как обучить GPT-4. Читать: «Дайджест Python #8: обновления Django и обучение GPT-4»

2 744

PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать Александр Ледовский, тимлид команды аналитики и DS в Авито, рассказал про опыт работы с Apache Spark и о том, как правильно задавать параметры Spark-сессии, чтобы получить ресурсы. Читать: https://habr.com/ru/companies/avito/articles/732870/

2 744

Из оператора в Data-инженеры: выверка данных через шаблоны Excel Всем привет! Меня зовут Ксения, в 2019 году я пришла в СИГМУ оператором по оцифровке ГИС-планшетов с местоположением кабельных линий. В этом материале хочу поделиться своим опытом работы в шаблоне Excel, который помог мне стать экспертом по выверке данных. Сам шаблон и пошаговые инструкции ниже. Читать: https://habr.com/ru/companies/sigma/articles/733056/

2 744

Бустим топ: внедрение ML в ранжирование каталога Привет! Я Артем Караблинов, data scientist направления ранжирования и навигации в Lamoda Tech. В середине 2021 года мы запустили новый алгоритм ранжирования каталога, основанный на машинном обучении. С его помощью мы добились существенного улучшения продуктовых метрик за счет внедрения learning-to-rank подхода машинного обучения. Это стало прочной основой перед этапом полностью персонализированного каталога, который мы выпустили в начале 2023 года. В этой статье я расскажу, почему задача ранжирования каталога важна для бизнеса, как мы построили систему ранжирования каталога на основе ML и перешли на нее с эвристик. Здесь не будет хардкор-подробностей про начинку алгоритмов, но для понимания статьи пригодятся базовые знания ML. Читать: https://habr.com/ru/companies/lamoda/articles/731542/

2 744

Covid vaccines contain PEDs, according to an athlete Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/05/covid-vaccines-contain-peds-according-to-an-athlete.html

2 744

Как дать крылья своей сводной таблице в Apache Superset Эта статья посвящена особенностям доработок в Apache Superset, и в ней я расскажу, как его можно использовать для визуализации больших объемов данных в рамках сводных таблиц. Хочу читать дальше Читать: https://habr.com/ru/articles/731216/

2 744

Как мы организовали Data Warehouse в MANGO OFFICE Рассказываем, как реорганизовали в MANGO OFFICE корпоративное хранилище данных: какие проблемы решали, какие точки роста находили и какой получился результат. Читать: https://habr.com/ru/companies/mango_telecom/articles/732820/

2 744

От онлайн-знакомств до расшифровки ДНК. От покупок в интернете до полётов на Марс. Есть ли отрасли, где не нужно анализировать данные? Спойлер: мы не нашли. Поэтому умение анализировать данные — важный навык для специалистов из разных областей. Что такое данные, какими инструментами с ними работать, рассказали вместе с OTUS в статье: https://tprg.ru/A9e3 Реклама ООО «Отус Онлайн-Образование»

2 744

Мигрируем с Qlik: как создать надежное хранилище для ваших данных Последние 12 месяцев много обсуждается тема миграции с ИТ-систем, которые оказались недоступны в России. Во всех компонентах ИТ-инфраструктуры появились критические зоны, которые раньше закрывались международными продуктами и которые нужно срочно переводить на работающие платформы. Не исключением стала и область бизнес-аналитики. Иностранные BI-системы ушли с российского рынка и компании начали интересоваться, на что можно перенести свою аналитическую отчетность. Меня зовут Александр Гончар и работаю в консалтинговой компании A2 Consulting и для нас тема миграции с зарубежных BI-решений не является новой. За последние пять лет мы реализовали десяток проектов, в которых осуществляли миграцию из аналитических платформ в другие решения, прежде всего, в части хранилищ данных (ХД). Расскажу сегодня об опыте миграции с такого известного BI-инструмента, как Qlik. Зачем мигрировать с Qlik? Актуальность миграции данных с платформ QlikView и Qlik Sense, в которых основные данные хранятся в файловом хранилище в виде QVD-файлов, а весь ETL выполняется средствами Qlik, сохранялась из-за нескольких факторов. Первая причина – желание заказчиков глубже анализировать клиентские данные и пользоваться преимуществами предиктивной аналитики. Параллельно, у компаний из других отраслей существовало несколько систем бизнес-аналитики, и им хотелось пользоваться данными из единого источника. Читать: https://habr.com/ru/articles/732734/

2 744

Data Engineering Weekly #129 Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-129

2 744

Мнение об интенсивах Академии Яндекса + выпускной проект Всем привет! Я выпускник данной Академии и победитель в конкурсе проектов. Я получил уникальный опыт, который будет полезен начинающим специалистам Этот обзор будет полезен тем, кто еще учится в вузе или школе, а также тем у кого есть дети или знакомые данного возраста - Академия рассчитана на молодых людей 8 класса - 2 курса Предвкушаю вопросы, поэтому я сразу говорю - обзор не реклама, ссылок не будет. В статье будут и минусы. Я хочу поделиться мнением, попробовать себя в написании статей, а также рассказать о своем проекте, но об этом лишь в конце статьи - проект покажет реальный уровень выпускников академии Все что будет дальше является сугубо личным мнением. Приступим! Читать: https://habr.com/ru/articles/732454/

2 744

Семантический слой для Аналитики ключевых метрик – dbt Metrics vs. Cube Привет! Сегодня речь пойдет о семантическом слое метрик. В публикации рассмотрим на практике грани интересной темы: — Что такое семантический слой, и в чем разница между Метрикой и Витриной данных — Пути формирования метрик: SQL (ad-hoc), UI, dbt Metrics, Cube — Примеры декларативной конфигурации в YAML и использования метрик — На что обращать внимание при выборе решения: Стек технологий, Доступность vs. Выразительнось, Гибкость vs. Скорость Читать: https://habr.com/ru/companies/otus/articles/732066/

2 744

Новые горизонты в оценке рисков: как источники данных помогают создать точные модели На связи команда по разработке риск-моделей для крупного корпоративного, а также малого и среднего бизнеса банка «Открытие» — Андрей Бояренков, Владимир Иванов и Иван Луговский. В этой статье мы расскажем про наш опыт улучшения показателей ранжирования моделей оценки вероятности дефолта заемщика/скоринговых моделей за счет использования различных источников данных и объединения их в отдельные модули. Читать: https://habr.com/ru/companies/otkritie/articles/732216/

2 744

Проблемы приземления данных из Kafka и их решения на Apache Flink Меня зовут Вадим Опольский и я работаю data-инженером и участвую в проведении онлайн-тренингов. В статье есть ссылки на воркшопы, чтобы повторить практические вещи из Apache Flink, о которых я расскажу. А обсудим мы следующие проблемы: ➜ Неравномерный поток данных; ➜ Потери данных при передаче их из Kafka в storage; ➜ Масштабирование и скейлинг; ➜ Backpressure; ➜ Мелкие файлы на HDFS; ➜ Стриминговый процессинг. Читать: https://habr.com/ru/companies/oleg-bunin/articles/728520/

2 744

Creating delightful analytics experiences using dashboard filters in Oracle Analytics Cloud Dashboard filters together with the Workbook filter in the Present workspace help you create a delightful experience for your users. Read: https://blogs.oracle.com/analytics/post/creating-delightful-end-user-experience-using-dashboard-filters-in-oac

2 744

Putting a face to data stories with AI avatars: Oracle Analytics & Synthesia Find out how the Oracle Analytics team helps you break down barriers between data and consumers. Read: https://blogs.oracle.com/analytics/post/putting-a-face-to-data-stories-with-ai-avatars-oracle-analytics-synthesia

2 744

Как мы делали скоринг на микросервисной архитектуре руками не-программистов 2023 год — год противоречивых сигналов для будущего IT-отрасли и, в частности, занятости айтишников. С одной стороны, с поголовной цифровизацией всех сфер и процессов экономики растёт спрос на разработчиков — что, безусловно, плюс для айтишников. С другой — необходимость участия программистов во многих прежде «аналоговых» процессах как таковая стала превращаться в препятствие для цифровизации. Естественным образом, со стороны заказчиков и работодателей возник спрос на решения, которые позволят оцифровывать и автоматизировать процессы без необходимости заменять весь прежний штат программистами. Компании ищут выходы где угодно, включая надежды на то, что программистов заменят нейросети. В реальности все, кто хоть немного разбираются в вопросе, понимают, что до этого далеко: во многих чувствительных областях нейросети, возможно, никогда не заменят человека — потому что с человека можно спросить за ошибки, а с нейросети взятки гладки. Реальным ответом на запрос рынка видятся сегодня low-code и no-code — то есть, технологии создания ПО с помощью визуального редактора с минимальным написанием кода или без написания кода вообще. С другой стороны, стандартом становится постепенный переход к микросервисной архитектуре. Это подход, при котором единое приложение строится как набор небольших сервисов, каждый из которых работает в собственном процессе и коммуницирует с остальными используя легковесные механизмы, как правило HTTP. Эти сервисы построены вокруг бизнес-потребностей и развертываются независимо с использованием полностью автоматизированной среды. Существует абсолютный минимум централизованного управления этими сервисами. Сами по себе эти сервисы могут быть написаны на разных языках и использовать разные технологии хранения данных. Читать: https://habr.com/ru/articles/731596/

2 744

Какой у вас опыт работы в IT?

Anonymous voting