Data Analysis / Big Data

Открыть в Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Больше

Сеть:Типичный программист Россия176 622 Технологии и приложения26 658

2 740

Подписчики

-424 часа

-137 дней

+230 день

662

Просмотры поста

Нет данных24 часа

Нет данных48 часов

24.16%

Коэффициент вовлеченности

Нет данных

Постов в день

Ads index

beta

Архив постов

2 740

Ребят, ищем пишущего IT-редактора блогов в Tproger Условия: удалёнка, фултайм Что делать: — искать темы, которые понравятся клиентам и заинтересуют читателей; — вникать в эти темы настолько, чтобы говорить с экспертами примерно на одном языке; — проводить интервью и собирать фактуру; — превращать фактуру в статью, которую захочется читать и репостить; — дорабатывать статью вместе с экспертами и менеджерами клиента. Требования: — пишете логично и ёмко, видите стилистические и речевые ошибки в тексте; — быстро находите и проверяете информацию (в том числе в англоязычных источниках); — любите общаться с экспертами и умеете их разговорить; — спокойно реагируете на комментарии, но можете отстоять свою позицию, если правка неуместна; — тактично вносите правки, чтобы автор не расстраивался, а был благодарен за помощь; — знаете, что такое ключевое слово, мета-описание и зачем нужен Wordstat. Чтобы откликнуться, заполняйте анкету. #вакансии #работа

2 740

Работа со скрипичной диаграммой (Violin Plot) в Seaborn Скрипичные диаграммы могут эффективно отображать распределение данных, сравнивать различные наборы данных и выявлять аномалии (выбросы) и тенденции. В этой статье мы рассмотрим четыре различных стиля скрипичных диаграмм Seaborn, включая обычную, сгруппированную, горизонтальную и улучшенную версии, и разберемся в случаях их применения, преимуществах и недостатках. Мы также покажем, как улучшить код, чтобы нарисовать структурированную скрипку. Читать: https://habr.com/ru/articles/751898/

2 740

Работа с хребтами (ridge plot) в Seaborn Визуализация данных является важной частью анализа данных, помогая нам лучше понять данные, выявлять закономерности и тенденции. Среди многих инструментов визуализации данных библиотека seaborn пользуется популярностью благодаря относительной простоте в использовании и настройке достаточно красивых и информативных диаграмм. В этой статье рассматривается вопрос касающийся использования библиотеки seaborn для создания красивых карт хребтов и разъясняется их использование, а также демонтируется гибкость библиотеки с помощью демонстрации кода. Читать: https://habr.com/ru/articles/751550/

2 740

One big problem with booster studies (and observational studies of Covid19 vaccines) Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/07/one-big-problem-with-booster-studies-and-observational-studies-of-covid19-vaccines.html

2 740

Коллаборативная фильтрация vs Рейтинг фильма на Кинопоиске. Мой опыт написания кино рекомендательной системы Некоторое время назад я решил написать рекомендательную систему для фильмов. Подобные системы умеют предсказывать оценку фильма, который пользователь еще не смотрел, на основании его оценок других, ранее просмотренных фильмов. И результаты меня удивили Читать: https://habr.com/ru/articles/751006/

2 740

Пример уменьшения размерности данных с помощью линейных и нелинейных методов в Python Уменьшение размерности данных широко используется в области машинного обучения и анализа данных. Его цель состоит в том, чтобы упростить обработку данных за счет уменьшения количества объектов в наборе данных при сохранении ключевой информации. Когда мы сталкиваемся с данными большой размерности, уменьшение размерности может помочь нам снизить вычислительную сложность, повысить производительность и результативность модели. Читать: https://habr.com/ru/articles/751050/

2 740

4 онлайн-курса по анализу данных для начинающих — Курс «Продуктовый аналитик в IT» Старт 14 сентября, онлайн, 74 000 ₽ На курсе изучите продуктовый анализ в data-driven компаниях с нуля за 4,5 месяца. Научитесь обрабатывать и подготавливать данные при помощи SQL и Python, визуализировать и наглядно представлять полученные результаты, а также проводить сегментацию аудитории и запускать A/B-тесты. — Курс «Бизнес-аналитик в IT» Старт 23 августа, онлайн, 78 000 ₽ Освоите базовые знания устройства программных продуктов и коммерческой разработки ПО, научитесь деловой коммуникации с клиентами и командой разработки, а также изучите основные техники сбора, анализа и спецификации требований к разработке ПО. Также научитесь составлять артефакты, с которыми работает бизнес-аналитик, и поймёте свою роль в команде разработки и бизнесе. — Курс «Аналитика с 0: быстрый старт» Постоянный доступ, онлайн, от 45 000 ₽ На курсе научитесь собирать, обрабатывать и анализировать данные с помощью SQL, Excel и Google Sheets. Сможете визуализировать полученные данные с помощью Tableau и научитесь работать с основными метриками IT-продуктов для их улучшения. — Курс «Аналитика на Python» Постоянный доступ, онлайн, от 39 000 ₽ На курсе освоите навыки анализа данных с помощью Python, включая работу с большими данными, библиотеками Pandas и NumPy. Также научитесь парсить данные из интернета, включая веб-страницы, профили Вконтакте и открытые API. #курсы

2 740

Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 3 В предыдущей части вы узнали, что качество модели Data Science в первую очередь зависит от исходных данных: растет, если у вас больше исходных переменных и уровней градации каждой из них, более равномерно распределены значения каждой из переменных; если у вас меньше пропущенных значений и они менее скоррелированы друг с другом. И наконец, если ваша модель распознает события из прошлого, а не предсказывает будущее. В третьей, заключительной части статьи я дам ответы по рисункам из предыдущей части. И для дата-сайентистов приведу общий код Python, который использовался для получения всех представленных ниже изображений. Читать: https://habr.com/ru/companies/rosbank/articles/750810/

2 740

Теория вероятностей в разработке: где применяется и что можно изучить для более глубокого понимания темы Часто приходится слышать, что математика, включая статистику и теорию вероятностей с комбинаторикой, не слишком нужна разработчику. Что ж, в некоторых случаях это действительно так. Но для представителей ряда направлений всё это нужно. Кому именно требуется теория вероятностей с сопутствующими дисциплинами и зачем? Об этом поговорим под катом. И сразу хочу пояснить, что статья предназначена для начинающих специалистов. Читать: https://habr.com/ru/companies/ru_mts/articles/750772/

2 740

Как создавать качественные ML-системы. Часть 2: приручаем хаос Команда VK Cloud перевела вторую статью из серии о создании ML-систем. Первую читайте по ссылке. Здесь поговорим о Data-centric ИИ, данных для обучения, разметке и очистке, синтетических данных и еще немного о Data Engineering и ETL. Читать: https://habr.com/ru/companies/vk/articles/749852/

2 740

Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 2 В первой части статьи я остановился на проблемах дата-сайентистов и на моделях, а в конце показал пары картинок, где нужно было отличить кошку от собаки. В этой части я приведу ответы и расскажу, что и в какой степени влияет на качество моделей. А также для дата-сайентистов приведу код Python, который был использован для получения картинок в задании. Все исходные изображения, использованные в статье, взяты из бесплатных фотостоков. Читать: https://habr.com/ru/companies/rosbank/articles/750492/

2 740

Как аннотировать документы для обучения ИИ распознавания текста Введение в ИИ для распознавания текста Автоматизированная обработка документов — необходимое требование для модернизации рабочих процессов современных компаний; оно связано с широким спектром процессов, например, с управлением расходами, автоматизацией кредиторских задолженностей, снабжением, бухгалтерским делом, страхованием, адаптацией пользователей и сотрудников, подачей заявок на кредит, приёмом на страхование и так далее. Однако обработка неструктурированных данных, например, PDF или отсканированных документов, при помощи ИИ — не такая уж простая задача. Для обучения и поддержки инструментов ИИ обработки и парсинга документов необходимо высококачественное аннотирование данных. По оценкам специалистов, рынок интеллектуальной обработки документов к 2028 году вырастет до 6,3 миллиардов долларов, а большая часть решений для распознавания текста в этой сфере уже использует ИИ и машинное обучение. Читать: https://habr.com/ru/articles/747238/

2 740

Как создать платформу для управления 50 000 сотрудниками в ритейле при помощи частного облака Как отслеживать эффективность сотрудников по всей стране, хранить терабайты данных и поддерживать доступность сервиса на высоком уровне? Платформа Imredi пять лет назад выбрала в качестве облачного провайдера Selectel и в 2022 году вышла на выручку в 200 млн в год. Рассказываем, какие решения использовались при построении платформы, как организована ее техническая часть и какие преобразования ожидаются в будущем. Читать: https://habr.com/ru/companies/selectel/articles/740258/

2 740

Почему для MLOps лучше выбирать Open Source, а не проприетарное ПО Самому обеспечивать гибкость и контроль собственного ML-пайплайна — это важно. Команды по машинному обучению могут использовать проприетарные платформы или создавать собственные решения с помощью Open-Source-инструментов. Компании часто представляют проприетарные платформы как более мощные, эффективные и простые в использовании. Но в действительности они часто оказываются более сложными и менее мощными, чем их Open-Source-конкуренты. Читать: https://habr.com/ru/companies/vk/articles/735720/

2 740

PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив Тимлид команды аналитики и DS в Авито Александр Ледовский рассказал, как быть, когда нужно посчитать что-то на pySpark, чтобы потом выгрузить. Читать: https://habr.com/ru/companies/avito/articles/740232/

2 740

Спринт-интенсив Visiology: +300 к HR-карме бренда и куча красивых дашбордов Привет, Хабр! Буквально на прошлой неделе мы завершили наш небольшой спринт-интенсив. Он доказал, что за 10 дней вполне можно познакомиться с платформой Visiology до такой степени, чтобы начать делать свои собственные дашборды, разбираться с особенностями загрузки данных и построения модели и другими нюансами работы с BI. Что интересно, в нашем спринте принимали участие как опытные BI-щики, так и начинающие специалисты. Под катом — несколько мнений активных участников, а также примеры дашбордов, созданных в ходе обучения. Узнать, как это было... Читать: https://habr.com/ru/companies/visiology/articles/740438/

2 740

Кейс внедрение Dbt в «Детском мире» Всем привет! Меня зовут Антон и я руковожу Big Data платформой в Детском Мире. На Хабре проходит сезон Больший данных, и я решил что это отличная возможность поделиться нашим опытом внедрения Dbt (инструмент для оркестрации Sql витрины). На хабре уже статьи по инструменту, в моей статье, покажу как пришли от запуска ноутбука в Zeppelin к промышленному решению запуска большого количества витрин написанных на SparkSql в OnPrem Hadoop. Читать: https://habr.com/ru/articles/740348/

2 740

Как Почта моделирует риски потери отправлений Привет! Я Кирилл Мамонов, главный аналитик отдела монетизации данных в Почтатехе. Расскажу, как мы создали модель, которая предсказывает до 97% возможных пропаж международных отправлений. Читать: https://habr.com/ru/companies/posttech/articles/739964/

2 740

Расчет скидки за первый и последний этаж в Excel (Часть 2) В первой части иллюстрированной инструкции по проведению расчета величины скидки за первый и последний этаж был показан порядок сбора данных с сайтов объявлений силами Excel и первичный анализ собранных данных. Во второй части завершаем подготовку данных и рассчитываем величину скидки за первый и последний этаж. Читать: https://habr.com/ru/articles/740302/

2 740

Почему Trino такой быстрый: динамические фильтры Принцип большинства оптимизаций производительности в аналитических SQL-движках — ответить на запрос пользователя, затратив минимум вычислительных ресурсов. Динамические фильтры — это оптимизация, которая создает дополнительный предикат для одной из сторон оператора Join на основе данных другой стороны. Так как аналитические запросы часто содержат операции Join и сканируют таблицы большого размера, наличие динамических фильтров позволяет существенно сократить объем обрабатываемой информации, а значит повысить производительность. Рассмотрим реализацию динамических фильтров на примере Trino. Узнать, как работают динамические фильтры Читать: https://habr.com/ru/companies/cedrusdata/articles/740274/