Data Analysis / Big Data

رفتن به کانال در Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

نمایش بیشتر

شبکه:Типичный программист روسيا176 622 فناوری و برنامه‌ها26 658

2 740

مشترکین

-424 ساعت

-137 روز

+230 روز

662

نمایش های پست

اطلاعاتی وجود ندارد24 ساعت

اطلاعاتی وجود ندارد48 ساعت

24.16%

نرخ مشارکت

اطلاعاتی وجود ندارد

پست های در روز

Ads index

beta

آرشیو پست ها

2 740

Дообучение модели машинного перевода Разработчики машинного перевода часто рассказывают об использовании предварительно обученных моделей. Захотелось дообучить такую модель самому, но пришлось приложить усилия, чтобы найти понятный пример. Поэтому после того, как код заработал, решил поделиться скриптами. Читать: https://habr.com/ru/articles/738086/

2 740

«Инженеров данных заменит автоматика» и другие мифы о DE Инженеры данных (англ. data engineer) готовят данные для анализа, машинного обучения и других целей. В деталях это означает множество операций с данными: сбор, хранение, обработка, интеграция, трансформация и представление в нужной для работы приложений и систем форме. Из краткого определения сложно понять нюансы профессии и тем более захотеть стать инженером данных. Поэтому мы с коллегами собрали мифы о data engineering и выделили наиболее популярные. Если вы неплохо знакомы с работой дата-инженера, мифы про бесконечный кодинг или однообразие задач могут показаться глупыми и смешными. Но не делайте поспешных выводов: при подготовке статьи мы тоже узнали что-то новое. Читать: https://habr.com/ru/specials/740058/

2 740

Оптимизация выборок в больших коллекциях MongoDB При работе с большими коллекциями в MongoDB, размер которых превышал десятки миллионов записей, возникла необходимость формировать случайные выборки уникальных значений полей, принадлежащих документам этой коллекции. Для такой операции, в MongoDB штатно предусмотрена функция $sample, которую можно использовать в составе pipeline при проведении агрегации данных. Однако, как показала практика, выполнение выборки полей таким образом на большой коллекции может занимать весьма ощутимое время. Чтобы сократить время выполнения таких выборок, потребовалось разработать собственный алгоритм, который на порядки увеличил скорость работы. Ниже приведен подход и вариант реализации данного алгоритма. Читать: https://habr.com/ru/companies/stc_spb/articles/735512/

2 740

Как ускорить вывод ML-моделей в 4 раза, или Как может выглядеть экосистема МLOps в банке Привет, я Андрей Качетов, Head of ML Operations в Альфа-Банке. Отвечаю за опромышливание всех ML-моделей в банке, строю новую платформу MLOps, а также формирую единый подход для работы с модельными данными (Feature Store). В статье, без картинок с «бесконечностями» Ops’ов, расскажу, как может выглядеть полноценный конвейер MLOps, что умеет и немного о том, как мы пришли к максимальной автоматизации процесса вывода моделей в промышленную эксплуатацию. Читать: https://habr.com/ru/companies/alfa/articles/739792/

2 740

Cache warming в Qlik Sense из подручных материалов Привет Хабр! Мы - Соколкин Олег, Юндин Андрей и Монахов Алексей - сотрудники стрима "Мобильная аналитика и отчетность" Группы "Иннотех". Сегодня мы расскажем вам о том, как сделать ваши приложения Qlik Sense быстрее. Речь пойдет не про оптимизацию, а про так называемый прогрев кэша. Читать: https://habr.com/ru/companies/innotech/articles/739562/

2 740

ML System Design: основные способы деплоя и тестирования моделей машинного обучения в продакшене Разберем популярные паттерны проектирования ML-систем для ответа на следующие вопросы: 1. Какой способ выбрать для деплоя модели в production? 2. Как затащить составной ML-пайплайн в real-time сервис? 3. Каким способом тестировать новую версию модели? Читать: https://habr.com/ru/articles/739316/

2 740

Применение Python для сбора и предобработки данных цифрового следа Python для сбора и предобработки данных цифрового следа. Про цифровой след обычно говорят лишь в общих чертах, и описание программирования для работы с ним лишь упоминают. В данной статье рассмотрен набор библиотек Python и приемов, которые можно использовать для сбора и предобработки данных цифрового следа. Читать: https://habr.com/ru/articles/739572/

2 740

Искусственный интеллект в России и мире: эволюция, тенденции, будущее Сегодня искусственный интеллект активно задействуют в промышленности, строительстве, ТЭК и других сферах. Усиливают потенциал данной технологии новые суперкомпьютеры, которые помогают обучать ИИ для выполнения соответствующих задач. Проекты ИИ получают поддержку со стороны государства. В 2021 году стартовал Федеральный проект «Искусственный интеллект», в рамках которого в ИИ будет вложено 24,6 млрд ₽ в течении 5 лет. Уже было профинансировано создание 6 новых научно-исследовательских центров в ведущих университетах и НИИ. Возникает необходимость не только в оценке эффективности технологий, но и в обосновании их экономической выгоды. В этой статье я рассмотрю тенденции развития ИИ в России, также его возможное будущее и расскажу, как мы применяем искусственный интеллект в работе с данными. Читать: https://habr.com/ru/companies/inferit/articles/739514/

2 740

Разработчики — налево, методологи — направо: четыре шага к оптимизации работы BI-аналитиков Привет! Меня зовут Наташа Базанова, я старший аналитик Selectel. В компании я работаю три года: за это время команда аналитиков сильно расширилась, число задач и их амбициозность выросли. Как и любая другая команда, мы столкнулись с проблемами, связанными с несовершенством бизнес-процессов. В этом тексте расскажу, что мы предприняли, чтобы работать эффективнее и слаженнее. Спойлер: для этого нам пришлось разделиться на две команды, но это тот случай, когда расставание пошло на пользу. Надеюсь, кому-то наш опыт и рекомендации пойдут на пользу — сэкономят время, деньги и нервы. А если вы проходили подобный путь, делитесь своей историей в комментариях! Читать: https://habr.com/ru/companies/selectel/articles/737590/

2 740

4 онлайн-курса по анализу данных для начинающих — Курс «Продуктовый аналитик в IT» Постоянный доступ, онлайн, 74000 ₽ На курсе изучите продуктовый анализ в data-driven компаниях с нуля за 4,5 месяца. Научитесь обрабатывать и подготавливать данные при помощи SQL и Python, визуализировать и наглядно представлять полученные результаты, а также проводить сегментацию аудитории и запускать A/B-тесты. — Курс «Бизнес-аналитик в IT» Постоянный доступ, онлайн, 78000 ₽ Освоите базовые знания устройства программных продуктов и коммерческой разработки ПО, научитесь деловой коммуникации с клиентами и командой разработки, а также изучите основные техники сбора, анализа и спецификации требований к разработке ПО. — Курс «Аналитика с 0: быстрый старт» Постоянный доступ, онлайн, от 45000 ₽ На курсе научитесь собирать, обрабатывать и анализировать данные с помощью SQL, Excel и Google Sheets. Сможете визуализировать полученные данные с помощью Tableau и научитесь работать с основными метриками IT-продуктов для их улучшения. — Курс «Аналитика на Python» Постоянный доступ, онлайн, от 39000 ₽ На курсе освоите навыки анализа данных с помощью Python, включая работу с большими данными, библиотеками Pandas и NumPy. Также научитесь парсить данные из интернета, включая веб-страницы, профили Вконтакте и открытые API. #курсы

2 740

Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 1 Этот материал начинает серию из трех постов о том, как объяснить проблемы дата-сайентистов сотрудникам вашей компании, которые ничего не понимают в data science. В первой части я доступно расскажу о нынешнем положении специалистов, их проблемах и типичных запросах, с которыми они сталкиваются. Читать: https://habr.com/ru/companies/rosbank/articles/750176/

2 740

Как создавать качественные ML-системы. Часть 1: каждый проект должен начинаться с плана Команда VK Cloud перевела серию из двух статей о жизненном цикле ML-проекта, проектной документации, ценности для бизнеса и требованиях. О том, как начинать с малого и быстро отказываться от слабых идей. Руководство пригодится дата-сайентистам, специалистам по машинному обучению, руководителям отделов, техническим руководителям или тем, кто хочет дорасти до этого уровня. Читать: https://habr.com/ru/companies/vk/articles/749850/

2 740

Map Layers: Visualizing Insightful Analytics and Decision Making Learn to visualize insightful analytics with custom image map layers and how they can aid in decision making. Read: https://blogs.oracle.com/analytics/post/premierleague-maplayer

2 740

Transform columns for machine learning models that can be invoked from Oracle Analytics Cloud This artilce explains how to transform categorical columns to the format required by the Python machine learning model, which can be then saved to the Oracle Data Science model catalog and invoked from Oracle Analytics Cloud. Read: https://blogs.oracle.com/analytics/post/transform-columns-in-data-science-model-for-oracle-analytics-cloud

2 740

Multiple Output Columns in Data Science Models for Oracle Analytics Cloud This article describes how to add multiple output columns to an OCI Data Science model using Python libraries. Read: https://blogs.oracle.com/analytics/post/multiple-output-columns-in-data-science-models

2 740

Обновление Дельта BI. ChatGPT, PixelPerfect, коннекторы и визуализации Совсем недавно вышло обновление платформы для бизнес-аналитики Дельта BI с решениями, прорывными для всей отрасли. Учитывая нашу реальность и недоступность глобальных продуктов, обновление ощутимо увеличивает отрыв Дельта BI от ближайших конкурентов на российском рынке. Показываем и рассказываем, почему. Читать: https://habr.com/ru/articles/749996/

2 740

Oracle Fusion Analytics Implementation Series: Configuring Best Practices for Implementing Oracle Fusion Analytics Series: Configuring Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-implementation-series-configuring

2 740

Какой у вас профессиональный уровень в IT?

Anonymous voting

2 740

Как мы снизили нагрузку на SAP HANA незаметно для пользователей Объем информации в корпоративном хранилище данных (КХД) со временем неизбежно начинает превышать запланированные изначально мощности. Обычно эта проблема решается тем, что докупаются недостающие мощности (будет дорого). Когда с такой ситуацией столкнулся наш клиент, мы предложили ему другое решение. Оно позволило сэкономить бюджеты и сделать переходный период максимально безболезненным. Читайте, что именно мы сделали и какой был результат. Читать: https://habr.com/ru/companies/sapiens_solutions/articles/747142/

2 740

Modus BI Cloud: работа с данными в облаке Привет, Хабр, на product owner компании Modus Александр Чебанов. Сегодня поговорим про работу и анализ данных в облаке, а еще об архитектуре нашего нового облачного BI для малого и среднего бизнеса. Читать: https://habr.com/ru/companies/modusbi/articles/749432/