fa
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

رفتن به کانال در Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

نمایش بیشتر
2 740
مشترکین
+124 ساعت
-77 روز
+630 روز
آرشیو پست ها
Что есть NER сервисы и как их применяют в бизнесе от А до Я (практика) Крайне важный кейс для бизнеса — автоматизация бизнес процессов, где раньше можно было только использовать, например, оператора или клиентского менеджера, а сейчас им на помощь и замену чат-боты, голосовые ассистенты и вот и настало время, когда без машинного обучения и NLP уже никуда. Предлагаю рассмотреть NER сервисы и если обратиться к wikipedia: Named-entity recognition (NER) (also known as (named) entity identification, entity chunking, and entity extraction) is a subtask of information extraction that seeks to locate and classify named entities mentioned in unstructured text into pre-defined categories such as person names, organizations, locations, medical codes, time expressions, quantities, monetary values, percentages, etc. Читать: https://habr.com/ru/articles/763542/

Инженер команды SQL в AvitoTech в рамках проекта avito.code подготовил серию роликов про PostgreSQL и DBA В первой части эксперт рассказывает о инициализации реплик без прямого использования pg_basebackup. Она уже доступна на канале AvitoTech. Смотрите, ставьте пальцы вверх и стройте отказоустойчивую инфраструктуру: https://tprg.ru/uBnI Реклама ООО «Авито Тех» LjN8KPaB2

Как мы запустили сервис, получили много хейта, а потом внедрили ML и ускорили процессы в разы Привет, меня зовут Мария Стефова, и я продакт-менеджер образовательной среды в Нетологии. Сегодня расскажу вам, как мы разрушили барьер между студентом и экспертом и создали сервис для получения живой обратной связи во время выполнения домашнего задания. Сейчас мы получаем в месяц от 2 500 до 4 500 вопросов от студентов, а средний показатель отвеченных вопросов — 95–98%. Хотя в начале запуска сервиса вопросов и ответов всё было не так радужно: мы словили много хейта от экспертов, и чтобы добиться феноменальных результатов, нам пришлось сильно постараться и отстроить все бизнес-процессы. Немалую роль сыграло и внедрение ML (англ. Machine Learning). Именно оно помогло автоматизировать ответы на львиную долю рутинных вопросов и повысить скорость их обработки. В статье я поделюсь с вами историей о том, как мы размечали данные, искали баланс между порогом вероятности и охватом вопросов, обучали и дообучали модель, а также расскажу об итогах нашей работы. Читать: https://habr.com/ru/companies/netologyru/articles/763152/

Как оценить объем работ по миграции хранилища данных на Greenplum: методика и пример Некоторое время назад многие российские компании, чей бизнес очень сильно завязан на обработке и анализе больших объемов данных (банки, ритейл, телеком) задумались о том, как можно уменьшить стоимость владения хранилищами данных, построенных на западных технологиях. События последнего времени только ускорили этот процесс. И сейчас количество компаний, для которых актуальна миграция существующих хранилищ данных, построенных на Oracle, MS SQL и других проприетарных СУБД, на решения открытого ПО и отечественных поставщиков, резко выросло, а СУБД GreenPlum фактически становится отраслевым стандартом в хранилищах данных. При этом и компании-заказчику, и организации-исполнителю необходимо оценить бюджет проекта миграции. Первые обычно запрашивают подобную оценку у вторых. Именно такую задачу поставил нам клиент – крупная торговая компания. После небольшого ознакомления с возможными методиками, выбор пал на метод COSMIC (Common Software Measurement International Consortium [1]), являющийся одной из разновидностей оценки функционального объема по функциональным точкам и выросший до стандарта ISO 19761. Плюсом в пользу СOSMIC стало разработанное консорциумом адаптированное руководство для оценки функционального объема хранилищ данных [2]. Читать: https://habr.com/ru/companies/sapiens_solutions/articles/763068/

Introducing a NEW Community for Oracle Analytics Introducing a NEW Community for Oracle Analytics Read: https://blogs.oracle.com/proactivesupportepm/post/introducing-oracle-analytics-communities

Искусство ETL. FAQ по Data Cooker ETL Как и было обещано, в завершение серии ( 1 2 3 4 5 ) статей о разработке инструмента для ETL больших данных, я выкладываю выжимку ответов на вопросы. А то статьи были в формате туториала для разработчиков таких инструментов (длинные и с высоким уровнем сложности), так что стоит рассказать более кратко и понятно для каждого. Q. Что это такое? A. Специализированный инструмент для а) быстрого создания ETL процессов и б) эффективного по стоимости их выполнения. Промка: https://dcetl.ru Исходники: https://github.com/PastorGL/datacooker-etl Официальная группа в телеге: https://t.me/data_cooker_etl Читать: https://habr.com/ru/articles/762862/

Переходим на Greenplum быстро В условиях отсутствия возможности лицензирования и поддержки иностранных вендорских решений по хранилищам данных, встал вопрос о замене этих решений на отечественное программное обеспечение, с вендорской поддержкой, находящееся в реестре российского ПО и которое не уступает по производительности и объемам хранения зарубежным аналогам, таким как Teradata, Oracle, SAP HANA. Как показал анализ, таким требованиям отвечает лишь решения, основанные на MPP СУБД на базе Greenplum, в частности Arenadata DB (ADB). Но как быстро и безболезненно начать миграцию с привычных хранилищ на open-source? Постараюсь в статье рассказать и показать, что удалось придумать в этом направлении Читать: https://habr.com/ru/companies/sapiens_solutions/articles/759828/

20 проектов по аналитике данных для новичков в 2023 году Привет, Хабр! Меня зовут Рушан, и я автор Telegram-канала Нейрон. Сегодня в этой статье обсудим 20 проектов по аналитике данных для новичков, которые помогут приобрести базовые и полезные знания в обработке данных и которые Вы сможете использовать для создания своего портфолио. Эти проекты будут охватывать наиболее востребованные навыки анализа данных и наиболее часто используемые инструменты анализа данных: Excel, SQL, Python, R, Tableau, Power BI. Итак, погнали: Читать: https://habr.com/ru/articles/757128/

Announcing Payroll Costing from Oracle Fusion HCM Analytics Payroll Costing within Payroll Analytics is a new capability that accounts for expenses incurred and liabilities generated from the payroll processing of an organization. Read: https://blogs.oracle.com/analytics/post/introducing-payroll-costing-from-oracle-fusion-hcm-analytics

Oracle Analytics Cloud at Oracle CloudWorld 2023 Oracle Analytics Cloud (OAC) announcements at Oracle Cloud World 2023 event in Las Vegas Read: https://blogs.oracle.com/analytics/post/oracle-analytics-cloud-at-oracle-cloudworld-2023

Как перейти с монолита на микросервисы и ничего не сломать: кейс компании ВТБ При доработке или обновлении даже небольшого приложения можно столкнуться с ошибками и неочевидными проблемами. Что уж говорить о сложных многокомпонентных системах Enterprise-уровня, которые часто имеют сотни очевидных и не очень зависимостей, из-за чего трудно поддаются изменениям. Поэтому модернизации таких приложений, в том числе такие глобальные, как переработка архитектуры, нередко превращаются в настоящий квест. Читать: https://habr.com/ru/companies/vk/articles/762060/

Форматы ORC и Parquet на базе HDFS Каждая компания непрерывно производит и хранит кучу данных, и это вызывает множество проблем. Объёмы хранилищ не бесконечны, как и ресурсы железа. Вот только оптимизация обработки и хранения данных не всегда приносит желаемые результаты. Как всё настроить так, чтобы значительно сократить объём занимаемый ими на диске? У нас получилось! Мы снизили количество данных на диске в 3 раза, при этом ускорив их обработку. И сейчас расскажу как. Меня зовут Александр Маркачев, я Data Engineer команды Голосовой Антифрод в beeline. В статье затронем тему форматов ORC и Parquet, как их правильно использовать и хранить, чтобы всем было хорошо. Читать: https://habr.com/ru/companies/oleg-bunin/articles/761780/

Идея: дифференцированный безусловный базовый доход Какую проблему затрагивает эта статья: социальное обеспечение, безусловный базовый доход, применение блокчейн и криптовалюты для социальной сферы и как все это разместить в один технологичный продукт? Вопросы для специалистов в области блокчейн: как упростить и оптимизировать подобный проект, при этом сохранить идею. Идея – создать ББД с суточным начислением и собственной криптовалютой; сумму начисления ББД сделать дифференцированным по пользователям привязав к параметрам человека, которые входят в такие сферы жизнедеятельности как: экономика, образование и наука, культура и творчество, законопослушность, спорт и здоровье, социальная и общественная деятельность, экология и другие; создать именную валюту пользователей, которая напрямую связана с пользовательским ББД и является комплексной оценкой  пользы пользователя по отношению к обществу в целом; все процессы внутри сети ББД должны иметь систему вознаграждения участников от выполненной работы. Читать: https://habr.com/ru/articles/762230/

Нужны ли BI-системы для работы с 1С? Зачем пользователям 1С нужны внешние BI-системы? Ведь 1С разрабатывалась как самостоятельная программа для организации бизнес-процессов. В 1С уже есть возможность создавать: - быстрые отчеты, причем с конструкторами настроек (довольно сложными и гибкими); - диаграммы (для тех, кому мало таблиц); - преднастроенные отчеты. Читать: https://habr.com/ru/articles/762018/

ML в полях. Как упростить жизнь агрономов? Сегодня мы поделимся опытом создания решения автоматизации процесса уборки полей и разберемся с особенностями обучения ML-моделей для агропромышленной отрасли. Этот материал будет вам интересен, если вы хотите узнать об особенностях работы с данными в агротехе, а также получить ответы на вопросы: как ML-решения помогают формировать задания для агрономов и почему точной модели не всегда достаточно, чтобы спланировать уборку полей. Узнать подробности Читать: https://habr.com/ru/companies/jetinfosystems/articles/761984/

Искусство ETL. Пишем собственный движок SQL на Spark [часть 5 из 5] В данной серии статей я подробно рассказываю о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных. Краткое содержание предыдущей серии, посвящённой API расширения и разного рода технической обвязке: Расширяемость. API подключаемых функций Режимы запуска. Пакетный режим, сборка для разных окружений, автотесты Теперь можно поговорить о последних штрихах, делающих инструмент — инструментом, а именно, об интерактивно-отладочном режиме, то есть, REPL, клиенте и сервере, а также о генераторе документации. Предупреждение о рейтинге «M for Mature» Уровень сложности данной серии статей — высокий. Базовые понятия по ходу текста вообще не объясняются, да и продвинутые далеко не все. Поэтому, если вы не разработчик, уже знакомый с терминологией из области бигдаты и жаргоном из дата инжиниринга, данные статьи будут сложно читаться, и ещё хуже пониматься. Я предупредил. Читать: https://habr.com/ru/articles/761760/

Разбираемся в отличии среднего чека от ARPU на примере одного интернет-магазина Ко мне обратился коллега с вопросами про бизнес-метрики – средний чек и ARPU. В этой статье я разобрался в бизнес-метриках и ответил на вопросы: - Что такое ARPU и средний чек? Как их рассчитывать? На какие вопросы они отвечают и для чего нужны? - Могут ли они ARPU и средний чек быть  равны между собой? Будут ли отличаться в динамике месяц от месяца? - Что если в бизнесе кол-во продуктов фиксировано и все они с одинаковой ценой? Будет ли показатель от месяца к месяцу одинаков? А если рассчитывать среднюю выручку? А для наглядности – рассчитал данные метрики на реальных данных интернет-магазина. Читать: https://habr.com/ru/articles/761490/

Вам в хранилище или к озеру? Чем занимаются специалисты по работе с данными и как стать Data-инженером Привет, Хабр! Сегодня рассказываем, чем отличаются подходы к построению распределённых хранилищ данных Data Warehouse (DWH) и Data Lake и в чём специфика задач специалистов, работающих с данными. В статье сначала опишем паттерны построения распределённых хранилищ, чтобы понимать, через какие процессы проходят данные. А после поговорим о задачах специалистов по работе с данными и необходимых для каждой позиции навыках. P.S. На картинке спрятаны 6 инструментов для работы с данными. Узнали их? Читать: https://habr.com/ru/companies/slurm/articles/756652/

Разработка систем генеративного ИИ на базе ML Platform: создаем конкурента ChatGPT без миллионных инвестиций 2023-й — однозначно год генеративного искусственного интеллекта и сервисов на его основе, которые используют в разных кейсах и сценариях. Но даже при этом для многих сфера генеративного ИИ остается на уровне пользовательского интереса. Это упущение, ведь потенциал GPT-моделей и им подобных не ограничен поиском ответов на классические вопросы и даже ассистированием в процессе разработки. А их создание не относится к числу нерешаемых задач тысячелетия. GPT — технология, которую можно приручить, и это проще, чем кажется. Читать: https://habr.com/ru/companies/vk/articles/761092/

Искусство ETL. Пишем собственный движок SQL на Spark [часть 3 из 5] В данной серии статей я подробно рассказываю о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных. Краткое содержание предыдущей серии, последней, посвящённой проектированию спецификации языка: Операторы жизненного цикла наборов данных (продолжение) Операторы контроля потока выполнения Операторы управления контекстом исполнения Операторы выражений В данном эпизоде мы наконец-то перейдём к самому интересному — имплементации. Хорошо, когда есть развёрнутая постановка задачи, можно просто брать спеку, и писать код согласно плану. Предупреждение о рейтинге «M for Mature» Уровень сложности данной серии статей — высокий. Базовые понятия по ходу текста вообще не объясняются, да и продвинутые далеко не все. Поэтому, если вы не разработчик, уже знакомый с терминологией из области бигдаты и жаргоном из дата инжиниринга, данные статьи будут сложно читаться, и ещё хуже пониматься. Я предупредил. Читать: https://habr.com/ru/articles/761094/