ru
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

Открыть в Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Больше
2 743
Подписчики
-224 часа
-67 дней
+630 день
Архив постов
​​Релизнулся PyTorch 2.3 Самый нашумевший ML-фреймворк десятилетия, на котором «сидят» GPT, обновился, – Реализована поддержка ядер Triton в torch.compile: кастомные ядра без потери производительности; – Представлена Tensor Parallel AP для эффективного обучения LLM; – Добавлена полуструктурированную разреженность на матрицах (torch.sparse.SparseSemiStructuredTensor), ускоряющая операции умножения и проч. Полный Release Note #фреймворк @neuro_channel

YouTube-видео превратили в бесконечное хранилище данных Энтузиасты написали алгоритм AKA ISG, который превращает видео на YouTube в бесплатное бесконечное хранилище данных. Читать: «YouTube-видео превратили в бесконечное хранилище данных» @big_data_analysis

На практике пробуем KAN – принципиально новую архитектуру нейросетей На днях ученые из MIT показали альтернативу многослойному перцептрону (MLP). MLP с самого момента изобретения глубокого обучения лежит в основе всех нейросетей, какими мы их знаем сегодня. На его идее в том числе построены большие языковые модели и системы компьютерного зрения. Однако теперь все может измениться. В KAN (Kolmogorov-Arnold Networks) исследователи реализовали перемещение функций активации с нейронов на ребра нейросети, и такой подход показал блестящие результаты. Читать: https://habr.com/ru/articles/812147/ @big_data_analysis

Планирование смен сотрудников в офлайн ритейле: как упорядочить хаос Всем привет! На связи команда ad-hoc аналитики X5 Tech. В этой статье мы – Лев Баскин, Андрей Полушкин и Александр Сахнов – расскажем, как без регистрации и смс спланировать смены для сотрудников офлайн-магазинов. Казалось бы, задача достаточно тривиальная: берём симплекс метод или другой метод условной оптимизации и на основе ожидаемой загрузки получаем расписание сотрудников. Однако, не всё так просто. Первое препятствие на пути – масштабы. У Х5 порядка 25 000 магазинов от Калининграда до Владивостока и более 378 000 работников, обеспечивающих непрерывное функционирование бизнеса. У каждого магазина своя специфика и различающиеся бизнес-процессы. Во-вторых, даже зная, сколько часов занимает тот или иной процесс и как он локализован во времени, из-за внешних факторов нельзя так просто взять и поместить его в расписание. Например, обстановка на дорогах может повлиять на время поставки и, как следствие, сдвинуть ряд процессов в магазине. Достаточно предисловия, перейдём к сути! Читать: https://habr.com/ru/companies/X5Tech/articles/812093/ @big_data_analysis

Repost from Нейроканал
Langfuse для трейсинга приложений LLM + LangChain Создание и чтение трейсбека — довольно линейный процесс, если вы используете фреймворк. Однако если речь идёт о комбинации SDK, для каждого из них приходится дополнительно работать. Langfuse — это своеобразный аналог Sentry для LLM-приложений. Создатели этого инструмента описали (на английском) процесс установки и настройки LF с примерами декратора @observe. Цена: бесплатно #llm #rag #инструмент @neuro_channel

Как стать BI-аналитиком? Онлайн и офлайн, теория и практика Привет, друзья! Сегодня обсудим образование. Конечно, не всю систему в целом, а только те аспекты, которые затрагивают действующих и будущих BI-специалистов. Как получить фундаментальные знания в отрасли, где быстро и бесплатно найти ответ на волнующий вопрос, у кого научиться работать на конкретной BI-платформе, чтобы претендовать на ключевые позиции в крупных компаниях? Если вы задаете себе такие вопросы относительно Visiology, то все ответы на них найдете под катом. Читать: https://habr.com/ru/companies/visiology/articles/811955/ @big_data_analysis

Как Uber обслуживает более 40 миллионов чтений в секунду из онлайн-хранилища с помощью встроенного кэша Привет, Хабр! Представляю вам перевод статьи "How Uber Serves Over 40 Million Reads Per Second from Online Storage Using an Integrated Cache" автора Preetham Narayanareddy. Из неё вы узнаете, как в Uber проектировалась система кэширования на основе Redis, с какими сложностями и тонкостями пришлось столкнуться разработчикам, и как в итоге им удалось создать действительно высокопроизводительное решение. Читать: https://habr.com/ru/articles/811627/ @big_data_analysis

Равновесное ранжирование со смещением к целевой метрике Постановка задачи: Имеется дискретное множество объектов или элементов. А также набор признаков для них, предполагаем, что признаки числовые. Необходимо найти наилучший объект или группу объектов только на основе имеющихся признаков. Сделаем небольшое отступление. Многие уже на этом моменте могут сказать, что подобные задачи решаются методом коллаборативной фильтрацией. И в целом они будут правы. Но есть случаи, когда фильтрация не подходит или ее недостаточно. Для примера давайте представим себя в роли продавца автомобилей, который думает, какой новой маркой / моделью авто ему начать торговать. Допустим у него есть выбор из 1000 вариантов. И тут уже становится понятно, что идея коллаборативный фильтрации не очень хорошо вписывается в этот случай. Продавцу хочется сделать выбор, не основываясь на предпочтениях других продавцов, а исходя из неких характеристик, определяющих выгоду объекта. В сухом остатке имеем n признаков. Что с ними нужно сделать, чтобы достичь желаемого? Можно суммировать значение всех признаков для объекта и получить итоговую оценку, которая отражает совокупный итог всех знаний об объекте. Но что не так в таком простом подходе? Читать: https://habr.com/ru/articles/811157/ @big_data_analysis

Анализ мощности статистических критериев с использованием бакетизации В данной статье рассматривается влияние бакетизации на мощность статистических критериев в условиях различных распределений данных и при разном объеме выборки. Особое внимание уделено зависимости мощности критерия от количества бакетов и размера выборки. Исследование предоставляет важные выводы для проектирования и анализа A/B тестирования и других форм экспериментальных исследований. Не кладём все яйца в одну корзину Читать: https://habr.com/ru/articles/811059/ @big_data_analysis

AI-тренер, нейровоспитатель, ассесор, крауд и разметчик — кто все эти люди и в чем разница? Многие компании в последнее время ввели должность «ИИ-тренера» (AI-тренера), при этом просто разметчики/ассесоры никуда не делись. Что это — просто красивая обертка нейминга над тем же самыми или что-то концептуально новое? Давайте попробуем в этом разобраться и однозначно ответить на вопрос о различиях. Читать: https://habr.com/ru/articles/811037/ @big_data_analysis

Automation of the Oracle Analytics Server Silent Installation, Critical Patch Update, and Configuration Automation of the Oracle Analytics Server Silent Installation, Critical Patch Update, and Configuration Read: https://blogs.oracle.com/analytics/post/oas-silent-install-config @big_data_analysis

Configuration Required to Run or Schedule Publisher Reports in Oracle Analytics Server Using REST API Configuration Required to Run or Schedule Publisher Reports in Oracle Analytics Server Using REST API Read: https://blogs.oracle.com/analytics/post/oas-oap-run-schedule-rest-api @big_data_analysis

Oracle Analytics Mobile Application for Oracle Analytics Server Configured with Single Sign-On using IAM App Gateway Oracle Analytics mobile application for Oracle Analytics Server configured with single sign-on (SSO) using IAM App Gateway in OCI. Read: https://blogs.oracle.com/analytics/post/oa-mob-app-for-oas-with-ag-sso @big_data_analysis

Demystifying Machine Learning Algorithms in Oracle Analytics: a Guide to Choosing the Right Approach This blog delves into the intricacies of these algorithms and describes when and how to use them effectively. Read: https://blogs.oracle.com/analytics/post/oracle-analytics-ml-models @big_data_analysis

Чтение на выходные: «Искусство быть невидимым. Как сохранить приватность в эпоху Big Data» Кевина Митника Спойлер к проблеме из сегодняшнего заголовка: «Никак». Об этом мы и поговорим. Кевин Митник — специалист по компьютерной безопасности. Тот самый человек, который способен научить сохранять конфиденциальность в интернете настолько, насколько это возможно. В свое время как хакер совершил ряд преступлений в сети, отсидел и вышел на свободу, поэтому почитать его будет особенно интересно. Читать: https://habr.com/ru/companies/onlinepatent/articles/810765/ @big_data_analysis

От создателей Академии Аналитиков Авито — открытый курс по прикладной статистике. Бесплатно, без регистрации и смс. Для тех,
От создателей Академии Аналитиков Авито — открытый курс по прикладной статистике.  Бесплатно, без регистрации и смс.  Для тех, кто хочет научиться:  – применять критерии Манна-Уитни, t-test, бутстрап, хи-квадрат; – использовать специализированные библиотеки Python; – разрешать спорные ситуации при анализе данных. – экспериментировать, выводить критерии, доказывать формулы.  Уроки построены на примере реальных данных и показывают, как решаются задачи бизнеса с применением прикладной статистики. Рекомендуем. Реклама ООО «Авито Тех» ИНН 9710089440, erid: LjN8Jzwh4

Как настроить ETL с json’ами в Apache NiFi Привет, Хабр! Меня зовут Сергей Евсеев, сегодня я расскажу, как в Apache NiFi настраивается ETL-пайплайн на задаче с JSON’ами. В этом мне помогут инструменты Jolt и Avro. Пост пригодится новичкам и тем, кто выбирает инструмент для решения схожей задачи. Что делает наша команда Команда работает с данными по рекрутингу — с любой аналитикой, которая необходима персоналу подбора сотрудников. У нас есть различные внешние или внутренние источники, из которых с помощью NiFi или Apache Spark мы забираем данные и складируем к себе в хранилище (по умолчанию Hive, но есть еще PostgreSQL и ClickHouse). Этими же инструментами мы можем брать данные из хранилищ, создавать витрины и складывать обратно, предоставлять данные внутренним клиентам или делать дашборды и давать визуализацию. Описание задачи У нас есть внешний сервис, на котором рекрутеры работают с подбором. Сервис может отдавать данные через свою API, а мы эти данные можем загружать и складировать в хранилище. После загрузки у нас появляется возможность отдавать данные другим командам или работать с ними самим. Итак, пришла задача — нужно загрузить через API наши данные. Дали документацию для загрузки, поехали. Идем в NiFi, создаем пайплайн для запросов к API, их трансформации и складывания в Hive. Пайплайн начинает падать, приходится посидеть, почитать документацию. Чего-то не хватает, JSON-ы идут не те, возникают сложности, которые нужно разобрать и решить. Ответы приходят в формате JSON. Документации достаточно для начала загрузки, но для полного понимания структуры и содержимого ответа — маловато. Мы решили просто загружать все подряд — на месте разберемся, что нам нужно и как мы это будем грузить, потом пойдем к источникам с конкретными вопросами. Так как каждый метод API отдает свой класс данных в виде JSON, в котором содержится массив объектов этого класса, нужно построить много таких пайплайнов с обработкой разного типа JSON’ов. Еще одна сложность — объекты внутри одного и того же класса могут отличаться по набору полей и их содержимому. Это зависит от того, как, например, сотрудники подбора заполнят информацию о вакансии на этом сервисе. Этот API работает без версий, поэтому в случае добавления новых полей информацию о них мы получим только либо из данных, либо в процессе коммуникации. Читать: https://habr.com/ru/companies/beeline_tech/articles/809949/ @big_data_analysis

Greenplum, NiFi и Airflow на страже импортозамещения: но есть нюансы В статье описывается практическое применение популярных Open-Source технологий в области интеграции, хранения и обработки больших данных: Apache NiFi, Apache Airflow и Greenplum для проекта по аналитике учета вывоза отходов строительства. Статья полезна специалистам и руководителям, которые работают с данными решениями и делают ставку на них в части импортозамещения аналогичных технологий. Статья дает обзор основных сложностей внедрения на примере реального кейса, описывает архитектуру и особенности при совместном использовании решений. Читать: https://habr.com/ru/articles/810083/ @big_data_analysis

Как Kubernetes захватывает Data-индустрию, Trino и dbt в продакшн, как запустить риал-тайм антифрод за две недели — об этом п
Как Kubernetes захватывает Data-индустрию, Trino и dbt в продакшн, как запустить риал-тайм антифрод за две недели — об этом поговорим на VK Data Meetup 23 мая, 15:00-19:00 по МСК Офис VK и онлайн Бесплатная регистрация: https://bit.ly/3xKQ5rC?erid=2Vtzqve4Wxx VK Data Meetup — серия событий для дата-инженеров, разработчиков, администраторов о практиках работы с данными на разных уровнях. Майский митап посвящен актуальным архитектурным паттернам платформ данных и технологиям, которые позволят их реализовать. Речь пойдет о DWH, Data Lake, Data LakeHouse и Data Mesh — где они применяются и с какими подводными камнями можно встретиться на практике. Узнаете, как Kubernetes незаметно, но уверенно захватывает индустрию, почему в коммьюнити все чаще говорят про Trino, как интегрировать CI/CD в работу с данными. Мероприятие будет интересно дата-инженерам, специалистам по DWH, администраторам, архитекторам и разработчикам. Посмотреть полную программу и зарегистрироваться: https://bit.ly/3xKQ5rC?erid=2Vtzqve4Wxx #партнёрский_пост

Яндекс Data Proc для ML: ускоряем Embedding на Spark Меня зовут Дмитрий Курганский, я Tech Lead команды MLOps в Банки.ру. Мы работаем над тем, чтобы грамотно организовать и ускорить этапы жизненного цикла ML. В этой статье поделюсь нашим опытом применения Embedding: от запуска Яндекс Data Proc кластера через Airflow до оптимизации этапа применения Embedding с помощью Spark. Материал в целом будет актуален для этапа применения (inference) любых моделей для больших наборов данных, работающих в batch режиме по расписанию. Читать: https://habr.com/ru/companies/banki/articles/810245/ @big_data_analysis