fa
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

رفتن به کانال در Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

نمایش بیشتر
2 753
مشترکین
+224 ساعت
+57 روز
+2030 روز
آرشیو پست ها
Business Intelligence (BI) в эпоху ИИ ИИ заставляет нас, аналитиков, посмотреть на себя в зеркало и задаться вопросом: какова ценность создания и распространения графиков и диаграмм вручную? Автор перевода: Snezhana Kiseleva Читать: https://habr.com/ru/articles/951464/ #ru @big_data_analysis | Другие наши каналы

Опыт разработки и внедрения универсального коллектора для интеграции КХД с Kafka Привет, Хабр! В этой статье хочу поделиться нашим опытом интеграции с Kafka. В Мегафоне несколько десятков сервисов являются потребителями данных, публикуемых в кластерах Kafka. Все они разрабатывались под узкоспециализированные задачи. В какой-то момент в нашем КХД также появилась необходимость интеграции с Kafka. При разработке первой интеграции мы пошли традиционным путем и использовали Kafka Connect для Confluent 6.0.1. Сообщения, читаемые коннектором, перекладывались в Hadoop. Далее в PySpark выполнялся парсинг нужных данных, и полученные пачки выгружались в Oracle Exadata. Но на этапе опытно-промышленной эксплуатации у нас возникли проблемы с производительностью из-за большого объема читаемых данных: ~100-110 млн сообщений в час (поток со звонками абонентов). Также было требование от бизнеса - данные в конечной витрине должны появляться с задержкой не более часа. Оптимизация интеграции затянулась еще на пару месяцев. В итоге решение, которое мы внедрили в пром, не в полной мере устроило нас. Сложная реализация подразумевала необходимость привлекать на его дальнейшую доработку дефицитных экспертов. Тем временем, перед нами встала задача разработки еще нескольких интеграций с Kafka. Было очевидно, что требуется какое-то решение, которое не только ускоряло бы внедрение, исключая рутинную разработку, но и позволяло реализовать стандартную для таких интеграций батчевую выгрузку считанных сообщений в разные БД (Oracle/Hive/ClickHouse и в перспективе в Greenplum). И кроме того, умело выполнять предварительную обработку данных на лету (парсинг и трансформацию значений заданных атрибутов). Читать: https://habr.com/ru/companies/megafon/articles/951788/ #ru @big_data_analysis | Другие наши каналы

Переход с Oracle EBS на Oracle Fusion Cloud связан с вызовами в обеспечении соответствия, сохранении данных и объединённой отчётности. В статье рассказывается о стратегиях интеграции старых и новых систем для поддержки бизнеса и принятия решений. Читать подробнее #en @big_data_analysis | Другие наши каналы

GitOps для Airflow: как мы перешли на лёгкий K8s-native Argo Workflows Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании KTS. За свою карьеру я построил четыре ML-платформы (одна из которых сейчас в Росреестре) и развиваю с командой пятую. Параллельно учусь в ИТМО по направлению «Безопасность искусственного интеллекта». В этой статье я немного покритикую Airflow и поделюсь нашей историей миграции на связку Argo Workflows и Argo CD. Spoiler alert: технические подробности и результаты в наличии. Читать: https://habr.com/ru/companies/alfa/articles/947754/ #ru @big_data_analysis | Другие наши каналы

Домен-специфичные LLM: как сделать ИИ реально полезным для вашего бизнеса Универсальные модели вроде GPT хорошо справляются с широким классом задач, но буксуют в узких доменах. Они не знают специфику нишевых индустрий, их жаргон и не имеют доступа к проприетарным знаниям, которые делают ваш бизнес уникальным. Когда нужна система ИИ, которая действительно «понимает» именно вашу предметную область, стоит выбирать домен-специфичные LLM (DSLM). Читать: https://habr.com/ru/articles/951482/ #ru @big_data_analysis | Другие наши каналы

Разбираемся в профессиях: Data Analyst, Data Engineer, Analytics Engineer и BI Engineer Кто вы в мире данных — аналитик, BI-разработчик или Data Engineer? 🔍 Разбираем реальные роли и показываем, чем они отличаются на практике. Читать: https://habr.com/ru/articles/951454/ #ru @big_data_analysis | Другие наши каналы

Трансформеры: технология, лежащая в основе больших языковых моделей | Глубокое обучение Автор оригинала: Грант Сандерсон, адаптация текста Джастин Сан Данная статья представляет собой подробное введение в архитектуру трансформеров — ключевой технологии, лежащей в основе современных больших языковых моделей, таких как ChatGPT. Статья подробно описывает архитектуру трансформера, включая блоки внимания (Attention Blocks), где векторы взаимодействуют друг с другом для обновления значений на основе контекста, и многослойные распознаватели (Перцептроны) (Feed-Forward Layers), где векторы обрабатываются параллельно. Объясняется, почему глубокие нейронные сети называются «глубокими» — из-за множества чередующихся слоёв этих операций. Материал включает практические примеры на основе GPT-3 с её 175 миллиардами параметров, распределённых по почти 28,000 матрицам. Авторы тщательно отслеживают количество параметров на каждом этапе, помогая читателю понять масштаб современных языковых моделей. Ключевая идея статьи заключается в том, что модель, обученная предсказывать следующее слово, способна генерировать связный текст путём повторяющегося процесса предсказания и выборки. Детально рассматривается процесс токенизации входных данных, когда текст разбивается на небольшие фрагменты — токены, которые затем преобразуются в векторы с помощью матрицы вложений. Особое внимание уделяется концепции векторных представлений слов в многомерном пространстве, где направления имеют семантическое значение. Авторы демонстрируют, как модель обучается располагать слова со схожими значениями близко друг к другу, а также как векторная арифметика может отражать смысловые отношения между словами. Завершается статья описанием процесса "вложений" и функции "softmax", которая преобразует выходные данные модели в распределение вероятностей для предсказания следующего токена. Особое внимание уделяется понятию «температуры», которое контролирует степень случайности при генерации текста. Читать: https://habr.com/ru/articles/951534/ #ru @big_data_analysis | Другие наши каналы

Собираем систему мониторинга ответов LLM на коленке Наверняка вы сталкивались с ситуациями, когда модель начинает вести себя в проде не так, как задумывалось: например, ведётся на провокации пользователя или даёт некорректные ответы. Зачастую такие ошибки безобидны, но случаются и не очень приятные ситуации. А если речь идёт о чат-боте, который отвечает на вопросы в юридической или медицинской сфере — практически любая ошибка может быть критичной. Итак, мы плавно подошли к тому, что нужно каким-то образом валидировать ответы LLM. Давайте разберёмся, как это делать. Читать: https://habr.com/ru/companies/tochka/articles/949430/ #ru @big_data_analysis | Другие наши каналы

Гайд по созданию качественных дата-продуктов от SYNQ: топ-4 советов Принцип «тестируй все» не повышает, а разрушает качество данных. Сотни бесполезных алертов создают шум, в котором тонут действительно важные сигналы, а команда перестает на них реагировать. В Google и Monzo от этого уже отказались. Рассказываем, как перейти от тотального тестирования к точечным проверкам узлов с максимальным радиусом влияния и почему один правильный тест на источник важнее сотни проверок в витринах. Читать: https://habr.com/ru/companies/postgrespro/articles/951048/ #ru @big_data_analysis | Другие наши каналы

Как мы научили нейросеть читать технические схемы и сразу считать их стоимость Когда думаешь о «цифровой трансформации» в промышленности, в голове обычно всплывают роботы, датчики, большие экраны и дроны, которые сами разносят детали по цеху. В реальности всё часто упирается в куда более прозаичные вещи. Например — технические схемы. Представьте: целые шкафы с папками, где вперемешку свежие CAD-чертежи и сканы пожелтевших листов А3 с подписями от руки: «Смотри сюда», «замени резистор». Чтобы собрать спецификацию и посчитать стоимость, инженеру приходилось садиться с карандашом и Excel — и часами переписывать резисторы, транзисторы, конденсаторы, их номиналы и количество. Ошибся в одной букве или не заметил мелкий элемент — и вся цепочка снабжения поехала. В какой-то момент мы, как разработчики, задали себе вопрос: «А почему в 2025 году до сих пор человек должен глазами считать резисторы на сканах, если есть компьютерное зрение и OCR?» Так и стартовал проект: сделать систему, которая за полминуты превратит «кривой скан схемы из прошлого века» в таблицу компонентов с готовой сметой. Читать: https://habr.com/ru/articles/951016/ #ru @big_data_analysis | Другие наши каналы

Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных, а потом позанимался генерацией разного роды синты. Обо всем это и хочется рассказать. Читать: https://habr.com/ru/articles/950874/ #ru @big_data_analysis | Другие наши каналы

Почему в космосе (пока) нет дата-центров. Часть третья: какие вычисления уже работают Привет, Хабр! На связи снова Александр Токарев. И это третья часть из серии статей о том, почему в космосе нет дата-центров. Во второй части мы разобрались, что главные барьеры для космических ЦОДов — вовсе не процессоры, а энергия, охлаждение, радиация и отсутствие устойчивых сетей. Но пока проекты с «настоящими» дата-центрами остаются в рендерах, в космосе уже крутятся рабочие вычисления. Давайте посмотрим, что из этого реально работает сегодня и какие горизонты впереди. Читать: https://habr.com/ru/companies/oleg-bunin/articles/947134/ #ru @big_data_analysis | Другие наши каналы

Вдохновляющая история Майлса Гиленана: от тенниса до руководителя направления данных и искусственного интеллекта в Apps Associates. Узнайте, как разные этапы карьеры привели его к вершинам в сфере аналитики и ИИ. Читать подробнее #en @big_data_analysis | Другие наши каналы

Создайте адаптивные дашборды в Oracle Analytics, которые автоматически подстраиваются под любой экран. В статье рассказывается о лучших подходах к дизайну, оптимизации визуализаций и настройке точек перелома для удобства на десктопе, планшете и мобильных устройствах. Читать подробнее #en @big_data_analysis | Другие наши каналы

Создаем тест производительности для Oracle Analytics Cloud с помощью Apache JMeter. В статье подробно описан процесс подготовки и настройки тест-плана, который поможет оценить и улучшить работу аналитической платформы. Полезно для тех, кто работает с нагрузочным тестированием. Читать подробнее #en @big_data_analysis | Другие наши каналы

Без тренировки, но с обучением: имплицитная динамика in-context learning Одной из наиболее примечательных особенностей Large Language Models (LLM) является их способность к in-context learning — обучению в контексте. В частности, на этапе инференса LLM может усваивать новые паттерны без какого-либо дополнительного обновления весов, если эти паттерны представлены в виде примеров в промпте, даже если эти паттерны не встречались во время обучения. Механизмы, за счёт которых это возможно, всё ещё во многом остаются неизвестными. В данной работе мы показываем, что комбинация слоя self-attention с MLP позволяет трансформер-блоку неявно модифицировать веса MLP-слоя в зависимости от контекста. Мы утверждаем на основе теоретического анализа и экспериментов, что этот простой механизм может объяснять, почему LLM способны обучаться в контексте, а не только во время тренировки модели. В частности, мы демонстрируем, что при ряде упрощающих допущений трансформер-блок неявно преобразует контекст в low-rank обновление весов MLP-слоя. Читать: https://habr.com/ru/articles/949064/ #ru @big_data_analysis | Другие наши каналы

Без тренировки, но с обучением: имплицитная динамика in-context learning Одной из наиболее примечательных особенностей Large Language Models (LLM) является их способность к in-context learning — обучению в контексте. В частности, на этапе инференса LLM может усваивать новые паттерны без какого-либо дополнительного обновления весов, если эти паттерны представлены в виде примеров в промпте, даже если эти паттерны не встречались во время обучения. Механизмы, за счёт которых это возможно, всё ещё во многом остаются неизвестными. В данной работе мы показываем, что комбинация слоя self-attention с MLP позволяет трансформер-блоку неявно модифицировать веса MLP-слоя в зависимости от контекста. Мы утверждаем на основе теоретического анализа и экспериментов, что этот простой механизм может объяснять, почему LLM способны обучаться в контексте, а не только во время тренировки модели. В частности, мы демонстрируем, что при ряде упрощающих допущений трансформер-блок неявно преобразует контекст в low-rank обновление весов MLP-слоя. Читать: https://habr.com/ru/articles/949064/ #ru @big_data_analysis | Другие наши каналы

📊 Data Governance Meetup: точные данные для вашего бизнеса Устали от хаоса в данных? 📍2 октября, Москва, 16.00 — офлайн-мит
📊 Data Governance Meetup: точные данные для вашего бизнеса Устали от хаоса в данных? 📍2 октября, Москва, 16.00 — офлайн-митап для специалистов по Data Governance. В программе: ⚪️ демонстрации ИИ в управлении данными ⚪️ yправление справочниками, повышение качества данных, интеграция систем ⚪️ кейсы внедрения Arenadata Harmony MDM, Arenadata Catalog и FESB Для вас будут выступать эксперты из HHru, ТМК, Navicon, Arenadata, Неолант Тенакс. 👉 Подробности и регистрация.

Лучшие фреймворки для машинного обучения в 2025 году Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта. В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор. Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей. Читать: https://habr.com/ru/companies/kryptonite/articles/950236/ #ru @big_data_analysis | Другие наши каналы

Нейтральное сравнение StarRocks и Apache Doris Это обзор двух проектов аналитических СУБД с открытым исходным кодом, которые развиваются в одном классе задач, но различаются архитектурой, приоритетами и типичными сценариями применения. Ниже — нейтральное сравнение по ключевым аспектам: архитектура и запросный движок, хранение и работа в реальном времени, интеграция с открытыми форматами и lakehouse, производительность, эксплуатация и управление, а также рекомендации по выбору в зависимости от нагрузки. Читать: https://habr.com/ru/articles/950214/ #ru @big_data_analysis | Другие наши каналы