Data Analysis / Big Data
Open in Telegram
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels
Show more2 751
Subscribers
-224 hours
+37 days
+1830 days
Posts Archive
Ну ты это, заходи если чё: как сделать единую систему авторизации в корпоративных ботах
Привет, Хабр! На связи команда данных «МосТрансПроекта». Недавно мы рассказывали про бот «Информатум», в котором хранятся служебные презентации. При разработке системы мы уделили особое внимание защите чувствительной информации. Поэтому доступ к материалам предоставляется сотрудникам только после авторизации и подтверждения их данных. Но что, если появится еще несколько ботов? Неужели сотрудникам придется каждый раз проходить проверку для доступа к новым сервисам, а администраторам тратить время на верификацию? Для решения этой задачи мы разработали универсальное и экономящее время решение, о котором расскажем в данной статье.
Читать: https://habr.com/ru/companies/mostransproekt/articles/907336/
#ru
@big_data_analysis | Другие наши каналы
Oracle Analytics объявила послов 2025 года
В Oracle Analytics назвали своих послов 2025 года — активных участников сообщества, которые вдохновляют, помогают коллегам и продвигают развитие аналитики. Их вклад признан за полезные идеи и поддержку пользователей.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Персонализация отчетов в OAC: как пользователи могут сохранять фильтры с помощью функции custom states. Узнайте, как эта возможность помогает улучшить рабочие процессы и адаптировать отчеты под свои нужды без дополнительных настроек.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Подготовка Oracle Analytics Cloud к нагрузочному тестированию с Apache JMeter
В статье рассказывается, как корректно настроить Oracle Analytics Cloud для проведения производительного тестирования с помощью Apache JMeter. Этот материал поможет понять ключевые этапы подготовки и оптимизации платформы.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Что такое MLFlow и как он помогает в разработке моделей
Многие начинающие в ML наверняка сталкивались с ситуацией: вы пробуете разные модели, меняете параметры, запускаете обучение снова и снова… и через пару дней уже не можете вспомнить, какой именно набор параметров дал тот самый лучший результат. Или, что еще хуже, вы получили отличную модель на своем ноутбуке, а у коллеги на его машине она не воспроизводится. На помощь придет MLflow.
Читать: https://habr.com/ru/articles/908618/
#ru
@big_data_analysis | Другие наши каналы
База для аналитики данных. Как получать данные?
Я убеждён в том, что аналитикам данных критически-важно иметь доступ без боли, искажений и рисков к наиболее детализированным данным проекта для исполнения своих обязанностей..
Нет данных - нет мультиков аналитики. Работа только с агрегированными и преобразованными по непрозрачной логике данными приводит к ошибкам и отсутствию доверия от бизнеса.
Статья может быть полезна к изучению при принятии решений о развитии аналитики с 0 в проекте.
К сожалению, вопросу получения данных часто не уделяется хоть какое-то внимание.
Бизнесу интересно не получение данных, а инсайты и рекомендации. Принято отдавать этот вопрос на откуп аналитикам и взаимодействию аналитиков и IT. Только у аналитиков редко есть опыт и понимание лучших практик по работе с данными и для IT задача использования данных аналитиками может быть чем-то чужеродным.
Тем не менее, как-то они договариваются. Не сталкивался с примерами, когда совсем не договорились и никакой аналитики нет.
Сталкивался с разными вариантами урона от реализации.
Что там за варианты
Читать: https://habr.com/ru/articles/908230/
#ru
@big_data_analysis | Другие наши каналы
Join таблиц в реальном времени на Apache Flink ( Часть 2 )
В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций
update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.
Читать: https://habr.com/ru/articles/908220/
#ru
@big_data_analysis | Другие наши каналыКак Duolingo юзает машинное обучение для прокачки английского: кратко и по делу
Теперь всё, что раньше делали люди — создание курсов, проверку ответов, адаптацию персонализированных заданий — почти полностью взял на себя ИИ.
Duolingo — это уже давно не просто приложение с разноцветными совами и скучными заданиями. В 2025-м генеративный ИИ позволил Duolingo быстро создавать новые курсы, и за год почти удвоить число языковых курсов! Как им это удалось и что это значит лично для тебя — рассказываем подробнее...
Читать: https://habr.com/ru/companies/datafeel/articles/907412/
#ru
@big_data_analysis | Другие наши каналы
Join таблиц в реальном времени на Apache Flink
Статья посвящена реализации join-операций в системах потоковой обработки данных на базе Apache Flink. Рассматриваются основные подходы к объединению потоков в реальном времени, включая
inner join, а также паттерны дедупликации. Уделено внимание использованиюKeyedCoProcessFunction для построения отказоустойчивых и масштабируемых join-пайплайнов. Работа ориентирована на инженеров, строящих real-time витрины и сложные трансформации на Flink в продакшене.
Читать: https://habr.com/ru/articles/907664/
#ru
@big_data_analysis | Другие наши каналыДообучение моделей на своих данных — просто и эффективно
В мире ИИ сложился миф, что для эффективной работы с языковыми моделями нужны огромные вычислительные мощности и команда дорогих специалистов. Но правда в том, что сегодня даже небольшая компания или отдельный разработчик могут создавать умные решения, адаптированные под свои нужды.
Читать: https://habr.com/ru/articles/907542/
#ru
@big_data_analysis | Другие наши каналы
DBT: трансформация данных без боли
Привет! Меня зовут Кирилл Львов, я fullstack-разработчик в компании СберАналитика. В этой статье хочу рассказать про мощный инструмент трансформации данных — DBT (Data Build Tool).
Сегодня любой средний и крупный бизнес хранит множество данных в разрозненных источниках (CRM, ERP, HRM, базы данных, файловые хранилища и т.д.). Каждая из этих систем самодостаточна и закрывает определённую боль бизнеса, но собрав данные из таких источников и стандартизировав их, нам открывается возможность анализировать данные, строить модели машинного обучения и принимать на основе этих данных управленческие решения. Для того чтобы реализовать такой подход строятся ELT (или ETL) процессы. ELT (Extract, Load, Transform) — это процесс, состоящий из трех этапов:
Читать: https://habr.com/ru/articles/907540/
#ru
@big_data_analysis | Другие наши каналы
Анализ видео с помощью Oracle AI Vision
В статье рассказывается, как в пять шагов проводить анализ видео с использованием Oracle AI Vision Video Analysis и Oracle Analytics. Это удобно для быстрой и эффективной обработки видеоданных. Узнайте о современных технологиях анализа видео.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Data-driven в одном iGaming проекте: когда культура работы с данными не приживается
Казалось бы, преимущества найма специалистов по данным сегодня очевидны — нанимай и принимай качественно лучшие решения. Однако на практике многие компании сталкиваются с трудностями. Предлагаю разобраться
Читать: https://habr.com/ru/articles/907282/
#ru
@big_data_analysis | Другие наши каналы
Бизнес в эпоху LLM: успешные кейсы и дальнейшие перспективы
Вокруг LLM идёт большой ажиотаж, но помимо шумихи и обещаний, языковые модели в последнее время действительно находят свою нишу, где их можно эффективно применять. В статье я бы хотел поделиться опытом реализации подобных проектов и перспектив, которые мы выделяем как перспективные, некоторыми инсайтами по их применению. Те, кому может быть интересен подобный опыт и для кого языковые модели ещё не превратились в рутину, добро пожаловать под кат :)
Читать: https://habr.com/ru/articles/905596/
#ru
@big_data_analysis | Другие наши каналы
Сравниваем быстродействие новой функциональности ClickHouse по поиску ближайших векторов с другими решениями
Всем привет! Меня зовут Диана Бутько, я студентка 3 курса, изучаю информационные системы и программирование. В InfoWatch я пришла на практику, и одной из моих задач стал сравнительный анализ различных методов поиска похожих векторов. Это один из ключевых аспектов машинного обучения и анализа данных, используемых в рекомендательных системах, кластеризации, семантическом поиске и других областях. Но чем больше объем данных, тем важнее становится выбор инструментов: полный перебор векторов требует больших вычислительных ресурсов, а в других алгоритмах порой необходимо балансировать между точностью и скоростью поиска.
В этой статье я сравниваю пять методов поиска похожих векторов:
— полный перебор по евклидову расстоянию с реализацией в Python;
— FAISS с индексами IndexFlatL2 (полный перебор, евклидово расстояние) и IndexIVFFlat (сегментирование по ячейкам, евклидово расстояние);
— векторный поиск в ClickHouse с индексом HNSW и метриками расстояния L2Distance (евклидово расстояние) и cosineDistance (косинусное сходство).
Читать: https://habr.com/ru/companies/infowatch/articles/905916/
#ru
@big_data_analysis | Другие наши каналы
Что покажет бенчмарк? Оценка мультиагентных систем в действии
Изучим бенчмарк для мультиагентных систем, его методологии и применение в оценке производительности агентов в сложных средах.
Читать: https://habr.com/ru/articles/904904/
#ru
@big_data_analysis | Другие наши каналы
Процент лжи
Всем привет, меня зовут Виталий, аналитик данных и автор телеграмм канала "Детектив данных" и тон поста во многом определяет этот факт.
Однажды на мой красивый дашборд пришёл руководитель одного из направлений с претензией что его направление в конкретном регионе дало минус 60 тысяч процентов - хотя на самом деле там должно быть плюс, так как показатель аналогичного периода прошлого ушёл в минуса по определённой причине.
Так и появилась, да и вскоре решилась, проблема со знаком и выявлена ошибка в элементарной формуле которую использовали все коллеги вокруг
Следующий фундаментальный вопрос который возник, и который еще предстоит решить - это как раз эти злополучные тысячи процентов - на верхних уровнях их не видно, но при накидывания фильтров в определенных разрезах эти значения ломают как и графики, так и гистограммы в таблицах. Да и кажется что такие значения - они и не нужны - все прекрасно понимают что тысячи процентов прироста - это скорее выбросы связанные с пересегментацией, возвратами и кривыми данными какого-нибудь иного вида. Мы же от нуля не можем посчитать прирост, тогда с какой стати мы должны его считать от отрицательного значения?
А пока решал проблему - сама собой и пришла идея обернуть этот "кейс" в детективный формат. Приятного чтения!
1 акт. «Минус на минус»
В один туманно-серый вечер понедельника к детективу данных в дверь постучал встревоженный дата аналитик. Он держал в руках старый учебник по математике весь исписанный формулами и процентами.
«Привет, детектив! Тут что-то не так. Я анализировал продажи по формулам из интернета и книг. Но они нас обманывали! Формула неправильная.»
Читать: https://habr.com/ru/articles/906950/
#ru
@big_data_analysis | Другие наши каналы
Победители Oracle Analytics Data Visualization Challenge 2025
Публикация раскрывает имена 15 лауреатов престижного конкурса по визуализации данных от Oracle. Узнайте, какие проекты были признаны лучшими в 2025 году и вдохновляйтесь творческими подходами участников!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Настройка JMeter для тестирования Oracle Analytics Cloud
В статье рассматривается процесс подготовки Apache JMeter на Linux для тестирования производительности Oracle Analytics Cloud. Узнайте, как эффективно настроить JMeter, чтобы он стал надежным инструментом для анализа и оптимизации облачного решения.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Будущее трансформеров: от громоздких моделей к персональным обучаемым агентам
Современные большие языковые модели впечатляют, но остаются громоздкими и статичными. В ближайшие годы мы перейдём от таких «гигантов» к персональным ИИ-спутникам: компактным и обучаемым на ходу. Ключ к этому — долговременная память (mem-векторы), модульные трансформеры, параметро-эффективное дообучение, внешние базы знаний и жёсткая оптимизация под локальное железо. Разбираем, какие технологии уже работают, какие ещё только вырастают из лабораторий и что ждёт нас завтра.
Будущее трансформеров
Читать: https://habr.com/ru/articles/906610/
#ru
@big_data_analysis | Другие наши каналы
Available now! Telegram Research 2025 — the year's key insights 
