Data Analysis / Big Data

Kanalga Telegram’da o‘tish

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

Ko'proq ko'rsatish

Tarmoq:Типичный программист Rossiya177 057 Texnologiyalar & Aralashmalar26 806

2 751

Obunachilar

-224 soatlar

+37 kunlar

+1830 kunlar

662

Post ko'rishlar

Ma'lumot yo'q24 soatlar

Ma'lumot yo'q48 soatlar

24.06%

Muloqot nisbati

Ma'lumot yo'q

Kuniga postlar

Ads index

beta

Postlar arxiv

2 751

Ну ты это, заходи если чё: как сделать единую систему авторизации в корпоративных ботах Привет, Хабр! На связи команда данных «МосТрансПроекта». Недавно мы рассказывали про бот «Информатум», в котором хранятся служебные презентации. При разработке системы мы уделили особое внимание защите чувствительной информации. Поэтому доступ к материалам предоставляется сотрудникам только после авторизации и подтверждения их данных. Но что, если появится еще несколько ботов? Неужели сотрудникам придется каждый раз проходить проверку для доступа к новым сервисам, а администраторам тратить время на верификацию? Для решения этой задачи мы разработали универсальное и экономящее время решение, о котором расскажем в данной статье. Читать: https://habr.com/ru/companies/mostransproekt/articles/907336/ #ru @big_data_analysis | Другие наши каналы

2 751

Oracle Analytics объявила послов 2025 года В Oracle Analytics назвали своих послов 2025 года — активных участников сообщества, которые вдохновляют, помогают коллегам и продвигают развитие аналитики. Их вклад признан за полезные идеи и поддержку пользователей. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 751

Персонализация отчетов в OAC: как пользователи могут сохранять фильтры с помощью функции custom states. Узнайте, как эта возможность помогает улучшить рабочие процессы и адаптировать отчеты под свои нужды без дополнительных настроек. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 751

Подготовка Oracle Analytics Cloud к нагрузочному тестированию с Apache JMeter В статье рассказывается, как корректно настроить Oracle Analytics Cloud для проведения производительного тестирования с помощью Apache JMeter. Этот материал поможет понять ключевые этапы подготовки и оптимизации платформы. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 751

Что такое MLFlow и как он помогает в разработке моделей Многие начинающие в ML наверняка сталкивались с ситуацией: вы пробуете разные модели, меняете параметры, запускаете обучение снова и снова… и через пару дней уже не можете вспомнить, какой именно набор параметров дал тот самый лучший результат. Или, что еще хуже, вы получили отличную модель на своем ноутбуке, а у коллеги на его машине она не воспроизводится. На помощь придет MLflow. Читать: https://habr.com/ru/articles/908618/ #ru @big_data_analysis | Другие наши каналы

2 751

База для аналитики данных. Как получать данные? Я убеждён в том, что аналитикам данных критически-важно иметь доступ без боли, искажений и рисков к наиболее детализированным данным проекта для исполнения своих обязанностей.. Нет данных - нет мультиков аналитики. Работа только с агрегированными и преобразованными по непрозрачной логике данными приводит к ошибкам и отсутствию доверия от бизнеса. Статья может быть полезна к изучению при принятии решений о развитии аналитики с 0 в проекте. К сожалению, вопросу получения данных часто не уделяется хоть какое-то внимание. Бизнесу интересно не получение данных, а инсайты и рекомендации. Принято отдавать этот вопрос на откуп аналитикам и взаимодействию аналитиков и IT. Только у аналитиков редко есть опыт и понимание лучших практик по работе с данными и для IT задача использования данных аналитиками может быть чем-то чужеродным. Тем не менее, как-то они договариваются. Не сталкивался с примерами, когда совсем не договорились и никакой аналитики нет. Сталкивался с разными вариантами урона от реализации. Что там за варианты Читать: https://habr.com/ru/articles/908230/ #ru @big_data_analysis | Другие наши каналы

2 751

Join таблиц в реальном времени на Apache Flink ( Часть 2 ) В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется. Читать: https://habr.com/ru/articles/908220/ #ru @big_data_analysis | Другие наши каналы

2 751

Как Duolingo юзает машинное обучение для прокачки английского: кратко и по делу Теперь всё, что раньше делали люди — создание курсов, проверку ответов, адаптацию персонализированных заданий — почти полностью взял на себя ИИ. Duolingo — это уже давно не просто приложение с разноцветными совами и скучными заданиями. В 2025-м генеративный ИИ позволил Duolingo быстро создавать новые курсы, и за год почти удвоить число языковых курсов! Как им это удалось и что это значит лично для тебя — рассказываем подробнее... Читать: https://habr.com/ru/companies/datafeel/articles/907412/ #ru @big_data_analysis | Другие наши каналы

2 751

Join таблиц в реальном времени на Apache Flink Статья посвящена реализации join-операций в системах потоковой обработки данных на базе Apache Flink. Рассматриваются основные подходы к объединению потоков в реальном времени, включая inner join, а также паттерны дедупликации. Уделено внимание использованиюKeyedCoProcessFunction для построения отказоустойчивых и масштабируемых join-пайплайнов. Работа ориентирована на инженеров, строящих real-time витрины и сложные трансформации на Flink в продакшене. Читать: https://habr.com/ru/articles/907664/ #ru @big_data_analysis | Другие наши каналы

2 751

Дообучение моделей на своих данных — просто и эффективно В мире ИИ сложился миф, что для эффективной работы с языковыми моделями нужны огромные вычислительные мощности и команда дорогих специалистов. Но правда в том, что сегодня даже небольшая компания или отдельный разработчик могут создавать умные решения, адаптированные под свои нужды. Читать: https://habr.com/ru/articles/907542/ #ru @big_data_analysis | Другие наши каналы

2 751

DBT: трансформация данных без боли Привет! Меня зовут Кирилл Львов, я fullstack-разработчик в компании СберАналитика. В этой статье хочу рассказать про мощный инструмент трансформации данных — DBT (Data Build Tool). Сегодня любой средний и крупный бизнес хранит множество данных в разрозненных источниках (CRM, ERP, HRM, базы данных, файловые хранилища и т.д.). Каждая из этих систем самодостаточна и закрывает определённую боль бизнеса, но собрав данные из таких источников и стандартизировав их, нам открывается возможность анализировать данные, строить модели машинного обучения и принимать на основе этих данных управленческие решения. Для того чтобы реализовать такой подход строятся ELT (или ETL) процессы. ELT (Extract, Load, Transform) — это процесс, состоящий из трех этапов: Читать: https://habr.com/ru/articles/907540/ #ru @big_data_analysis | Другие наши каналы

2 751

Анализ видео с помощью Oracle AI Vision В статье рассказывается, как в пять шагов проводить анализ видео с использованием Oracle AI Vision Video Analysis и Oracle Analytics. Это удобно для быстрой и эффективной обработки видеоданных. Узнайте о современных технологиях анализа видео. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 751

Data-driven в одном iGaming проекте: когда культура работы с данными не приживается Казалось бы, преимущества найма специалистов по данным сегодня очевидны — нанимай и принимай качественно лучшие решения. Однако на практике многие компании сталкиваются с трудностями. Предлагаю разобраться Читать: https://habr.com/ru/articles/907282/ #ru @big_data_analysis | Другие наши каналы

2 751

Бизнес в эпоху LLM: успешные кейсы и дальнейшие перспективы Вокруг LLM идёт большой ажиотаж, но помимо шумихи и обещаний, языковые модели в последнее время действительно находят свою нишу, где их можно эффективно применять. В статье я бы хотел поделиться опытом реализации подобных проектов и перспектив, которые мы выделяем как перспективные, некоторыми инсайтами по их применению. Те, кому может быть интересен подобный опыт и для кого языковые модели ещё не превратились в рутину, добро пожаловать под кат :) Читать: https://habr.com/ru/articles/905596/ #ru @big_data_analysis | Другие наши каналы

2 751

Сравниваем быстродействие новой функциональности ClickHouse по поиску ближайших векторов с другими решениями Всем привет! Меня зовут Диана Бутько, я студентка 3 курса, изучаю информационные системы и программирование. В InfoWatch я пришла на практику, и одной из моих задач стал сравнительный анализ различных методов поиска похожих векторов. Это один из ключевых аспектов машинного обучения и анализа данных, используемых в рекомендательных системах, кластеризации, семантическом поиске и других областях. Но чем больше объем данных, тем важнее становится выбор инструментов: полный перебор векторов требует больших вычислительных ресурсов, а в других алгоритмах порой необходимо балансировать между точностью и скоростью поиска. В этой статье я сравниваю пять методов поиска похожих векторов: — полный перебор по евклидову расстоянию с реализацией в Python; — FAISS с индексами IndexFlatL2 (полный перебор, евклидово расстояние) и IndexIVFFlat (сегментирование по ячейкам, евклидово расстояние); — векторный поиск в ClickHouse с индексом HNSW и метриками расстояния L2Distance (евклидово расстояние) и cosineDistance (косинусное сходство). Читать: https://habr.com/ru/companies/infowatch/articles/905916/ #ru @big_data_analysis | Другие наши каналы

2 751

Что покажет бенчмарк? Оценка мультиагентных систем в действии Изучим бенчмарк для мультиагентных систем, его методологии и применение в оценке производительности агентов в сложных средах. Читать: https://habr.com/ru/articles/904904/ #ru @big_data_analysis | Другие наши каналы

2 751

Процент лжи Всем привет, меня зовут Виталий, аналитик данных и автор телеграмм канала "Детектив данных" и тон поста во многом определяет этот факт. Однажды на мой красивый дашборд пришёл руководитель одного из направлений с претензией что его направление в конкретном регионе дало минус 60 тысяч процентов - хотя на самом деле там должно быть плюс, так как показатель аналогичного периода прошлого ушёл в минуса по определённой причине. Так и появилась, да и вскоре решилась, проблема со знаком и выявлена ошибка в элементарной формуле которую использовали все коллеги вокруг Следующий фундаментальный вопрос который возник, и который еще предстоит решить - это как раз эти злополучные тысячи процентов - на верхних уровнях их не видно, но при накидывания фильтров в определенных разрезах эти значения ломают как и графики, так и гистограммы в таблицах. Да и кажется что такие значения - они и не нужны - все прекрасно понимают что тысячи процентов прироста - это скорее выбросы связанные с пересегментацией, возвратами и кривыми данными какого-нибудь иного вида. Мы же от нуля не можем посчитать прирост, тогда с какой стати мы должны его считать от отрицательного значения? А пока решал проблему - сама собой и пришла идея обернуть этот "кейс" в детективный формат. Приятного чтения! 1 акт. «Минус на минус» В один туманно-серый вечер понедельника к детективу данных в дверь постучал встревоженный дата аналитик. Он держал в руках старый учебник по математике весь исписанный формулами и процентами. «Привет, детектив! Тут что-то не так. Я анализировал продажи по формулам из интернета и книг. Но они нас обманывали! Формула неправильная.» Читать: https://habr.com/ru/articles/906950/ #ru @big_data_analysis | Другие наши каналы

2 751

Победители Oracle Analytics Data Visualization Challenge 2025 Публикация раскрывает имена 15 лауреатов престижного конкурса по визуализации данных от Oracle. Узнайте, какие проекты были признаны лучшими в 2025 году и вдохновляйтесь творческими подходами участников! Читать подробнее #en @big_data_analysis | Другие наши каналы

2 751

Настройка JMeter для тестирования Oracle Analytics Cloud В статье рассматривается процесс подготовки Apache JMeter на Linux для тестирования производительности Oracle Analytics Cloud. Узнайте, как эффективно настроить JMeter, чтобы он стал надежным инструментом для анализа и оптимизации облачного решения. Читать подробнее #en @big_data_analysis | Другие наши каналы

2 751

Будущее трансформеров: от громоздких моделей к персональным обучаемым агентам Современные большие языковые модели впечатляют, но остаются громоздкими и статичными. В ближайшие годы мы перейдём от таких «гигантов» к персональным ИИ-спутникам: компактным и обучаемым на ходу. Ключ к этому — долговременная память (mem-векторы), модульные трансформеры, параметро-эффективное дообучение, внешние базы знаний и жёсткая оптимизация под локальное железо. Разбираем, какие технологии уже работают, какие ещё только вырастают из лабораторий и что ждёт нас завтра. Будущее трансформеров Читать: https://habr.com/ru/articles/906610/ #ru @big_data_analysis | Другие наши каналы