ch
Feedback
Data Analysis / Big Data

Data Analysis / Big Data

前往频道在 Telegram

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels

显示更多
2 751
订阅者
+224 小时
+77
+2030
帖子存档
Выжимаем максимум из опенсорсных моделей и готовим Text2SQL В любой крупной компании есть повторяющийся сценарий. Аналитик сидит над экспериментом или моделью, строит А/В тесты и дашборды, и в этот момент приходит бизнес и просит быстро посмотреть «продажи жвачки за вчера». Аналитик переключается, пишет запрос, отдаёт результат, а через десять минут прилетает почти такой же вопрос. Потом ещё один и ещё. День заканчивается, а свои задачи стоят и покрываются ржавчиной. Так выглядит ручной доступ к данным. Бизнес понимает, что нужные данные в хранилище есть, но не всегда может их быстро получить. А аналитик становится «бутылочным горлышком», через которое проходит большой поток запросов. Мы хотели упростить работу с данными. Чтобы пользователь задавал вопрос, сервис превращал его в SQL, выполнял в хранилище и возвращал аналитический ответ. Чтобы рутина уходила в инструмент, а аналитик переставал быть «бутылочным горлышком». Вроде ничего нового, но в реальной инфраструктуре вскрывается много интересного: специфическая лексика, свойственная каждому из направлений бизнеса, громоздкие витрины, опыт работы с легаси системами и поведение LLM, которую сначала надо надрессировать. Читать: https://habr.com/ru/companies/oleg-bunin/articles/981494/ #ru @big_data_analysis | Другие наши каналы

Разбираемся с GlowByte, как выбрать BI-платформу в 2026: от универсальных критериев к сценарному подходу Всем привет! На связи практика Business Intelligence GlowByte. Открываем год полезной информацией. В 2022 году мы опубликовали на Habr статью про выбор BI-платформы, публикация набрала более 24 000 просмотров. Тогда наш подход был простым: составили большую таблицу сравнения по множеству критериев, поставили баллы — и вуаля, выбирайте лидера. Четыре года спустя понимаем: такой подход работал для своего времени, но сегодня устарел. В условиях большой неопределенности компании действительно искали универсальные решения "на все случаи жизни". Логика была понятной: выбираем один инструмент, который закроет максимум потребностей на годы вперед. Но рынок BI созрел. Заказчики стали подходить к выбору осознаннее, исходя не из абстрактного функционала, а из конкретных бизнес-сценариев. И оказалось, что попытка найти "универсальную пилюлю" часто приводит к разочарованию. Расскажу, как мы в GlowByte пересмотрели методику выбора BI и почему сценарный подход работает эффективнее. Читать: https://habr.com/ru/companies/glowbyte/articles/986846/ #ru @big_data_analysis | Другие наши каналы

Как мы переписали ядро Trino на Rust CedrusData Engine — это lakehouse-движок, основанный на Trino. На реальных нагрузках наш продукт рутинно превосходит по производительности другие технологии (Trino, Doris, Dremio, StarRocks) в 1.5-3 раза, с еще более значительным отрывом от устаревших Greenplum и Impala. Эти результаты — следствие постоянных вложений в разработку новейших техник обработки больших данных. В этой статье я расскажу про проект Oxide — одну из наших ключевых инициатив прошлого года по переписыванию ядра Trino с Java на Rust. Читать: https://habr.com/ru/companies/cedrusdata/articles/985602/ #ru @big_data_analysis | Другие наши каналы

Решение обратной задачи рекомендаций: опыт участия в VK RecSys Challenge В декабре 2025 года VK провёл RecSys Challenge LSVD — соревнование по машинному обучению с нестандартной постановкой задачи. Традиционные рекомендательные системы решают проблему "что показать пользователю", но здесь требовалось обратное: для каждого нового клипа определить, каким пользователям он может быть интересен. Такой подход помогает решать проблему холодного старта контента, когда новое видео только появляется в системе и не имеет истории взаимодействий. Я принял участие в этом челлендже и хочу поделиться своим решением, архитектурой системы и практическими выводами. Читать: https://habr.com/ru/articles/986440/ #ru @big_data_analysis | Другие наши каналы

Как 17-летний писал RAG-алгоритм для хакатона AI for Finance Hack: ретроспектива Привет, Хабр! Мой путь в мире IT официально начался относительно недавно: в октябре 2025 года. До этого программирование вообще не выходило за рамки увлечений. Но однажды я решил испытать удачу и выйти на тропу приключений, после которой я уже не вернулся прежним... Читать: https://habr.com/ru/articles/986180/ #ru @big_data_analysis | Другие наши каналы

Титаник глазами новичка в 2026 Эта статья проведёт вас через классический проект по машинному обучению — анализ датасета Titanic. Мы разберём полный цикл работы: от первоначального знакомства с данными и их очистки до построения и валидации первых предсказательных моделей. Вы узнаете, как преобразовывать категориальные признаки, создавать новые переменные, бороться с пропущенными значениями и оценивать качество моделей через ключевые метрики. На примере Random Forest и логистической регрессии наглядно показываю, как разные алгоритмы решают одну задачу и почему выбор модели зависит от поставленной цели. Читать: https://habr.com/ru/articles/986128/ #ru @big_data_analysis | Другие наши каналы

Куда Clickhouse прячет данные и как их восстановить Clickhouse никогда не удаляет ваши данные, главное помнить об этом и знать где искать. Наш кейс миграции на Clickhouse Keeper, история потери и восстановления данных Читать: https://habr.com/ru/articles/985844/ #ru @big_data_analysis | Другие наши каналы