Data Analysis / Big Data
Open in Telegram
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels
Show more2 751
Subscribers
+224 hours
+77 days
+2030 days
Posts Archive
Выжимаем максимум из опенсорсных моделей и готовим Text2SQL
В любой крупной компании есть повторяющийся сценарий. Аналитик сидит над экспериментом или моделью, строит А/В тесты и дашборды, и в этот момент приходит бизнес и просит быстро посмотреть «продажи жвачки за вчера». Аналитик переключается, пишет запрос, отдаёт результат, а через десять минут прилетает почти такой же вопрос. Потом ещё один и ещё. День заканчивается, а свои задачи стоят и покрываются ржавчиной.
Так выглядит ручной доступ к данным. Бизнес понимает, что нужные данные в хранилище есть, но не всегда может их быстро получить. А аналитик становится «бутылочным горлышком», через которое проходит большой поток запросов.
Мы хотели упростить работу с данными. Чтобы пользователь задавал вопрос, сервис превращал его в SQL, выполнял в хранилище и возвращал аналитический ответ. Чтобы рутина уходила в инструмент, а аналитик переставал быть «бутылочным горлышком».
Вроде ничего нового, но в реальной инфраструктуре вскрывается много интересного: специфическая лексика, свойственная каждому из направлений бизнеса, громоздкие витрины, опыт работы с легаси системами и поведение LLM, которую сначала надо надрессировать.
Читать: https://habr.com/ru/companies/oleg-bunin/articles/981494/
#ru
@big_data_analysis | Другие наши каналы
Разбираемся с GlowByte, как выбрать BI-платформу в 2026: от универсальных критериев к сценарному подходу
Всем привет! На связи практика Business Intelligence GlowByte. Открываем год полезной информацией.
В 2022 году мы опубликовали на Habr статью про выбор BI-платформы, публикация набрала более 24 000 просмотров. Тогда наш подход был простым: составили большую таблицу сравнения по множеству критериев, поставили баллы — и вуаля, выбирайте лидера.
Четыре года спустя понимаем: такой подход работал для своего времени, но сегодня устарел. В условиях большой неопределенности компании действительно искали универсальные решения "на все случаи жизни". Логика была понятной: выбираем один инструмент, который закроет максимум потребностей на годы вперед.
Но рынок BI созрел. Заказчики стали подходить к выбору осознаннее, исходя не из абстрактного функционала, а из конкретных бизнес-сценариев. И оказалось, что попытка найти "универсальную пилюлю" часто приводит к разочарованию.
Расскажу, как мы в GlowByte пересмотрели методику выбора BI и почему сценарный подход работает эффективнее.
Читать: https://habr.com/ru/companies/glowbyte/articles/986846/
#ru
@big_data_analysis | Другие наши каналы
Как мы переписали ядро Trino на Rust
CedrusData Engine — это lakehouse-движок, основанный на Trino. На реальных нагрузках наш продукт рутинно превосходит по производительности другие технологии (Trino, Doris, Dremio, StarRocks) в 1.5-3 раза, с еще более значительным отрывом от устаревших Greenplum и Impala. Эти результаты — следствие постоянных вложений в разработку новейших техник обработки больших данных. В этой статье я расскажу про проект Oxide — одну из наших ключевых инициатив прошлого года по переписыванию ядра Trino с Java на Rust.
Читать: https://habr.com/ru/companies/cedrusdata/articles/985602/
#ru
@big_data_analysis | Другие наши каналы
Решение обратной задачи рекомендаций: опыт участия в VK RecSys Challenge
В декабре 2025 года VK провёл RecSys Challenge LSVD — соревнование по машинному обучению с нестандартной постановкой задачи. Традиционные рекомендательные системы решают проблему "что показать пользователю", но здесь требовалось обратное: для каждого нового клипа определить, каким пользователям он может быть интересен. Такой подход помогает решать проблему холодного старта контента, когда новое видео только появляется в системе и не имеет истории взаимодействий.
Я принял участие в этом челлендже и хочу поделиться своим решением, архитектурой системы и практическими выводами.
Читать: https://habr.com/ru/articles/986440/
#ru
@big_data_analysis | Другие наши каналы
Как 17-летний писал RAG-алгоритм для хакатона AI for Finance Hack: ретроспектива
Привет, Хабр! Мой путь в мире IT официально начался относительно недавно: в октябре 2025 года. До этого программирование вообще не выходило за рамки увлечений. Но однажды я решил испытать удачу и выйти на тропу приключений, после которой я уже не вернулся прежним...
Читать: https://habr.com/ru/articles/986180/
#ru
@big_data_analysis | Другие наши каналы
Титаник глазами новичка в 2026
Эта статья проведёт вас через классический проект по машинному обучению — анализ датасета Titanic. Мы разберём полный цикл работы: от первоначального знакомства с данными и их очистки до построения и валидации первых предсказательных моделей. Вы узнаете, как преобразовывать категориальные признаки, создавать новые переменные, бороться с пропущенными значениями и оценивать качество моделей через ключевые метрики. На примере Random Forest и логистической регрессии наглядно показываю, как разные алгоритмы решают одну задачу и почему выбор модели зависит от поставленной цели.
Читать: https://habr.com/ru/articles/986128/
#ru
@big_data_analysis | Другие наши каналы
Куда Clickhouse прячет данные и как их восстановить
Clickhouse никогда не удаляет ваши данные, главное помнить об этом и знать где искать. Наш кейс миграции на Clickhouse Keeper, история потери и восстановления данных
Читать: https://habr.com/ru/articles/985844/
#ru
@big_data_analysis | Другие наши каналы
Available now! Telegram Research 2025 — the year's key insights 
