DATABASE DESIGN - Statistics & analytics of Telegram channel @database

1 353

Как работать с OpenSearch: обзор полнотекстового поиска и пример использования В этой статье мы подробно рассмотрим все ключевые параметры OpenSearch, включая дашборды, документы, индексы, узлы, кластеры, шардирование, инвертированные индексы и сам процесс индексации. Понимание этих аспектов позволит максимально эффективно использовать OpenSearch для решения задач поиска и анализа данных в любых проектах. Привет, Хабр! Меня зовут Евгений Ляшенко, я старший разработчик IBS. В эпоху, когда объемы данных растут с каждым днем, эффективный поиск информации становится критически важным для бизнеса и разработчиков. OpenSearch как мощный инструмент для полнотекстового поиска и аналитики предлагает гибкие решения для работы с большими массивами данных. Чтобы наглядно продемонстрировать его работу, я создал pet-проект с поиском по библиотеке книг и фильмов. Но сначала немного теории. Читать: https://habr.com/ru/companies/ibs/articles/939780/ #ru @database_design | Другие наши каналы

1 353

Как мы оптимизировали сбор данных для отчёта маркетологов и придумали новую Google Analytics В этой статье — история о том, как мы вместе с командой Аналитики цифровых продуктов работали над одной небольшой фичей и в процессе создали собственную альтернативу известной платформе для сбора статистики пользователей сайтов. Пару слов о нашей команде и о том, чем мы занимаемся. У нас 6 инженеров данных и 5 аналитиков — вместе мы помогаем продуктовым командам (тем, кто развивает сайты и приложения) создавать дашборды и отчёты. Они нужны для того, чтобы коллеги видели, как их изменения влияют на бизнес-метрики и поведение пользователей. Вторая часть нашей работы — поддержка маркетологов. Мы помогаем им анализировать эффективность продвижения Спортмастера и других наших брендов: где увеличивать бюджеты, где сокращать и как быстро оценивать результат. В общем, мы те, кто превращает данные в понятные решения. Как появилась задача Наши пользователи — маркетологи — каждую неделю сталкивались с одной проблемой. По вторникам у них проходят планёрки с руководством, где они разбирают результаты прошлой недели: что сработало, что можно улучшить. Им критично важно к этому времени уже иметь готовый отчёт, чтобы успеть проанализировать данные и принять решения по рекламе. Однако наш продукт выдавал отчёты только к 16:00. Кому-то хватает часа на подготовку, кому-то трёх, но пользователи жаловались: они просто не успевают осмыслить данные и сформулировать выводы. Коллеги обратились к нам с запросом: перенести формирование отчетов на 12:00, чтобы оставалось больше времени на анализ. И мы стали думать, как это сделать своими силами без увеличения команды. Читать: https://habr.com/ru/companies/sportmaster_lab/articles/939296/ #ru @database_design | Другие наши каналы

1 353

Как мы оптимизировали сбор данных для отчёта маркетологов и придумали новую Google Analytics В этой статье — история о том, как мы вместе с командой Аналитики цифровых продуктов работали над одной небольшой фичей и в процессе создали собственную альтернативу известной платформе для сбора статистики пользователей сайтов. Пару слов о нашей команде и о том, чем мы занимаемся. У нас 6 инженеров данных и 5 аналитиков — вместе мы помогаем продуктовым командам (тем, кто развивает сайты и приложения) создавать дашборды и отчёты. Они нужны для того, чтобы коллеги видели, как их изменения влияют на бизнес-метрики и поведение пользователей. Вторая часть нашей работы — поддержка маркетологов. Мы помогаем им анализировать эффективность продвижения Спортмастера и других наших брендов: где увеличивать бюджеты, где сокращать и как быстро оценивать результат. В общем, мы те, кто превращает данные в понятные решения. Как появилась задача Наши пользователи — маркетологи — каждую неделю сталкивались с одной проблемой. По вторникам у них проходят планёрки с руководством, где они разбирают результаты прошлой недели: что сработало, что можно улучшить. Им критично важно к этому времени уже иметь готовый отчёт, чтобы успеть проанализировать данные и принять решения по рекламе. Однако наш продукт выдавал отчёты только к 16:00. Кому-то хватает часа на подготовку, кому-то трёх, но пользователи жаловались: они просто не успевают осмыслить данные и сформулировать выводы. Коллеги обратились к нам с запросом: перенести формирование отчетов на 12:00, чтобы оставалось больше времени на анализ. И мы стали думать, как это сделать своими силами без увеличения команды. Читать: https://habr.com/ru/companies/sportmaster_lab/articles/939296/ #ru @database_design | Другие наши каналы

1 353

Как выстроить процессы управления документацией в компании на примере АХО В организациях зачастую можно наблюдать картину, когда разные отделы используют разные системы создания и ведения документации. Это ведет к нескольким проблемам: — Отсутствие контроля структуры и содержания документа. — Проблема совместимости файлов и форматов. — Отсутствие единого хранилища и версионированию. — Замедление согласования из‑за отсутствия интеграции с системами электронного — документооборота. — Дублирование документов. — Сложность с отчетностью и аудиторскими проверками — документы, в т.ч. архивные, не хранятся централизованно. — Дополнительные затраты для обучения персонала и поддержке нескольких систем. Как можно решить всю совокупность этих проблем? Лучшим вариантом является гибкая система документооборота с возможностью согласования документов прямо в системе, единым хранилищем документов (в том числе архивных) и возможностью отслеживания версий документов, которая может быть использована во всех отделах компании, чтобы не увеличивать количество используемых инструментов и затраты на поддержку систем в компании. И на рынке есть система, удовлетворяющая всем этим запросам — это Сфера.Документы. Рассмотрим конкретный бизнес‑сценарий, когда административно‑хозяйственному отделу (АХО) нужно закупить мелкое оборудование для ремонта офиса. Читать: https://habr.com/ru/companies/T1Holding/articles/936044/ #ru @database_design | Другие наши каналы

1 353

Обновление MariaDB Connector/C 3.4.7 и 3.3.17 уже доступно для загрузки. В новых версиях исправлены ошибки и улучшена совместимость. Подробности в официальных заметках к релизу на сайте MariaDB. Читать подробнее #en @database_design | Другие наши каналы

1 353

От реляционных СУБД к экосистеме Hadoop Привет, хабр! Недавно я понял, что не знаю, что такое Hadoop. (На этом моменте становится понятно, что данная статья ориентирована на людей, которые не имеют экспертизы и реального опыта взаимодействия с продуктами экосистемы Hadoop) Сам я являюсь разработчиком, и ежедневно взаимодействую с различными СУБД – в основном, с пресловутой PostgreSQL. Каково же было мое удивление, когда я узнал, что на проде в эту БД данные попадают не напрямую – а с какого-то Greenplum, а туда они, в свою очередь, приходят с некоего Hadoop. В этот момент я решил узнать, чем обоснована необходимость использования этих инструментов и что они из себя представляют. Читать: https://habr.com/ru/articles/939520/ #ru @database_design | Другие наши каналы

1 353

Новая эпоха ИИ требует инноваций в работе с данными. В статье рассказано о возможностях MongoDB Atlas: объединённые хранилища, долговременная память ИИ-агентов и эффективный векторный поиск на примере Amazon Reviews. Узнайте подробнее! Читать подробнее #en @database_design | Другие наши каналы

1 353

Не лает, не кусает, в 1С не пускает. Что поможет спасти ваши базы 1С от критической уязвимости BDU:2025-07182 17.06.2025 г. ФСТЭК России зафиксирована критическая уязвимость в платформе 1С:Предприятие 8 под номером BDU-2025-07182. Этот дефект позволяет злоумышленникам, действующим удаленно, получить несанкционированный доступ к системе от имени произвольного пользователя, что создает серьезные риски для компаний, использующих решения 1С в своих бизнес-процессах. Что грозит в связи с этим малому и среднему бизнесу? И как защититься? Подробно рассказываю далее. Читать: https://habr.com/ru/articles/939488/ #ru @database_design | Другие наши каналы

1 353

Shardman. Краткое пособие архитектора Миф о волшебном параметре fast=true жив и здоров, но в распределённых СУБД появляется ещё один — distributed=true. Ни тот, ни другой не спасут, если не пересобрать схему, ключи шардирования, последовательности, запросы и процесс миграции. Мы трезво проходим по всем углам: от выбора ключей и colocated-таблиц до CDC, топологий и ограничений внешних ключей; показываем, где действительно ускорится, а где станет дороже — и что с этим делать. Читать: https://habr.com/ru/companies/postgrespro/articles/939396/ #ru @database_design | Другие наши каналы

1 353

Новый бенчмарк MongoDB Atlas Vector Search показывает, как улучшить поиск по векторным данным с оптимальной точностью, скоростью и затратами. Интеграция с LangGraph добавляет ИИ-агентам долгосрочную память, повышая их адаптивность и эффективность. Читать подробнее #en @database_design | Другие наши каналы

1 353

На что способны новые SSD с PCIe 6.0 и когда они появятся на десктопах Рынок SSD-накопителей прямо сейчас переживает непростое время. С одной стороны, далеко не все еще поняли, есть ли смысл переходить с PCIe 4.0 на PCIe 5.0. А с другой, производители уже демонстрируют твердотельники следующего поколения с еще более высокой пропускной способностью. Получается парадокс: технология развивается быстрее, чем у массового потребителя появляется реальная потребность в ней. Но это не значит, что PCIe 6.0 не нужна никому. Напротив, очень даже нужна. Читать: https://habr.com/ru/companies/x-com/articles/939324/ #ru @database_design | Другие наши каналы

1 353

+5

Мы писали ранее, что 12 сентября пройдёт big tech night. Событие придумали в Яндексе и организовали вместе со Сбером, X5, Т-Банком и Lamoda. Впервые топовые IT-компании одновременно откроют двери офисов в Москве с 18:00 до 00:00 и покажут специалистам, где рождаются технологии. Пора рассказать о тех, кто выйдет на сцену⚡️ 📣 Кто и о чём расскажет на big tech night? Начинаем представлять спикеров и темы. Читайте на карточках. ➡️ А подробнее про доклады рассказываем на сайте Подписывайтесь: 💬 big tech night Реклама. Рекламодатель: ООО "Яндекс" ИНН 7736207543

1 353

Гонка за дата-центры: новая энергетика цифрового мира Ещё лет десять назад мало кого интересовали дата-центры — они воспринимались скорее как техническая «кухня» цифровой экосистемы. Но ситуация в корне изменилась. ЦОДы стали горячей темой для всей мировой экономики. Они влияют на IT-ландшафт, сырьевой рынок, энергетику и даже на геополитику. Подробнее об этом читайте далее. Читать: https://habr.com/ru/companies/cloud4y/articles/939102/ #ru @database_design | Другие наши каналы

1 353

64-битный счётчик транзакций в PostgreSQL На конференции PgBootcamp 2025 был доклад Евгения Воропаева "Разработка и отладка 64-битного счётчика транзакций". В докладе рассматривались проблемы, которые встретились при переносе патча, который добавляет поддержку 64-битного счетчика, с 16 на 18 версию PostgreSQL. В статье описывается история создания патча и почему он есть только в коммерческих форках. В PostgreSQL используется 32-битные идентификаторы транзакций. У каждой версии строки в блоке таблицы есть идентификатор транзакции, которая создала эту версию. Если номер транзакции, меняющей строку, будет отстоять от номера транзакции, которая создала строку больше, чем на 2 миллиарда, то нельзя определить сравнив номера, какая из транзакций старше. Чтобы такого не произошло, в PostgreSQL есть функционал "заморозки" версий строк в блоках таблиц. Читать: https://habr.com/ru/companies/tantor/articles/937992/ #ru @database_design | Другие наши каналы

1 353

Многофакторное сравнение пяти популярных вычислительных движков для больших данных Эволюция от Hadoop к cloud‑native и ИИ‑архитектурам. Многомерное сравнение Spark, Presto, Trino, ClickHouse и StarRocks по скорости, масштабируемости, кэшам, SQL/Python, HA и др. Читать: «Многофакторное сравнение пяти популярных вычислительных движков для больших данных» #ru @database_design | Другие наши каналы

1 353

Многофакторное сравнение пяти популярных вычислительных движков для больших данных Эволюция от Hadoop к cloud‑native и ИИ‑архитектурам. Многомерное сравнение Spark, Presto, Trino, ClickHouse и StarRocks по скорости, масштабируемости, кэшам, SQL/Python, HA и др. Читать: «Многофакторное сравнение пяти популярных вычислительных движков для больших данных» #ru @database_design | Другие наши каналы

1 353

Новая интеграция MongoDB и LangGraph открывает возможности создания AI-агентов с долговременной памятью, которые учатся и улучшаются со временем. Это шаг к более интеллектуальным системам с улучшенным управлением данными и этикой в AI. Читать подробнее #en @database_design | Другие наши каналы

1 353

GlowByte запускает второй сезон образовательного онлайн-ретрита по FineBI — «Второе дыхание»! 13 дней обновленной программы с 3 новыми уроками, практическими вебинарами и призами за лучшие домашние задания. Что ждет участников: • Обновленные домашние задания с системой призов • Три специальных вебинара: FineReport Pro (28 августа), AI-революция в аналитике (2 сентября), 3D-визуализация с FineVis (9 сентября) • Успешные кейсы от Tele2, Уралсиб, Циан и других компаний Программа для всех, кто работает с данными — от разработчиков до руководителей. Старт 25 августа! Регистрируйтесь по ссылке и получите второе дыхание в мире BI-аналитики. Это #партнёрский пост

1 353

CDC без боли: как мы делали отказоустойчивую репликацию с Debezium и Kafka Я Евгений Прочан, в платформенной команде Magnit OMNI развиваю инфраструктуру DWH. Расскажу здесь, почему нам понадобилось перейти от батчинга к CDC и как мы это делали. Причин перехода было две: потребность бизнеса в расширении возможностей инфраструктуры и нестабильность нашего старого процесса репликации. Мы используем в основном базы данных PostgreSQL. Оттуда пакетами раз в час передаём данные в S3, ClickHouse и таблицы Iceberg. Наша потоковая нагрузка достигает примерно полутора терабайта данных, 6000 операций в секунду (около 1500 в самой нагруженной базе данных). Читать: https://habr.com/ru/companies/magnit/articles/938164/ #ru @database_design | Другие наши каналы

1 353

CDC без боли: как мы делали отказоустойчивую репликацию с Debezium и Kafka Я Евгений Прочан, в платформенной команде Magnit OMNI развиваю инфраструктуру DWH. Расскажу здесь, почему нам понадобилось перейти от батчинга к CDC и как мы это делали. Причин перехода было две: потребность бизнеса в расширении возможностей инфраструктуры и нестабильность нашего старого процесса репликации. Мы используем в основном базы данных PostgreSQL. Оттуда пакетами раз в час передаём данные в S3, ClickHouse и таблицы Iceberg. Наша потоковая нагрузка достигает примерно полутора терабайта данных, 6000 операций в секунду (около 1500 в самой нагруженной базе данных). Читать: https://habr.com/ru/companies/magnit/articles/938164/ #ru @database_design | Другие наши каналы