DATABASE DESIGN - Статистика и аналитика Telegram-канала @database

1 353

Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться. Читать: https://habr.com/ru/companies/datasapience/articles/941046/ #ru @database_design | Другие наши каналы

1 353

Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться. Читать: https://habr.com/ru/companies/datasapience/articles/941046/ #ru @database_design | Другие наши каналы

1 353

В Asio за корутинами Когда я начал работать с Asio и изучал документацию библиотеки, прочитал мнение, что доку писали «для роботов». Описание каждого концепта, функции или особенности приводится лишь однажды, без перекрестных ссылок и других удобных для разработчика деталей. Документация составлена так, что понять ее может разве что машина, «просканировав» текст целиком. Я подумал, что было бы здорово написать статью, которая служила бы введением в библиотеку. Статью, которая помогла бы начать пользоваться Asio, даже если раньше вы с ней не работали. Что получилось, читайте под катом. Читать: https://habr.com/ru/companies/yadro/articles/939174/ #ru @database_design | Другие наши каналы

1 353

Repost from Типичный программист

+1

Tproger объединились с Paradox и запустили совместный проект для комьюнити разработчиков Мы сделали два дизайна — теперь ваш ход. Вы за типичный или за токсичный вайб? Голосуйте за один из вариантов до 30 августа на сайте. В конце месяца объявим победителя — дизайн, который сообщество реально протащило в прод. И да, всё самое интересное будет в канале. Среди голосующих разыграем призы — так что не только банке достанется апгрейд.

1 353

Repost from Типичный программист

Tproger объединились с Paradox и запустили совместный проект для комьюнити разработчиков Мы сделали два дизайна — теперь ваш ход. Вы за типичный или за токсичный вайб? Голосуйте за один из вариантов до 30 августа на сайте. В конце месяца объявим победителя — дизайн, который сообщество реально протащило в прод. И да, всё самое интересное будет в канале. Среди голосующих разыграем призы — так что не только банке достанется апгрейд.

1 353

Как искусственный интеллект и MongoDB меняют бизнес и медиа Статья раскрывает, как применение генеративного ИИ и документной базы данных MongoDB ускоряет создание контента, объединяет данные в единую систему и повышает эффективность в сферах медиа, страхования и аэропортов, снижая риски и улучшая качество решений. Читать подробнее #en @database_design | Другие наши каналы

1 353

Генерация тестовых данных на Python: руководство по библиотеке Faker Привет, Хабр! Думаю, многие сталкивались с необходимостью генерации тысячи пользователей. Вручную - не вариант, слишком долго. В данной статье разберу библиотеку Faker. Это генератор реалистичных тестовых данных, который превращает заполнение базы и создание демо-контента из рутины в дело пары строк кода. В статье продемонстрирую, как генерировать тысячи правдоподобных записей на русском, заполнять БД и создавать собственные типы данных для ваших проектов. Читать: https://habr.com/ru/articles/940056/ #ru @database_design | Другие наши каналы

1 353

Оптимизация производительности с помощью логирования PostgreSQL PostgreSQL пишет в логи куда больше, чем может показаться на первый взгляд: от мелких предупреждений до подробностей выполнения запросов. И это не просто журнал ошибок — логи становятся мощным инструментом для мониторинга и оптимизации производительности. В материале разбираем, как настроить логирование под свои задачи: что именно фиксировать, как избежать шума и каким образом логи помогают находить узкие места и ускорять работу базы. Читать: https://habr.com/ru/companies/otus/articles/940794/ #ru @database_design | Другие наши каналы

1 353

Оптимизация работы аэропортов с помощью AI и MongoDB В статье рассказывается, как система на базе MongoDB и Dataworkz с голосовым ассистентом помогает наземным службам аэропорта снижать ошибки и задержки рейсов, повышая безопасность и экономя миллионы долларов. Читать подробнее #en @database_design | Другие наши каналы

1 353

Построение потока данных в облаке с использованием serverless сервисов Привет! У бизнеса на практике часто встречается задача построить полноценную аналитику, используя данных из excel, csv файлов. Разнообразие подходов к заполнению и образованию таких файлов может быть разное: Читать: https://habr.com/ru/articles/939936/ #ru @database_design | Другие наши каналы

1 353

Построение потока данных в облаке с использованием serverless сервисов Привет! У бизнеса на практике часто встречается задача построить полноценную аналитику, используя данных из excel, csv файлов. Разнообразие подходов к заполнению и образованию таких файлов может быть разное: Читать: https://habr.com/ru/articles/939936/ #ru @database_design | Другие наши каналы

1 353

Никакого наития, только полный контроль. Как построить эффективную стратегию бэкапа с Хайстекс Акура и S3-хранилищем Привет Хабр! Меня зовут Юлия Воробьева, и уже больше 10 лет я занимаюсь тестированием. За это время успела поработать в проектах, связанных с восстановлением, миграцией и резервным копированием данных. Я много занимаюсь облачными технологиями и получаю от этого настоящее удовольствие. Последние 6 лет я работаю в компании Хайстекс, где продукт и задачи позволяют мне не просто тестировать, а прокачивать экспертизу и при этом сохранять интерес к облачным решениям. В этой статье расскажу, как мы настроили, внедрили и протестировали резервное копирование с решением Хайстекс Акура и S3-хранилищем от Selectel, на основе реальных требований и возможностей компании-клиента. Покажу, как это выглядит на практике глазами QA. Не претендую на универсальный рецепт, но подробно опишу, как мы упростили восстановление тестовой среды, сэкономили время и перестали бояться, что важные данные потеряются после очередного сбоя. Разберу всё по шагам: как настраивали, что сработало, где пришлось доработать и какие выводы сделали в итоге. Если вам интересно, как внедрить надежный бэкап всех данных у себя в компании, встретимся под катом. Там же ссылка на вебинар для тех, кому ближе видеоформат. Разбор по шагам Читать: https://habr.com/ru/companies/hstx/articles/940504/ #ru @database_design | Другие наши каналы

1 353

Запускаем Kafka в режиме KRaft на Windows через WSL Пошаговое руководство по установке и настройке кластера Apache Kafka с тремя брокерами в режиме KRaft (без ZooKeeper) на Windows — без виртуальных машин и Confluent Cloud. Чтобы сделать кластер удобнее в использовании и приблизить его функциональность к облачным решениям, мы добавим веб-интерфейс на основе Kafka UI. В результате получится гибкая система, которую можно масштабировать и настраивать под свои задачи. Для кого эта статья? Для тех, кто только начинает работать с Kafka и хочет разобраться в её устройстве на практике. Для тех, кто работает на Windows, но не хочет ставить виртуальную машину. Для тех, кто хочет понять внутреннее устройство Kafka, а не просто запустить «чёрный ящик». Читать: https://habr.com/ru/articles/940308/ #ru @database_design | Другие наши каналы

1 353

Строим корпоративную GenAI-платформу: от концепции до ROI. Часть 3. Retrieval-Augmented Generation (RAG) на службе GenAI Это третья статья специалиста по архитектуре ИТ-систем и трансформации ИТ-ландшафта Дениса Прилепского из серии «Строим корпоративную GenAI-платформу: от концепции до ROI». Автор разбирает, что такое RAG и зачем он нужен, как устроена архитектура retrieval-уровня и почему он критически важен для достоверных ответов. В статье — пример генерации юридической справки, практические проблемы (задержки, кеширование, актуальность) и подготовка к следующей теме — guardrails. Читать: https://habr.com/ru/companies/mipt_digital/articles/932962/ #ru @database_design | Другие наши каналы

1 353

Геоданные в PostgreSQL: зачем нужен PostGIS и как он работает PostgreSQL известна как надежная и универсальная СУБД. Но если нужно хранить координаты, строить маршруты или анализировать границы районов, ее базовых возможностей уже не хватает. Здесь на помощь приходит PostGIS. Под катом разберемся, что умеет расширение и как его использовать. Читать: https://habr.com/ru/companies/selectel/articles/939804/ #ru @database_design | Другие наши каналы

1 353

Геоданные в PostgreSQL: зачем нужен PostGIS и как он работает PostgreSQL известна как надежная и универсальная СУБД. Но если нужно хранить координаты, строить маршруты или анализировать границы районов, ее базовых возможностей уже не хватает. Здесь на помощь приходит PostGIS. Под катом разберемся, что умеет расширение и как его использовать. Читать: https://habr.com/ru/companies/selectel/articles/939804/ #ru @database_design | Другие наши каналы

1 353

Развёртывание боевого кластера Cassandra. Часть 3 Это продолжение цикла, рассказывающего о практике развёртывания небольшого, но вполне производственного кластера Cassandra. В первой и второй частях мы продвинулись вперед вот по такому плану: 1. Анализ рабочей нагрузки и требований 2.Разработка схемы данных 3. Настройка хостовых машин 4. Настройка конфигурации Cassandra = ВЫ НАХОДИТЕСЬ ЗДЕСЬ = 5. Настройка топологии кластера 6. Подключение Prometheus Cassandra Exporter 7. Подключение Prometheus Node Exporter 8. Вывод всех метрик в Grafana 9. Проведение нагрузочного тестирования 10. Дополнительный тюнинг по результатам теста Двинемся дальше? Читать: https://habr.com/ru/articles/940268/ #ru @database_design | Другие наши каналы

1 353

Карта размером с SIM, а скорость как у NVMe — что такое Mini SSD Гаджеты становятся всё меньше, а вот требования к памяти только растут. Смартфоны, консоли, ноутбуки, дроны и даже AR-гарнитуры нуждаются в хранилищах, которые одновременно компактные и быстрые. Китайская компания Biwin представила новый формат — Mini SSD. Он чуть больше microSD-карты, но по скорости близок к настольным NVMe-дискам. Идея быстро привлекла внимание: быстрый накопитель в формате, похожем на SIM-карту, звучит как настоящий прорыв. Попробуем разобраться, что это за технология, как она устроена и есть ли у неё шанс стать новым стандартом. Читать: https://habr.com/ru/companies/selectel/articles/939910/ #ru @database_design | Другие наши каналы

1 353

Сравнительный анализ баз данных для хранения миллиардов записей логов В современную эпоху больших данных выбор оптимальной системы управления базами данных для работы с миллиардами записей становится критически важным. В данной статье проводится детальный анализ четырех популярных СУБД (MySQL, PostgreSQL, Redis и ClickHouse) с точки зрения их эффективности при работе с большими объемами данных журналирования, с постоянной записью новых данных и необходимостью выполнения сложных поисковых запросов через веб-интерфейс. Читать: https://habr.com/ru/articles/939912/ #ru @database_design | Другие наши каналы

1 353

Алгоритм как писатель: можно ли написать рассказ на чистом SQL? Обычно SQL используют ради отчётов, аналитики и унылого «выгрузить за вчера». Но у языка запросов есть и другая, неожиданная сторона: если относиться к нему как к инструменту для сочинительства, можно попробовать написать рассказ. Сюжет, герои, диалоги — всё это вполне собирается на голом SQL. В статье я делюсь экспериментом, который начался ради шутки, а закончился странным ощущением, что база данных умеет рассказывать истории. SQL я впервые выучил не ради красоты — нужен был для работы. Тогда казалось: язык скучный, служебный, без «души». SELECT, WHERE, JOIN… будто молоток или отвёртка. Но однажды, копаясь в старой демо-базе, я обратил внимание на то, что данные сами по себе напоминали короткие предложения. И пришла мысль: а что, если воспринимать таблицу не как набор строк, а как страницу романа? Сначала это выглядело как дурацкая затея, но чем дальше я шёл, тем больше SQL переставал быть «сухим инструментом» и начинал вести себя как настоящий рассказчик. Читать: https://habr.com/ru/articles/939882/ #ru @database_design | Другие наши каналы