DATABASE DESIGN
Kanalga Telegram’da o‘tish
Лучшие материалы по работе с хранилищами данных на русском и английском языке Разместить рекламу: @tproger_sales_bot Правила общения: https://tprg.ru/rules Другие каналы: @tproger_channels Другие наши проекты: https://tprg.ru/media
Ko'proq ko'rsatish1 354
Obunachilar
-324 soatlar
-27 kunlar
-830 kunlar
Postlar arxiv
1 354
Создаем пет-проект по аналитике в связке с GitHub Actions. Часть 2
Привет, Хабр! Продолжаю обозревать GitHub Actions на примере пет проекта для аналитика.
Статья будет полезна начинающим аналитикам в поисках хорошего проекта для своего портфолио. В этой части разбираю подход к выбору проекта и источника данных, к сбору и анализу данных и представлении результатов своей работы.
Читать: https://habr.com/ru/articles/983926/
#ru
@database_design | Другие наши каналы
1 354
АИС «Налог-3»: почему это одна из самых мощных государственных IT-систем России
За последнее десятилетие Федеральная налоговая служба (ФНС) совершила фундаментальный переход от традиционной модели администрирования к подходу, основанному на анализе больших баз данных.
Если вы соприкасались с налоговой системой - проходили проверки, бывали на комиссиях в инспекциях, общались с налоговыми органами, то вы слышали про АИС «Налог-3», одну из самых масштабных государственных IT-платформ в России.
Я проработал в системе налоговых органов 12 лет - от рядового инспектора в ИФНС до заместителя начальника отдела проведения налоговых проверок Управления ФНС - и наблюдал эту трансформацию изнутри. В этой статье я хочу показать, насколько эта система действительно мощная, как она эволюционировала, что она реально умеет сегодня и почему, несмотря на весь объём данных, это пока не «искусственный интеллект, который всё делает сам»
Сразу обозначу границу: я не раскрываю никакой служебной информации. Всё, о чём в статье пойдёт речь, это обобщение моего опыта работы в службе и данные, которые размещены в открытом доступе. Из налоговых органов я ушёл относительно недавно (2 месяца назад), и за это время мало, что могло поменяться, поэтому информация все еще остается актуальной.
Читать: https://habr.com/ru/articles/982504/
#ru
@database_design | Другие наши каналы
1 354
Как кризис оперативной памяти повлияет на видеокарты и консоли новых поколений
Все уже в курсе, что цены на оперативную память взлетели до небес. DDR5-комплекты, которые еще в сентябре стоили вполне разумных денег, теперь продаются втридорога. Но это еще цветочки. Гораздо хуже то, что текущий кризис памяти может серьезно повлиять на выход будущих видеокарт и консолей следующего поколения. Речь идет не только о повышении цен, но и о возможных задержках или даже отмене целых линеек продуктов. В худшем случае 2026 год вообще может пройти без новых GPU. Все это звучит как сюжет для антиутопии, но давайте разберемся, что происходит на самом деле.
Читать: https://habr.com/ru/companies/x-com/articles/981900/
#ru
@database_design | Другие наши каналы
1 354
Работа на результат: топ-5 средств по защите информации для построения системы кибербезопасности
В последние десятилетия вопрос построения эффективных систем информационной безопасности (ИБ) все чаще поднимается как в госорганизациях, так и коммерческих компаниях. Причем не только крупных, но и средних. Сегодня рынок кибербезопасности предлагает очень широкий выбор: от комплексных платформ, содержащих множество функций до узкоспециализированных продуктов, решающих конкретные задачи. Кроме того, не стоит забывать о решениях на базе open source. На фоне этого многообразия заказчикам зачастую трудно собрать оптимальный набор инструментов, который обеспечит надежную защиту инфраструктуры.
Компания «Анлим», центр компетенций по информационной безопасности, в статье делится рейтингом пяти наиболее эффективных средств для защиты данных. О каждом классе, вошедшем в стартовый набор для построения системы ИБ, опираясь на многолетний опыт, подробнее расскажет Вячеслав Пронюшкин, первый заместитель технического директора.
Читать: https://habr.com/ru/articles/981482/
#ru
@database_design | Другие наши каналы
1 354
Единый источник правды – это не миф. Но есть нюансы. Опыт построения корпоративного хранилища данных в «Газпром ЦПС»
Привет, Хабр! Меня зовут Андрей Боков, я главный архитектор отдела разработки хранилищ данных в «Газпром ЦПС». Если вы хоть раз сталкивались с тем, что информация о сотрудниках не соответствует в различных корпоративных системах, например, 1С, электронный документооборот, корпоративный портал, система управления проектами, – вы понимаете, о чем сейчас пойдет речь. Мы пробовали решить эту проблему точечными интеграциями, но с ростом числа систем увеличивался и хаос в данных. Нам был нужен единый контур, который позволит проследить путь данных от источников до отчета.
Так началась работа над корпоративным хранилищем данных (КХД). Мы выбрали многослойную архитектуру и методологию Data Vault 2.0 – подход, который сохраняет историю изменений и дает возможность подключать новые источники без перепроектирования структур хранилища. В статье я расскажу про наш опыт, который будет полезен специалистам по работе с данными: руководителям, архитекторам, аналитикам и инженерам. Подробно опишу, как мы строили ядро КХД и какие уроки и инсайты вынесли по результатам реализации.
Читать: https://habr.com/ru/companies/gazpromcps/articles/979426/
#ru
@database_design | Другие наши каналы
1 354
Вы строите Lakehouse, а сторадж строит вам проблемы. Что делать?
Всем привет! Меня зовут Дмитрий Листвин, я занимаюсь аналитическим хранилищем данных в Авито.
В этой статье я собрал наш опыт построения Lakehouse поверх объектного хранилища, как реальная аналитическая нагрузка быстро превращает «обычный S3» в самый капризный элемент всей архитектуры. Будет много про извлечение максимума производительности из Ceph: как добиться высокой пропускной способности HDD, когда поверх данных хочется запускать тяжёлые аналитические запросы.
Читать: https://habr.com/ru/companies/avito/articles/980980/
#ru
@database_design | Другие наши каналы
1 354
Trino в Авито два года спустя: от движка к полноценной экосистеме
Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Avito. Уже третий год мы занимаемся миграцией с Vertica на Trino. Изначально казалось, что это будет просто: перенесём запросы, перепишем коннекторы, чуть подправим пайплайны.
Но за два с лишним года миграция перестала быть просто миграцией: проект разросся в инженерную одиссею, и вокруг Trino мы начали строить целую экосистему. Как это было — рассказываю под катом.
Читать: https://habr.com/ru/companies/avito/articles/979912/
#ru
@database_design | Другие наши каналы
1 354
Оптимизация Power BI: как одно свойство уменьшает размер модели на 30%
Сегодня мы, Павел Ефремов и Мухаммед Пашаев (разработчики аналитических систем в Лемана Тех), поговорим об оптимизации моделей данных в Power BI Desktop — конкретно о движке Tabular. Небольшая вводная: в нашей компании Power BI — основной BI-инструмент (лучшие для лучших😏). Используем локальную версию Power BI Report Server, поэтому вопрос производительности моделей и отчетов стоит особо остро. Мы регулярно проводим ревью моделей (подробнее в нашей прошлой статье), стараясь придерживаться лучших практик — минимальная нужная гранулярность данных, никаких избыточных связей, двунаправленных связей, скрытых автоматических календарей и прочее. Тем не менее отчеты все равно порой залипают и работают медленно. Казалось бы, уже много где поковырялись, все оптимизировали, и все равно фрустрация не уходит. Так, вместе с коллегой мы взялись копать глубже, шерстить интернет и Microsoft-документацию и наткнулись на почти незаметное, но важное свойство табличной модели. Что, если мы скажем, что у Tabular Model есть свойство, благодаря которому можно уменьшить размер модели до 30%, ускорить обновление данных, снизить нагрузку на сервер и при этом не менять ни одной таблицы, связи или строку DAX?
Это открытие заставило нас по-новому взглянуть на оптимизацию в Power BI. Оказалось, что помимо привычных правил вроде избегания лишних связей или сокращения столбцов есть и менее заметные, но очень мощные приемы. Они не требуют переделывать модель, но при этом реально ускоряют отчеты и снижают нагрузку.
Читать: https://habr.com/ru/companies/lemana_tech/articles/980564/
#ru
@database_design | Другие наши каналы
1 354
Есть ли жизнь после Vertica или миграция DWH в Lakehouse
Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Авито. Мы строим систему общего назначения, которая одновременно обслуживает ETL, витрины, BI, ad-hoc аналитику и продуктовые платформы.
И в какой-то момент мы столкнулись с неприятным эффектом: объём данных начал расти заметно быстрее, чем органический рост, на который мы ориентировались раньше. Модель классического on-prem DWH перестала масштабироваться линейно: борьба за ресурсы мешала давать гарантии готовности данных; локальные оптимизации давали всё меньший эффект; любой рост требовал масштабирования “по месту” и приводил к длительным простоям аналитики.
Стало понятно, что дальнейший рост в рамках прежней архитектуры будет только усиливать эти эффекты. Именно так мы пришли к необходимости сменить базовую парадигму хранилища и начать движение в сторону Lakehouse-архитектуры. О том, как это было, читайте под катом.
Читать: https://habr.com/ru/companies/avito/articles/979836/
#ru
@database_design | Другие наши каналы
1 354
FTP‑сервер на Linux: настройка для домашнего проекта
Флешки постепенно уходят в прошлое, а облачные хранилища не всегда подходят для домашних проектов и экспериментов. Иногда хочется простого и предсказуемого способа обмена файлами — без подписок, лимитов и лишней инфраструктуры.
FTP-сервер — один из самых простых вариантов для решения этой задачи. Он не требует сложной инфраструктуры, минимально нагружает систему и поддерживается практически любыми клиентами.
В этой статье вы найдёте пошаговый гайд по развёртыванию FTP-сервера на VPS UltraVDS под управлением Debian 12 с использованием vsftpd (Very Secure FTP Daemon).
Читать: https://habr.com/ru/companies/ultravds/articles/980188/
#ru
@database_design | Другие наши каналы
1 354
Как работают CSI-драйверы в Kubernetes: принципы, архитектура и жизненный цикл томов (подробный гайд)
В статье подробно разбираем, как устроен CSI (Container Storage Interface), как проходит жизненный цикл тома от PVC до удаления и что на самом деле делают sidecar-контейнеры и драйверы.
Читать: https://habr.com/ru/companies/flant/articles/977092/
#ru
@database_design | Другие наши каналы
1 354
Обзор Lakehouse: архитектура, которая объединяет порядок и хаос
Вопрос: что же такого прорывного добавили в архитектуру, чтобы она стала считаться чем-то новым с точки зрения инженеров, а не маркетологов?
Ответ: фундаментально изменилась парадигма хранения и обработки данных.
В отличие от традиционных подходов, где Data Warehouse оперировал исключительно структурированными данными в табличной форме, а Data Lake работал с файлами в их исходном виде, разработчики Lakehouse сумели соединить лучшие качества обеих архитектур.
Ключевым отличием стал формат OTF — Open Table Format, через который удалось реализовать единый стандарт доступа к данным и 4 технологически-культурных сдвига. Перечислю их: ...
Читать: https://habr.com/ru/companies/cinimex/articles/978522/
#ru
@database_design | Другие наши каналы
1 354
Обезличивание не по приказу — новый сезон подкаста Crosscheck
Привет, Хабр!
Команда CTSG запустила новый сезон подкаста Crosscheck. В одном из первых выпусков эксперты обсуждают актуальную, «горящую» на сегодняшний день, тему обезличивания баз данных: изменения в законодательстве, методы обезличивания, маскирование и многое другое.
Читать: https://habr.com/ru/companies/ctsg/articles/980226/
#ru
@database_design | Другие наши каналы
1 354
Как мы в объектном хранилище отказы реплик обрабатываем
Когда мы работаем с реплицированными системами, вопрос стратегии переключения между репликами, а тем более ее реализация — это довольно значительная головная боль. Если вашей системе необходимо работать с отказами штатно, то наш опыт может подсказать пару новых идей, как можно сделать отказы контролируемыми.
Я Владислав Доронин — Go-разработчик в команде S3 облачной платформы Cloud.ru Evolition. Хочу рассказать про подход к управлению отказами реплик, который мы кристаллизовали опытом выхода из строя разных частей системы. Практика показала, что массовые и не очень отказы приводят к взлету задержки ответов и увеличению количества client-side повторов, которые тоже висят. Пускай на уровне записи из-за требований репликации и гарантии мы много поделать с ситуацией не можем (хотя и там не все безнадежно), то вот чтение гораздо более гибкое. У нас получилось сделать retry на чтении красивыми, об этом сегодня и поговорим.
Читать: https://habr.com/ru/companies/cloud_ru/articles/979412/
#ru
@database_design | Другие наши каналы
1 354
Как это сделано: объектное хранилище в MWS Cloud Platform
Всем привет. Я — Дмитрий Шапошников, Tech Lead в команде Object Storage в MWS Cloud Platform. Сегодня мы поговорим о том, как устроено наше объектное хранилище.
В этой статье я объясню, что такое Object Storage, и поделюсь нашим опытом создания сервиса. Расскажу о преимуществах и недостатках работы с Ceph, на котором базировалась предыдущая версия нашего объектника, и подробно опишу архитектуру нового сервиса Object Storage, его масштабируемость и надёжность.
Читать: https://habr.com/ru/companies/mws/articles/979254/
#ru
@database_design | Другие наши каналы
Endi mavjud! Telegram Tadqiqoti 2025 — yilning asosiy insaytlari 
