DevOps&SRE Library
Библиотека статей по теме DevOps и SRE. Реклама: @ostinostin Контент: @mxssl РКН: https://www.gosuslugi.ru/snet/67704b536aa9672b963777b3
Show more📈 Analytical overview of Telegram channel DevOps&SRE Library
Channel DevOps&SRE Library (@devopslibrary) in the English language segment is an active participant. Currently, the community unites 19 407 subscribers, ranking 6 929 in the Technologies & Applications category and 34 717 in the Russia region.
📊 Audience metrics and dynamics
Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 19 407 subscribers.
According to the latest data from 20 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 109 over the last 30 days and by -1 over the last 24 hours, overall reach remains high.
- Verification status: Not verified
- Engagement rate (ER): The average audience engagement rate is 14.80%. Within the first 24 hours after publication, content typically collects 7.24% reactions from the total number of subscribers.
- Post reach: On average, each post receives 2 873 views. Within the first day, a publication typically gains 1 405 views.
- Reactions and interaction: The audience actively supports content: the average number of reactions per post is 1.
- Thematic interests: Content is focused on key topics such as kubernete, cluster, infrastructure, storage, configuration.
📝 Description and content policy
The author describes the resource as a platform for expressing subjective opinions:
“Библиотека статей по теме DevOps и SRE.
Реклама: @ostinostin
Контент: @mxssl
РКН: https://www.gosuslugi.ru/snet/67704b536aa9672b963777b3”
Thanks to the high frequency of updates (latest data received on 21 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.
A file server that supports static serving, uploading, searching, accessing control, webdav.https://github.com/sigoden/dufs
Beyond the basics, an in depth look at memory metrics in Kuberneteshttps://itnext.io/from-rss-to-wss-navigating-the-depths-of-kubernetes-memory-metrics-4d7d77d8fdcb
Temoral.io
Data Transport: Apache Kafka, S3
Data Storage: PostgreSQL, Clickhouse, Cassandra, Redis (KeyDB), Elasticsearch
Ops: k8s, GitLab
Monitoring: Prometheus/Grafana, OpenTelemetry/Opentracing
Ключевые задачи
Проектирование и развитие инфраструктуры в нескольких ДЦ:
- Планирование и реализация сетевой архитектуры
- Эффективное управление распределением данных
- Масштабирование и оптимизация работы кластеров k8s
- Проектирование архитектурных решений и обоснование с точки зрения производительности, безопасности и стабильности
Бесперебойная работа сервисов:
- Обеспечение надежности, высокой доступности и производительности продукта
- On-call дежурства и реакция на инциденты: работа продакшн - твоя зона ответственности
- Управление инцидентами: разбор и постмортемы, исправление проблем
- Масштабирование и capacity planning. Создание DRP, проведение регулярных учения по отказам с последующим анализом результатов
Делать продакшн лучше:
- Автоматизация ручной, повторяющейся работы и рутинных задач
- Release engineering: разработка, внедрение и поддержка процессов CI/CD
- Сотрудничество с командами разработки для обеспечения работы и эффективного взаимодействия всех компонентов системы
- Актуализация метрик/алертов мониторинга и логирования, отслеживание и анализ ошибок
Ожидания
Самое важное для нас:
- Глубокие знания сетевых технологий: опыт работы с multi-DC network, умение проектировать/настраивать их для обеспечения высокой доступности и производительности
- Практический опыт с крупными базами данных: такими как Postgres, Clickhouse, Cassandra или ScyllaDB, а также понимание того, как решать задачу CAP на большом объеме данных
- Глубокий опыт эксплуатации k8s: ты знаешь, как быстро и просто масштабировать продукт, между несколькими дата-центрами на больших объемах данных
- Умеешь в System Design: используешь принципы и best practice при построении высоконагруженных систем
- Слова Observability & Monitoring тебя не пугают: знаешь, что такое персентиль и медиана, отличаешь SLO/SLA/SLI
- Во время сбоя можешь быстро принимать решения, не теряешься и не сдаешься
- Умеешь и любишь общаться с коллегами (да, мы понимаем, что иногда это сложно). Необходимо много общаться со смежниками, договариваться
- Умеешь описывать понятную и подробную документацию, по проделанной работе
Будет плюсом опыт:
- bare-metal / on-prem
- Proxmox/VMware
- Temporal.io
- Go/Python
Откликнуться на вакансию: @mxsslDefining clear Incident Severity levels is a key component to an efficient Incident Management process that helps Engineering teams quickly respond to outages and mitigate customer impact.https://argoday.medium.com/incident-severity-levels-78bfe7dd7e0d
This is a suite of terraform and OpenTofu related GitHub Actions that can be used together to build effective Infrastructure as Code workflows.https://github.com/dflook/terraform-github-actions
IaC is one of the key DevOps practices, and AWS CDK & Terraform are both great IaC tools to manage your AWS infrastructure. Having used both extensively, let me share my experience with the 2 IaC tools.https://medium.com/@kansvignesh/aws-cdk-vs-terraform-738c39d91f7a
GitHub uses MySQL to store vast amounts of relational data. This is the story of how we seamlessly upgraded our production fleet to MySQL 8.0.https://github.blog/2023-12-07-upgrading-github-com-to-mysql-8-0
An error budget is essentially the permissible limit of risk or failure that a service can tolerate while still meeting its objectives. It is closely tied to Service Level Objectives, which define the expected level of service reliability. For instance, if an SLO dictates 99.9% uptime, the error budget allows for a 0.1% margin of error or downtime.https://www.codereliant.io/on-error-budgets
Available now! Telegram Research 2025 — the year's key insights 
