fa
Feedback
AWS Notes

AWS Notes

رفتن به کانال در Telegram

AWS Notes — Amazon Web Services Educational and Information Channel Chat: https://t.me/aws_notes_chat Contacts: @apple_rom, https://www.linkedin.com/in/roman-siewko/ No ads.

نمایش بیشتر
5 807
مشترکین
+224 ساعت
-87 روز
-330 روز
آرشیو پست ها
Good evening, people jan! 🤗 Before we all head into “weekdays closing Friday ceremony :D))” mode, quick heads up on a pretty
Good evening, people jan! 🤗 Before we all head into “weekdays closing Friday ceremony :D))” mode, quick heads up on a pretty cool update: AWS Application Load Balancer now supports JWT verification - which basically means : 🫴 Your ALB can now verify JSON Web Tokens in request headers automatically 🫴 Handles token signatures, expiration times, and claims - zero code changes 🫴 ALB does all that OAuth 2.0 token validation for you now 🫴 Works with Client Credentials Flow and other OAuth 2.0 flows So just simplify your life - no more writing token validation logic in every service. 😎 Already available in all AWS Regions where ALB runs. 🔗 Full details here , if you want to dig in over the weekend (or you know, maybe just enjoy your weekend instead 😉) Have a great weekend, everyone! 💙

Project Kuiper AWS Starlink Amazon Leo 🎉 https://leo.amazon.com/
Project Kuiper AWS Starlink Amazon Leo 🎉 https://leo.amazon.com/

ALB + JWT verification 💪 https://docs.aws.amazon.com/elasticloadbalancing/latest/application/listener-verify-jwt.html ALB wi
ALB + JWT verification 💪 https://docs.aws.amazon.com/elasticloadbalancing/latest/application/listener-verify-jwt.html
ALB will validate the token signature and requires two mandatory claims: 'iss' (issuer) and 'exp' (expiration). Additionally, if present in the token, ALB will also validate 'nbf' (not before) and 'iat' (issued at time) claims. You can configure up to 10 additional claims for validation. These claims support three formats: 🔹 Single-string: A single text value 🔹 Space-separated values: Multiple values separated by spaces (maximum 10 values) 🔹 String-array: An array of text values (maximum 10 values) If the token is valid, the load balancer forwards the request with token as is to the target. Otherwise, it rejects the request.
#ALB

Good morning, people jan ~ ☺️ 🔥FREE AWS SkillBuilder subscription-based exam prep materials until December 31, 2025. This is a limited-time offer, especially valuable if cost was stopping you from starting. Find all the details in my post and start your journey. 🤓

AWS Backup + EKS 🎉 https://aws.amazon.com/blogs/aws/secure-eks-clusters-with-the-new-support-for-amazon-eks-in-aws-backup/ ✅
AWS Backup + EKS 🎉 https://aws.amazon.com/blogs/aws/secure-eks-clusters-with-the-new-support-for-amazon-eks-in-aws-backup/ ✅ Agent-free, native AWS integration (no custom scripts or third-party tools needed) ✅ Cross-Region and cross-account copies ✅ Automated scheduling and retention management ✅ Immutable backup vaults Restore options: 🔸 Full EKS cluster 🔸 Specific namespaces 🔸 Individual persistent volumes #Backup #EKS

Строго секретно — новый секретный AWS регион: AWS Secret-West Region 🎉 (ссылку не даю, т.к. секретно) Итого на сейчас флеш-р
Строго секретно — новый секретный AWS регион: AWS Secret-West Region 🎉 (ссылку не даю, т.к. секретно) Итого на сейчас флеш-рояль каждого по два: 🔸 AWS GovCloud US-East (2018) 🔸 AWS GovCloud US-West (2011) 🔹 AWS Secret-East (2017) 🔹 AWS Secret-West (2025) ▫️ AWS Top Secret-East (2014) ▫️ AWS Top Secret-West (2021) Секретные регионы отделены от "основного" AWS и интернета вообще — у них полностью своя сеть. Чем более секретный, тем больше требований и тем меньше AWS сервисов доступно. На текущий момент в AWS Secret-East доступно лишь 79 сервисов. #AWS_Regions

— Какая надёжность у вашего сервиса? — Пять девяток! — Но он же лежит постоянно! — 9.9999%

Где вы видите себя через пять лет? #пятничное
Где вы видите себя через пять лет? #пятничное

Не было и не будет Инструментов для проверки доступных AWS сервисов в разных регионах много разных и разной степени неудобнос
Не было и не будет Инструментов для проверки доступных AWS сервисов в разных регионах много разных и разной степени неудобности. Однако с их помощью можно посмотреть ситуацию лишь на сейчас (или в прошлом, если они не обновляются). Ничего не зная, когда планируется добавление нужного сервиса. И вот теперь можно проверить, какие AWS сервисы точно никогда не появятся (Not Expanding) в нужном тебе регионе: https://builder.aws.com/build/capabilities/explore?tab=service-feature И какие лишь в бэклоге (Planning) либо уже разрабатываются и имеют сроки выхода (2026 Q3).

CloudFront + cross-account VPC origins 🎉 https://aws.amazon.com/blogs/networking-and-content-delivery/introducing-cross-acco
CloudFront + cross-account VPC origins 🎉 https://aws.amazon.com/blogs/networking-and-content-delivery/introducing-cross-account-support-for-amazon-cloudfront-virtual-private-cloud-vpc-origins/ Теперь можно использовать один CloudFront для доступа в приватные ресурсы в разных аккаунтах. Заметное упрощение многих конфигураций, можно использовать один CloudFront для dev-stage-prod, например, расположив его в Shared аккаунте. Отличная фича. #CloudFront #RAM

𝟵 𝗺𝗶𝗹𝗹𝗶𝗼𝗻 𝗸𝗶𝗹𝗼𝗺𝗲𝘁𝗲𝗿𝘀 𝗼𝗳 𝗰𝗹𝗼𝘂𝗱 — 𝗮𝗻𝗱 𝗰𝗼𝘂𝗻𝘁𝗶𝗻𝗴... Did you know AWS operates its own global
𝟵 𝗺𝗶𝗹𝗹𝗶𝗼𝗻 𝗸𝗶𝗹𝗼𝗺𝗲𝘁𝗲𝗿𝘀 𝗼𝗳 𝗰𝗹𝗼𝘂𝗱 — 𝗮𝗻𝗱 𝗰𝗼𝘂𝗻𝘁𝗶𝗻𝗴... Did you know AWS operates its own global network spanning over 𝟵 𝗺𝗶𝗹𝗹𝗶𝗼𝗻 𝗸𝗶𝗹𝗼𝗺𝗲𝘁𝗲𝗿𝘀 - 𝗲𝗻𝗼𝘂𝗴𝗵 𝘁𝗼 𝘁𝗿𝗮𝘃𝗲𝗹 𝗳𝗿𝗼𝗺 𝗘𝗮𝗿𝘁𝗵 𝘁𝗼 𝘁𝗵𝗲 𝗠𝗼𝗼𝗻 𝗮𝗻𝗱 𝗯𝗮𝗰𝗸 𝗺𝗼𝗿𝗲 𝘁𝗵𝗮𝗻 𝟭𝟭 𝘁𝗶𝗺𝗲𝘀? Recently, AWS added a new transatlantic subsea cable connecting the U.S. and Europe, capable of delivering 320+ terabits per second — 𝗲𝗻𝗼𝘂𝗴𝗵 𝘁𝗼 𝘀𝘁𝗿𝗲𝗮𝗺 𝟭𝟮.𝟱 𝗺𝗶𝗹𝗹𝗶𝗼𝗻 𝗛𝗗 𝗺𝗼𝘃𝗶𝗲𝘀 𝗮𝘁 𝗼𝗻𝗰𝗲! All to make the cloud faster, safer, and more resilient. ☁️🚀

AWS Project Rainier: One of the world’s largest AI compute clusters is now fully operational. 🚀 Anthropic is actively using
+1
AWS Project Rainier: One of the world’s largest AI compute clusters is now fully operational. 🚀 Anthropic is actively using Project Rainier to build and deploy its industry-leading AI model, Claude, which AWS expects to be on more than 1 million Trainium2 chips by the end of 2025. 📹 Watch: Inside Amazon's new AI supercomputer

Обычно проблемы перед реинвентом в ноябре. И обычно у AWS. Нонче по-другому. DNS пальцем не заткнёшь. Azure Portal Access Iss
Обычно проблемы перед реинвентом в ноябре. И обычно у AWS. Нонче по-другому. DNS пальцем не заткнёшь. Azure Portal Access Issues (болеем за соседей): https://azure.status.microsoft/en-us/status
Starting at approximately 16:00 UTC, we began experiencing DNS issues resulting in availability degradation of some services. Customers may experience issues accessing the Azure Portal. We have taken action that is expected to address the portal access issues here shortly. We are actively investigating the underlying issue and additional mitigation actions.

Amazon - 30 тысяч: 14 тысяч уволенных до re:Invent, после ещё 16. https://www.theguardian.com/technology/2025/oct/27/amazon-corporate-jobs-cuts И это только начало.
Jassy said in June that the increased use of artificial intelligence tools would likely lead to further job cuts, particularly through automating repetitive and routine tasks.
"This latest move signals that Amazon is likely realizing enough AI-driven productivity gains within corporate teams to support a substantial reduction in force," said Sky Canaves, an eMarketer analyst. "Amazon has also been under pressure in the short-term to offset the long-term investments in building out its AI infrastructure."
#AI

Надёжность AWS У нас часто сбитый фокус — мы обращаем внимание, когда происходит что-то чрезвычайное и не замечаем, когда что
+1
Надёжность AWS У нас часто сбитый фокус — мы обращаем внимание, когда происходит что-то чрезвычайное и не замечаем, когда что-то монотонно успешно работает годами. Упавший 20-10-2025 на 15 часов AWS оставляет легко объяснимые впечатления. На фоне чего оценить предыдущие годы исключительно надёжной работы оценить сложно. А кто-то даже, поддавшись эмоциям, без знания реального расклада, спешит "переехать и побыстрей". А ведь лишь старожилы припомнят такие же падения. Предыдущее, примерно такое же по длительности, с Kinesis, было в 2020-м году. В то время как более длительное было лишь в волосатом 2011-м. В результате, если посчитать надёжность со скользящим окном в год и пять лет, то увидим, что "обычная" надёжность AWS "обычно" между тремя девятками (как у самого первого сервиса SQS) и четырьмя девятками, как у EC2). Причём обычно таки ближе к четырём девяткам. На текущую дату (25-10-2025) это 99.84% и 99.95%. Последнее значение 99.95% равняется SLA у Lambda или EKS. Что, мягко говоря, очень круто. Итого. Выводы из падений делать нужно. Однако также нужно знать историю и реальные цифры. Ведь каждая девятка — это гигантские проблемы, расходы и боль во всех смыслах.

На пару б дней раньше... CloudWatch introduces interactive incident reporting #CloudWatch

It was DNS. Официальный постмортем падения AWS 20 октября 2025 года. https://aws.amazon.com/message/101925/ 1. С чего началос
It was DNS. Официальный постмортем падения AWS 20 октября 2025 года. https://aws.amazon.com/message/101925/ 1. С чего началось? В результате Race condition (когда несколько процессов обновляют одну и ту же конфигурацию) при обновлении Route53 эндпоинт dynamodb.us-east-1.amazonaws.com удаляется. Всё, нет такого домена, до свидания, DynamoDB.
race condition resulted in an incorrect empty DNS record for ... endpoint... the system was left in an inconsistent state... manual operator intervention to correct.
Никаких DDoS, сетевых перенагрузок - тупо ошибка автоматизации (гусары девопсы, молчать!). 2. It is always DNS. И это был DNS.
endpoint resolution failures for DynamoDB ...
... triggered by a latent defect within the service’s automated DNS management system ...
3. Падаем громко. EC2 не стартуют, равно как Lambda, SQS, ECS/EKS, Redshift и другие критически важные сервисы.
During this period, customers and other AWS services with dependencies on DynamoDB were unable to establish new connections...
4. Первый фикс. DNS для DynamoDB руками починили за 2–3 часа, но сервисы восстанавливались медленно — пока у всех не заэкспарился кеш DNS.
As cached DNS records expired ... completed recovery from the primary service disruption event.
... manual operator intervention to correct.
5. Partial monitoring blind. Некоторое время никто не знает, что реально происходит, т.к. и CloudWatch, и внутренний мониторинг работают с перебоями.
The alternating health check results increased the load on the health check subsystem, causing it to degrade...
6. Почему упал не только один регион N.Virginia us-east-1? Ключевые сервисы - IAM, CloudFront, CloudFormation, Route53 и др. - исторически живут исключительно в us-east-1. Поэтому проблема с ними = проблемы у всех регионов.
Customers with IAM Identity Center configured in N. Virginia (us-east-1) Region were also unable to sign in...
Моё предположение, что это падение наконец-то станет окончательным поводом пересмотреть архитектуру 20-летней давности (пока) не оправдалось. Принято решение: - написать ещё тесты (но они ведь были, да?) - переписать throttle и velocity control (условно rate limit на массовые рестарты или скелинг) - добавить защиту для DNS Planner (система создания плана с айпишниками сервиса) и Enactor (система, которая пушит этот план в Route53) - уволить оставшихся девопсов
We are building an additional test suite ... improve the throttling mechanism ... add additional protections to prevent the application of incorrect DNS plans.
7. Как развивалось дальше? Сервисы недоступны или throttle-ятся долгое время, т.к. проблемы, вызванные DynamoDB DNS и недоступность ключевых сервисов столь длительное время ранее не тестировалось. 8. Когда решили проблему и началась стабилизация? 15 часов. 1 38 регионов. Ужас какой. Итого. Всё равно жду появления в бэклоге AWS своего IAM для каждого региона. Вряд ли дождусь, но жду.

It was not DNS. AWS падение 20 октября 2025 года. 1. С чего началось? Внутренняя подсистема мониторинга NLB внезапно умирает от всплеска нагрузки во внутренней сети AWS.
The root cause is an underlying internal subsystem responsible for monitoring the health of our network load balancers.
2. It is always DNS. Сбой мониторинга и перегрузка трафика вызвали проблемы в разрешении DNS, главным образом затронуты были внутренние AWS endpoints для DynamoDB (но не только).
DNS resolution issues for the regional DynamoDB service endpoints.
3. Падаем громко. DynamoDB тянет за собой EC2 Control Plane, Lambda, SQS, CloudTrail, ECS, EKS и т.д. — потому что они зависят и по данным, и по метаданным.
This issue also affects other AWS Services in the US-EAST-1 Region.
4. Первый фикс. DNS for DynamoDB чинят уже спустя два часа. Но каскадное падение многих (143+) сервисов запущено, т.к. проблемный DNS закэшировался во всех этих сервисах.
After resolving the DynamoDB DNS issue at 2:24 AM, services began recovering but we had a subsequent impairment in the internal subsystem of EC2 that is responsible for launching EC2 instances due to its dependency on DynamoDB.
If you are still experiencing an issue resolving the DynamoDB service endpoints in US-EAST-1, we recommend flushing your DNS caches.
5. Monitoring blind. Долгое время никто не знает, что реально происходит - ни CloudWatch, ни внутренний мониторинг не работает.
Network Load Balancer health checks also became impaired, resulting in network connectivity issues in multiple services such as Lambda, DynamoDB, and CloudWatch.
6. Почему упал не только один регион N.Virginia us-east-1? Ключевые сервисы - IAM, CloudFront, CloudFormation, Route53 и др. - исторически живут исключительно в us-east-1. Поэтому проблема с ними = проблемы у всех регионов. Моё предположение, что это падение наконец-то станет окончательным поводом пересмотреть архитектуру 20-летней давности.
Global services or features that rely on US-EAST-1 endpoints such as IAM updates and DynamoDB Global tables may also be experiencing issues.
7. Как развивалось дальше? Сервисы недоступны или throttle-ятся долгое время, т.к. проблемы, вызванные DynamoDB DNS и недоступность ключевых сервисов не часто тестировалось ранее, наверняка что-то с этим связанное вызвало серьёзные проблемы.
As part of the recovery effort, we temporarily throttled some operations such as EC2 instance launches, processing of SQS queues via Lambda Event Source Mappings, and asynchronous Lambda invocations.
8. Когда решили проблему и началась стабилизация? Условно через 12 часов после начала. После ещё около трёх часов окончательно поднимались все остальные сервисы и в результате инцидент продлился около 15 часов.
By 3:01 PM, all AWS services returned to normal operations. Some services such as AWS Config, Redshift, and Connect continue to have a backlog of messages.
Итого. Жду появления в бэклоге AWS своего IAM для каждого региона. И замените, наконец, народу во внутренней сети их Cisco 2800 на что-нибудь поновее.