[Перевод] Как Microsoft сожгла триллион долларов. Часть вторая

Часть первая. Я не помню ни дня, когда Azure не работал бы в стрессовых условиях. Даже во время периодических мероприятий по повышению качества бэклог проблем не уменьшался, а только рос. Весной и летом 2024 года началась масштабная инициатива по увеличению количества VM, которое мог хостить каждый узел. С точки зрения бизнеса всё было понятно: повышение плотности уже имеющихся серверов гораздо дешевле, чем построение новых дата-центров. Развёртывания Azure на мощностях компании всегда были ограничены шестнадцатью VM на узел. До того года собственные коммерческие облака Microsoft работали максимум с 32 VM, и это всё равно крошечная доля от теоретически поддерживаемых гипервизором 1024 VM. Цель заключалась в увеличении на 50%, до 48 VM на узел, с перспективой увеличения до 64 в будущем. То, что должно было стать задачей по повышению произвольных ограничений ПО, привело к росту вылетов и инцидентов на 50%. Проблемы масштабировались ровно пропорционально плотности. Ранее, когда я ещё продолжал работать над планом переработки интерфейса гипервизора для нижней части стека узлов Azure, мы провели исследование с командой Core OS, отвечавшей за другую сторону Hypervisor API. Данные трассировки вызовов показывали, что агенты узлов вместе атаковали гипервизор через интерфейс пользовательского режима WMI, в пике достигая 10 тысяч вызовов в секунду. У команды Hyper-V не было информации о том, какие агенты отвечали за это и почему было необходимо столько вызовов. С нашей стороны тоже никто не мог дать определённого ответа. На этом этапе стало понятно, что проект портирования выгрузки Overlake не будет никогда завершён. Не только из-за описанных выше зависимостей, но и из-за самого динамического поведения стека.

https://habr.com/ru/articles/1019462/

#azure #виртуальные_машины #amazon_ec2 #openai #microsoft

Как Microsoft сожгла триллион долларов. Часть вторая

Часть первая. Я не помню ни дня, когда Azure не работал бы в стрессовых условиях. Даже во время периодических мероприятий по повышению качества бэклог проблем не уменьшался, а только рос. Весной и...

Хабр

EC2にログインできなくなったのでEBSルートボリュームを別インスタンスにアタッチして復旧させた
https://dev.classmethod.jp/articles/ec2-ebs-recorvery-ssh-login/

#dev_classmethod #Amazon_EC2 #AWS #Amazon_EBS #SSH

EC2にログインできなくなったのでEBSルートボリュームを別インスタンスにアタッチして復旧させた | DevelopersIO

EC2にログインできなくなったのでEBSルートボリュームを別インスタンスにアタッチして復旧させた | DevelopersIO

【小ネタ】 EC2 Windows Server の Windows Update で ”再起動必須の KB” を見分ける方法
https://dev.classmethod.jp/articles/ec2-windows-update-reboot-required-kb/

#dev_classmethod #AWS #Amazon_EC2 #EC2_Windows_Instance

【小ネタ】 EC2 Windows Server の Windows Update で ”再起動必須の KB” を見分ける方法 | DevelopersIO

【小ネタ】 EC2 Windows Server の Windows Update で ”再起動必須の KB” を見分ける方法 | DevelopersIO

[アップデート] Amazon EC2 の AMI で使用状況レポートと参照リソースの確認機能が追加されました
https://dev.classmethod.jp/articles/ec2-ami-usage-monitor-amis/

#dev_classmethod #AMI #Amazon_EC2 #AWS

[アップデート] Amazon EC2 の AMI で使用状況レポートと参照リソースの確認機能が追加されました | DevelopersIO

[アップデート] Amazon EC2 の AMI で使用状況レポートと参照リソースの確認機能が追加されました | DevelopersIO

Hourly RHEL AMI で作成した EC2 インスタンスにおいて、Red Hat Update Infrastructure (RHUI) にアクセスするにはどのようにすればよいですか
https://dev.classmethod.jp/articles/tsnote-ec2-hourly-rhel-ami-red-hat-update-infrastructure-rhui/

#dev_classmethod #AWS #Amazon_EC2 #Red_Hat_Enterprise_Linux_RHEL

Hourly RHEL AMI で作成した EC2 インスタンスにおいて、Red Hat Update Infrastructure (RHUI) にアクセスするにはどのようにすればよいですか | DevelopersIO

Hourly RHEL AMI で作成した EC2 インスタンスにおいて、Red Hat Update Infrastructure (RHUI) にアクセスするにはどのようにすればよいですか | DevelopersIO

[アップデート] Intel Xeon 6を搭載したM8i、M8i-flexインスタンスが追加されました
https://dev.classmethod.jp/articles/amazon-ec2-m8i-and-m8i-flex-instances-generally-available/

#dev_classmethod #Amazon_EC2 #AWS

[アップデート] Intel Xeon 6を搭載したM8i、M8i-flexインスタンスが追加されました | DevelopersIO

ワークロードに応じて適切なインスタンスタイプを選択しよう

[アップデート] Intel Xeon 6を搭載したM8i、M8i-flexインスタンスが追加されました | DevelopersIO

Amazon EC2 GPU インスタンスの RI 対応状況を調査してみた
https://dev.classmethod.jp/articles/ec2-gpu-instance-ri-availability-survey/

#dev_classmethod #Amazon_EC2 #GPU #AWS

Amazon EC2 GPU インスタンスの RI 対応状況を調査してみた | DevelopersIO

Amazon EC2 GPU インスタンスの RI 対応状況を調査してみた | DevelopersIO

[AWS Technical Support Note] ช่วยแนะนำวิธีเปลี่ยน Primary IP Address ของ EC2 instance ที่มีอยู่แล้วโดยไม่ต้องลบ instance ได้ไหม
https://dev.classmethod.jp/articles/tsnote-thai-ip-address-ec2change-without-deleting/

#dev_classmethod #Thai_Technical_Support #Thai_Language #Classmethod_Thailand #AWS #Amazon_EC2

[AWS Technical Support Note] ช่วยแนะนำวิธีเปลี่ยน Primary IP Address ของ EC2 instance ที่มีอยู่แล้วโดยไม่ต้องลบ instance ได้ไหม | DevelopersIO

ช่วยแนะนำวิธีเปลี่ยน Primary IP Address ของ EC2 instance ที่มีอยู่แล้วโดยไม่ต้องลบ instance ได้ไหม

[AWS Technical Support Note] ช่วยแนะนำวิธีเปลี่ยน Primary IP Address ของ EC2 instance ที่มีอยู่แล้วโดยไม่ต้องลบ instance ได้ไหม | DevelopersIO

Systems Manager のポートフォワーディングを利用してRDP接続でファイル転送する。
https://dev.classmethod.jp/articles/systems-manager-rdp-file-transfer/

#dev_classmethod #AWS #Amazon_EC2 #Windows_Server #AWS_Systems_Manager_Session_Manager

Systems Manager のポートフォワーディングを利用してRDP接続でファイル転送する。 | DevelopersIO

Systems Manager のポートフォワーディングを利用してRDP接続でファイル転送する。 | DevelopersIO

Capacity Reservation と Capacity Block for ML でノード間の通信を高速化する方法を調べてみた
https://dev.classmethod.jp/articles/aws-ec2-capacity-reservation-capacity-block-ml-node-communication/

#dev_classmethod #Amazon_EC2 #AWS

Capacity Reservation と Capacity Block for ML でノード間の通信を高速化する方法を調べてみた | DevelopersIO

Capacity Reservation と Capacity Block for ML でノード間の通信を高速化する方法を調べてみた | DevelopersIO