Pemadaman dan Pemulihan: Apa yang Terjadi Selanjutnya Setelah Gangguan AWS

Pemadaman dan Pemulihan: Apa yang Terjadi Selanjutnya Setelah Gangguan AWS

Pada hari Selasa, yang seharusnya menjadi Hari Inovasi AWS di re:Invent 2021, Amazon Web Services malah menghadapi pemadaman wilayah lain yang memengaruhi segmen luas internet. Analis dengan Forrester dan Gartner mengatakan meskipun masalah ini signifikan, itu bukan alasan, atau tidak realistis, untuk mundur pada migrasi cloud.

Menurut pembaruan dari AWS, penyebab pemadaman telah diselesaikan untuk sebagian besar setelah sekitar tujuh jam. Pemulihan layanan berlanjut setelah itu. Di luar pertanyaan tentang bagaimana hal itu terjadi, kekhawatiran beralih ke gangguan sistemik di awan skala ini yang berarti di dunia yang didominasi oleh sekelompok kecil hyperscaler.

AWS menunjukkan pemadaman terbaru yang berasal dari “kerusakan beberapa perangkat jaringan” yang memengaruhi Wilayah Virginia Utara, AS-Timur-1 perusahaan. Pemadaman terjadi pada EC2, DynamoDB, Athena, dan Chime serta API dan layanan AWS lainnya. Hal ini menyebabkan masalah dan waktu henti untuk pihak ketiga seperti Disney Plus dan Netflix. Ini juga mempengaruhi sumber daya Amazon sendiri seperti perangkat lunak manajemen pengiriman paket dan asisten virtual Alexa.

Jika ini tampak seperti déjà vu, seharusnya. Sekitar satu tahun yang lalu, pada akhir November 2020, Wilayah AWS AS-Timur-1 mengalami pemadaman yang disebabkan oleh masalah karena lebih banyak kapasitas ditambahkan ke server front-end untuk aliran data Kinesis-nya.

Sementara frekuensi pemadaman cloud semacam itu belum tentu meningkat, dampak keseluruhannya meningkat, kata Sid Nag, wakil presiden layanan cloud dan penelitian teknologi untuk Gartner. “Ini adalah salah satu yang terbesar sejak AWS mulai menjalankan bisnis.”

Aplikasi Kritis Misi Lebih Rentan

Dulu ketika sebagian besar organisasi menjalankan non-misi aplikasi penting di cloud, pemadaman dapat diatasi dengan lebih mudah. Migrasi ke cloud berarti lebih banyak aplikasi penting yang rentan terhadap gangguan seperti itu, kata Nag. “Cloud adalah model multitenant,” katanya. “Banyak organisasi berbeda yang terpengaruh, bukan hanya layanan TI.” Misalnya, pemadaman terbaru juga memutus pelanggan layanan pemantauan rumah Amazon Prime Video dan Ring. “Kami melihat dampak yang lebih besar karena ketergantungan pada cloud,” kata Nag.

Konsolidasi lanskap cloud telah menempatkan tanggung jawab untuk mempertahankan sumber daya ini di pundak sekelompok penyedia yang menyusut . Konsentrasi itu mungkin menjadi perhatian. “Ketika mereka terkena dampak, itu hampir seperti ‘terlalu besar untuk gagal,’” kata Nag. “Hal semacam itu membuat saya khawatir.”

Selain ingin melihat ketahanan arsitektur yang lebih besar di seluruh pusat data, dia mengatakan mungkin sudah saatnya bagi penyedia cloud besar untuk bekerja bahu membahu saat terjadi pemadaman dan menutupi lalu lintas satu sama lain selama pemadaman yang meluas. “Mereka tidak melakukan itu hari ini,” kata Nag.

Ada alasan bisnis kompetitif yang mencegah hal itu terjadi, katanya, tetapi mungkin ada saatnya penyedia melakukannya sendiri atau di bawah beberapa bentuk peraturan. “Penyedia cloud ini menjadi sangat besar; mereka tidak bisa turun dan membuat seluruh dunia di sekitar mereka mogok selama 24 hingga 48 jam,” katanya. “Tidak dapat diterima.”

Jika penyedia cloud utama tidak mengadopsi strategi seperti itu, Nag mengatakan mungkin ada cara bagi penyedia tersebut untuk membuat ekosistem penyedia cloud yang lebih kecil sebagai cadangan mereka. Mungkin juga ada cara untuk menggunakan solusi komputasi tepi untuk menjalankan cloud terdistribusi sebagai alternatif lain, katanya.

Hyperscaler Memiliki Profil Risiko yang Berbeda

Brent Ellis, analis senior Forrester, mengatakan hyperscaler memiliki profil risiko yang berbeda dari pusat data lain dan dengan itu membawa komplikasi ke lingkungan mereka, yang dapat mengalir. “Anda dapat membuat masalah lokal menyebar dengan sangat cepat,” katanya.

Pemadaman tidak hanya menjadi masalah bagi AWS. Hyperscaler lainnya, Microsoft Azure dan Google Cloud, telah melihat bagian mereka dari pemadaman dan masalah yang ditangani, kata Ellis. Dalam beberapa kasus, pemadaman dapat terjadi karena perintah yang salah ketik. Kesalahan manusia seharusnya tidak menjadi masalah, katanya, jika otomatisasi yang lebih besar diterapkan dengan benar. Dia masih melihat nilai signifikan dalam mengadopsi cloud, tetapi organisasi juga harus memikirkan bagaimana mereka dapat mengurangi risiko. Mencoba untuk kembali ke pusat data lokal mungkin lebih sulit dari yang diharapkan. Begitu Anda memulai migrasi besar-besaran, sulit untuk mereplikasi infrastruktur itu,” kata Ellis.

Seiring sistem dan infrastruktur cloud menjadi lebih saling terhubung, dia mengatakan pemadaman mungkin berarti organisasi hanya perlu menunggu masalah yang akan diselesaikan. “Tidak banyak yang bisa Anda lakukan,” kata Ellis. “Ada alasan mengapa semuanya diukur dalam sembilan.”

Konsolidasi sumber daya cloud mengkonsolidasikan risiko, katanya, yang dapat menjadi perhatian besar di negara di mana sejumlah besar ekonomi tergantung pada hyperscaler. “Ketika salah satu dari pusat data yang sangat besar itu mati, itu mempengaruhi 10-an ribu perusahaan, jika tidak lebih, pada saat yang sama,” kata Ellis.

Konten Terkait:

AWS CTO Vogels di Cloud Menghilangkan Kendala pada Innovation

Nasdaq CEO di AWS re:Invent Talks Cloud’s Impact on FinTech

Bagaimana Kinerja Organisasi dengan Cloud?

Baca selengkapnya