Ivvo
Ivvo
Kutay Bilen' İle Herşey.

Facebook’ta Çalışan Türk Mühendis Çöküş Gecesini Anlattı

ÖZEL HABER – Dünyanın en güçlü şirketlerinden Facebook, tarihin en büyük internet krizini yaşadığında milyarlarca insan bağlantıdan mahrum kaldı …

Facebook’ta Çalışan Türk Mühendis Çöküş Gecesini Anlattı
REKLAM ALANI

ÖZEL HABER – Dünyanın en güçlü şirketlerinden Facebook, tarihin en büyük internet krizini yaşadığında milyarlarca insan bağlantıdan mahrum kaldı. Yaklaşık 8 saat süren kesinti sebebi ile şirket 60 milyon dolar ziyan etti. Bu sayı gözünüze büyük görünebilir elbette, fakat okyanusun tabanına kendi internet çizgisini döşeyen, yılda 30 milyar dolara yakın para kazanan bir şirket için devede kulak kalıyor.

Peki o gece ne oldu, ne oldu da bir anda Facebook internetin altyapısından silindi, nasıl oldu da mühendisleri -adeta bir mağara adamı gibi- kendi şirketlerinin müdafaa kalkanlarını kesmek zorunda kaldı? Bundan 7 ay evvel Uber’den Facebook’a Kıdemli Yazılım Mühendisi olarak transfer olan Eren Algan çöküş gecesi yaşananları Webtekno’ya anlattı.

Facebook, Instagram, WhatsApp ve Oculus neden çöktü? Başlamadan evvel bilmeniz gereken iki kavram var: BGP ve DNS

YAZI ARASI REKLAM ALANI

  • BGP (Border Gateway Protocol): Kısaca ‘internetin posta servisi’ diyebiliriz. WhatsApp’tan bir ileti göndermek istediğinizde bu bilgiyi en hızlı/verimli formda karşıdaki şahsa göndermek için çalışır.
  • DNS (Domain Name System): Kısaca ‘internetin telefon rehberi’ diyebiliriz. Tarayıcıya “facebook.com” yazdığınızda bu adresin hangi IP’ye (bir nevi kimlik numarasına) sahip olduğunu söyleyen sistemdir.

Eren Algan, “Herhangi bir internet adresine ulaşabilmeniz için bu iki sistem de gereklidir. DNS, size yazdığınız karakterlerin hangi IP’ye ilişkin olduğunu söylerken, sizin bulunduğunuz ağdan gitmek istediğiniz ağa en süratli biçimde nasıl gideceğinizi söyleyen sistem ise BGP’dir.” diyor. Kolay bir örnekle anlatalım: WhatsApp’a girdiniz arama kutusuna bir kişinin ismini yazdınız; sonuçlar karşınıza geldi ve kişi ismi telefon numarası/profili ile eşleşti (DNS). Kişiyi aradınız, komut bilgisi evvel size en yakın baz istasyonuna, akabinde en yakın uydu ve karşıdaki şahsa en yakın baz istasyonuna son olarak telefonuna ulaştı (BGP).

Sonun başlangıcı: Yalnızca bir mühendis ve bir yanlışlı komut!

Şirketi Facebook hakkında “Kendi bilgi süreç merkezleri (data center’ları) olan, devasa bir ağ yapısına sahip bir kurum” diyen Eren Algan “Hatta ve hatta Pasifik Okyanusu’nun altindan kendi fiber optik kablolarini geçiren muazzam boyutta bir şirketten söz ediyoruz. Bütün bu kablolu ağlar ise Facebook’un ‘backbone network’ ismini verdiği bir kablolama sistemi üzerinden geçiyor.” diyor.

Yani çoğunlukla kablosuz olarak temas kurduğumuz Facebook, aslında internetin tabiatı gereği tüm sistemlerini kablolara borçlu. Dolayısı ile şirket, bu kablolu altyapıya düzenli olarak bakım yapması gerekiyor, yalnızca bu işle ilgilenen mühendislik takımları nizamlı olarak testler gerçekleştiriyor.

“4 Ekim’de rutin bir ‘backbone’ bakım süreci sırasında bir mühendis, bu ağın ne kadar kapasitesinin olduğunu anlamak için bir komut çalıştırdı. Sonun başlangıcı olan bu komut, istenmeyen bir biçimde ‘backbone’ ağının bütün ilişkilerini alaşağı etti; Facebook’u bütün bilgi süreç merkezlerini çevrimdışı hale getirdi.

Talihsizlikler serüveni devam ediyor: Eren, Facebook’un internetten -gerçek anlamda- yok olduğu o anı şöyle anlattı

Facebook sistemlerinin olağanda bu usul yanlışları engellemek üzerine konseyi olduğunu söyleyen Eren Algan; “Ancak talihsizlik olacak ki bu hataları anlamak için geliştirilen yazılımda da bir yanılgı meydana geldi, bu nedenle mühendisin girdiği kusurlu komut durdurulamadı. Sonucunda Facebook’un bilgi süreç merkezleri ile internet ortasındaki bağ koptu.” diyor:

“Facebook’un DNS sunucuları; şayet kendi bilgi süreç merkezlerine ulaşamazsa, kendilerini ‘ulaşılamaz/hatalı’ olarak işaretliyor, durumu posta servisine (BGP’ye) bildiriyor. Çöküş gecesi ise DNS sunucuları ‘Biz meskende yokuz, hatta konut bile yok’ manasına gelen yanılgı verdi.”

Facebook’un bir anda çağlar öncesine dönüşü: Spiral testereyle sunucu kapılarını kesip, bir hırsız üzere kendi şirketine girmek…

Facebook ve bağlı tüm uygulamalarında bir sorun olduğunu anlayan çabucak mühendislerin işe koyulduğunu söyleyen Eren Algan “Hiç de beğenilen olmayan öteki bir sürprizle karşılaştılar. Bütün bilgi süreç merkezleri çevrimdışı olduğu için hiç kimsenin internet üzerinden müdahale etme ihtimali yoktu.” diyor. Yani dünyanın en büyük internet şirketlerinden Facebook’un çalışanları, yeryüzünde internet varken “internetsiz” kalıyor.

“Tek yapılabilecek şey, fiziki olarak bilgi süreç merkezlerine gidip, DNS sunucularını ayağa kaldırmak olacaktı. Natürel ki de bu o kadar kolay değildi. Facebook, hacker’lar bilgi süreç merkezlerine girmesinler diye ekstra güvenlik tedbirleri almıştı. Mühendisler bu bilgisayarlara ulaşmak için spiral testere makinesi alip adeta bir hırsız üzere kendi şirketlerinin fiziki güvenlik pürüzlerini kesmek zorunda kaldılar.”

Her şey olağana dönse de meseleler bitmedi:

Mühendislerin kendi şirketlerine hırsız üzere girip kusurlu komutu düzelttikten sonra sistemi ayağa kaldırdıklarını söyleyen Eren Algan “Tabii ki sıkıntılar bununla bitmedi. Bütün sistemleri bir anda açmak, bu boyuttaki şirketler için hiçbir vakit gerçek tahlil olamaz. Sistemler ayağa kaldırıldığında bilgisayarlarda çok fazla yük olacağı için, bu sistemlerin muhakkak siralarla ve muhakkak kapasitelerle ayağa kaldırılması gerekir.” diyor ve WhatsApp’ın neden yalnızca bir adet ampul üzere açma-kapama anahtarına sahip olmadığını anlıyoruz.

“Facebook, bu üzere mümkün sorunları evvelce öngördüğü için ‘storm drills’ denilen ve muhtemel bir felaket durumunda sistemlerin nasıl davranacağını test ettikleri bir protokole sahiptir. Bu durumda da sistemler aşikâr bir sırayla ve kapasiteyle ayağa kaldırmayı başardılar. Yaklaşık 5 saati geçen hummali çalışmanın sonunda Facebook, Instagram, WhatsApp, Oculus uygulamalarına erişim sağlandı :)”

“Ben 4 Ekim’de ofise gittiğimde içeride kullanılan ağa ulaşım sağlanamıyordu. Hatta ve hatta yazıcılar bile çalışmıyordu. İçerideki haberleşme sistemleri çalışmayınca, olaylardan haberimizin olması bile çok sonradan oldu.”

Şimdi herkesin aklındaki soruyu cevaplamaya geldi sıra… O kusurlu komutu yazan, Facebook’a 67 milyon dolar kaybettiren o mühendise n’oldu?

“Hiç bir şey olmadı, olmaz da. Facebook üzere şirketler bu türlü kusurlara öğrenme fırsatı olarak bakarlar ve sistemlerini geliştirmek için post-mortem (otopsi) yaparlar. Genelde bu türlü yanılgılar yüzünden beşerler kovulmazlar. O beşerler için mesleklerinde unutulmaz bir kıssa, Facebook için ise çok değerliye mal olmuş bir kusur olur.”

İçeriğe verdiği takviye için Eren Algan’a teşekkür ederiz, kendisinin LinkedIn hesabına buradan, Instagram hesabına da buradan ulaşabilirsiniz.

Facebook’un çöküş gecesinde yaşananları aşağıdaki videomuzdan da öğrenebilirsiniz:

O gece yaşananlara ait başka haberlerimiz:

REKLAM ALANI
ZİYARETÇİ YORUMLARI

Henüz yorum yapılmamış. İlk yorumu aşağıdaki form aracılığıyla siz yapabilirsiniz.

BİR YORUM YAZ