Merhaba sevgili arkadaşlar,Pilli sisteminin performansını arttırmak üzere gerçekleştirdiğimiz veritabanı güncelleme çalışması 21 ağustos 2008 günü boyunca sosyomat ve pillinetwork sitelerinin kapalı kalmasına neden oldu. Problemi 24 saatte çözmeyi ve siteleri tekrar çalışır hale getirmeyi başardık. Kesinti nedeniyle sıkıntı verdiysek özür dileriz.Eğer problemin detaylarını merak ediyor iseniz yazının geri kalanında sıkıcı teknik detaylara girmeden açıklamaya çalışacağım. dilerseniz okumaya devam edebilirsiniz.detaylar
bir süredir pilli sisteminin uptime’ını (üzgünüm ama türkçesi yok, tam karşılamasa da “yayın süresi” diyebiliriz) %100’e mümkün olduğunda yaklaştırmak üzere çalışmalar yapıyoruz. hatta tatile çıkabilmek için kendimize koyduğumuz bir şart bulunuyor; 7 gün boyunca sitelerden hiçbiri bizim tabirimizle “devrilmemeli”.uptime takibi için pingdom‘un ücretli hizmetini kullanıyoruz. ayrıca pingdom’un gönderdiği mesajı twitter ile tüm ekibin cep telefonlarına gönderiyoruz. böylece sitelerden birinde devrilme olduğunda hepimize sms geliyor (geliyordu, twitter amerika dışına sms’leri geçtiğimiz hafta kapattı) ve iki elimiz kanda olsa dahi koşuyoruz. ancak ne kadar çok sms, o kadar karın ağrısı demek. bu nedenle devrilmeleri azaltmak için elimizden gelen herşeyi yapmaya çalışıyoruz.geçtiğimiz günlerde ulaştığımız bir bilgi, devrilmelerin kaynağının kullandığımız veritabanı sürümü olduğunu ortaya çıkarttı. bunun üzerine 19 ağustos’u 20 ağustos’e bağlayan gece, saat 04:00 ile sabah 08:00 arasına veritabanını güncelleme çalışması koyduk. pilli sistemini koşturan 4 adet veritabanı sunucusu güncellendi, gerekli kontrolleri yaptık ve sabah 8:30’da paydos ettik.uyandığımızda kötü bir tablo ile karşılaştık. 20 ağustos günü boyunca siteler yavaştı ve bolca hata ile karşılaşmak mümkün oluyordu. hızlı bir karar ile 20 ağustos akşamı tüm işlemi baştan yapma kararı aldık.Sunucuları tekrar kurmak, yedeklenen veriyi sunuculara yüklemek gibi evrelerde daha önceden yaşamadığımız problemlerle karşılaştık. Kurulum tamamlandığında performans düşüklüğü olduğunu farkettik ve tekrar başa döndük. Veritabanının büyüklüğü (17gb) işimizi zorlaştırdı. 21 Ağustos günü boyunca tüm sitelerimiz kapalı kaldı. 30 küsür saatlik nöbetleşe çalışma sonucunda sunucuları sağlıklı hale getirip yayına alabildik.çalışma esnasında bize çok yardımı dokunan şu ve bu aracın yaratıcılarına teşekkürü bir borç biliriz.bundan sonra
* sunucuların performansları gözlemeye başlıyoruz. bu gözlem sonucunda operasyonun başarılı olup olmadığını göreceğiz.* uptime konusunda olumlu bir gelişme kaydedebildik mi, tatile çıkabiliyor muyuz öğreneceğiz. (açığa çıkması için yaklaşık 3,5 gün izlemek gerekecek)* güncellenen bileşenler diğer bileşenleri olumsuz etkiledi mi takip edeceğiz. bu süreç esnasında çatlayıp patlayan yerler görürseniz lütfen bize eposta yoluyla bildirin.ayrıca, biliyorsunuz ki bir saatten uzun süren kesintiler olması durumunda yayında olan pilli ilan‘lara bir gün yayın hediyesi yapıyoruz. bu kesinti nedeniyle dün ve bugün yayında olması gereken ilanlara 2’şer gün uzatma hediye edildi.Problem esnasında herhangi bir veri kaybı yaşamadık.Kesinti nedeniyle tekrar özür dileriz.Bu olağanüstü hal esnasında hatırımızı soran, yardım teklif eden tüm arkadaşlarımıza çok teşekkür ederiz.