NetApp Fabric Metrocluster (7 Mode)- Dark Fiber Hat Sorunlarının Tespiti

Ortamınızda NetApp Fabric Metrocluster kullanıyorsanız, bazen her iki veri merkezinizi birbirine bağlayan hatlarınızda kopmalar veya sorunlar yaşayabiliyorsunuz. Bu sorunlarında storage tarafında etkisi genelde başınızı ağrıtabiliyor. Bu tip yapılarda kesinlikle ISP yedekliliğini göz ardı etmemek gereklidir. Ayrıca her iki controller arası erişiminizi sağlayan hatların aynı POP noktalarını kullanmadığından da emin olmalısınız. Çünkü ortak bir noktada oluşan sorun her iki hattınızı dolayısıyla her iki storage controller’ larınızı direkt etkileyecektir. Bunun da anlamı yüksek ihtimalle servis kesintisi demektir.

Günün birinde örnek olarak diyelim ki hattınızın birinde bir kopma yaşadınız yada hatlar hiç kopmadı ama aradaki hatlarla ilgili sorun yaşıyorsunuz (yüksek latency gibi). Bu durumda aşağıdaki adımlar size sorun analizinde yardım olacaktır.

  • İlk yapılacak işlem hatların uçlarının bağlı olduğu SAN switch lerinize bağlanıp analize oradan başlamatır :

SAN switch ‘leriniz eğer Brocade ise aşağıdaki komutu çalıştırın.

   “porterrshow” : Bu komut size port’lardaki hataları gösterir.Özellikle ISL dediğimiz  her iki lokasyonu birbirine bağlayan switch portlarında “CRC” ve “ENC OUT” hatalarının olup olmadığı kontrol edilir.

Komutu birkaç kez arka arkaya çalıştırın ve eğer bu değerler artıyorsa, hattınızda kesinlikle bir sorun yaşıyorsunuz demektir. Direkt ISP ye (hat servis sağlayıcı firmanıza) ticket açınız. Bu komutu diğer SAN switch’ lerinizde de çalıştırın. Belki sorun sadece bir hatta yaşıyorsunuz, belki de diğer hattınızda da sorun var, bunu kontrol etmiş olursunuz.

Hattaki sorun çözüldükten sonra switch teki tüm portların istatistiklerini temizlemek için aşağıdaki komutu işletin.

“portstatsclear -i 0-79” : Komut içerisindeki 0-79 ifadesi, bu cihazdaki toplam 80 portun hepsinin değerlerini sıfırlar. Eğer sizin kullandığınız Brocade cihazı daha düşük sayıda porta sahip ise, ifadeyi ona göre değiştirebilirsiniz. Örneğin 48 portlu bir cihaz ise “portstatsclear -i 0-47”

Switch ‘leriniz eğer Cisco MDS SAN switch ise cihaza bağlanıp aşağıdaki komutu çalıştırın.

“show interface fc1/x” : X yerine ISL portunuzun numarasını yazın. Bu komut çıktısında da CRC ve Error değerlerini kontrol edin ve komutu birkaç daha çalıştırıp, bu değerlerin artıp artmadığını kontrol edin. Eğer bu değerlerde sıfırdan farklı bir değer görünüyorsanız, yine bu durum hatta bir sorun olduğuna işaret eder. Direk ISP inize ticket açıp bu bilgileri paylaşırsınız.

“clear counters interface fc1/x” : Komutu ile yine x yerine port numarasını yazarak dilediğiniz port un istatistik verilerini temizleyebilirsiniz.

  • Diyelim ki SAN switch tarafında bu bilgiler sizi tatmin etmedi, o zaman NetApp storage controller ‘larınıza bağlanıp, analize edin :

SSH ile controller’lara baglanın.

“CF monitor” komutu işletilin. Her iki hattın aktif olup olmadığını ve cluster servisinin durumunu kontrol edin. Bu komutun çıktısı nettir, hangi hattın down olduğunu direkt görebilirsiniz. Ama ya hat ayakta ama paket kayıpları varsa, o zaman bu komut işe yaramaz.

   Windows tan Start-Run üzerinden CIFS protokolü aracılığıyla NetApp storage ınıza erişin ve “messages” dosyasınızı lokaline kopyalayın.

Start –> Run –> “\\storage_controller1\etc$\messages”

Start –> Run –> “\\storage_controller2\etc$\messages”

NetApp 7 mode için bir sorun yaşıyorsanız, en önemli log dosyası bu dosyadır, birçok sorunun tespitini de bu log dosyası sayesinde yapabilirsiniz.

Dosya içerisinde “interconnect”, “takeover disabled”, “interconnect down” mesajlarını aratın. Tekrar eden hata olup olmadığı kontrol edilir. Burada saat bilgisine dikkat edin, genelde saat dilim UTC olarak kullanılır.

  • Bunlarda beni tatmin etmedi, ben NetApp ta daha derin bir analiz yapacağım diyorsanız, o zaman daha detaylı bir log dosyası olan, EMS log’u kontrol edilir. Ama burada hataları yorumlamak çok iyi bir NetApp 7 mode bilgisi gerektirecektir haberiniz olsun.

Start –> Run –> “\\storage_controller1\etc$\log\EMS”

Start –> Run –> “\\storage_controller1\etc$\log\EMS”

Yine bu dosyayı da lokalinize kopyalayın, storage üzerinde bu tip dosyalar  üzerinde kesinlikle değişiklik yapmayın, lokalinize kopyalayıp analize öyle devam edin.

Bu dosya içerisinde “FQXID” kelimesi aratılır. FQXID mesajlarının sürekli tekrar edip etmediği kontrol edilir. Dark fiber kopması sonrası sıkıntı oluşmuşsa, sürekli FQXID mesajları düşmeye başlayacaktır.

Ya da tüm bunlarla ben niye uğraşayım diyorsanız, bir NetApp partner firma ile bakım anlaşması yapın, siz de rahat edin, storage ortamınızı da güvenli ellere teslim etmiş olun. Çünkü bu tip analizlerde bile çoğunlukla NetApp sertifikalı birilerinin müdahalesi gerekecektir. Unutmayın storage tarafında bilinçsizce yapılan her hareket verinizi veya servislerinizi tehlikeli bir duruma düşürebilir.

tolgaasik

Share

Leave a Reply

Your email address will not be published. Required fields are marked *

Post comment