Robots.txt Dosyaları ile Güvenlik Riskleri Nasıl Giderilir

Robot dışlama standardı yaklaşık 25 yaşındadır, ancak standardın yanlış kullanılması ile yaratılan güvenlik riskleri yaygın olarak anlaşılmamaktadır.

Karışıklık, robot dışlama standardının amacı hakkında devam etmektedir.

Güvenlik risklerinden kaçınmak ve hassas verilerinizin korunmasını sağlamak için nasıl doğru kullanılacağını öğrenmek için okumaya devam edin.

Robots Dışlama Standardı Nedir ve Robots.txt Dosyası Nedir?

Robots.txt dosyası web tarayıcılarının ve diğer iyi niyetli robotlar bir web sitesinin yapısı hakkında bir kaç şey söylemek için kullanılır. Açıkça erişilebilir ve insanlar tarafından hızlı ve kolay bir şekilde okunup anlaşılabilir.

Robots.txt dosyası (en ünlü), web sayfalarının ve dizinleri hangi ettiği yer taranmak ne kadar hızlı XML site haritası dosyası (ler) bulmak için tarayıcıların anlatmak ve edebilirsiniz değil emeklemeye.

İyi bir robot bir web sayfasını taramadan önce, önce bir robots.txt dosyasının varlığını kontrol eder ve varsa, genellikle içinde bulunan yönergelere saygı gösterir.

Robots.txt dosyası, yeni SEO uygulayıcılarının öğrendiği ilk şeylerden biri . Kullanımı kolay ve güçlü görünüyor. Bu şartlar seti maalesef, iyi niyetli ancak dosyanın yüksek riskli kullanımıyla sonuçlanmaktadır.

Bir robota bir web sayfasını veya dizini taramamasını söylemek için, robotlar hariç tutma standardı, bir robotun sayfalara erişmesine izin verilmeyen “izin verme” beyanlarına dayanır.

Robots.txt Güvenlik Riski

Robots.txt dosyası zor bir yönerge değil, sadece bir öneri. Googlebot gibi iyi robotlar dosyadaki direktiflere saygı gösterir.

Yine de kötü robotlar tamamen görmezden gelebilir veya daha kötüye gidebilir. Aslında, bazı garip robotlar ve penetrasyon test robotları, izin verilmeyen site bölümlerini ziyaret etmek amacıyla özellikle robots.txt dosyalarını arar.

Kötü niyetli bir oyuncu – ister insan ister robot olsun – bir web sitesinde özel veya gizli bilgiler bulmaya çalışıyorsa, robots.txt dosyasının izin vermeyenler listesi harita görevi görebilir. Bakılacak ilk, en belirgin yer orası.

Bu şekilde, bir site yöneticisi, içeriklerini güven altına almak ve sayfaları gizli tutmak için robots.txt dosyasını kullandıklarını düşünüyorsa, tam tersini yapıyordur.

Ayrıca, robotların hariç tutma standardı yoluyla dışlanan dosyaların doğada tam olarak gizli olmadığı, ancak bir yarışmacının dosyaları bulması arzu edilmeyen birçok durum vardır.

Örneğin, robots.txt dosyaları A / B testi URL modelleri veya web sitesinin yeni ve geliştirilmekte olan bölümleri hakkında ayrıntılı bilgi içerebilir.

Bu durumlarda, gerçek bir güvenlik riski olmayabilir, ancak yine de, bu hassas alanların erişilebilir bir belgede belirtilmesiyle ilgili riskler vardır.

Robots.txt Dosyalarının Riskini Azaltmak için En İyi Uygulamalar

Robots.txt dosyalarının neden olduğu riskleri azaltmak için birkaç iyi uygulama vardır.

1. Robots.txt dosyasının ne için olduğunu ve ne için olmadığını anlama

Robotlar hariç tutma standardı, bir URL’yi arama motorunun dizininden kaldırmaya yardımcı olmaz ve bir arama motorunun dizinine URL eklemesinidurdurmaz.

Arama motorları, URL’yi taramamaları istenmiş olsa bile, genellikle dizinlerine URL’ler ekler. URL tarama ve dizine ekleme işlemleri farklıdır ve robots.txt dosyası, URL’lerin dizine alınmasını durduracak hiçbir şey yapmaz.

2. Hem Noindex hem de Robots.txt Kullanırken Dikkatli Olun Aynı Anda İzin Verme

Bir sayfanın hem noindex etiketine hem de robotun izin verme direktifine sahip olması gereken oldukça nadir bir durumdur. Aslında, böyle bir kullanım durumu aslında mevcut olmayabilir.

Google bu mesajı bir açıklama yerine bu sayfaların sonuçlarında gösterirdi: “Bu sonucun açıklaması bu sitenin robots.txt’si nedeniyle kullanılamıyor”.

Son zamanlarda, bunun yerine “Bu sayfa için bilgi mevcut değil” olarak değişmiş görünüyor.

3. Genel Olarak Erişilebilir Olan Özel Olması Gereken Sayfalar İçin Noindex, Disallow Değil, Kullanın

Bunu yaparak, iyi bir tarayıcının dizine eklenmemesi gereken bir URL bulması durumunda dizine alınmayacağından emin olabilirsiniz.

Bu gerekli güvenlik düzeyine sahip içerik için, bir tarayıcının URL’yi ziyaret etmesi tamamdır, ancak tarayıcının içeriği dizine eklemesi tamam değildir.

Özel olması ve  herkese açık olmaması gereken sayfalar için  parola koruması veya IP beyaz listesi en iyi çözümlerdir.

4. Dizinlere İzin Verme, Belirli Sayfalara Değil

İzin vermeyecek belirli sayfaları listeleyerek, yalnızca kötü oyuncuların bulmasını istemediğiniz sayfaları bulmasını çok kolaylaştırırsınız.

Bir dizine izin vermezseniz, nefret sahibi kişi veya robot, dizin içindeki ‘gizli’ sayfaları hala kaba kuvvet veya inurl arama operatörü aracılığıyla bulabilir, ancak sayfaların tam haritası bunlar için düzenlenmez.

Dosyalarınızın yanlışlıkla bir “ dizin ” sayfasıyla gösterilmediğinden emin olmak için dizin dizin düzeyinde bir dizin sayfası, yönlendirme veya 404 eklediğinizden emin olun . Dizin seviyesi için bir dizin sayfası oluşturursanız, kesinlikle özel içeriğe bağlantılar eklemeyin!

5. IP Kara listeye almak için bir Bal küpü ayarlayın

Güvenliğinizi bir üst seviyeye çıkarmak istiyorsanız, robots.txt dosyanızı kullanarak bir bal küpü oluşturmayı düşünün. “Disallow: /secure/logins.html” gibi kötü adamlara çekici gelen robots.txt dosyasına bir disallow yönergesi ekleyin.

Ardından, izin verilmeyen kaynakta IP günlüğü oluşturun. “Logins.html” dosyasını yüklemeye çalışan IP adresleri, web sitenizin herhangi bir bölümüne ilerleyerek kara listeye alınmalıdır.

Sonuç

Robots.txt dosyası, nasıl davranacağına dair iyi robotlara talimat vermek için kritik bir SEO aracıdır, ancak bir şekilde bir güvenlik protokolü yanlış yönlendirilmiş ve tehlikelidir.

Genel olarak erişilebilir olması gereken ancak arama sonuçlarında görünmeyen web sayfalarınız varsa, en iyi yaklaşım, sayfaların kendisinde (veya X-Robots-Tag başlık yanıtı) noindex robot etiketi kullanmaktır.

Bir robots.txt dosyasına özel olması amaçlanan bir URL listesi eklemek, URL’leri gizli tutmaya çalışmanın en kötü yollarından biridir ve çoğu durumda, amaçlanan sonucun tam tersidir.