الطريقة
إخفاء صفحاتك المهمة عن جوجل Google و محركات البحث الأخرى
مع تقدم خدمات الأرشفة index و البحث أصبح جوجل أكثر دقة و قدرة على أرشفة و فهرسة
الصفحات و بالتالي أصبح قادرا على الوصول إلى معلومات مهمة قد لا ترده الوصول إليها مثل أرقام
الهواتف و أرقام بطاقات الائتمان. و بالتالي تقدم للها كرز المعلومات على طبق من ذهب . و بهذه
الطريقة هي لا تحتاج إلى مخترق خبير فمن الممكن أن يصل إليها حتى الشخص العادي المبتدأ
بواسطة جوجل فقط .
بالرغم من أن معظم حالات سرقات بطاقات الائتمان تتم عن طريقة سرقة قواعد البيانات إلا أننا لا
نستطيع إغفال خطورة الوضع .
هل يجب أن نلوم جوجل؟
جوجل أو ما يسمى Google spider يقوم بعمله فقط . جوجل لا يفهرس الصفحات عنوه لكنه
يفهرس صفحات الإنترنت ووضعك للمعلومات الحساسة و المهمة على شبكة الإنترنت بدون حماية
خطأك وحدك .و حماية هذه المعلومات مسئوليتك .
|استخدم ملفات robots.txt
هذه بالتأكيد أحد أهم الأدوات و هو ملف صغير نصي ترفعه إلى مستضيفك يحوي على الملفات و
المجلدات التي يستطيع أو لا يستطيع إلى محرك بحث و ليس جوجل فقط فهرستها .في الخطوة
التالية سنستعرض محتويات الملف .
|حذف ملفاتك المهمة من جوجل
لو وقع الفأس في الرأس و فهرس جوجل صفحات مهمة و حساسة في موقعك يمكنك إزالتها عن
طريق عدد من الخطوات مذكورة هنا
http://www.google.com/webmasters/remove.html
سأحاول ترجمتها على عجالة ( أو استخلاص المفيد منها )
ملاحظة
لو كنت تريد حذف صفحة من جوجل فورا و لا تريد انتظار عملية الأرشفة القادمة زر الوصلة التالية و
اطلب حذف الأرشيف
automatic URL removal system
|حذف موقعك بالكامل من جوجل أو محركات البحث الأخرى
لمنع كل محركات البحث من أرشفة موقعك ضع الكود التالي في ملف robots.txt
User-agent: *
Disallow: /
لمنع جوجل فقط من أرشفة صفحات موقعك .
User-agent: Googlebot
Disallow: /
كل بورت port يحتاج لملف robots.txt خاص له مثلا http تحتاج لملف و https يحتاج لملف و ftp يحتاج ملف و هكذا .
|إزالة صفحة واحدة من جوجل .
هناك طريقتان :
أولا : ملف robots.txt
بعد جملة user-agent يمكنك ان تحدد محرك بحث بعينه مثلا googlebot أو يمكنك أن تضع * لمنع جميع محركات البحث .
الأمثلة التالية على تمنع جميع محركات البحث لكن يمكنك استبدال googlebot بـــ * لمنع جميع محركات البحث .
لمنع فهرسة مجلد
User-agent: Googlebot
Disallow: /lemurs
لمنع فهرسة نوع معين من الملفات مثلا الصور من نوع gif
User-agent: Googlebot
Disallow: /*.gif$
لمنع فهرسة الصفحات الديناميكية مثل index.php?task=anything
User-agent: Googlebot
Disallow: /*?
ثانيا : الميتاتاج met tag
لمنع فهرسة صفحة معينه نضع التالي في منطقة الرأس بين <head> و </head>
<META NAME=ROBOTS CONTENT=NOINDEX, NOFOLLOW>
لمنع جوجل فقط من فهرسة هذه الصفحة نضع
<META NAME=GOOGLEBOT CONTENT=NOINDEX, NOFOLLOW>
للسماح بفهرسة الصفحة و لكن عدم فهرسة الصفحات المربوطة بها
<META NAME=ROBOTS CONTENT=NOFOLLOW>
|حذف الوصف snippets
عند إظهار جوجل للنتائج فإنها تظهر وصف snippets تحت كل موقع لحذفه
<META NAME=GOOGLEBOT CONTENT=NOSNIPPET>
|حذف النسخ المخزنة cached pages
جوجل تحتفظ بنسخة من صفحات موقعك في قواعدها لمنع ذلك
<META NAME=GOOGLEBOT CONTENT=NOARCHIVE>
|حذف صورة من محرك بحث جوجل للصور .
جميع الأمر تطبق عليها لكن اسم الروبوت هنا Googlebot-Image و ليس googlebot
لحذف صورة معينة أضف في ملف robots.txt
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
لمنعه من فهرسة جميع صور موقعك
User-agent: Googlebot-Image
Disallow: /
ما مدى درجة الأمان لهذه الملفات ؟
ملف robots.txt ليس وسيلة حماية يمكن الاعتماد عليها لحماية موقعك . في الحقيقة هي أقرب لوحة ممنوع الدخول على الباب و ليست قفلا عليها.لذلك عليك تأمين موقعك جيدا و حماية مجلداتك بكلمات مرور أو منع الدخول بواسطة ملفات
htaccess و يمكنك قراءة المزيد عنها من هنا .
ملاحظة أخيرة
هناك عدد من السبايدر spiders الخاصة بشركات تجمع البريد الإلكتروني من المواقع لترسل لك و لغيرك رسائل غير مرغوب بها spam يمكنك أيضا إيقافها مثل
EmailCollector و EmailSiphon و EmailWolf و ExtractorPro و Titan
معلومات إضافية