عرض مشاركة واحدة
  #1  
قديم 09-05-2007, 07:39 PM
dealo dealo غير متواجد حالياً
Senior Member
 
تاريخ التسجيل: Nov 2006
المشاركات: 2,529
إرسال رسالة عبر MSN إلى dealo إرسال رسالة عبر Yahoo إلى dealo
افتراضي robots.txt: فهرسة أو بدون فهرسة هذا هو السؤال؟

الطريقة

إخفاء صفحاتك المهمة عن جوجل Google و محركات البحث الأخرى

مع تقدم خدمات الأرشفة index و البحث أصبح جوجل أكثر دقة و قدرة على أرشفة و فهرسة

الصفحات و بالتالي أصبح قادرا على الوصول إلى معلومات مهمة قد لا ترده الوصول إليها مثل أرقام

الهواتف و أرقام بطاقات الائتمان. و بالتالي تقدم للها كرز المعلومات على طبق من ذهب . و بهذه

الطريقة هي لا تحتاج إلى مخترق خبير فمن الممكن أن يصل إليها حتى الشخص العادي المبتدأ

بواسطة جوجل فقط .

بالرغم من أن معظم حالات سرقات بطاقات الائتمان تتم عن طريقة سرقة قواعد البيانات إلا أننا لا

نستطيع إغفال خطورة الوضع .

هل يجب أن نلوم جوجل؟

جوجل أو ما يسمى Google spider يقوم بعمله فقط . جوجل لا يفهرس الصفحات عنوه لكنه

يفهرس صفحات الإنترنت ووضعك للمعلومات الحساسة و المهمة على شبكة الإنترنت بدون حماية

خطأك وحدك .و حماية هذه المعلومات مسئوليتك .


|استخدم ملفات robots.txt

هذه بالتأكيد أحد أهم الأدوات و هو ملف صغير نصي ترفعه إلى مستضيفك يحوي على الملفات و

المجلدات التي يستطيع أو لا يستطيع إلى محرك بحث و ليس جوجل فقط فهرستها .في الخطوة

التالية سنستعرض محتويات الملف .

|حذف ملفاتك المهمة من جوجل

لو وقع الفأس في الرأس و فهرس جوجل صفحات مهمة و حساسة في موقعك يمكنك إزالتها عن

طريق عدد من الخطوات مذكورة هنا http://www.google.com/webmasters/remove.html

سأحاول ترجمتها على عجالة ( أو استخلاص المفيد منها )

ملاحظة


لو كنت تريد حذف صفحة من جوجل فورا و لا تريد انتظار عملية الأرشفة القادمة زر الوصلة التالية و

اطلب حذف الأرشيف automatic URL removal system

|حذف موقعك بالكامل من جوجل أو محركات البحث الأخرى

لمنع كل محركات البحث من أرشفة موقعك ضع الكود التالي في ملف robots.txt
User-agent: *
Disallow: /

لمنع جوجل فقط من أرشفة صفحات موقعك .

User-agent: Googlebot
Disallow: /

كل بورت port يحتاج لملف robots.txt خاص له مثلا http تحتاج لملف و https يحتاج لملف و ftp يحتاج ملف و هكذا .

|إزالة صفحة واحدة من جوجل .

هناك طريقتان :

أولا : ملف robots.txt

بعد جملة user-agent يمكنك ان تحدد محرك بحث بعينه مثلا googlebot أو يمكنك أن تضع * لمنع جميع محركات البحث .
الأمثلة التالية على تمنع جميع محركات البحث لكن يمكنك استبدال googlebot بـــ * لمنع جميع محركات البحث .
لمنع فهرسة مجلد

User-agent: Googlebot
Disallow: /lemurs

لمنع فهرسة نوع معين من الملفات مثلا الصور من نوع gif
User-agent: Googlebot
Disallow: /*.gif$

لمنع فهرسة الصفحات الديناميكية مثل index.php?task=anything
User-agent: Googlebot
Disallow: /*?

ثانيا : الميتاتاج met tag

لمنع فهرسة صفحة معينه نضع التالي في منطقة الرأس بين <head> و </head>
<META NAME=ROBOTS CONTENT=NOINDEX, NOFOLLOW>

لمنع جوجل فقط من فهرسة هذه الصفحة نضع
<META NAME=GOOGLEBOT CONTENT=NOINDEX, NOFOLLOW>

للسماح بفهرسة الصفحة و لكن عدم فهرسة الصفحات المربوطة بها
<META NAME=ROBOTS CONTENT=NOFOLLOW>

|حذف الوصف snippets

عند إظهار جوجل للنتائج فإنها تظهر وصف snippets تحت كل موقع لحذفه
<META NAME=GOOGLEBOT CONTENT=NOSNIPPET>

|حذف النسخ المخزنة cached pages

جوجل تحتفظ بنسخة من صفحات موقعك في قواعدها لمنع ذلك
<META NAME=GOOGLEBOT CONTENT=NOARCHIVE>

|حذف صورة من محرك بحث جوجل للصور .

جميع الأمر تطبق عليها لكن اسم الروبوت هنا Googlebot-Image و ليس googlebot
لحذف صورة معينة أضف في ملف robots.txt
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

لمنعه من فهرسة جميع صور موقعك
User-agent: Googlebot-Image
Disallow: /

ما مدى درجة الأمان لهذه الملفات ؟

ملف robots.txt ليس وسيلة حماية يمكن الاعتماد عليها لحماية موقعك . في الحقيقة هي أقرب لوحة ممنوع الدخول على الباب و ليست قفلا عليها.لذلك عليك تأمين موقعك جيدا و حماية مجلداتك بكلمات مرور أو منع الدخول بواسطة ملفات htaccess و يمكنك قراءة المزيد عنها من هنا .

ملاحظة أخيرة

هناك عدد من السبايدر spiders الخاصة بشركات تجمع البريد الإلكتروني من المواقع لترسل لك و لغيرك رسائل غير مرغوب بها spam يمكنك أيضا إيقافها مثل

EmailCollector و EmailSiphon و EmailWolf و ExtractorPro و Titan

معلومات إضافية
رد مع اقتباس