اضغط هنا

اضغط هنا

ملف الـ Robots.txt و عملية فهرسة المواقع و المنتديات

من الرائع أن تأتي عناكب البحث بشكل مستمر إلى موقعك لتقوم بفهرسته و لكن تحدث المشكلة عندما تقوم العناكب بفهرسة التي لا ترغب أنت بفهرستها، فعلى سبيل المثال لو كان لديك نسختين من صفحة معينة، إحداها تستخدمها لأغرض الطباعة و النسخة الأخرى تستخدمها لغايات العرض، في هذا المثال لو قام عنكبوت البحث بفهرسة النسختين فإن ذلك سوف يسبب مشكلة لك لأن خوارزمية محركات البحث سوف تعتبرها محتويات منسوخة . لذلك يجب عليك أن تستثني إحدى النسخ و لتكن النسخة المخصصة لأغراض الطباعة. و مثال آخر، في بعض الحالات تكون هناك بعض الصفحات التي تود أن تبقي مخفية مثل صفحات دخول مشرفين المواقع. وأيضاً إذا أردت أن توفر بعض من الـ Bandwidth الخاصة بموقعك عن طريق استثناء الصور، الجافا سكربت و ملفات الأنماط فإنك تستطيع ذلك عن طريق إخبار عناكب البحث بما ليس هناك داعي لفهرسته.
هناك طريقة واحدة لتحديد ما يجب فهرسته و ما لا يجب فهرسته من قبل عناكب البحث. ملف Rebots.txt هو عبارة عن دليل لعناكب البحث في موقعك و هو الطريقة الوحيدة لمخاطبتها.
لعلك تتساءل، إذا لم يكن هناك روابط أو وصلات Links تشير على صفحات دخول المشرفين على سبيل المثال فكيف يمكن لعناكب البحث أن تصل لتلك الصفحات؟ الجواب : نعم يمكنها الوصول عن طريق أساليب التجسس التي تستخدمها محركات البحث، فمثلاً كلنا سمع بـشريط جوجل Google Toolbar، وهو عبارة عن شريط يتم إدماجه مع متصفح المواقع ليقدم بعض الخدمات لمتصفح المواقع مثل البحث، الترجمة و التدقيق الإملائي من جهة المستخدم، أما من جهة شركة جوجل، فإنه يعتبر تغذيه راجعة لها لتزودها بالمواقع التي قام المستخدم بزيارتها، لذا لا تستغرب قيام محرك جوجل بالوصول لصفحات التي ليس هناك أي وصلات خارجية لها.

ما هي حقيقة الملف Rebots.txt؟

هو عبارة عن ملف نصي Text و ليس أش تي أم أل HTML يكون موجود بين ملفات الموقع على الخادم Server ليخبر عناكب البحث أي الملفات التي لا يجب عليه أن يقوم بفهرستها، أي انه الوسيلة لمخاطبة العناكب لتق لها ما ليس عليها أن تفعله. يجب أن تعرف حقيقة عن ملف Rebot.txt و هي أن هذا الملف ليس طريقة للمنع مثل حائط النار أو الحماية بكلمة سر ، و هو فقط لإعطاء رجاء إلى عناكب البحث بأن لا تقوم بفهرسة ملفات معينة في موقعك و لهذا إذا كان هناك بعض الملفات التي تحتوي على معلومات حساسة، فلا تعتمد على ملف Robots.txt ليقوم بحمايتها من الأرشفة.
موقع الملف Rebots.txt مهم جداً حيث يجب أن يكون في المجلد الرئيسي لموقعك حتى تتمكن العناكب من إيجاده حيث أن العناكب لا تقوم بالبحث عن هذا الملف في جميع أرجاء الموقع بل تقوم بالذهاب مباشرة إلى المجلد الرئيسي في موقعك، على سبيل المثال تقوم بالذهاب إلى العنوان التالي: http://www.domainname.com/rebots.txt و إذا لم تجده تحت هذا العنوان فإنها تقوم ببساطة بالافتراض أن هذا الملف ليس موجود، أي انه ليس هناك توجيهات لعدم فهرسة أماكن معينة في الموقع، لذا إذا كان موقعك لا يحتوى على هذا الملف فلا تكن متفاجئاً إذا وجت موقعك مفهرس بالكامل في إحدى محركات البحث بين ليله و ضحاها. يمكنك زيارة الموقع التالي ل مزيد من المعلومات حول ملف Rebots.txt يمكنك زيارة الموقع التالي : http://www.robotstxt.org.

بنية و تركيب الملف Rebots.txt

إن تركيبة الملف Rebot.txt بسيطة و ليست مرنة، فهي جميعها عبارة عن جمل منع لعناكب محركات البحث ، يكون أسلوب الكتابة فيها كالآتي:
User-agent:
Disallow:
في هذا المثال الـ (User-agent) يقصد بها "عناكب محركات البحث" و كلمة Disallow تعني منع، أي كأنك تقول لهذه العناكب: لا تقومي بفهرسة كذا و كذا. يمكنك إضافة تعليق عن طريق استخدام الرمز (#) كما هو الحال في المثال التالي:
# Tempمنع عناكب البحث من أن تقوم بفهرسة مجلد الـ
User-agent:*
Disallow: /Temp/
هنا الـ * تعني كل أنواع العناكب، أي عناكب ياهو و عناكب جوجل و عناكب الـMSN الـخ... المثال التالي يبين كيف تقوم بوقف جميع عناكب البحث عن فهرسة موقعك:
#منع جميع العناكب من فهرسة جميع أجزاء الموقع
User-agent:*
Disallow:*



ليست هناك تعليقات:

إرسال تعليق

اضغط هنا