عناكب البحث.. كيف تعمل لإيجاد المعلومات عبر ملايين المواقع
ساهمت محركات البحث في جعل شبكة الإنترنت مترابطة بالشكل الذي نعاصره حاليًا. تتيح هذه الخدمات للمستخدم أن يبحث عن أي موضوع يهمه ويجد ما يناسبه عبر ملايين المواقع على الشبكة. ولعل كثيرا منا قد سأل عن كيفية حدوث ذلك. ويظهر هذا التساؤل لدى ملايين المستخدمين عند استخدام محرك بحث مثل غوغل. حيث أن المستخدم يقوم بإدخال كلمة ما تعبر عن موضوع يريد أن يعرف المزيد عنه، وفورًا يظهر غوغل آلاف الصفحات المتعلقة بالموضوع. ويمكن إجابة هذا السؤال بعبارة واحدة وهي “عناكب البحث”. الأساس لعملية البحث عبر الإنترنت والمكون الأساسي لمحركات البحث الحالية.
ما هي عناكب البحث وكيف تعمل
تعرف عناكب البحث بالإنجليزية بـ”Web Crawlers”، وهذا المصطلح يعرّب حرفيًا “زواحف الويب” أو “زواحف الإنترنت”. إلا أنها معروفة مجازًا بعناكب البحث. وتبدأ عناكب البحث عملها بمجرد قيام المستخدم بكتابة كلمة ما يود أن يبحث عنها ضمن محرك البحث المستخدم. ولا شك أن المحرك الأشهر هو غوغل ويليه بينج من مايكروسوفت. وهذه العناكب ما هي إلا مجرد برمجيات مؤتمتة. وتعرف أيضًا بأنها روبوتات. وتقوم بالبحث ضمن ملايين النتائج المسجلة مسبقًا ضمن محرك البحث، لتخرج للمستخدم بما يحتاج إليه في النهاية. وآلية العمل الخاصة بهذه البرمجيات في الواقع بسيطة وفعالة في نفس الوقت. عند قيام المستخدم بأي عملية بحث يقوم المحرك بالاعتماد على تلك الزواحف الإلكترونية باستخراج الصفحات المطلوبة من قواعد البيانات ومن ثم عرضها. وبعد إتمام هذه العملية تقوم الـWeb Crawlers بتخزين نسخة من الصفحات التي تم عرضها في قاعدة بيانات محرك البحث، وهذا يجعل الوصول لها لاحقًا أسهل وأقل استهلاكًا لموارد المحرك. ويمكن وصف تلك البرمجيات البسيطة بأنها الوسيط بين المواقع وبين محركات البحث. لكي تقوم محركات البحث بعرض النتائج من موقع ما، يجب أن يكون "عنكبوت" البحث قد قام بأرشفته سابقًا. وتتم تلك العملية بالاعتماد على عدد من العوامل. وأبرزها أن يطلب صاحب الموقع من محرك البحث أن يعرض نتائجه.
وتقوم محركات البحث -باستخدام عناكبها- بأرشفة صفحات من المواقع المشهورة والموثوقة تلقائيًا، ولهذا تحرص جميع المواقع على "تحسين محركات البحث" لكي يتم عرض نتائجها ضمن بحث غوغل وغيره. ويمكن لأصحاب المواقع أن يطلبوا من عناكب البحث عدم أرشفة صفحات بعينها. وتتم هذه العملية من خلال ملف معروف باسم robots.txt يقوم صاحب الموقع بإضافته. يعمل هذا الملف على إخبار عناكب البحث بأنه لا يريد منها عرض موقعه أو بعض صفحاته كنتائج بحثية. وتستفيد المواقع بجميع أنواعها من تلك العملية. حيث أن استهداف الكلمات المفتاحية بشكل جيد يؤدي إلى أن تقوم غوغل بعرضها عند البحث عنها، وينتج عن ذلك زيارات الباحثين لتلك المواقع في النهاية.