موتورهای جستجو چگونه کار می کنند؟ [بخش اول]

نکته مثبت در مورد اینترنت و شبکه جهانی وب، اینه که میلیاردا صفحه محتوا در هر زمینه ای که فکرش رو بکنین، ارائه میده. اما چیزی که خیلی مورد پسند به نظر نمیاد، تعیین عنوانای غیر مربوط به محتوای این صفحات و یا نام گذاری بی ربط اونا با نوع محتوایشانه.

وقتی که در اینترنت به دنبال موضوع خاصی می گردید، چیجوری مطالب مورد نظرتون رو از بین میلیاردها صفحه اطلاعات، پیدا می کنین؟ شاید شمام مثل بقیه از موتورهای جستجویی مثل گوگل، یاهو و بینگ استفاده می کنین.

در این مطلب می خوایم شما رو با طرز کار موتورهای جستجو و اینکه چیجوری روزانه دسترسی به صدها میلیون صفحه اطلاعات رو واسه کاربران آسون می کنن آشنا کنیم. در ادامه مطلب با سایت ما همراه باشین.

موتورهای جستجو در واقع وب سایتایی هستن که طراحی شدن تا به مردم در پیدا کردن محتوای مورد نظرشون کمک کنن. اینکه موتورهای جستجو چیجوری کار می کنن در مورد هر کدوم کمی ممکنه فرق داشته باشه. اما چیزی که از پایه بین همه اونا یه جوره انجام سه وظیفه زیره:

  • جستجوی اینترنت، یا بخشی از اون بر اسا کلمات مهم
  • فهرست کردن (Index) کلماتی که پیدا کردن و اینکه در کجا این کلمات یافت شدن.
  • کمک به کاربران واسه پیدا کردن محتوای مورد نظرشون با به کار گیری جستجوی یک یا چند کلمه.

در گذشته هر موتور جستجو دارای فهرستی از صدها هزار صفحه و سنده که روزانه یک تا دو هزار بار به وسیله کاربران دریافت می شدن. اما امروزه موتورهای جستجو صدها میلیون صفحه رو به صورت فهرست شده در اختیار دارن و روزانه ده ها میلیونا جستجو در بین این صفحات به وسیله کاربران انجام می شه.

Web Crawling

وقتی بیشتر مردم در مورد موتورهای جستجو صحبت می کنن، در واقع منظور اونا موتورهای جستجوی شبکه جهانی وبه. قبل اینکه اینترنت به صورت امروزی در دسترس همه قرار بگیره هم جستجوگرایی واسه دسترسی کاربران به اطلاعات شبکه ها وجود داشت. برنامه هایی مانند gopher و Archie فهرسی از فایلا رو در سرورهای وصل به اینترنت نگهداری کرده و به طور چشمگری، زمان دسترسی به این فایلا خیلی کم شده و در وقت صرفه جویی میشد.

در اواخر سال ۱۹۸۰ و با افزایش ارزش و اهمیت اینترنت، چگونگی به کار گیری gopher، Archie، Veronica  و rest معنا یافت.

امروزه خیلی از کاربران جستجوهایشان رو محدود به وب کردن. پس ما هم در این مطلب در مورد موتورهای جستجویی که تمرکز اصلی اونا روی محتوای صفحاته بحث می کنیم.

قبل اینکه یه موتور جستجو به شما بگه یه فایل یا یه سند رو در کجا می تونین پیدا کنین، اول اون سند یا فایل باید به وسیله موتور جستجو یافته شده باشه. واسه پیدا کردن صدها میلیون صفحه وب، موتورهای جستجو از رباتای نرم افزاری خاصی استفاده می کنن که عنکبوت (Spider) نامیده می شن و به وسیله اون لیست کلمات یافت شده در وب سایتا، فهرست بندی می شه.

وقتی که یکی از این رباتا در حال ساختن لیستا هستش، این روند رو خزیدن در وب (Web Crawling) می گن. واسه ایجاد لیستی از کلمات کاربردی و مهم، ربات های موتورهای جستجو صفحات بسیاری رو جستجو می کنن.

معمولا نقطه شروع واسه این رباتای نرم افزاری، صفحات بسیار مهم و پرکاربرده. با شروع کار، کلمات مهم این صفحات فهرست شده و هر لینکی که در محتوای صفحات وجود داشته باشین به وسیله این رباتای نرم افزاری دنبال شده و محتویات اونم به همین صورت فهرست بندی می شه. از اونجایی که معمولا در هر صفحه وب تعدادی لینک داخلی و خارجی هست، میشه خیلی راحت دریافت که با دنبال کردن هر لینک چه تعداد بسیار زیادی صفحه، به وسیله رباتای موتورهای جستجو مرور شده و فهرست بندی می شن.

گوگل به عنوان یه پروژه دانشگاهی شروع به کار کرد. در واقع روی کاغذ توضیح داده شده بود که این سیستم گونه ساخته شده. سرجی برین و لری پیچ، مثالی رو ارائه کردن و با اون نشون دادن که ربات های وب (ربات نرم افزاری) اونا چقدر می تونه سریع عمل کنه. اونا سیستم اولیه خود رو طوری ساختن که بتونه از چند ربات به صورت همزمان استفاده کنه که معمولا این تعداد ۳ عدد بود. هر ربات می تونست ۳۰۰ رابطه رو در هر لحظه با صفحات وب برقرار کنه. با اینجور سیستم کارایی، ربات وب اونا می تونست ۱۰۰ صفحه رو در هر ثانیه مرور کنه و این یعنی تولید ۶۰۰ کیلوبایت داده در هر ثانیه.

واسه اینکه سیستم با سرعت کار کنه نیازه تا منابع اطلاعاتی رو به ربات ها تزریق کرد. در نسخه های قبلی گوگل، از یه سرور اختصاصی فقط واسه ارائه آدرسای اینترنتی به نرم افزار ربات وب اونا استفاده می شد. گوگل واسه به کمترین حد ممکن رسوندن زمان بارگذاری سایت و یافته ها از DNS اختصاصی استفاده کرده. (اگه می خواین در مورد DNS بیشتر بدونین مطلب وب سایتای بزرگ چیجوری می تونن هزاران بازدید روزانه رو مدیریت کنن رو بخونین).

وقتی که گوگل یه صفحه HTML رو مرور می کنه به دو چیز توجه می کنه:

  • کلماتی که در صفحه وجود دارن.
  • اینکه کلمات کجا یافت شدن.

کلماتی که عنوان، زیر عنوان، متادیتاا و دیگه بخشای مهم شامل صفحات وب قرار دارن، در جستجوهایی که کاربران انجام میدن بسیار مهم هستن. ربات جستجوگر گوگل کلمات مورد نظر رو در هر صفحه فهرست بندی می کنه. مثلا تو یه صفحه مقاله از ثبت کلماتی مانند: و، در، با و … صرف نظر می شه و فقط کلمات مهم براساس جایگاهشان در صفحه مورد نظر فهرست بندی می شن.

معمولا سه روش کلی واسه افزایش سرعت کارکرد ربات ها و ارائه جستجویی موثرتر به کاربران یا هردو هست. بعضی از رباتا کلماتی که در عنوان صفحه، سرتیترا و لینکا هست رو دنبال می کنن. هم اینکه ۱۰۰ کلمه ای که بیشتر تو یه صفحه استفاده شده و یا حدود ۲۰ خط اول هر نوشته به وسیله این رباتای نرم افزاری بررسی می شن.

یه سریای دیگه از موتورهای جستجو مثل AltaVista از راه دیگری استفاده می کنن. اونا تموم کلمات موجود در صفحه رو فهرست می کنن. حتی حروفی مانند : و، از، در و … واسه کامل کردن این روش و هماهنگی اون با سیستمای مشابه، بخشایی مانند کلمات کلیدیو توضیحات صفحه که به صورت عادی نمیشه دیدشون هم بررسی می گردن.

در بخش دوم این مقاله به ادامه مبحث می پردازیم.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *