لینک دانلود و خرید پایین توضیحات
فرمت فایل word و قابل ویرایش و پرینت
تعداد صفحات: 25
معماری موتورهای جستجوگر
مقدمه:
از آنجائی که هر پایگاه میتواند بسیاری از صفحات وب را در خود داشته باشد این باعث میشود که تعداد بیشتری از صفحات وب بوجود آید. در حالیکه کیفیت بسیاری از صفحات ممکن است مورد سؤال باشد و نگهداری بسیاری از صفحات پراکنده است. اما صفحات معتبری هم وجود دارد که اطلاعات با ارزشی در مورد بسیاری از موضوعات ارائه میدهد. علاوه بر آن انتخاب موتورهای جستجوی مناسب ممکن است برای استفادهکنندگان عمومی به علت رویههای پیچیده، مهمتر باشد.
تعریف :
موتورهای جستجوگر به برنامه ای اطلاق میشود که موضوعات مورد نظر کاربران را در قالب کلمات کلیدی ، درون اسناد و اطلاعات موجود در اینترنت کاوش کرده و نتایج بدست آمده را در قالب آدرس محل ذخیره عرضه می نماید.
برخی از موتورها صرفا برای یک سایت خاصی طراحی و پیاده میشوند مثل سایتهای فروش کالا از طریق اینترنت که دارای یک موتور انحصاری هستند که فقط در همان وب سایت کاوش میکنند ولی موتورهای جستجوی عمومی محتویات وبسایتهای موجود در کل اینترنت را پیمایش و جستجو میکنند .
معماری کلی موتورهای جستجو :
درون کاو :
تمام موتورهای جستجو به ماجولی عملیاتی به نام درون کاو متکی هستند درون کاو پهنه وسیع وب را یطور زمان بندی شده پیمایش میکند و به جمع آوری صفحات بی شمار ذخیره شده در گوشه و کنار وب میپردازد که از تعداد قابل توجهی برنامه کوچک تشکیل شده که هر کدام با هسته یک وب سایت خاص آغاز میکنند این برنامه های کوچک درون کاوی خود را تحت کنترل ماجول آغاز و بر اساس استراتژی این ماجول کنترلی به پایان میبرند .
کنترل درون کاو :
این ماجول موظف است که مجموعه برنامه های درون کاوی را با تحویل مورد نظر راه اندازی کرده و بکار درون کاوی بگمارد . ماجول کنترل درون کاو تعیین میکند که پس از دریافت صفحه جاری کدام صفحه باید دریافت چرا که یک صفحه واحد صفحات متعددی لینک دارد و ترتیب این لینکها بر عهده ماجول کنترل درون کاو میباشد . انباره صفحات :
صفحاتی که توسط ماجول درون کاو از گستره جهانی وب استخراج می شوند در یک بانک اطلاعاتی به نام انباره صفحات ذخیرهمیشوند تا به منظور شاخص دهی و تحلیل محتوائی ، در اختیار دیگر ماجولها قراربگیرند در این الگوریتم عملیات استخراج صفحات از یک سایت وب با آدرس خاص آغاز و به تمام آدرسهای دیگری نیز که در ایین صفحات درج شده اند تسری می یابد . در گونه دیگری از الگوریتمهای کنترل درون کاو ، استخراج صفحات بین حوزه های سطح بالا محدود میماند .
ماجول شاخص دهی :
این ماجول یکیایک صفحات موجود در انباره صفحات را مرور کرده و کلمات در آنها را پس از استخراج به همراه مربوطه در یک جدول بسیار عظیم درج میکند در نتیجه مشخص می شود که هر کلمه در کدام صفحه ، با چه آدرسی و در کجای صفحه ظاهر شود . یکی دیگر از خروجی های ماجول شاخص دهی بانک اطلاعاتی شاخص ساختاری است که چگونگی پیوند خوردن صفحات به یکدیگر را منعکس میکند .
ماجول درون کاوی صفحات وب :
وظیفه دارد صفحات وب را برای تحلیل و ایجاد شاخص در روالی منظم سریع و جامع استخراج کرده و تحویل انباره صفحات بدهد و. این ماجول با یک مجموعه از ( ) ها به نام ( ) آغاز به کار میکند که در قالبی منایب درون یک صف اولویت دار قرار میگیرند . انتخاب صفحات یکی از مهمترین چالشهای درون کاو وب این است که کدامین صفحه از اهمیت و اولویت بیشتری برای دریافت و ذخیره برخوردار است که معیارهای زیر مناسب تر هستند .
الف ) معیار مبتنی بر گرایشات کاربران
ب ) معیار مبتنی بر شهرت صفحات
ج ) معیار مبتنی بر محل قرار گرفتن صفحات
انواع موتور های جستجو :
موتورهای جستجو به سه دسته کلی تقسیم میشوند. موتورهای جستجوی پیمایشی و موتورهای جستجوی مبتنی بر فهرست و موتورهای جستجوی ترکیبی با نتایج مختلط.
معماری موتورهای جستجوگر