-
- دادههای ناصحیح و نادقیق : برای آن که فرایند وب کاوی با موفقیت انجام شود، لازم است دادههای جمع آوری شده صحیح و در قالب مناسب باشند. اما معمولا مشکلات زیادی در این زمینه وجود دارد. اولا، دادهها ممکن است دقیق نباشند. ثانیا دادهها می توانند ناکامل بوده و برخی مقادیر موجود نباشد. ثالثا تخمین میزان اطمینان درباره صحت و دقت دادهها به سادگی امکان پذیر نیست.
- عدم وجود ابزارها: محدودیت دیگر وب کاوی، عدم وجود ابزارهای مناسب و کامل برای آن می باشد. در این راستا، متخصصان باید تصمیم بگیرند آیا برای یک کاربرد از وب کاوی، ابزار خاص آن کاربرد را توسعه دهند و یا از ابزارهای موجود استفاده کنند.
- ابزارهای سفارشی: ابزارهای موجود تنها یکی از انواع وب کاوی مانند طبقه بندی یا خوشه بندی را پشتیبانی می کنند. اما بهتر آن است که یک ابزار قادر به انجام چندین تکنیک وب کاوی باشد تا کاربران بتوانند با توجه به نیازمندی های خود از تکنیک مناسب استفاده کنند.البته در حال حاضر تحقیقات بسیاری در زمینه وب کاوی در حال انجام است که هدف آن ها حل این مشکلات می باشد[۳۶,۵۰].
۲-۱۰ موتور جستجو
موتور جستجو یا پیمایش گر به طور عمومی به برنامه ای گفته میشود که کلمات کلیدی را در یک سند یا بانک اطلاعاتی جستجو میکند. در اینترنت به برنامه ای گفته میشود که کلمات کلیدی موجود در فایل هاوسندهای وب جهانی ، گروه های خبری وآرشیوهای FTP را جستجو میکند و به کاربران در جستجوی اطلاعات مورد نظر در میان انبوه اطلاعات موجود در شبکه کمک میکند[۵۵]
در موتور جستجو کاربر کلید واژه ی را وارد کرده و برنامه ی جستجو در بانک اطلاعاتی خود به جستجو میپردازد. و سایت های مرتبط با موضوع شما را نمایش خواهند داد. البته امروزه بیشتر موتورهای جستجو دارای اطلاعات طبقهبندی شده مانند دایرکتوری ها میباشند و همچنین اکثر دایرکتوری ها قابلیت جستجو مانندموتورهای جستجو را دارند .موتور جستجوی وب از سه بخش تشکیل میشود:
- یک درون کاو(خزنده)[۴۳] که صفحات وب را پیدا میکند تا داخل مجموعه صفحات وب آن موتور قرار گیرد.
- یک شاخص گذار[۴۴] که شاخص معکوس[۴۵] ( موسوم به شاخص )را که ساختمان اصلی دادههای مورد استفاده ی آن موتور جست وجو است و صفحات وب درون کاوی شده را ارائه میکند .
- یک پاسخ دهنده که پرسوجو های کاربر را با بهره گرفتن از شاخص ها پاسخ میدهد[۲۴,۵].
۲-۱۱ تاریخچه موتورهای جستجو
در سال ۱۹۹۰ اولین ابزار کاوش اینترنت ، تحت عنوان آرکی توسعه یافت.آرکی تو سط شخصی به نام آلان امتیچ در دانشگاه مک کیل کانادا ایجاد شد.مک کیل کانادا،توسعه یافت. آرکی از طریق نمایه سازی فایل های موجود در سایت های FTP با بهره گرفتن از پروتکل انتقال فایل ، امکان جستجو و بازیابی فایل ها را درمحیط اینترنت برای کاربران فراهم می ساخت[۴۹].
آرکی از طریق نمایه سازی فایل های موجود در سایت های FTP با بهره گرفتن از پروتکل انتقال فایل، امکان جستجو
و بازیابی فایل ها را در محیط اینترنت برای کاربران فراهم می ساخت. این ابزار تنها فایل های اینترنتی را بازیابی میکرد و قابلیت بازیابی متن و اسناد را نداشت[۴۹].
در سال ۳۹۹۱ برای بازیابی اسناد و متون در سرورهای گوفر، در دانشگاه نوادا، نظامی مشابه آرکی تدوین شدکه “ورونیکا” نام داشت . ورونیکا نیز دارای کمبودهایی مانند عدم بازیابی تصاویر و پیوندهای فرامتنی بود. یاهودر سال ۳۹۹۱ توسط دو دانشجوی دکترای مهندسی برق به نامهای دیوید فیلو و جری یانگ در دانشگاه استانفوردابداع شد[۴۹].
در حالی که آگاهی عموم از وجود وب روبه افزایش بود، نیاز به ابزارهای جستجوی این شبکه و افزایش کارایی
آن ها در کانون توجه قرار گرفت. در این زمآنها ایده جستجوی عنکبوتی که در آن نرم افزارهای خودکارپیوندهای موجود در شبکه را دنبال می کردند، معرفی گردید. درونکاو[۴۶]ها از یک وب سایت به وب سایت دیگرمی رفتند و آن ها را در نمایه خود ذخیره می کردند[۴۹].
در سال ۳۹۹۱ و ۳۹۹۱ سه موتور جستجوی آلتاویستا، لایکوز و وبکرالر به وجود آمدند. در همین سالها موتورهای راهنما نیز پا به عرصه جستجو در شبکه گذاشتند که روش نمایه سازی وبازیابی متفاوت از موتورهای جستجو در شبکه گذاشتند. این رقابت ها در اواخر دهه نود میلادی و تلاش های صورت گرفته منجر به پیدایش و عرضه موتورهای جستجوی دیگری از آن جمله معرفی موتور جستجوی گوگل گردید.در واقع گوگل در سال ۳۹۹۱ توسط دو شااخ به نام های “سارگی برین” و “لارنس پیج” در دانشگاه استانفورد به وجود آمد[۴۹].
۲-۱۲ موتورهای جستجو را از لحاظ پشتیبانی های مالی و نیروی انسانی
این نوع از موتورها به دو دسته تقسیم می شوند که شامل موتورهای جستجوی آزمایشی و موتورهای جستجو
تجاری هستند.[۵]
۲-۱۲-۱ موتورهای جستجوی آزمایشی
این دسته از موتورهای جستجو در قلب دانشگاهها یا موسسات پژوهشی شکل میگیرند و عموماً با هدف آزمایش یک روش جدید، ارزیابی نوع عملکرد و برآورد کیفیت نتایج یک الگوریتم، پیاده می شوند ولی از آنجاکه ایجاد یک سیستم “بزرگ مقیاس “[۴۷] که بتواند گستره ی کل اینترنت را در پوشش بگیرد به منابع انسانی ومالی بسیار وسیع و مدیریت کلان نیاز دارد، این دانشگاه ها و موسسات نمیتوانند رسالت اصلی خود را رهاکرده و به بالنده کردن چنین کودکانی بپردازند.
به همین دلیل از میان طرح های آزمایشی، هر کدام که سربلند وپیروز بیرون بیایند، پوستهی دانشگاهی خود را بر می دارند وبه عرصهی تجارت پا می گذارند[۵].
۲-۱۲-۲ موتورهای جستجوی تجاری
این رده از موتورهای جستجو در پهنه ی کل اینترنت به جستجو و راهنمایی کاربران می پردازند و منابع مالی مورد نیاز برای ارتقاء و جلب رضایت کاربران را از طریق درآمدهای تبلیغاتی و پشتیبانی مالی افراد حقیقی وحقوقی، تامین میکنند. روشن است که موتورهای جستجو بر حسب رضایت کاربران، بیننده های بیشتری را به خود جلب میکنند و جذب مخاطب و ترافیک بیشتر یک وب سایت مساوی است با افزایش بهای تبلیغات،سودآوری بیشتر و بالا رفتن ارزش سهام شرکت صاحب آن! بدین ترتیب حلقه ی بسته ی “رضایت مخاطبین،افزایش سود، تامین منابع مالی و نیروی انسانی بیشتر، ارتقاء خدمات و رضایت بیشتر مخاطبین” شکل میگیردو در این حلقه کیفیت خدمات موتورهای جستجوی تجاری بهتر و بیشتر میشود. بزرگترین مشکلات ساخت موتورهای جستجو را می توان از یک طرف “ناهمگونی وحشتناک اسناد و محتویات جای داده شده در وب” واز طرف دیگر “راضی نگاه داشتن انبوهی از کاربران بی تجربه و پرتوقع” خلاصه کرد[۵].
۲-۱۳ معماری کلی موتورهای جستجو و کارکرد آن ها
موتورهای جستجو، متعدد و استراتژی های آن ها متفاوت است و برخی از آن ها به دلایل تجاری و امنیتی سعی میکنند الگوریتم های درونی شان را پنهان نگاه دارند و اینکه می توان معماری کلی آن ها را چیزی شبیه به شکل زیرتصور کرد. ابتدا اجزای این معماری رادر شکل ۲-۱۲ معرفی خواهیم کرد[۵].
Client
Query
Query Engine
Ranking
Results
Indexer Module
Collection
Analysis
Module
Utility
Index:
Text
Structure
Crawl Control
Usage feedback
Page Repository
Crawler
www
فرم در حال بارگذاری ...