توسعه ی تکنیک های وب کاوی به منظور شخصی سازی اطلاعات در موتورهای جستجو- قسمت ۱۱

- داده‌های ناصحیح و نادقیق : برای آن که فرایند وب کاوی با موفقیت انجام شود، لازم است داده‌های جمع آوری شده صحیح و در قالب مناسب باشند. اما معمولا مشکلات زیادی در این زمینه وجود دارد. اولا، داده‌ها ممکن است دقیق نباشند. ثانیا داده‌ها می توانند ناکامل بوده و برخی مقادیر موجود نباشد. ثالثا تخمین میزان اطمینان درباره صحت و دقت داده‌ها به سادگی امکان پذیر نیست.

عدم وجود ابزارها: محدودیت دیگر وب کاوی، عدم وجود ابزارهای مناسب و کامل برای آن می باشد. در این راستا، متخصصان باید تصمیم بگیرند آیا برای یک کاربرد از وب کاوی، ابزار خاص آن کاربرد را توسعه دهند و یا از ابزارهای موجود استفاده کنند.

ابزارهای سفارشی: ابزارهای موجود تنها یکی از انواع وب کاوی مانند طبقه بندی یا خوشه بندی را پشتیبانی می کنند. اما بهتر آن است که یک ابزار قادر به انجام چندین تکنیک وب کاوی باشد تا کاربران بتوانند با توجه به نیازمندی های خود از تکنیک مناسب استفاده کنند.البته در حال حاضر تحقیقات بسیاری در زمینه وب کاوی در حال انجام است که هدف آن‌ ها حل این مشکلات می باشد[۳۶,۵۰].

۲-۱۰ موتور جستجو
موتور جستجو یا پیمایش گر به طور عمومی به برنامه ای گفته می‌شود که کلمات کلیدی را در یک سند یا بانک اطلاعاتی جستجو می‌کند. در اینترنت به برنامه ای گفته می‌شود که کلمات کلیدی موجود در فایل هاوسندهای وب جهانی ، گروه های خبری وآرشیوهای FTP را جستجو می‌کند و به کاربران در جستجوی اطلاعات مورد نظر در میان انبوه اطلاعات موجود در شبکه کمک می‌کند[۵۵]
در موتور جستجو کاربر کلید واژه ی را وارد کرده و برنامه ی جستجو در بانک اطلاعاتی خود به جستجو می‌پردازد. و سایت های مرتبط با موضوع شما را نمایش خواهند داد. البته امروزه بیشتر موتورهای جستجو دارای اطلاعات طبقه‌بندی شده مانند دایرکتوری ها می‌باشند و همچنین اکثر دایرکتوری ها قابلیت جستجو مانندموتورهای جستجو را دارند .موتور جستجوی وب از سه بخش تشکیل می‌شود:

یک درون کاو(خزنده)^[۴۳] که صفحات وب را پیدا می‌کند تا داخل مجموعه صفحات وب آن موتور قرار گیرد.

یک شاخص گذار^[۴۴] که شاخص معکوس^[۴۵] ( موسوم به شاخص )را که ساختمان اصلی داده‌های مورد استفاده ی آن موتور جست وجو است و صفحات وب درون کاوی شده را ارائه می‌کند .

یک پاسخ دهنده که پرس‌و‌جو های کاربر را با بهره گرفتن از شاخص ها پاسخ می‌دهد[۲۴,۵].

۲-۱۱ تاریخچه موتورهای جستجو
در سال ۱۹۹۰ اولین ابزار کاوش اینترنت ، تحت عنوان آرکی توسعه یافت.آرکی تو سط شخصی به نام آلان امتیچ در دانشگاه مک کیل کانادا ایجاد شد.مک کیل کانادا،توسعه یافت. آرکی از طریق نمایه سازی فایل های موجود در سایت های FTP با بهره گرفتن از پروتکل انتقال فایل ، امکان جستجو و بازیابی فایل ها را درمحیط اینترنت برای کاربران فراهم می ساخت[۴۹].
آرکی از طریق نمایه سازی فایل های موجود در سایت های FTP با بهره گرفتن از پروتکل انتقال فایل، امکان جستجو
و بازیابی فایل ها را در محیط اینترنت برای کاربران فراهم می ساخت. این ابزار تنها فایل های اینترنتی را بازیابی می‌کرد و قابلیت بازیابی متن و اسناد را نداشت[۴۹].
در سال ۳۹۹۱ برای بازیابی اسناد و متون در سرورهای گوفر، در دانشگاه نوادا، نظامی مشابه آرکی تدوین شدکه “ورونیکا” نام داشت . ورونیکا نیز دارای کمبودهایی مانند عدم بازیابی تصاویر و پیوندهای فرامتنی بود. یاهودر سال ۳۹۹۱ توسط دو دانشجوی دکترای مهندسی برق به نامهای دیوید فیلو و جری یانگ در دانشگاه استانفوردابداع شد[۴۹].
در حالی که آگاهی عموم از وجود وب روبه افزایش بود، نیاز به ابزارهای جستجوی این شبکه و افزایش کارایی
آن‌ ها در کانون توجه قرار گرفت. در این زمآن‌ها ایده جستجوی عنکبوتی که در آن نرم افزارهای خودکارپیوندهای موجود در شبکه را دنبال می کردند، معرفی گردید. درون‌کاو^[۴۶]ها از یک وب سایت به وب سایت دیگرمی رفتند و آن‌ ها را در نمایه خود ذخیره می کردند[۴۹].
در سال ۳۹۹۱ و ۳۹۹۱ سه موتور جستجوی آلتاویستا، لایکوز و وبکرالر به وجود آمدند. در همین سالها موتورهای راهنما نیز پا به عرصه جستجو در شبکه گذاشتند که روش نمایه سازی وبازیابی متفاوت از موتورهای جستجو در شبکه گذاشتند. این رقابت ها در اواخر دهه نود میلادی و تلاش های صورت گرفته منجر به پیدایش و عرضه موتورهای جستجوی دیگری از آن جمله معرفی موتور جستجوی گوگل گردید.در واقع گوگل در سال ۳۹۹۱ توسط دو شااخ به نام های “سارگی برین” و “لارنس پیج” در دانشگاه استانفورد به وجود آمد[۴۹].
۲-۱۲ موتورهای جستجو را از لحاظ پشتیبانی های مالی و نیروی انسانی
این نوع از موتورها به دو دسته تقسیم می شوند که شامل موتورهای جستجوی آزمایشی و موتورهای جستجو
تجاری هستند.[۵]
۲-۱۲-۱ موتورهای جستجوی آزمایشی
این دسته از موتورهای جستجو در قلب دانشگاهها یا موسسات پژوهشی شکل می‌گیرند و عموماً با هدف آزمایش یک روش جدید، ارزیابی نوع عملکرد و برآورد کیفیت نتایج یک الگوریتم، پیاده می شوند ولی از آنجاکه ایجاد یک سیستم “بزرگ مقیاس “^[۴۷] که بتواند گستره ی کل اینترنت را در پوشش بگیرد به منابع انسانی ومالی بسیار وسیع و مدیریت کلان نیاز دارد، این دانشگاه ها و موسسات نمی‌توانند رسالت اصلی خود را رهاکرده و به بالنده کردن چنین کودکانی بپردازند.
به همین دلیل از میان طرح های آزمایشی، هر کدام که سربلند وپیروز بیرون بیایند، پوسته‌ی دانشگاهی خود را بر می دارند وبه عرصه‌ی تجارت پا می گذارند[۵].
۲-۱۲-۲ موتورهای جستجوی تجاری
این رده از موتورهای جستجو در پهنه ی کل اینترنت به جستجو و راهنمایی کاربران می پردازند و منابع مالی مورد نیاز برای ارتقاء و جلب رضایت کاربران را از طریق درآمدهای تبلیغاتی و پشتیبانی مالی افراد حقیقی وحقوقی، تامین می‌کنند. روشن است که موتورهای جستجو بر حسب رضایت کاربران، بیننده های بیشتری را به خود جلب می‌کنند و جذب مخاطب و ترافیک بیشتر یک وب سایت مساوی است با افزایش بهای تبلیغات،سودآوری بیشتر و بالا رفتن ارزش سهام شرکت صاحب آن! بدین ترتیب حلقه ی بسته ی “رضایت مخاطبین،افزایش سود، تامین منابع مالی و نیروی انسانی بیشتر، ارتقاء خدمات و رضایت بیشتر مخاطبین” شکل می‌گیردو در این حلقه کیفیت خدمات موتورهای جستجوی تجاری بهتر و بیشتر می‌شود. بزرگترین مشکلات ساخت موتورهای جستجو را می توان از یک طرف “ناهمگونی وحشتناک اسناد و محتویات جای داده شده در وب” واز طرف دیگر “راضی نگاه داشتن انبوهی از کاربران بی تجربه و پرتوقع” خلاصه کرد[۵].
۲-۱۳ معماری کلی موتورهای جستجو و کارکرد آن‌ ها
موتورهای جستجو، متعدد و استراتژی های آن‌ ها متفاوت است و برخی از آن‌ ها به دلایل تجاری و امنیتی سعی می‌کنند الگوریتم های درونی شان را پنهان نگاه دارند و اینکه می توان معماری کلی آن‌ ها را چیزی شبیه به شکل زیرتصور کرد. ابتدا اجزای این معماری رادر شکل ۲-۱۲ معرفی خواهیم کرد[۵].
Client
Query
Query Engine
Ranking
Results
Indexer Module
Collection
Analysis
Module
Utility
Index:
Text
Structure
Crawl Control
Usage feedback
Page Repository
Crawler

www

فرم در حال بارگذاری ...

فید نظر برای این مطلب

وبلاگ

توضیح وبلاگ من

توسعه ی تکنیک های وب کاوی به منظور شخصی سازی اطلاعات در موتورهای جستجو- قسمت ۱۱