شکل ۳- ۱ : فرایند تصمیمگیری چند شاخصه ۶۵
شکل ۳-۲ : فضای هدف دو معیاره ۷۰
شکل ۴-۱ : نمونهای از شبیهسازی مدل پیشنهادی ۸۰
چکیده:
امروزه وب جهان گستر به عنوان بهترین محیط جهت توسعه، انتشار و دسترسی به دانش مورد استفاده قرار میگیرد. مهمترین ابزار برای دسترسی به این اقیانوس بی کران اطلاعات، موتورهای جستجو میباشد که یکی از اصلیترین بخشهای آن رتبهبندی در پاسخ به جستجوی کاربر است. بنابراین کمک به کاربران برای پیدا کردن صفحه وب مورد نظرشان یک مسئله بسیار مهم است. با توجه به مشکلات روشهای مبتنی بر متن و پیوند، روشهای مبتنی بر رفتار و قضاوت کاربر برای برقراری عدالت و دموکراسی در وب مورد توجه قرار گرفته است. به عبارت دیگر جهتِ رشد وب از نظر کمی و کیفی، تعیین صفحات اصلح توسط خود کاربران انجام میپذیرد. ولیکن تشخیص و استخراج قضاوت کاربران از اهمیت خاصی برخوردار میباشد. رفتار کاربر در حین جستجو، شامل متن پرسوجو، نحوه کلیک کاربر بر روی لیست رتبهبندی شده نتایج، زمان توقف در صفحه و دیگر اطلاعات موجود در خصوص وقایع ثبت شده در حین جستجو میباشد. این وقایع ثبت شده، حاوی اطلاعات بسیار ارزشمندی هستند که از آن ها میتوان جهت تحلیل و ارزیابی و مدلسازی رفتار کاربران به منظور بهبود کیفیت نتایج استفاده کرد. در این پژوهش مدلی ارائه میگردد که به ازای هر پرسوجوی مشخص بازخوردهای مثبت و منفی کاربران از جمله تعداد دفعات دستیابی یک سایت، مدت زمان سپریشده در هر سایت، تعداد دانلودهای انجام شده در هر سایت، تعداد کلیکهای مثبت و تعداد کلیکهای منفی در هر سایت از لیست نشان داده شده از صفحات وب، را دریافت کرده و رتبه هر صفحه را با بهره گرفتن از روش تصمیمگیری چند شاخصه محاسبه میکند و یک رتبهبندی جدید از سایتها ارائه میدهد و این رتبهبندی را مرتباً با بهره گرفتن از بازخوردهای بعدی کاربران به روز می کند.
واژههای کلیدی:
موتور جستجو، رفتار کاربر، بازخورد کاربر، تصمیمگیری چندشاخصه
فصل اول
کلیات پژوهش
۱-۱ مقدمه
اینترنت از صفحات وب که شامل موضوعات متفاوتی هستند، تشکیل شده است. برای یافتن موضوعی خاص در این مجموعه عظیم صفحات، نیاز به استفاده از یک موتور جستجو است. موتورهای جستجو با توجه به پرسوجوی کاربر در پایگاه دادهی خود جستجو را انجام داده و نتایج جستجو را به کاربر نشان میدهند. با توجه به این که امکان پیدا شدن صفحات بسیاری، به عنوان مثال امکان یافتن میلیونها صفحه، به عنوان نتیجه جستجوی یک درخواست وجود دارد و ممکن است که تعداد اندکی از این صفحات نیاز واقعی کاربر را پاسخ دهند، معمولاً موتورهای جستجو نتایج را بر اساس اهمیت صفحه، رتبهبندی کرده و به همین ترتیب به کاربر نمایش میدهند.
به دلیل گستردگی صفحات موجود در وب و رشد روزافزون آن ها، نیاز به روشهایی برای رتبهبندی صفحات وب بر اساس میزان اهمیت این صفحات و ارتباط آن ها با موضوع مورد جستجو است. رتبهبندی از اجزای اصلی یک سیستم بازیابی اطلاعات است. در مورد موتورهای جستجوی وب، که از جمله سیستمهای بازیابی اطلاعات هستند، به دلیل طبیعت به خصوص کاربران وب، نقش رتبهبندی بسیار پررنگتر است. برای موتورهای جستجوی وب یافتن هزاران و بلکه میلیونها صفحه به عنوان نتایج جستجو امری طبیعی است و از جهت دیگر کاربر وب، حوصله و زمان کافی برای مشاهده تمام نتایج برای رسیدن به صفحه مورد علاقه خود را ندارد. بیشتر کاربران وب به صفحات بعد از صفحه اول نتایج جستجو اهمیتی نمیدهند. بنابراین برای یک موتور جستجوی وب بسیار مهم است که نتایج مورد علاقه کاربر را در صدر نتایج یافت شده به کاربر نشان دهد، در غیر این صورت موتور جستجو کارایی لازم را نخواهد داشت.
از جهت دیگر، نیاز کاربرانی که عمل جستجو در وب را انجام میدهند با سیستمهای بازیابی اطلاعات سنتی، که در آن ها تنها به تطبیق واژگان موجود در پرسوجو و متن صفحات اکتفا میشد متفاوت است. در سیستمهای بازیابی اطلاعات سنتی، صفحهای که توسط کاربر معمولی نوشته شده ممکن است ارتباط بسیار زیادی با درخواست کاربر داشته باشد، در صورتی که هدف جستجو چیز دیگری بوده است. بنابراین کاربران وب بیشتر علاقهمند به صفحاتی هستند که نه تنها مرتبط با موضوع بوده بلکه از اعتبار کافی هم برخوردار باشند. در نتیجه، به هنگام جستجوی وب تمرکز از ارتباط بیشتر به سمت اعتبار بیشتر تغییر مییابد. وظیفهی یک الگوریتم رتبهبندی تشخیص و تخصیص رتبه بیشتر به صفحات معتبرتر در مجموعه صفحات وب است.
۱-۲ بازیابی اطلاعات
بازیابی اطلاعات[۱] شامل استانداردها و پروتکلهای نمایش، ذخیرهسازی، سازماندهی و دسترسی به اقلام اطلاعاتی با هدف بازیابی کلیهی اسنادی که با پرسوجوی[۲] کاربر مرتبط است، میباشد. بازیابی اطلاعات به دو حوزه کاربر و اطلاعات و یک حوزه میانی بنام حوزه بازیابی تقسیم میشود(شکل ۱-۱). در حوزه کاربر نیاز اطلاعاتی کاربر بیان میشود که در اکثر موارد باید به زبان سیستم بازیابی این نیاز بیان شود یا اینکه سیستم با توجه به رفتار کاربر، تاریخچه رفتار وی یا اطلاعات مستقیمی که از تخصص یا موارد شخصی وی دارد، او را مدل کرده و نیاز اطلاعاتی او را پیشبینی کند. در حوزه اطلاعات باید اطلاعات و دانش نهفته در اسناد و دادهها مدل سازی و سازماندهی شود. حوزه بازیابی نیز فصل مشترک این دو و تطبیقدهنده نیاز اطلاعاتی کاربر با اسناد اطلاعاتی است. نیازهای اطلاعاتی یا به صورت پرسوجوهای بر خط[۳] به حوزه بازیابی ارسال میشوند که در این حالت از مجموعهی اسناد موجود موارد مرتبط بازیابی میشود و یا اینکه پرسوجویی وجود دارد که در معرض جریان اطلاعات (مثلاً اخبار) قرار میگیرد و اسناد مرتبط را فیلتر و جدا میکند.
شکل ۱-۱ : نمای کلی سیستم بازیابی[۱]
در فضای کاربر برای دستیابی به اطلاعات مفید، دو سیاست جستجو و مرور[۴] وجود دارد. روش جستجو برای حالتی که کاربر دقیقاً هدف خود را میداند مفید میباشد. روش مرور وقتی مناسب است که کاربر با محتوای مورد نظر ناآشنا باشد. دو روش جستجو و مرور، مکمل یکدیگر بوده و تأثیر عمدهی خود را در حالتی که با هم استفاده شوند خواهد داشت.
۱-۳ انگیزش
قبل از پیدایش وب، سامانههای بازیابی اطلاعات برای اسناد استاندارد با ساختار منظم که عموماً بر مبنای کلمه بود، مورد استفاده قرار میگرفت. با به وجود آمدن وب و ایجاد حجم وسیعی از اطلاعات با قالبهای مختلف غیر ساختار یافته، بازیابی اطلاعات با چالش جدیدی مواجه شد. به علاوه مبنای رتبهبندی در بازیابی علاوه بر کلمهای متن به ارتباط صفحات نیز تبدیل شد. در حال حاضر مهمترین سامانهی موجود در بازیابی اطلاعات را موتور جستجو تشکیل میدهند. با توجه به رشد نمایی اطلاعات و محتوای موجود در وب و همچنین تغییرات زیاد در اطلاعات موجود، موتورهای جستجو نقش مهمی را در اینترنت بازی میکنند. هدف اصلی موتورهای جستجو ارائه نتایج «مرتبط[۵]» و با کیفیت در قبال پرسوجوی کاربر از مجموعهی اسناد وب میباشد. پرسوجوی کاربر معمولاً از چند کلمه جدا از هم تشکیل شده و هر سند میتواند یک صفحه وب، pdf، doc و غیره باشد. موتورهای جستجو میبایست بر مشکلات زیر فائق آیند:
اولین مشکل مشخص کردن صفت «مرتبط» در مسئلهی بازیابی میباشد که منجر به تلاش زیاد موتورهای جستجو برای رتبهبندی اسناد میشود. از مشخصات متمایز محیط وب نسبت به محیطهای دیگر مانند کتابخانه دیجیتال، ساختار اتصالی[۶] اسناد نسبت به یکدیگر میباشد. به عبارت دیگر اسناد موجود در وب، یک گراف بزرگ جهتدار را تشکیل میدهد. در سالهای اخیر با بهره گرفتن از تئوری شبکههای اجتماعی و آنالیز پیوند، الگوریتمهایی مانند پیجرنک[۷] [۲] و هیتس[۸] [۳] به وجود آمده که در موتورهای جستجویی مانند Googleو ASK استفاده شدهاند. الگوریتمهای مبتنی بر پیوند در همهی شرایط راه حل کاملی نبوده و مشکلاتی ایجاد میکنند. یکی از مشکلات، ارسال پرسوجوهای متنوع با موضوعات گوناگون به موتور جستجو میباشد. برای پرسوجوهای جزئی یا در حوزه باریک منابع انگشت شماری موجود میباشد، که مثل مشهور «در انبار کاه دنبال سوزن گشتن» را تداعی میکند. در مقابل، پرس وجوهای کلی یا در حوزه گسترده همپوشانی زیادی با اسناد مختلف داشته و منجر به تولید میلیونها صفحهی مرتبط(با درجه ارتباط مختلف) خواهد شد. چون اکثر کاربران عجول بوده و فقط ۱۰ نتیجه (صفحه) اول را برای دستیابی به سند مورد نظرشان بازدید میکنند، حل مشکل پرسوجوهای گسترده کار بسیار دشواری میباشد.
مشکل دیگری که برای پیدا کردن اسناد مرتبط وجود دارد پدیده گسترش رتبه[۹] میباشد. با توجه به استفاده زیاد مردم از وب و همچنین ایجاد تجارت الکترونیک در این محیط، برای شرکتهای تجاری مهم است تا همیشه از رتبه بالایی (در ۱۰ نتیجه اول) برخوردار باشند. پهنش به دو صورت تغییر دادن محتوا و پیوند صفحات انجام میشود. Spammer ها با تغییر دادن محتوای اسنادشان و اضافه کردن کلمات کلیدی به داخل و مکانهای پنهان صفحه سعی در بالا بردن شباهت صفحهی خود با پرسوجوهای آن حوزه دارند. بدین ترتیب با زیاد اشاره کردن از داخل یک سایت یا سایتهای دیگر به سایت یک شرکت رتبه آن را افزایش میدهند. موتورهای جستجو با ارائه الگوریتمهای ضد پهنش سعی میکنند این مشکل را حل کنند. ولی چون در بعضی مواقع باعث خواهد شد تا اسناد با کیفیت فدا شود حل مشکل فوق به صورت کامل، دشوار است.
از مسائل عمدهی دیگر رتبهبندی بر اساس پیوند، مشکل «غنیتر شدن اغنیاء[۱۰]» میباشد. قرار گرفتن همیشه صفحات محبوب در صدر لیست ارائه شده به کاربر، باعث میشود تا کاربر فقط صفحه خاصی را ببیند و در نتیجه صفحات تازه متولد شدهی با کیفیت بالا که کسی به آن ها اشاره نمیکند نتوانند در دید کاربران قرار گیرند. این مشکل باعث میشود صفحات محبوب مرتباً محبوبتر شده و تعداد پیوند با آن ها افزایش یابد. لذا موتورهای جستجو با ارائه نکردن عادلانه اطلاعات به کاربران، باعث صرف وقت زیاد و در نتیجه کندی تولید علم و دانش خواهد شد.
از مشکلات کلیدی موتورهای جستجو وجود حجم زیاد اطلاعات قابل دسترسی وب میباشد. کیفیت یک موتور جستجو بستگی به کامل بودن اطلاعات (پوشش[۱۱]) و تازگی[۱۲] اسناد خواهد داشت. به عبارت دیگر تعداد صفحات کهنه و پیوندهای شکسته میبایست در نمایه سیستم خیلی کم باشد. اما انفجار اطلاعات دیجیتالی باعث میشود تا انجام این کار تقریباً غیرممکن شود. بنابراین موتورهای جستجو مجبور میشوند فقط اطلاعات مهم با کیفیت بالا را نمایهسازی کنند. علاوه بر حجم زیادی از اطلاعات که در حال حاضر توسط موتور جستجوی گوگل پوشش مییابد. محتوایی هم تحت عنوان وب پنهان[۱۳] که حدود ۶۰۰ برابر ابعاد نمایههای موتورهای جستجوی فعلی، تخمین زده میشود[۴] وجود دارد. لذا چالش جدیدی که به وجود میآید پیدا کردن و جمع آوری اطلاعات مهم با بهره گرفتن از الگوریتمهای مناسب خزش میباشد.
در حال حاضر جهت حل مشکل پوشش، راه حل استفاده از ابر موتور جستجو[۱۴] [۵] پیشنهاد میشود که پرسوجوی کاربران را به چندین موتور جستجو به صورت همزمان فرستاده و نتیجهی دریافتی از هر کدام را با هم ادغام میکند. اما چون هر موتور جستجو مکانیزم رتبهبندی جداگانهای دارد، ادغام نتایج، کار دشواری میباشد. همچنین به علت تفاوت سرعت موتورهای جستجوی استفاده شده با یکدیگر، سرعت جستجو ممکن است کند گردد.
مشکل کلیدی دیگر مفهوم ذهنی[۱۵] و متغیر با زمان در اسناد مرتبط است. در حقیقت پرسوجوی کاربر ممکن است اهداف مختلفی را به دنبال داشته باشد که بسته به موضوع با زمان تغییر میکند. برای مثال هدف از پرسوجوی «موتور جستجو» توسط یک محقق ممکن است مقالات علمی باشد در حالی که هدف یک دانشجو احتمالاً مطالب توصیفی و سادهای دربارهی موتور جستجو است.
کاربران اغلب به دنبال اطلاعات تازه میباشند. برای مثال اخبار و اتفاقهای مهم از این دسته هستند. در این حالت روشهایی که بر اساس پیوند میباشند مناسب نبوده و لازم است به محض انتشار اطلاعات، آن ها در نمایهی سیستم قرار گیرند.
مبهم بودن کلمات پرسوجو مشکل دیگری است که با آن مواجه هستیم. به عبارت دیگر کاربر نمیتواند درخواست خود را با چند کلمه به صورت کامل بیان کند. بنابراین به علت چند معنی بودن یک کلمه و هممعنی بودن چند کلمه با یکدیگر جوابهای ارائه شده به کاربر مناسب نخواهد بود برای مثال کلمه Python سه معنی مختلف افعی، غیبگو و زبان برنامهنویسی را دارد و دو کلمه car و automobile دارای یک معنی هستند.
علیرغم مشکلات فوق با اختراع وب «بازیابی اطلاعات» به سمت فناوری کاربردی و کلیدی سوق داده شد. امروزه موتورهای جستجوی گوگل، یاهو و غیره با بهره گرفتن از نرم افزارهای هوشمند، سرویسهای جستجو با کیفیت مناسب را ارائه میکنند. برخی از سرویسها عبارتند از شخصی سازی (گوگل و یاهو)، پیشنهاد کلمات پرسوجو و پرسش و پاسخ و تکنیکهای خزش سریع و کارا است که باعث برآوردن احتیاج بیشتر کاربر میشود.
طبق مباحث فوق رتبهبندی یکی از مهمترین قسمتهای موتور جستجو میباشد. رتبهبندی فرآیندی است که کیفیت یک صفحه از جنبهی ارتباط با پرسوجوی کاربر توسط موتور جستجو تخمین زده میشود. با توجه به اینکه به ازای هر پرسوجوی کاربر معمولاً هزاران صفحهی مرتبط وجود دارد لازم است آن ها را اولویت بندی کرده و بهترینها را به کاربر نشان دهد. مسائلی مانند حوصله کم کاربر (فقط ۱۰ یا ۲۰ نتیجه اول را نگاه میکند)، کوتاه بودن طول پرس وجو، حجم زیاد اطلاعات و پویایی وب، فرایند رتبهبندی را با مشکلات مختلفی مانند به روز نبودن اطلاعات ارائه شده و همچنین دقت پایین مواجه میسازد. اخیراً استفاده از رفتار کاربر در جستجوی نیز به عنوان یک فاکتور مهم در رتبهبندی مورد توجه قرار گرفته و نتایج چشمگیری نیز بدست آمده است. ما در این تحقیق بر آنیم تا از دادههای رفتاری کاربران جهت بهتر شدن رتبهبندی اسناد وب استفاده کنیم و در نهایت لیستی از نتایج را به عنوان نتیجه جستجو به کاربر نمایش دهیم که تا حد زیادی نیاز اطلاعاتی کاربر را برآورده کند.
۱-۴ موتور جستجو
به صورت کلی یک موتور جستجو از چهار قسمت اصلی تشکیل شده است که ممکن است این بخشها در هم ادغام یا به قسمتهای بیشتری شکسته شوند.
جمع آوری اطلاعات[۱۶]
این واحد که خزشگر[۱۷] نامیده میشود، گراف وب را پیمایش کرده و محتوای تمام صفحات پیمایش شده (مثلاً XML،HTMLوDOC ) را در یک مخزن بزرگ[۱۸] به صورت فشرده ذخیره میکند. پیمایشگر دو هدف عمده معتبر(تازه)سازی[۱۹] و پوشش[۲۰] بالا را به دنبال دارد که با یکدیگر رابطه عکس دارند (با زیاد شدن معتبر سازی پوشش کم میشود و بالعکس[۲۱]). بعد از اتمام عمل پیمایش علاوه بر داشتن تمام اسناد موجود در وب، گراف وب را که ارتباط بین صفحات را نشان میدهد، نیز خواهیم داشت. مهمترین مبانی زیر ساختی بحث تئوری گراف مخصوصاً الگوریتمهای پیمایش گراف و فشردهسازی اطلاعات میباشد.
نمایه/ذخیرهسازی
این واحد اسناد ذخیره شده در مخزن را پردازش کرده و نمایهسازی[۲۲] میکند. با توجه به حجم وسیع اطلاعات جهت بالا بردن سرعت دسترسی معمولاً عمل نمایهسازی به صورت معکوس[۲۳] انجام میگیرد[۲۴]. در این روش به ازای هر واژه، اسنادی که شامل آن واژه هستند مشخص خواهند شد.
محتوای اطلاعاتی اسناد باید طوری ذخیره شوند که با توجه به درخواست کاربر به راحتی قابل بازیابی باشند. برای ذخیرهسازی اطلاعات در سطح انتزاعی سه روش مجموعهای (بولی و فازی)، جبری (برداری و شبکههای عصبی) و احتمالاتی وجود دارد که در حال حاضر روش احتمالی بهترین جواب را ارائه داده است]۶[. قابل ذکر است که عملیاتی مانند خوشهیابی، دستهبندی وب و همچنین خلاصهسازی صفحات در اینجا انجام میشود. همچنین به خاطر حجم بالای اطلاعات و تعداد درخواستهای زیاد لازم است از سیستمهای موازی و توزیع شده در این جا استفاده شود.
موتور بازیابی[۲۵]
موتور بازیابی رابطه مستقیم با دو بخش نمایهسازی و واسط کاربر دارد. وظیفه اصلی این واحد رتبهبندی جوابها با بهره گرفتن از نتایج تهیه شده توسط واحد نمایهسازی و گراف تهیه شده توسط خزشگر میباشد. برخلاف سیستمهای بازیابی عمل رتبهبندی بر دو مبنای محتوای صفحات و ارتباط بین صفحات انجام خواهد شد.
واسط کاربر
واسط کاربر رابطه مستقیم با کاربر داشته وظیفه آن ارائه نتایج مطابق نظر کاربر میباشد. با توجه به اینکه کاربر پرسوجوی خود را به زبان طبیعی بیان میکند از کارهای مهم این واحد عملیات پردازش زبانی پرسوجو مانند نرمال سازی[۲۶]، گسترش پرسوجو[۲۷] و پرسوجوی بین زبانی[۲۸] (چند زبانی) میباشد. از وظایف دیگر واسط کاربر، پردازش عملیاتی پرسوجو (عملیاتی منطقی)، مدل کردن کاربر، مصورسازی و اعمال بازخورد کاربر خواهد بود.
۱-۵ نمایهسازی[۲۹] و پردازش پرسوجو
موتورهای جستجو از دو فرایند برخط[۳۰] و برونخط[۳۱] تشکیل شدهاند. در بخش برون خط که مرتباً اجرا میشود مجموعهای از اسناد وب جمع آوری شده و به نمایههای قابل جستجو در سیستم تبدیل میشوند. در فرایند بر خط که در زمان پرسوجوی کاربر اجرا میشود، اسناد مرتبط با پرسوجوی کاربر رتبهبندی شده و به او ارائه میشود. شکل(۱-۲) این دو فرایند را نشان میدهد.
شکل ۱-۲: موتور جستجو شامل دو فرایند برخط و برون از خط ]۷[
صفحات قالبهای مختلفی مانند PDF, HTML, txt و غیره داشته که هدف از نمایهسازی استخراج یک نمای منطقی استاندارد میباشد. مرسومترین نمای منطقی در موتورهای جستجو مدل کلمات میباشد که هر سند از مجموعهای از لیست نامرتب کلمات تشکیل شده است. در موتورهای جستجوی امروزی علاوه بر کلمات از شاخصهایی مانند تکرار کلمات، خصوصیات فرمت متن مانند فراداده که توصیف سادهای از متن است، استفاده میشود. روشهای مختلفی برای نرمالسازی متن با هدف استخراج کلمات کلیدی مانند Tokenization، حذف حروف اضافه و ریشهیابی وجود دارد[۸].
Tokenizatioشامل تقسیم رشته متن به کلمات میباشد. در زبانهایی مثل انگلیسی توکنها[۳۲] بر اساس فاصله مشخص میشوند، در حال یکه در زبانهایی مثل فارسی و عربی تشخیص توکنها مشکلتر میباشد. لذا یکی از چالشهای موجود در جستجوی فارسی در وب تشخیص کلمات و نرمالسازی پرسوجو میباشد. حروف اضافه مانند از، به، و از این قبیل معمولاً در متن ارزشی نداشته و در نمایهسازی نادیده گرفته میشود.
فرم در حال بارگذاری ...