(۳۳)
جابجایی[۱۰۲] : در این رویکرد سیستم توصیهگر یکی از دو روش موجود را انتخاب مینماید و تنها در صورتیکه دقت روش انتخاب شده قابل قبول نباشد از روش دوم استفاده مینماید.
(۳۴)
آبشاری[۱۰۳] : در این روش کاربری که مورد گزینش قرار میگیرد باید هم مورد اعتماد کاربر مبدا و هم دارای تشابه پروفایلی با وی باشد به عبارت دیگر رویکرد اول، کاربران مورد اعتماد را مییابد و سپس رویکرد دوم در این مجموعه، کاربران مشابه را جستجو مینماید.
(۳۵)
نکته قابل ذکر در خصوص دو استراتژی آخر این است که ترتیب انتخاب هر یک از دو روش موجود به عنوان روش مبنا، بر روی نتایج تاثیر مستقیم دارد لذا در صورت انتخاب هر یک از این دو استراتژی، باید هر دو حالت متصور را مورد ارزیابی و آزمایش قرار داد. نکته مهم دیگر این است که برای ترکیب هر دو روش مبتنی بر تشابه کاربران و مبتنی بر اعتماد باید مقادیر آنها در محدوده ]۱,۰[ باشند که این امر مستلزم نرمال سازی مقادیر حاصل از محاسبه تشابه کاربران با یکدیگر می باشد چرا که این مقادیر در محدوده ]۱+,۱-[ میباشند.
نتایج تحقیق صورت گرفته در [۱۹] نشان دهنده این مطلب است که اکثر استراتژی های مطرح شده جهت ترکیب دو روش مبتنی بر تشابه کاربران و مبتنی بر اعتماد، باعث بهبود چشمگیر معیار درصد پوشش و کاهش خطای مطلق میانگین میگردند. در این میان، روش آبشاری به دلیل حذف اکثر کاربران باعث کاهش معیار درصد پوشش میگردد اما در مقابل روش وزن دار و مخلوط به نسبت سایر روش های ترکیب از نتایج بهتری برخوردار هستند که به همین دلیل در این تحقیق برای بهبود مدل TrustWalker این دو استراتژی مد نظر قرار گرفته است و نتایج حاصل از اعمال و بکارگیری آنها در فصل آینده مورد بحث و ارزیابی قرار میگیرد.
فصل پنجم
تشریح روند انجام آزمایشات و نتایج حاصل
۵- تشریح روند انجام آزمایشات و نتایج حاصل
۵-۱- مقدمه
در بخشهای ابتدایی این فصل به معرفی مجموعه داده های مورد استفاده و چگونگی جمع آوری، آماده سازی و پالایش داده های مورد نیاز برای انجام آزمایشات پرداخته می شود و در ادامه چگونگی پیاده سازی مدل بهبود یافته به همراه پارهای از نیازمندیهای نرم افزاری و سخت افزاری مورد نیاز آن تشریح میگردد. در بخشهای انتهایی این فصل نیز نتایج حاصل از بررسی و آزمایش مواردی که در فصل قبل جهت بهبود و توسعه مدل TrustWalkerبیان گردید ارائه میگردد و این نتایج مورد ارزیابی، تجزیه و تحلیل قرار میگیرند و دستیابی به اهداف بیان شده برای تحقیق مورد مطالعه قرار خواهد گرفت.
۵-۲- معرفی مجموعه داده epinions
در زمینه سیستمهای توصیهگر مبتنی بر اعتماد مجموعه دادههایی که در آنها، رابطه اعتماد میان کاربران به صراحت بیان شده باشد به وفور در دسترس نمی باشد و تنها تعداد اندکی مجموعه داده با شرایط گفته شده در اختیار میباشد.
یکی از مجموعه دادههایی که در این تحقیق مورد استفاده و بررسی قرار گرفته است مجموعه داده سایت [۱۰۴]Epinions میباشد. این سایت یکی از بزرگترین سایتهای موجود در زمینه بررسی و به اشتراک گذاری نظرات مشتریان، کاربران و استفاده کنندگان محصولات و تجهیزات خانگی در طبقهبندیهای مختلفی همچون وسایل خانگی، وسایل الکترونیکی، محصولات سمعی و بصری ، رایانه و … میباشد.
شکل ۵-۱ : بنر صفحه اصلی سایت epinions[85]
در این سایت کاربران، نظرات خود در خصوص یک محصول خاص را بیان می کنند و آنرا با سایر کاربران به اشتراک میگذارند و به هر محصول یا آیتم امتیازی در بازه ]۵,۱[ تخصیص می دهند، همچنین این امکان وجود دارد که هر فرد سایر افراد نظر دهندهای را که نظرات ایشان در خصوص آیتمها و محصولات مختلف با سلایق و عقاید خویش تطابق بیشتری دارد و نظرات ایشان برای وی جذاب میباشد را به عنوان کاربران مورد اعتماد خود تعریف نماید. در واقع در این سایت هر کاربر، خود همسایگان مورد اعتماد خود را انتخاب می کند و به این ترتیب شبکه اعتماد میان کاربران شکل میگیرد . اخیرا امکان ایجاد یک لیست سیاه از کاربرانی که نظرات آنها مورد تایید یک کاربر نمی باشد و به عبارت دیگر مورد اعتماد وی نمیباشند نیز توسط این سایت تامین شده است که این امر می تواند زمینه ساز و عامل پیشرفت تحقیقات در خصوص تاثیر مفهوم “عدم اعتماد” بر سیستمهای توصیهگر مبتنی بر اعتماد خواهد بود.
نسخهها و مجموعه داده های گوناگونی[۱۰۵] از اطلاعات سایت epinions در سالهای مختلف منتشر و در اختیار محققان قرار گرفته است. در هریک از این نسخهها نیز اطلاعات گوناگونی همچون اطلاعات کاربران، محصولات و آیتمها، طبقه بندی محصولات، نظرات و سوابق کاربران و همچنین اطلاعات شبکه اعتماد میان کاربران در اختیار میباشد که میتوانند در روند انجام تحقیقات در زمینه روشها و تکنیکهای مختلف مورد استفاده در سیستمهای توصیهگرمورد بهره برداری قرار گیرند.
از میان نسخههای گوناگون و مختلف موجود از مجموعه داده epinions، در این تحقیق مجموعه داده ارائه شده توسط دانشگاه واشنگتن[۱۰۶] که در ارزیابی نتایج مدل TrustWalker توسط محققین آن مورد استفاده قرار گرفته است بکار گرفته شده است تا بتوان نتایج حاصل از مدل توسعه یافته را با مدل پایه TrustWalker مقایسه و مورد ارزیابی قرار داد.
۵-۲-۱- ویژگیهای مجموعه داده epinions
این مجموعه داده شامل ۷۵۸۸۸ کاربر میباشد که نظرات خود در خصوص ۱۰۴۹۹۲ محصول و آیتم مختلف را در قالب ۶۸۱۱۹۱ نظر بیان نموده اند. آیتمهای مختلف در ۲۰۰ گروه مختلف طبقه بندی شده اند همچنین ارتباط میان کاربران در قالب ۵۰۸۹۶۰ رکورد که بیانگر وجود رابطه اعتماد میان کاربران میباشد بیان شده است که شبکه اعتماد را تشکیل می دهند. نکته قابل توجه این است که علاوه بر امتیاز کاربران به آیتمهای مختلف امتیاز تخصیص داده شده توسط هر کاربر به نظرات سایر کاربران نیز در این مجموعه داده در دسترس میباشد که می تواند به عنوان یک معیار فرعی، علاوه بر وجود رابطه اعتماد میان دو کاربر، برای سنجش اندازه رابطه میان دو کاربر و ایجاد مدلهای ترکیبی برای گزینش کاربران و حرکت در شبکه اعتماد مد نظر قرار گیرد.
از میان ۶۸۱۱۹۱ رکورد موجود در خصوص نظرات کاربران درباره آیتمهای مختلف، تعداد ۹۵۵۰۲ رکورد فاقد امتیاز میباشد که طبیعتا در آزمایشات مورد نظر قرار نمیگیرد و تعداد ۵۸۵۶۸۹ رکورد به عنوان اطلاعات قابل قبول در نظر گرفته می شود. با توجه به اینکه امتیازات مختلف یک کاربر به یک آیتم خاص در زمان های متفاوت، در این مجموعه داده قابل مشاهده است لذا در صورتیکه معیار زمان در آزمایشات در نظر گرفته نشود و تنها آخرین امتیاز هر کاربر به یک آیتم خاص مد نظر قرار گیرد، تعداد نظرات موجود به ۵۷۳۹۳۱ رکورد کاهش خواهد یافت.
در این تحقیق کاربرانی که به کمتر از ۵ آیتم امتیاز دادهاند همانند [۲۰][۳۹] کاربران تازه وارد در نظر گرفته شده است که با این فرض در این مجموعه داده تعداد ۲۴۳۱۵ کاربر تازه وارد وجود دارد که تقریبا ۳۲% کل کاربران را تشکیل می دهند. در میان این کاربران تعداد ۸۲۰۶ نفر، هنوز افراد مورد اعتماد خود را نیافته و به شبکه اعتماد میان کاربران ملحق نشدهاند که در نتیجه مدل پایه و مدل توسعه یافته نمی توانند نسبت به پیش بینی امتیاز یا ارائه پیشنهادی به ایشان اقدام نمایند. این دسته در حدود ۸/۱۰% کل کاربران را تشکیل می دهند. با توجه به نکته اخیر ۱۳۹۷۵ زوج <آیتم,کاربر> مربوط به کاربران تازه وارد در این مجموعه داده وجود دارد که مدل مورد نظر نمیتواند پاسخی به آنها ارائه کند.
به صورت کلیتر در میان کل کاربران تعداد ۱۵۵۴۳ نفر وجود دارد که دارای همسایگان مورد اعتماد خود نیستند یا با کاربران دیگر هنوز ارتباطی برقرار نکرده اند که بر اساس این مطلب تعداد ۴۳۵۲۶ زوج <آیتم,کاربر> مربوط به این کاربران که ۵۸/۷% کل نظرات را تشکیل می دهند توسط مدل پوشش داده نخواهد شد.
با توجه به کلیه نکات و مطالب فوق، مجموعه داده مورد ارزیابی، بدون در نظر گرفتن پارامتر تاریخ و زمان ارائه امتیاز و همچنین در نظر گرفتن آخرین نظر هر فرد در مورد یک آیتم خاص، برای همه کاربران، دارای تعداد ۵۷۳۹۳۱ رکورد و برای کاربران تازه وارد دارای ۳۳۱۷۳ رکورد میباشد .
۵-۲-۲- آماده سازی و نحوه پالایش داده ها
مجموعه داده معرفی شده در شکل ابتدایی خود شامل ۷۵۸۸۸ فایل متنی در مورد نظرات هر یک از کاربران و ۷۵۸۸۸ فایل متنی در خصوص افراد مورد اعتماد و همسایگان هر یک از کاربران میباشد. برای یکپارچه سازی کلیه فایلهای متنی، پایگاه داده واحدی در SQLServer 2010 تحت نام epinions ایجاد گردید و سپس مراحل زیر جهت آماده سازی، پالایش و استخراج اطلاعات مورد نیاز برای انجام آزمایشات برنامه ریزی و اجرا گردید.
ایجاد یک جدول به نام reviews برای نگهداری نظرات کاربران به فرمت زیر:
جدول ۵-۱ : ساختار جدول reviews
نام فیلد
فرم در حال بارگذاری ...