وبلاگ

توضیح وبلاگ من

ارائه مدلی برای رتبه‌بندی اسناد وب بر اساس تعاملات کاربران- قسمت ۴

 
تاریخ: 20-07-00
نویسنده: فاطمه کرمانی

شکل ۳- ۱ : فرایند تصمیم‌گیری چند شاخصه ۶۵
شکل ۳-۲ : فضای هدف دو معیاره ۷۰
شکل ۴-۱ : نمونه‌ای از شبیه‌سازی مدل پیشنهادی ۸۰

چکیده:

 

امروزه وب جهان گستر به عنوان بهترین محیط جهت توسعه، انتشار و دسترسی به دانش مورد استفاده قرار می‌گیرد. مهم‌ترین ابزار برای دسترسی به این اقیانوس بی کران اطلاعات، موتورهای جستجو می‌باشد که یکی از اصلی‌ترین بخش‌های آن رتبه‌بندی در پاسخ به جستجوی کاربر است. بنابراین کمک به کاربران برای پیدا کردن صفحه وب مورد نظرشان یک مسئله بسیار مهم است. با توجه به مشکلات روش‌های مبتنی بر متن و پیوند، روش‌های مبتنی بر رفتار و قضاوت کاربر برای برقراری عدالت و دموکراسی در وب مورد توجه قرار گرفته است. به عبارت دیگر جهتِ رشد وب از نظر کمی و کیفی، تعیین صفحات اصلح توسط خود کاربران انجام می‌پذیرد. ولیکن تشخیص و استخراج قضاوت کاربران از اهمیت خاصی برخوردار می‌باشد. رفتار کاربر در حین جستجو، شامل متن پرس‌و‌جو، نحوه کلیک کاربر بر روی لیست رتبه‌بندی شده نتایج، زمان توقف در صفحه و دیگر اطلاعات موجود در خصوص وقایع ثبت شده در حین جستجو می‌باشد. این وقایع ثبت شده، حاوی اطلاعات بسیار ارزشمندی هستند که از آن‌ ها می‌توان جهت تحلیل و ارزیابی و مدل‌سازی رفتار کاربران به منظور بهبود کیفیت نتایج استفاده کرد. در این پژوهش مدلی ارائه می‌گردد که به ازای هر پرس‌وجوی مشخص بازخوردهای مثبت و منفی کاربران از جمله تعداد دفعات دست‌یابی یک سایت، مدت زمان سپری‌شده در هر سایت، تعداد دانلودهای انجام شده در هر سایت، تعداد کلیک‌های مثبت و تعداد کلیک‌های منفی در هر سایت از لیست نشان داده شده از صفحات وب، را دریافت کرده و رتبه هر صفحه را با بهره گرفتن از روش‌ تصمیم‌گیری چند شاخصه محاسبه می‌کند و یک رتبه‌بندی جدید از سایت‌ها ارائه می‌دهد و این رتبه‌بندی را مرتباً با بهره گرفتن از بازخوردهای بعدی کاربران به روز می کند.

پایان نامه - مقاله - پروژه
 

واژه‌های کلیدی:

 

موتور جستجو، رفتار کاربر، بازخورد کاربر، تصمیم‌گیری چندشاخصه

فصل اول
کلیات پژوهش
۱-۱ مقدمه
اینترنت از صفحات وب که شامل موضوعات متفاوتی هستند، تشکیل شده است. برای یافتن موضوعی خاص در این مجموعه عظیم صفحات، نیاز به استفاده از یک موتور جستجو است. موتورهای جستجو با توجه به پرس‌وجوی کاربر در پایگاه داده‌ی خود جستجو را انجام داده و نتایج جستجو را به کاربر نشان می‌دهند. با توجه به این که امکان پیدا شدن صفحات بسیاری، به عنوان مثال امکان یافتن میلیون‌ها صفحه، به عنوان نتیجه جستجوی یک درخواست وجود دارد و ممکن است که تعداد اندکی از این صفحات نیاز واقعی کاربر را پاسخ دهند، معمولاً موتورهای جستجو نتایج را بر اساس اهمیت صفحه، رتبه‌بندی کرده و به همین ترتیب به کاربر نمایش می‌دهند.
به دلیل گستردگی صفحات موجود در وب و رشد روزافزون آن‌ ها، نیاز به روش‌هایی برای رتبه‌بندی صفحات وب بر اساس میزان اهمیت این صفحات و ارتباط آن‌ ها با موضوع مورد جستجو است. رتبه‌بندی از اجزای اصلی یک سیستم بازیابی اطلاعات است. در مورد موتورهای جستجوی وب، که از جمله سیستم‌های بازیابی اطلاعات هستند، به دلیل طبیعت به خصوص کاربران وب، نقش رتبه‌بندی بسیار پررنگ‌تر است. برای موتورهای جستجوی وب یافتن هزاران و بلکه میلیون‌ها صفحه به عنوان نتایج جستجو امری طبیعی است و از جهت دیگر کاربر وب، حوصله و زمان کافی برای مشاهده تمام نتایج برای رسیدن به صفحه مورد علاقه خود را ندارد. بیشتر کاربران وب به صفحات بعد از صفحه اول نتایج جستجو اهمیتی نمی‌دهند. بنابراین برای یک موتور جستجوی وب بسیار مهم است که نتایج مورد علاقه کاربر را در صدر نتایج یافت شده به کاربر نشان دهد، در غیر این صورت موتور جستجو کارایی لازم را نخواهد داشت.
از جهت دیگر، نیاز کاربرانی که عمل جستجو در وب را انجام می‌دهند با سیستم‌های بازیابی اطلاعات سنتی، که در آن‌ ها تنها به تطبیق واژگان موجود در پرس‌و‌جو و متن صفحات اکتفا می‌شد متفاوت است. در سیستم‌های بازیابی اطلاعات سنتی، صفحه‌ای که توسط کاربر معمولی نوشته شده ممکن است ارتباط بسیار زیادی با درخواست کاربر داشته باشد، در صورتی که هدف جستجو چیز دیگری بوده است. بنابراین کاربران وب بیشتر علاقه‌مند به صفحاتی هستند که نه تنها مرتبط با موضوع بوده بلکه از اعتبار کافی هم برخوردار باشند. در نتیجه، به هنگام جستجوی وب تمرکز از ارتباط بیشتر به سمت اعتبار بیشتر تغییر می‌یابد. وظیفه‌ی یک الگوریتم رتبه‌بندی تشخیص و تخصیص رتبه بیشتر به صفحات معتبرتر در مجموعه صفحات وب است.
۱-۲ بازیابی اطلاعات
بازیابی اطلاعات[۱] شامل استانداردها و پروتکل‌های نمایش، ذخیره‌سازی، سازماندهی و دسترسی به اقلام اطلاعاتی با هدف بازیابی کلیه‌ی اسنادی که با پرس‌وجوی[۲] کاربر مرتبط است، می‌باشد. بازیابی اطلاعات به دو حوزه کاربر و اطلاعات و یک حوزه میانی بنام حوزه بازیابی تقسیم می‌شود(شکل ۱-۱). در حوزه کاربر نیاز اطلاعاتی کاربر بیان می‌شود که در اکثر موارد باید به زبان سیستم بازیابی این نیاز بیان شود یا اینکه سیستم با توجه به رفتار کاربر، تاریخچه‌ رفتار وی یا اطلاعات مستقیمی که از تخصص یا موارد شخصی وی دارد، او را مدل کرده و نیاز اطلاعاتی او را پیش‌بینی کند. در حوزه اطلاعات باید اطلاعات و دانش نهفته در اسناد و داده‌ها مدل سازی و سازماندهی شود. حوزه بازیابی نیز فصل مشترک این دو و تطبیق‌دهنده نیاز اطلاعاتی کاربر با اسناد اطلاعاتی است. نیازهای اطلاعاتی یا به صورت پرس‌وجوهای بر خط[۳] به حوزه بازیابی ارسال می‌شوند که در این حالت از مجموعه‌ی اسناد موجود موارد مرتبط بازیابی می‌شود و یا اینکه پرس‌وجویی وجود دارد که در معرض جریان اطلاعات (مثلاً اخبار) قرار می‌گیرد و اسناد مرتبط را فیلتر و جدا می‌کند.
شکل ۱-۱ : نمای کلی سیستم بازیابی[۱]
در فضای کاربر برای دست‌یابی به اطلاعات مفید، دو سیاست جستجو و مرور[۴] وجود دارد. روش جستجو برای حالتی که کاربر دقیقاً هدف خود را می‌داند مفید می‌باشد. روش مرور وقتی مناسب است که کاربر با محتوای مورد نظر ناآشنا باشد. دو روش جستجو و مرور، مکمل یکدیگر بوده و تأثیر عمده‌ی خود را در حالتی که با هم استفاده شوند خواهد داشت.
۱-۳ انگیزش
قبل از پیدایش وب، سامانه‌های بازیابی اطلاعات برای اسناد استاندارد با ساختار منظم که عموماً بر مبنای کلمه بود، مورد استفاده قرار می‌گرفت. با به وجود آمدن وب و ایجاد حجم وسیعی از اطلاعات با قالب‌های مختلف غیر ساختار یافته، بازیابی اطلاعات با چالش جدیدی مواجه شد. به علاوه مبنای رتبه‌بندی در بازیابی علاوه بر کلمه‌ای متن به ارتباط صفحات نیز تبدیل شد. در حال حاضر مهم‌ترین سامانه‌ی موجود در بازیابی اطلاعات را موتور جستجو تشکیل می‌دهند. با توجه به رشد نمایی اطلاعات و محتوای موجود در وب و همچنین تغییرات زیاد در اطلاعات موجود، موتورهای جستجو نقش مهمی را در اینترنت بازی می‌کنند. هدف اصلی موتورهای جستجو ارائه نتایج «مرتبط[۵]» و با کیفیت در قبال پرس‌وجوی کاربر از مجموعه‌ی اسناد وب می‌باشد. پرس‌وجوی کاربر معمولاً از چند کلمه جدا از هم تشکیل شده و هر سند می‌تواند یک صفحه وب، pdf، doc و غیره باشد. موتورهای جستجو می‌بایست بر مشکلات زیر فائق آیند:
اولین مشکل مشخص کردن صفت «مرتبط» در مسئله‌ی بازیابی می‌باشد که منجر به تلاش زیاد موتورهای جستجو برای رتبه‌بندی اسناد می‌شود. از مشخصات متمایز محیط وب نسبت به محیط‌های دیگر مانند کتابخانه دیجیتال، ساختار اتصالی[۶] اسناد نسبت به یکدیگر می‌باشد. به عبارت دیگر اسناد موجود در وب، یک گراف بزرگ جهت‌دار را تشکیل می‌دهد. در سال‌های اخیر با بهره گرفتن از تئوری شبکه‌های اجتماعی و آنالیز پیوند، الگوریتم‌هایی مانند پیجرنک[۷] [۲] و هیتس[۸] [۳] به وجود آمده که در موتورهای جستجویی مانند Googleو ASK استفاده شده‌اند. الگوریتم‌های مبتنی بر پیوند در همه‌ی شرایط راه حل کاملی نبوده و مشکلاتی ایجاد می‌کنند. یکی از مشکلات، ارسال پرس‌وجوهای متنوع با موضوعات گوناگون به موتور جستجو می‌باشد. برای پرس‌وجوهای جزئی یا در حوزه باریک منابع انگشت شماری موجود می‌باشد، که مثل مشهور «در انبار کاه دنبال سوزن گشتن» را تداعی می‌کند. در مقابل، پرس وجوهای کلی یا در حوزه گسترده همپوشانی زیادی با اسناد مختلف داشته و منجر به تولید میلیون‌ها صفحه‌ی مرتبط(با درجه ارتباط مختلف) خواهد شد. چون اکثر کاربران عجول بوده و فقط ۱۰ نتیجه (صفحه) اول را برای دست‌یابی به سند مورد نظرشان بازدید می‌کنند، حل مشکل پرس‌و‌جوهای گسترده کار بسیار دشواری می‌باشد.
مشکل دیگری که برای پیدا کردن اسناد مرتبط وجود دارد پدیده گسترش رتبه[۹] می‌باشد. با توجه به استفاده زیاد مردم از وب و همچنین ایجاد تجارت الکترونیک در این محیط، برای شرکت‌های تجاری مهم است تا همیشه از رتبه بالایی (در ۱۰ نتیجه اول) برخوردار باشند. پهنش به دو صورت تغییر دادن محتوا و پیوند صفحات انجام می‌شودSpammer ها با تغییر دادن محتوای اسنادشان و اضافه کردن کلمات کلیدی به داخل و مکان‌های پنهان صفحه سعی در بالا بردن شباهت صفحه‌ی خود با پرس‌و‌جوهای آن حوزه دارند. بدین ترتیب با زیاد اشاره کردن از داخل یک سایت یا سایت‌های دیگر به سایت یک شرکت رتبه آن را افزایش می‌دهند. موتورهای جستجو با ارائه الگوریتم‌های ضد پهنش سعی می‌کنند این مشکل را حل کنند. ولی چون در بعضی مواقع باعث خواهد شد تا اسناد با کیفیت فدا شود حل مشکل فوق به صورت کامل، دشوار است.
از مسائل عمده‌ی دیگر رتبه‌بندی بر اساس پیوند، مشکل «غنی‌تر شدن اغنیاء[۱۰]» می‌باشد. قرار گرفتن همیشه صفحات محبوب در صدر لیست ارائه شده به کاربر، باعث می‌شود تا کاربر فقط صفحه خاصی را ببیند و در نتیجه صفحات تازه متولد شده‌ی با کیفیت بالا که کسی به آن‌ ها اشاره نمی‌کند نتوانند در دید کاربران قرار گیرند. این مشکل باعث می‌شود صفحات محبوب مرتباً محبوب‌تر شده و تعداد پیوند با آن‌ ها افزایش یابد. لذا موتورهای جستجو با ارائه نکردن عادلانه اطلاعات به کاربران، باعث صرف وقت زیاد و در نتیجه کندی تولید علم و دانش خواهد شد.
از مشکلات کلیدی موتورهای جستجو وجود حجم زیاد اطلاعات قابل دسترسی وب می‌باشد. کیفیت یک موتور جستجو بستگی به کامل بودن اطلاعات (پوشش[۱۱]) و تازگی[۱۲] اسناد خواهد داشت. به عبارت دیگر تعداد صفحات کهنه و پیوندهای شکسته می‌بایست در نمایه سیستم خیلی کم باشد. اما انفجار اطلاعات دیجیتالی باعث می‌شود تا انجام این کار تقریباً غیرممکن شود. بنابراین موتورهای جستجو مجبور می‌شوند فقط اطلاعات مهم با کیفیت بالا را نمایه‌سازی کنند. علاوه بر حجم زیادی از اطلاعات که در حال حاضر توسط موتور جستجوی گوگل پوشش می‌یابد. محتوایی هم تحت عنوان وب پنهان[۱۳] که حدود ۶۰۰ برابر ابعاد نمایه‌های موتورهای جستجوی فعلی، تخمین زده می‌شود[۴] وجود دارد. لذا چالش جدیدی که به وجود می‌آید پیدا کردن و جمع‌ آوری اطلاعات مهم با بهره گرفتن از الگوریتم‌های مناسب خزش می‌باشد.
در حال حاضر جهت حل مشکل پوشش، راه حل استفاده از ابر موتور جستجو[۱۴] [۵] پیشنهاد می‌شود که پرس‌وجوی کاربران را به چندین موتور جستجو به صورت همزمان فرستاده و نتیجه‌ی دریافتی از هر کدام را با هم ادغام می‌کند. اما چون هر موتور جستجو مکانیزم رتبه‌بندی جداگانه‌ای دارد، ادغام نتایج، کار دشواری می‌باشد. همچنین به علت تفاوت سرعت موتورهای جستجوی استفاده شده با یکدیگر، سرعت جستجو ممکن است کند گردد.
مشکل کلیدی دیگر مفهوم ذهنی[۱۵] و متغیر با زمان در اسناد مرتبط است. در حقیقت پرس‌وجوی کاربر ممکن است اهداف مختلفی را به دنبال داشته باشد که بسته به موضوع با زمان تغییر می‌کند. برای مثال هدف از پرس‌وجوی «موتور جستجو» توسط یک محقق ممکن است مقالات علمی باشد در حالی که هدف یک دانشجو احتمالاً مطالب توصیفی و ساده‌ای درباره‌ی موتور جستجو است.
کاربران اغلب به دنبال اطلاعات تازه می‌باشند. برای مثال اخبار و اتفاق‌های مهم از این دسته هستند. در این حالت روش‌هایی که بر اساس پیوند می‌باشند مناسب نبوده و لازم است به محض انتشار اطلاعات، آن‌ ها در نمایه‌ی سیستم قرار گیرند.
مبهم بودن کلمات پرس‌وجو مشکل دیگری است که با آن مواجه هستیم. به عبارت دیگر کاربر نمی‌تواند درخواست خود را با چند کلمه به صورت کامل بیان کند. بنابراین به علت چند معنی بودن یک کلمه و هم‌معنی بودن چند کلمه با یکدیگر جواب‌های ارائه شده به کاربر مناسب نخواهد بود برای مثال کلمه Python سه معنی مختلف افعی، غیبگو و زبان برنامه‌نویسی را دارد و دو کلمه car و automobile دارای یک معنی هستند.
علیرغم مشکلات فوق با اختراع وب «بازیابی اطلاعات» به سمت فناوری کاربردی و کلیدی سوق داده شد. امروزه موتورهای جستجوی گوگل، یاهو و غیره با بهره گرفتن از نرم افزارهای هوشمند، سرویس‌های جستجو با کیفیت مناسب را ارائه می‌کنند. برخی از سرویس‌ها عبارتند از شخصی سازی (گوگل و یاهو)، پیشنهاد کلمات پرس‌و‌جو و پرسش و پاسخ و تکنیک‌های خزش سریع و کارا است که باعث برآوردن احتیاج بیشتر کاربر می‌شود.
طبق مباحث فوق رتبه‌بندی یکی از مهم‌ترین قسمت‌های موتور جستجو می‌باشد. رتبه‌بندی فرآیندی است که کیفیت یک صفحه از جنبه‌ی ارتباط با پرس‌وجوی کاربر توسط موتور جستجو تخمین زده می‌شود. با توجه به اینکه به ازای هر پرس‌وجوی کاربر معمولاً هزاران صفحه‌ی مرتبط وجود دارد لازم است آن‌ ها را اولویت بندی کرده و بهترین‌ها را به کاربر نشان دهد. مسائلی مانند حوصله کم کاربر (فقط ۱۰ یا ۲۰ نتیجه اول را نگاه می‌کند)، کوتاه بودن طول پرس وجو، حجم زیاد اطلاعات و پویایی وب، فرایند رتبه‌بندی را با مشکلات مختلفی مانند به روز نبودن اطلاعات ارائه شده و همچنین دقت پایین مواجه می‌سازد. اخیراً استفاده از رفتار کاربر در جستجوی نیز به عنوان یک فاکتور مهم در رتبه‌بندی مورد توجه قرار گرفته و نتایج چشمگیری نیز بدست آمده است. ما در این تحقیق بر آنیم تا از داده‌های رفتاری کاربران جهت بهتر شدن رتبه‌بندی اسناد وب استفاده کنیم و در نهایت لیستی از نتایج را به عنوان نتیجه جستجو به کاربر نمایش دهیم که تا حد زیادی نیاز اطلاعاتی کاربر را برآورده کند.
۱-۴ موتور جستجو
به صورت کلی یک موتور جستجو از چهار قسمت اصلی تشکیل شده است که ممکن است این بخش‌ها در هم ادغام یا به قسمت‌های بیشتری شکسته شوند.
جمع آوری اطلاعات[۱۶]
این واحد که خزشگر[۱۷] نامیده می‌شود، گراف وب را پیمایش کرده و محتوای تمام صفحات پیمایش شده (مثلاً XML،HTMLوDOC ) را در یک مخزن بزرگ[۱۸] به صورت فشرده ذخیره می‌کند. پیمایشگر دو هدف عمده معتبر(تازه)سازی[۱۹] و پوشش[۲۰] بالا را به دنبال دارد که با یکدیگر رابطه عکس دارند (با زیاد شدن معتبر سازی پوشش کم می‌شود و بالعکس[۲۱]). بعد از اتمام عمل پیمایش علاوه بر داشتن تمام اسناد موجود در وب، گراف وب را که ارتباط بین صفحات را نشان می‌دهد، نیز خواهیم داشت. مهم‌ترین مبانی زیر ساختی بحث تئوری گراف مخصوصاً الگوریتم‌های پیمایش گراف و فشرده‌سازی اطلاعات می‌باشد.
نمایه/ذخیره‌سازی
این واحد اسناد ذخیره شده در مخزن را پردازش کرده و نمایه‌سازی[۲۲] می‌کند. با توجه به حجم وسیع اطلاعات جهت بالا بردن سرعت دسترسی معمولاً عمل نمایه‌سازی به صورت معکوس[۲۳] انجام می‌گیرد[۲۴]. در این روش به ازای هر واژه، اسنادی که شامل آن واژه هستند مشخص خواهند شد.
محتوای اطلاعاتی اسناد باید طوری ذخیره شوند که با توجه به درخواست کاربر به راحتی قابل بازیابی باشند. برای ذخیره‌سازی اطلاعات در سطح انتزاعی سه روش مجموعه‌ای (بولی و فازی)، جبری (برداری و شبکه‌های عصبی) و احتمالاتی وجود دارد که در حال حاضر روش احتمالی بهترین جواب را ارائه داده است]۶[. قابل ذکر است که عملیاتی مانند خوشه‌یابی، دسته‌بندی وب و همچنین خلاصه‌سازی صفحات در اینجا انجام می‌شود. همچنین به خاطر حجم بالای اطلاعات و تعداد درخواست‌های زیاد لازم است از سیستم‌های موازی و توزیع شده در این جا استفاده شود.
موتور بازیابی[۲۵]
موتور بازیابی رابطه مستقیم با دو بخش نمایه‌سازی و واسط کاربر دارد. وظیفه اصلی این واحد رتبه‌بندی جواب‌ها با بهره گرفتن از نتایج تهیه شده توسط واحد نمایه‌سازی و گراف تهیه شده توسط خزشگر می‌باشد. برخلاف سیستم‌های بازیابی عمل رتبه‌بندی بر دو مبنای محتوای صفحات و ارتباط بین صفحات انجام خواهد شد.
واسط کاربر
واسط کاربر رابطه مستقیم با کاربر داشته وظیفه آن ارائه نتایج مطابق نظر کاربر می‌باشد. با توجه به اینکه کاربر پرس‌وجوی خود را به زبان طبیعی بیان می‌کند از کارهای مهم این واحد عملیات پردازش زبانی پرس‌و‌جو مانند نرمال سازی[۲۶]، گسترش پرس‌و‌جو[۲۷] و پرس‌وجوی بین زبانی[۲۸] (چند زبانی) می‌باشد. از وظایف دیگر واسط کاربر، پردازش عملیاتی پرس‌و‌جو (عملیاتی منطقی)، مدل کردن کاربر، مصور‌سازی و اعمال بازخورد کاربر خواهد بود.
۱-۵ نمایه‌سازی[۲۹] و پردازش پرس‌و‌جو
موتورهای جستجو از دو فرایند بر‌خط[۳۰] و برون‌خط[۳۱] تشکیل شده‌اند. در بخش برون خط که مرتباً اجرا می‌شود مجموعه‌ای از اسناد وب جمع آوری شده و به نمایه‌های قابل جستجو در سیستم تبدیل می‌شوند. در فرایند بر خط که در زمان پرس‌وجوی کاربر اجرا می‌شود، اسناد مرتبط با پرس‌و‌جوی کاربر رتبه‌بندی شده و به او ارائه می‌شود. شکل(۱-۲) این دو فرایند را نشان می‌دهد.
شکل ۱-۲: موتور جستجو شامل دو فرایند برخط و برون از خط ]۷[
صفحات قالب‌های مختلفی مانند PDF, HTML, txt و غیره داشته که هدف از نمایه‌سازی استخراج یک نمای منطقی استاندارد می‌باشد. مرسوم‌ترین نمای منطقی در موتورهای جستجو مدل کلمات می‌باشد که هر سند از مجموع‌های از لیست نامرتب کلمات تشکیل شده است. در موتورهای جستجوی امروزی علاوه بر کلمات از شاخص‌هایی مانند تکرار کلمات، خصوصیات فرمت متن مانند فرا‌داده که توصیف ساده‌ای از متن است، استفاده می‌شود. روش‌های مختلفی برای نرمال‌سازی متن با هدف استخراج کلمات کلیدی مانند Tokenization، حذف حروف اضافه و ریشه‌یابی وجود دارد[۸].
Tokenizatioشامل تقسیم رشته متن به کلمات می‌باشد. در زبان‌هایی مثل انگلیسی توکن‌ها[۳۲] بر اساس فاصله مشخص می‌شوند، در حال یکه در زبان‌هایی مثل فارسی و عربی تشخیص توکن‌ها مشکل‌تر می‌باشد. لذا یکی از چالش‌های موجود در جستجوی فارسی در وب تشخیص کلمات و نرمال‌سازی پرس‌وجو می‌باشد. حروف اضافه مانند از، به، و از این قبیل معمولاً در متن ارزشی نداشته و در نمایه‌سازی نادیده گرفته می‌شود.


فرم در حال بارگذاری ...

« عدالت ترمیمی و نقش آن در امنیت قضایی- قسمت ۲شرح مشکلات دیوان خاقانی هفت ترکیب بند بلند شرح نشده- قسمت ۸ »
 
مداحی های محرم