ارائه یک مدل مبتنی بر خصیصه جهت تحلیل احساس موجود در نوشتجات- قسمت ۱۱

Input: D set of document, FeatuerVector
Output: OutputFile model file
foreach ( d_i IN D )
foreach ( token t_j IN d_i.tokens )
If ( FeatureVector.Contain(t_j) )
OutputFile.Add( t_j )
Else{
SynSet=WordNet.GetSynSet( t_j )
For s_k IN SynSet
If ( FeatureVector.Contain( s _k) )
{
OutputFile.Add( s_k )
Break
}
}

شکل ۳-۶ شمای کلی روش پیشنهادی دوم. در این روش الگوریتم Polarity_Filter حذف شده و تغییراتی در Documents_To_Model ایجاد شده است. و الگوریتم Document_To_model2 ارائه شده است.
در روش دوم برای کاهش پیچیدگی زمانی از الگوریتم Polarity_Filter (این الگوریتم در روش سوم بطور کامل شرح داده شده است) استفاده نکرده ایم. و الگوریتم Polarity_Filter تنها برای مجموعه داده بازبینی فیلم‌ها استفاده شده است. مجموعه داده بازبینی فیلم‌های شامل ۱۰۰۰ سند در طبقه بازبینی‌ها با نظرات مثبت و ۱۰۰۰ سند در طبقه بازبینی با نظرات منفی است. این مجموعه از سایر مجموعه‌های مورد استفاده حجم بیشتری دارد، تعداد توکن‌های این مجموعه بالغ بر ۱۰۰۰۰۰ توکن می‌باشد، پس از انجام پیش پردازش‌ها تعداد توکن‌های به ۶۰۰۰۰ توکن کاهش می‌یابد؛ این حجم از توکن‌های برای پردازش در مراحل بعدی بسیار زیاد و زمانبر است، لذا برای کاهش تعداد توکن‌های مجموعه داده بازبینی فیلم‌ها از Polarity_Filter استفاده کردیم. بدین ترتیب تعداد خصیصه‌ها به کمتر از ۴۰۰۰۰ هزار خصیصه کاهش یافت.

الگوریتم Document_To_model2 تغییر یافته الگوریتم Document_To_model است. الگوریتم Document_To_model به نحوی تغییر یافته تا قادر باشد پراکندگی خصیصه‌ها را کاهش دهد. الگوریتم Document_To_model2 به این شکل عمل می‌کند که اگر توکن مورد نظر در بردار خصیصه‌ها وجود داشته باشد: مانند Document_To_model توکن مورد نظر را به فایل مدل اضافه می‌کند ولی چنانچه توکن مورد نظر در بردار خصیصه وجود نداشته باشد: همه کلمات هم معنای کلمه مورد نظر را با بهره گرفتن از کتابخانه JWNL از Wordnet استخراج می‌کند، سپس به ترتیب بررسی می‌کند، اگر یکی از کلمات هم معنا با توکن مورد نظر در بردار خصیصه‌ها وجود داشته باشد، بجای توکن مورد نظر کلمه هم معنای آن را به فایل مدل اضافه می‌کند.
در پایان الگوریتم انتخاب خصیصه نرخ سودمندی اطلاعات را بر مدل حاصله از پردازش‌های مراحل قبل اعمال می‌کنیم. الگوریتم نرخ سودمندی اطلاعات بر اساس ارزش خصیصه‌ها به هر کدام رتبه می‌دهد. خصیصه‌های با نرخ سودمندی اطلاعات بیشتر انتخاب می‌شوند و برای طبقه‌بندی به نرم افزار weka داده می‌شوند.
روش پیشنهادی سوم
از جمله مشکلات روش اول و دوم تعداد خصیصه‌های آنها می‌باشد. با ترکیب این مجموعه خصیصه‌ها به تعداد خصیصه‌های موجود در بردار خصیصه نیز افزایش خواهد یافت. در ادامه قصد داریم روش سوم را ارائه دهیم در این روش هدف کاهش تعداد خصیصه‌های بردار خصیصه است. بنابر نظریه اولیه که در این رساله ارائه شده است می‌توان با بهره گرفتن از فیلترینگ چند مرحله تعداد خصیصه‌ها را کاهش داد. شماتیک کلی روش سوم در شکل ۳-۷ نشان داده شده است. این روش مراحل مشترک زیادی با روش اول دارد. لذا در ادامه تنها مراحل اضافه شده را توضیح خواهیم داد.
شکل ۳-۷ شمای کلی روش سوم. این روش در واقع همان روش اول است فقط مرحله Polarity_Filter به آن اضافه شده است. هدف از این کار کاهش تعداد خصیصه‌های بردار خصیصه است.
استخراج پلاریته کلمات و فیلتر بردار خصیصه
همانطور که در بخش‌های قبل بیان کردیم، Sentiwordnet برای هر کلمه یک وزن مثبت و یک وزن منفی را در نظر می‌گیرد. در این مرحله با داشتن برچسب ادات سخن مربوط به هر کلمه می‌توان وزن مثبت و منفی کلمه را از Sentiwordnet استخراج کرد. وزن مثبت و منفی کلمات با بهره گرفتن از فرمول ۳-۱ محاسبه می‌شود.
۳-۱
۳- ۲
داشتن وزن مثبت و منفی کلمات به تنهایی نمی‌تواند اطلاعات مفیدی را در اختیار ما قرار دهد. ما در این مرحله قصد داریم اطلاعاتی را استخراج کنیم تا با بهره گرفتن از آن خصیصه‌های غیر مفید را فیلتر کنیم. مثلا اگر یک سند کلمه ای با وزن مثبت ۰٫۵ و وزن منفی ۰٫۵ را حاوی باشد؛ آیا می‌توان گفت سند نظر مثبتی را بیان می‌کند یا نظر منفی؟ قطعا نمی‌توان تشخیص داد. ولی اگر کلمه مدل کننده سند، وزن مثبت ۰٫۷۰ و وزن منفی ۰٫۰۲۰ را داشته باشد قطعا ما را به این نتیجه رهنون می‌کند که سند مذکور می‌تواند حاوی نظر مثبتی باشد. بنابراین بجای نمره مثبت یا منفی کلمات بهتر است از تفاصل نسبی پلاریتی (فرمول ۳-۳) برای رتبه دهی به خصیصه‌ها استفاده کنیم.
۳-۳
جدول ۳-۳ تفاصل نسبی پلاریتی برای تعدادی از کلمات مهم و پر استفاده را نشان می‌دهد.
جدول ۳-۳ محاسبه تفاضل نسبی پلاریتی کلمات: وزن مثبت و منفی تعدادی از کلمات مهم و تفاصل نسبی پلاریتی آنها . این مقادیر با بهره گرفتن از Sentiwordnet محاسبه شده است.

SWNPD(well_JJ)=0.83
SWNPos(well_JJ) =2.5
SWNNeg(well_JJ)=0.0
|Synset|=3

SWNPD(good_JJ)=0.6369

فرم در حال بارگذاری ...

فید نظر برای این مطلب

وبلاگ

توضیح وبلاگ من

ارائه یک مدل مبتنی بر خصیصه جهت تحلیل احساس موجود در نوشتجات- قسمت ۱۱