رابطه ۲-۱
بهره اطلاعات:
بهره اطلاعات یک ویژگی عبارت است از مقدار کاهش آنتروپی که بواسطه جداسازی مثالها از طریق این ویژگی حاصل می شود.
به عبارت دیگر بهره اطلاعات Gain(S,A) برای یک ویژگی نظیر A نسبت به مجموعه مثالهایS بصورت رابطه ۲-۲ تعریف می شود:
رابطه ۲-۲
که در آن Values(A) مجموعه همه مقدار ویژگیهایA بوده و SVزیرمجموعه ای از S است که برای آن A دارای مقدار V است.
در تعریف فوق عبارت اول مقدار آنتروپی داده ها و عبارت دوم مقدار آنتروپی مورد انتظار بعد از جداسازی دادههاست[۴].
درختان رگرسیون:
وظیفه یادگیری در درختان رگرسیون، شامل پیش بینی اعداد حقیقی بجای مقادیر دستهای گسسته است. که این عمل را با داشتن مقادیر حقیقی در گرههای برگ خود نشان می دهند. بدین صورت که میانگین مقادیر هدف نمونههای آموزشی را در این گره برگ بدست میآورند. این نوع از درختان، تفسیر آسان داشته و می توانند توابع ثابت تکه ای را تقریب بزنند.
نسخه پیچیدهتر درختان رگرسیون، درختان مدل هستند که عمل رگرسیون را با داشتن مدل خطی در گرههای داخلی یا پایانی نشان می دهند به عبارت بهتر هر گره، توابع رگرسیون خطی دارند. بعداز اینکه درخت رگرسیون کامل ساخته شد، عمل رگرسیون خطی به نمونههای ی که به این گره رسیده اند اعمال می شود و فقط از یک زیرمجموعه از صفات، صفاتی که در زیردرخت دیده خواهند شد برای این کار استفاده میشوند. به دلیل استفاده از زیرمجموعه ای از صفات در هر گره، سربار عمل رگراسیون خطی زیاد نخواهد شد[۳].
۲-۲-۳ روش طبقه بندی بیزین
۲-۲-۳-۱ بیز ساده
فرض کنید A1 تاAn ویژگیهایی با مقادیر گسسته باشند این مقادیر برای پیش بینی یک کلاس گسسته C بکار میروند .هدف ما پیش بینی و انتخاب دستهای است که رابطه ۲-۳ ماکزیمم شود.
رابطه ۲-۳
با بهره گرفتن از قانون بیزین رابطه ۲-۴ را داریم:
رابطه ۲-۴
که مخرج کسر برای تصمیم گیری بی تاثیر است زیرا که برای همه مقادیرC یکسان است از طرفی با توجه به استقلال مجموعه ویژگیها رابطه ۲-۵ را خواهیم داشت:
رابطه ۲-۵
فرم در حال بارگذاری ...