درختهای تصمیم درهوش مصنوعی[۱۱۵] برای نمایش مفاهیم مختلفی نظیر ساختار جملات، معادلات، حالات بازی، و غیره استفاده میشوند.
آشنایی با درخت تصمیم
درخت تصمیم درختی است که نمونهها را به نحوی دستهبندی می کند که از ریشه به سمت پائین رشد کرده و در نهایت به گرههای برگ میرسد. هر گره داخلی یاغیربرگ[۱۱۶] با یک ویژگی[۱۱۷] مشخص می شود. این ویژگی سوالی را در رابطه با مثال ورودی مطرح می کند. درهر گره داخلی به تعداد جوابهای ممکن به این سوال شاخه[۱۱۸] وجود دارد که هر یک با مقدار آن جواب مشخص میشوند. برگهای این درخت با یک کلاس و یا یک دسته از جوابها مشخص میشوند.
درخت تصمیم پیش بینی خود را در قالب یک سری از قوانین توضیح میدهد در حالیکه در شبکه عصبی تنها پیش بینی نهایی بیان می شود و چگونگی عملکرد آن در خود شبکه پنهان است. در این سیستم هم مانند شبکه های عصبی نیاز به داده های آموزشی[۱۱۹] است تا بتوان ساختاردرخت مورد نظر را تشکیل داد.
متغیرها در درخت تصمیم میتوانند به دو صورت عددی یا ردهای باشند. در صورتی که داده ها از نوع عددی باشند، آنگاه برای طبقه بندی و ایجاد هر گره باید یک حدآستانه[۱۲۰] برای ویژگی مورد نظر برای شکستن تصمیم به دو مسیر متفاوت استفاده نمود.
علت نامگذاری آن با درخت تصمیم این است که درختفرایند تصمیم گیری برای تعیین دسته یک مجموعه مثال از ورودی را نشان میدهد. شکل ۶‑۱ یک درخت تصمیم نمونه که دارای دو کلاس بوده را نشان میدهد که در آن دو پارامتر و به عنوان ویژگی غالب از بین ویژگیهای دیگر اتخاب شده است. پارامترهای و به عنوان مقادیر آستانه انتخاب شده اند. این درخت دارای ۳ برگ و ۲ گره داخلی بوده و اندازه آن برابر ۵ میباشد.
شکل ۶‑۱: درخت تصمیم نمونه
. برخی اوقات بریدن بعضی شاخه های ضعیفتر درخت، باعث بهبود قدرت پیش بینی آن شده که به این عملیات هرس[۱۲۱] میگویند.
از مزایای درخت تصمیم میتوان به نکات زیر اشاره نمود:
-
- بیان کردن پیش بینیها در قالب یکسری از قوانین
-
- عدم نیاز به محاسبات خیلی پیچیده به منظور دستهبندی
-
- قابل استفاده برای همه متغیرها گسسته و پیوسته
-
- مشخص کردن ویژگیهای غالب در دستهبندی
الگوریتمهای متفاوتی برای ایجاد درخت وجود دارد که روش رایجترین آنها میباشد.
نحوه عملکرد درخت تصمیم
روشهای مختلفی برای انتخاب نقطه شکست وجود دارد که از آن جمله میتوان به شاخص جینی[۱۲۲] و آنتروپی[۱۲۳] نام برد که به ترتیب در معادلات (۶‑۱) و (۶‑۲) نشان داده شده است.
(۶‑۱) |
(۶‑۲) |
در روابط فوق، میزان فراوانی نمونه خارجی در یک کلاس به کل جمعیت نمونهها و تعداد کلاسها یا تعداد دستههای مجموعه نمونهها میباشد.
در روش از یک مقدار آماری به نام بهره اطلاعات[۱۲۴] استفاده می شود و با بهره گرفتن از این شاخص مشخص خواهد شد که یک ویژگی تا چه مقدار قادر است مثالهای آموزشی را بر حسب دستهبندی آنها، جدا کند. در حقیقت با این شاخص تمام ویژگیهای نمونههای آزمایش را به همراه مقدار آنتروپی هر کلاس بررسی می کند. از میان ویژگیهای مختلف، آن ویژگی که مقدار آنتروپی حداقل را دارد را به عنوان ویژگی غالب بر میگزینند و گره مربوط به آن ویژگی را ایجاد می کنند. آنتروپی مقدار خلوص یا ناخالصی، همگنی یا ناهمگنی یک مجموعه دلخواه را بیان می کند.
(۶‑۳) | |
(۶‑۴) | |
(۶‑۵) |
فرم در حال بارگذاری ...