در همبستگی ۰٫۴:
Meaning
Descriptor group
Descriptor symbol
G total symmetry index / weighted by atomic masses
WHIM (3D)
Gm
leverage-weighted autocorrelation of lag 5 / weighted by atomic masses
GETAWAY (3D)
HATS5m
.کلمات کلیدی: دیابت نوع ۲، مدل QSAR، ژنتیک الگوریتم (GA)، شبکه عصبی مصنوعی (ANN)،
GA-MLR،GA-PCR ،GA-PLS
فصل اول
کلیات
۱-۱- مقدمه
شیمی محاسباتی شاخه ای از دانش شیمی است که سعی در حل مسائل شیمی با کمک رایانه ها دارد. در این رشته، از رایانه ها برای پیش بینی ساختار مولکولی، خواص مولکولی و واکنش های شیمیایی استفاده می شود. در این رشته از نتایج شیمی محض که در قالب برنامه های موثر کامپیوتری درآمده اند برای محاسبه ساختار و خواص مولکول ها استفاده می شود، در حالی که نتایج آنها معمولا کامل کننده اطلاعات بدست آمده از آزمایش های شیمیایی هستند، اما در برخی موارد می تواند منجر به پیش بینی پدیده های مشاهده نشده شیمیایی شود.
بنابراین شیمی محاسباتی می تواند به شیمی آزمایشگاهی کمک کرده و در یافتن موضوعات جدید شیمیایی با شیمی تجربی رقابت نماید سیمای شیمی محاسباتی شامل مدل سازی مولکولی، روش های محاسباتی و طراحی مولکول به کمک کامپیوتر و همچنین داده های شیمیایی و طراحی سنتزهای آلی می باشد، همچنین از این رشته به گستردگی برای طراحی داروها، کاتالیست ها و مواد نو استفاده می شود ]۱[.
۱-۲- کمومتریکس[۱]
برای درک مکانیسم فرآیندهای مختلف شیمیایی، کشف و توسعه مواد جدید، حفظ محیط زیست و زمینههای دیگر شیمی، هنوز توانایی حل مسائل به طور کامل وجود ندارد و برای عملی کردن بعضی از مسائل، نیاز به سیستم های بسیار پیچیده ای است که انجام آنها در گرو صرف هزینه های بسیار و مطالعات گسترده است. درجهت حل این مشکل، روش های محاسباتی کمومتریکس می توانند مفید باشند. تجزیه و تحلیل آماری و ریاضی داده های شیمیایی معمولاً تحت عنوان کمومتریکس یاد می شود. به عبارتی دیگر کمومتریکس یک روش کارآمد برای خلاصه کردن اطلاعات مفید از یک سری داده مشخص و پیش بینی سری دیگر داده هاست. در حقیقت هدف کمومتریکس، بهبود بخشیدن فرآیندهای اندازه گیری و استخراج اطلاعات شیمیایی مفیدتر از داده های اندازه گیری شده فیزیکی و شیمیایی است. کمومتریکس اولین بار توسط دانشمنـد سوئـدی به نام ولـد[۲] در ســال ۱۹۷۲ به کـار گــرفته شد و توسط کووالسکی[۳] توسعه داده شد و درسال ۱۹۷۴ انجمن بین المللی کمومتریکس[۴] تأسیس گردید. درسال ۱۹۷۴ در ایتالیا، دو گروه از دانشمندان به نام های فورینا[۵] و کلمنتی[۶] شروع به فعالیت در این زمینه کردند و از سال ۱۹۸۰ دانش کمومتریکس خیلی سریع توسعه یافت ]۲[. چندیــن تعریف بــرای کمومتــریکس بیــان شده است کـه غالبــاً درمتــن های تجزیــه ای بــه کار می روند. یکی از جامع ترین تعاریف به صورت زیر است:
کمومتریکس شاخه ای از شیمی است که از ریاضی، آمار و منطق برای دستیابی به نتایج زیر استفاده می کند:
الف ) فرآیندهای تجربی بهینه را طراحی و انتخاب کند.
ب ) حداکثر اطلاعات شیمیایی قابل حصول را از تحلیل اطلاعات شیمیایی فراهم کند.
ج ) اطلاعات بیشتری درمورد سیستم های شیمیایی بدست آورد.
۱-۲-۱- کاربردهای کمومتریکس
کمومتریکس درشاخه های مختلف شیمی مورد استفاده قرارمی گیـرد که بـرخی از این کاربردها شامل کنترل فرآیندها، تجزیه و تحلیل و شناخت الگوها، پردازش علائم و بهینه کردن شرایط می باشد. یکی از زمینه های مهم کاربرد کمومتریکس در مطالعاتی است که خواص مولکول ها را به ویژگی های ساختاری آنها نسبت می دهد. یکی از مهمترین کاربردهای کمومتریکس ارتباط کمی ساختارـ فعالیت[۷] است که با آن می توان مدل های ریاضی، ساختار شیمیایی، فعالیت بیولوژیکی، الکترونیکی و… را با این روش محاسبه و تعیین کرد. هدف QSAR، ایجاد رابطه ای منطقی بین کمیت ها و یا خواص ترکیبات (فعالیت) و ساختار شیمیایی آنها است و این قانون برای مولکول های جدید مورد استفاده قرار می گیرد. نتایج این مطالعات علاوه بر شفاف سازی نحوه ارتباط بین خواص مولکول ها و ویژگی های ساختمانی آنها به پژوهشگران در پیش بینی رفتار مولکول های جدید براساس رفتار مولکول های مشابـه کمک می کند.
۱-۳- مزایای روش های محاسباتی نسبت به روش های آزمایشگاهی
استفاده از روش های محاسباتی به جای استفاده از روش های آزمایشگاهی حاوی مزایای زیر است:
- می توان مدل های مناسبی از ساختار به وجود آورد. (ساختار بهینه)
- می توان ساختار های جدید از این طریق طراحی کرد.
- می توان سنتزهایی که تنها با افزایش صورت می گیرد به دست آورد.
- ویژگی طرح آزمایشی که با بهره گرفتن از نمایش ساختار مطلوب به دست می آید به محقق این امکان را میدهد تا بتواند ساختارهای جدید را در فضای مجازی امتحان کند وهمین امر کار آزمایشگاهی را با بیشترین بازده برای شیمیدان فراهم می کند.
۱-۴- QSAR[8]
نتایج مطالعات QSAR علاوه بر شفاف سازی نحوه ارتباط بین خواص مولکول ها و ویژگی های ساختمانی آنها به پژوهشگران در پیشبینی رفتار مولکول های جدید براساس رفتار مولکول های مشابه کمک میکند. به تمامی ابــزارها و روش هایـی که به این منظـور مـورد استفـاده قرار می گیرند، روش های پارامتری گویند. در روش های پارامتری سعی میشود بین یک سری توصیف کننده های مولکولی[۹] با فعالیت یا خاصیت مورد نظر ارتباط منطقی برقرار نمایند. توصیفکننده های مولکولی که به این منظور استفاده میشوند، حاوی مقادیر عددی میباشند که جنبه های مختلف ساختاری مولکول را به طور کمی نشان میدهند. وقتی خصوصیات ساختاری گونهها و فعالیت آنها توسط اعداد و ارقام بیان میشود میتوان رابطه ریاضی یا کمی بین ساختار و فعالیت گونه ایجاد کرد، این رابطه میتواند برای پیش بینی پاسخ بیولوژیکی یا شیمیایی دیگر ساختارها مورد استفاده قرار گیرد ]۳[.
۱-۵- رگرسیون[۱۰]
اگر بخواهیم واژه رگرسیون را از لحاظ لغوی تعریف نماییم، این واژه در فرهنگ لغت به معنی پسروی، برگشت و بازگشت است. اما اگرآن را از دید آمار و ریاضیات تعریف کنیم اغلب جهت رساندن مفهوم “بازگشت به یک مقدار متوسط یا میانگین” به کار می رود، بدین معنی که برخی پدیده ها به مرور زمان از نظر کمی به طرف یک مقدار متوسط میل می کنند. در حقیقت تحلیل رگرسیونی فن و تکنیکی آماری برای بررسی و مدل سازی ارتباط بین متغیرهاست. رگرسیون تقریباً در هر زمینه ای از جمله مهندسی، فیزیک، اقتصاد، مدیریت، علوم زیستی، بیولوژی و علوم اجتماعی برای برآورد و پیش بینی مورد نیاز است. می توان گفت تحلیل رگرسیونی، پرکاربردترین روش در بین تکنیک های آماری است. برای انجام یک تحلیل رگرسیونی ابتدا تحلیلگر حدس می زند که بین دو متغیر، نوعی ارتباط وجود دارد، در حقیقت حدس میزند که یک رابطه به شکل یک خط بین دو متغیر وجود دارد و سپس به جمع آوری اطلاعات کمی از دو متغیر می پردازد و این داده ها را به صورت نقاطی در یک نمودار دو بعدی رسم می کند. همانطور که بیان گردید رگرسیون یکی از مهمترین تکنیک ها برای تحلیل داده ها و استخراج اطلاعات است، اما نکته ای که باعث گردیده این تکنیک از جایگاه مهمی در تحلیل ها برخوردار باشد شیوه های مختلف تحلیل های رگرسیونی است که این تنوع باعث شده که بتوان به راحتی هر نوع داده ای (اغلب از نوع داده های پیوسته) را تحلیل کرد و به راحتی نتیجه گیری نمود، در ادامه هریک از این روش ها به طور کامل تبیین خواهد گردید. علت دیگری که باعث شده این روش علاقه مندان بیشتری پیدا کنند، نرم افزارهای متنوعی است که قابلیت انجام این تحلیل ها را دارند، به عنوان مثال می توان نرم افزار اکسل[۱۱] و اس پی اس اس[۱۲] ، اس- پلاس[۱۳] ، اس ای اس[۱۴] و … نام برد ]۴[.
۱-۶- روش های پارامتری
امروزه درکمومتریکس از روش های مختلف ریاضی و آماری مانند کالیبراسیون یک متغیره، کالیبراسیون چند متغیره، رگرسیون خطی چندگانه(MLR) [۱۵]، حداقل مربعات کلاسیک[۱۶] (CLS)، حداقل مربعات معکوس[۱۷] (ILS)، حداقل مربعات جزئی[۱۸] (PLS)، آنالیز اجزاء اصلی[۱۹] (PCA)، رگرسیون اجزاء اصلی[۲۰] (PCR) و رگرسیون چند متغیره غیر خطی[۲۱] (MNR) استفاده شده است. همچنین در پیشرفت های دو دهه اخیر از شبکه عصبی مصنوعی[۲۲] (ANN)، منطق فازی[۲۳] و الگوریتم ژنتیکی[۲۴] (GA) نیز استفاده شده است. این روشها جزء دسته ای از علوم کامپیوتر به نام هوش مصنوعی[۲۵] (AI) قـرار می گیرند که تفاوت اساسی با سایر روش های محاسباتی و همچنین با یکدیگر دارند. در سیستم های ریاضی متداول، دانسته ها به صورت قواعد روشن و از پیش مشخص شده ای در سیستـم وجود دارد، در حالی که این سیستم ها قواعد را توسط آموزش از مثال هایی که به آنها داده می شوند فرا می گیرند. از میان روش های فوق استفاده از شبکه های عصبی مصنوعی در شیمی نقش برجسته ای پیدا کرده و کاربرد آن در شیمی به سرعت درحال افزایش است. از شبکه های عصبی مصنوعی به خوبی می توان در شناخت الگوها و طبقه بندی داده ها استفاده کرد. همچنین از این شبکه ها در مطالعات QSAR، هنگامی که ارتباط بین توصیف کننده ها و کمیت مورد مدل سازی پیچیده و غیرخطی بوده و یا اینکه پردازش سریع حجم وسیعی از اطلاعات مورد نیاز می باشد میتوان به خوبی استفاده کرد ]۵[. توضیحاتی راجع به انواع رگرسیون ها در زیر آماده است:
فرم در حال بارگذاری ...