طراحی و کاربرد الگوهای تهیه‌ی خزانه‌ی‌ سؤال در بهینه سازی کارکرد سنجش انطباقی کامپیوتری در آزمونهای سرنوشت ساز- قسمت ۱۰۵

بیستم: در مجموع، این پژوهش، روشی برای تعیین ویژگی‌های مطلوب یک خزانه‌ی سؤال برای CAT آزمون ریاضی فراهم کرده ‌است. نتایج نشان داد که، اندازه‌ی خزانه‌ی سؤال به توزیع جمعیت آزمودنی‌ها و تعداد افرادی که از آنها CAT گرفته‌می‌شود بستگی دارد، این نتایج با تحقیقات ریکیسی، ۲۰۰۷ همسو می‌باشد.

بیست و یکم: همچنین نتایج نشان داد که، شکل خزانه‌ی سؤال طراحی شده، توزیع نرمالی از مقادیر پارامتر دشواری مدل راش نیست، بلکه توزیعی مسطح و یکنواخت است و فراوانی‌های کاملاً بالایی در دنباله‌های توزیع دارد، این نتایج نیز با تحقیقات ریکیسی، ۲۰۰۷ ؛ ۲۰۱۰ همسو می‌باشد. این امر تاییدی بر این قضیه است که، برخلاف آزمون‌های سنتی مداد کاغذی، که انتخاب سؤالات به نوعی است که بهترین سنجش را برای آزمودنی‌هایی با توانایی متوسط فراهم می‌کند، سنجش انطباقی می‌تواند دامنه‌ی گسترده‌ای از توانایی را پوشش دهد. از این‌رو، به سؤالاتی با کیفیت بالا برای دامنه گسترده‌ای از توانایی نیاز است (میلمن و آرتر، ۱۹۸۴). البته، طراحی خزانه‌ی سؤال برای یک سنجش انطباقی بسیار خاص است و به طراحی شیوه و ویژگی‌های مورد نیاز در CAT و جمعیت آزمودنی بستگی دارد (ریکیسی، ۲۰۰۱، ۲۰۰۷).
بیست و دوم: در کل، این روش‌شناسی بسیار کلی می‌باشد و می‌تواند در شکل‌های دیگری از توزیع‌های آزمودنی و شکل‌های متفاوتی از مدل‌های IRT نیز به‌کار رود. در این پژوهش، ما این روش را برای سؤالاتی که با مدل دو و سه پارامتری مدرج می‌شدند، به کار بردیم که از پیچیدگی خاصی برخوردار بود، زیرا میزان آگاهی سؤالات، حتی زمانی‌که پارامترهای b برابری داشته باشند، متفاوت است، زیرا، پارامترهای a و c متفاوتی دارند. در مدل‌های دو و سه پارامتری، آگاهی سؤال به ترتیب با ترکیب دو و سه پارامتر تعیین می‌شود (لیکسیونگ و ریکیسی، ۲۰۰۷). همچنین، ما در این پژوهش این روش را زمانی که کنترل مواجهه‌ سؤال و سیستم امنیتی آزمون از اهمیت به‌سزایی برخوردار است نیز به‌کار بردیم و تعادل محتوایی متنوع را که یکی از مهمترین مولفه‌ها در سنجش انطباقی می‌باشد را در الگوریتم‌های انتخاب سؤال CATوارد کردیم. بدون تردید، زمانی‌که، این مولفه‌ها (تعداد پارامترها، کنترل مواجهه و تعادل محتوایی) در طراحی خزانه‌ی سؤال اضافه می‌شوند، به خزانه‌ی سؤال بزرگتری نیاز داریم (هی و ریکیسی، ۲۰۱۰؛ ۲۰۱۱؛ گو و ریکیسی، ۲۰۰۷).
تلویحاتی در مورد ساخت خزانه‌های سؤال و مدیریت یا نگهداری از آنها
این پژوهش بر روی این مفروضه مبتنی است که آزمودنی‌ها به طور نرمالی با میانگین توانایی صفر و انحراف معیار^۱ توزیع شدند. با این وجود، در واقع توزیع‌های آزمودنی‌ها همیشه نرمال نیست، و توزیع مورد انتظار ممکن است با توزیع دقیق آزمودنی‌ها -که در بیشتر مواقع تنها زمانی‌که آزمون‌ها اجرا شود، به صورت قطعی معین می‌شود،- مطابقت نداشته باشد. در این مورد سؤالی که ایجاد می‌شود این است که، چگونه طرح یا الگوی ایجاد شده به تخطی از توزیع‌ها مقاوم است. در این حالت دو موقعیت وجود دارد و به دنبال آن دو رفتار مورد نیاز می‌شود. در موقعیت اول، جامعه‌ی مورد انتظار نرمال نیست و آزمودنی‌ها از یک جامعه‌ی از قبل تعریف شده که از طریق اجراهای قبلی آزمون بدست آمده نمونه‌گیری شدند، در این موقعیت طراحی الگوی خزانه‌ی سؤال بهینه باید بر اساس توزیع زیربنایی توانایی آزمودنی‌ها باشد. در موقعیت دوم، ممکن است فرض شود که توزیع زیر بنایی نرمال است، امّا پس از اجرای آزمون‌های CAT متوجه شویم که توزیع زیر بنایی از توزیع نرمال تخطی کرده است، در این صورت تخطی از این مفروضه، اعتبار^[۲۲۷] مطالعه را به خطر می‌اندازد و ممکن است بر نتایج نیز اثر گذارد. وسعت و نوع این تاثیرات بالقوه، می‌تواند پژوهش جالبی باشد که برای تحقیقات آتی مناسب است.
در مجموع، طرح نهایی خزانه‌ی سؤال، الگویی را پیشنهاد می‌کند که تعداد سؤالات مورد نیاز در هر bin را لیست می‌کند، همچنین، توزیع پارامترهای a و b را در یک دامنه‌ی معین نشان می‌دهد. همانند یک طرح آزمون مداد-کاغذی، طرح خزانه‌ی سؤل بهینه‌ی شبیه‌سازی شده می‌تواند به عنوان راهنمایی برای ایجاد و طراحی خزانه‌ی سؤال و انتخاب سؤال از خزانه یا بانک سؤال به کار رود. این طرح، ترکیب سؤالات بهینه‌ای که یک خزانه‌ی سؤال باید داشته باشد را توصیف می‌کند، و همچنین می‌تواند به عنوان مبنایی برای طراحان سؤالات آزمون باشد تا تلاش کنند، سؤالاتشان با الگوی اولیه مطابقت داشته باشد. و یا سؤالاتی با پوشش محتوایی و آماره‌های مطلوب می‌تواند از سؤالاتی که از قبل در خزانه وجود داشته‌اند، انتخاب شوند.
در این پژوهش، زمانی‌که خزانه‌های سؤال بهینه‌ی شبیه‌سازی شده با خزانه‌ی عملیاتی مقایسه شد، فرض بر این بود که همه‌ی سؤالات شبیه‌سازی شده در دسترس بودند. البته در عمل و در دنیای واقع، به نظر دشوار می‌رسد که سؤالاتی با پارامترهای دقیقاً یکسان با الگوی طراحی شده ایجاد کنیم. با این وجود، با پیشرفت‌هایی که در پژوهش‌های مدل یابی سؤال ایجاد شده (گو، ۲۰۰۷)، این امکان بیش از پیش وجود دارد تا تعداد زیادی از سؤالات مطلوب به همراه ویژگی‌های مورد نظر روان‌سنجی، مشابه با الگو ایجاد کنیم. در این میان چون رویکرد MRP ، همبستگی بین پارامترهای a و b را در نظر می‌گیرد، الگویی که از این طریق ساخته می‌شود، آسان‌تر به واقعیت نزدیک می‌شود. امّا خزانه‌های سؤالی که از طریق رویکرد MTI ساخته می‌شوند، به دقت اندازه‌گیری قابل قبولی با حداقل تعداد سؤال دست پیدا می‌کنند، امّا در این رویکرد این‌که چه اندازه طراحی چنین سؤالی دشوار است، مشخص نیست. بنابراین، بهتر است این دو رویکرد با یکدیگر تلفیق شود، تا مزیت‌های هر دو رویکرد با یکدیگر ترکیب شده و یک طرح عملی‌تری ایجاد کند. بعلاوه، باید خاطر نشان شود که با تعریف پهنای bin ها، الگوی طراحی شده به سؤالات مشابهی درون یک دامنه‌ی معین نیاز دارد. این روش دشواری نوشتن سؤالاتی با پارامترهای دقیق و مشابه با طرح را کم‌تر می‌کند.
همچنین، در عمل، خزانه‌های سؤال عملیاتی ایستا نیستند و باید پویا باشند. در اغلب برنامه‌های سنجش، تست‌ها از خزانه‌های سؤال انتخاب می‌شوند و سؤالات جدید به صورت متوالی پیش آزمون می‌شوند و سپس به خزانه اضافه می‌شوند. سؤالات بسیار استفاده شده یا قدیمی^[۲۲۸] طی زمان‌های متوالی از خزانه حذف می‌شوند. بنابراین، نظارت بر استفاده‌ی مناسب از سؤالات و دوباره جایگزین کردن خزانه از سؤالات جدید، دو وظیفه‌ی مهم مدیریت و محافظت از خزانه‌ی سؤال می‌باشد (وندرلیندن و ولدکمپ، ۲۰۰۰).
روش‌های طراحی خزانه‌ی سؤال که در این پژوهش ارائه شد، می‌تواند به آسانی به منظور مدیریت خزانه‌ی سؤال نیز به کار رود. در بیشتر موقعیت‌ها، خزانه‌های عملیاتی از یک خزانه‌ی بزرگتر انتخاب می‌شوند. در اصل، خزانه‌های بزرگ اجتماعی از خزانه‌های عملیاتی است. توزیع یک خزانه‌ی بزرگ بهینه می‌تواند به سادگی برابر با تعدادی از تکرارهای توزیع خزانه‌های عملیاتی باشد. به عبارت دیگر اگر خزانه‌ی بزرگ از ۱۰ خزانه‌ی عملیاتی تشکیل شده باشد، توزیع بهینه‌ی سؤال در خزانه‌ی بزرگ در هر bin برابر با ۱۰ برابر توزیع سؤال در خزانه‌ی بهینه است. همچنین، روش اجتماع ریکیسی می‌تواند نرخ‌های مواجهه‌ مورد انتظار سؤالات در هر bin را در نظر بگیرد. به طوری‌که تعداد سؤالات مورد نیاز در هر bin می‌تواند به شیوه‌ی زیر محاسبه می‌شود:

R: تعداد خزانه‌های سؤال عملیاتی است که از یک خزانه‌ی بزرگ می‌تواند استخراج شود.
: نرخ مورد انتظار مواجهه برای تعداد سؤالات در هر bin است.
بر اساس این روش، خزانه‌ی بزرگ در bin هایی که دارای مواجهه‌ بیشتری هستند، دارای سؤالات بیشتر و در bin هایی که حداقل مقدار مواجهه را دارند، دارای سؤالات کمتری هستند.
خلاصه این‌که، مشخصات خزانه‌ی سؤال بهینه می‌تواند به چندین هدف در ساخت خزانه‌های سؤال عملیاتی کمک کند. ابتدا، این مشخصات می‌توانند به عنوان یک مدل طراحی خزانه‌ی سؤال و یک راهنما برای سرهم کردن خزانه‌ی سؤال عملیاتی مفید باشند. دارا بودن این مدل این اطمینان را به ما می‌دهد که در طراحی الگوریتم CAT مورد نظر، نه تنها به بهترین کیفیت اندازه‌گیری در دسترس رسیده‌ایم (مک‌برید و وایس، ۱۹۷۶، ص۹)، بلکه توانسته‌ایم که چندین خزانه‌ی سؤال بهینه‌ی هم ارز ایجاد کنیم (هی و ریکیسی، ۲۰۱۰). دوم، ویژگی‌های ROPهای ساخته شده، می‌توانند بینش‌هایی در مورد مدیریت خزانه‌ی سؤال ایجاد کنند. برای مثال، بینشی که ما در این پژوهش ایجاد کردیم، این است که خزانه‌های سؤال که بر اساس روش bin-and-union ساخته می‌شوند، می‌توانند مدیریت و نگهداری خزانه‌ی سؤال را ساده کنند. سوم، ویژگی‌های خزانه‌ی سؤال، به خصوص، توزیع صفات آماری سؤال، می‌تواند به عنوان راهنمایی برای فرایند نوشتن سؤال به کار روند، این راهنما به نویسندگان سؤال یاد می‌دهد تا سؤالاتی با خصیصه‌های مطلوب مبتنی بر مدل یا طرح مشخص شده‌ای بنویسند (هی و ریکیسی، ۲۰۱۰).
محدودیت‌های پژوهشی
انجام پژوهش های علمی به دلیل ظرافت‌ها و پیچیدگیهای خاصی که در مراحل مختلف فرایند ان وجود دارد، همواره با محدودیت‌هایی همراه است که مدّنظر قرار دادن آنها در تعبیر و تفسیر یافته‌های پژوهش از اهمیت شایان توجهی برخوردار است. در این تحقیق نهایت تلاش به عمل آمد تا فرایند انجام تحقیق با لحاظ کردن عوامل و شرایط که به نوعی بر روی نتایج اثر می‌گذارد، انجام شود. با این همه، ذکر موارد ذیل و در نظر گرفتن آنها در تعمیم نتایج بهتر است مورد توجه قرار گیرد.
اول: در این پژوهش همانند شیوه‌های رایج این روش‌ها، زمانی که مشخصات خزانه‌ی بهینه‌ی سؤالات ارزیابی شد، پارامترهای سؤال به صورت معلوم درنظر گرفته شدند، به گونه‌ای که مقادیر واقعی‌شان دارای خطای برآورد نبود. این در حالی است که برآوردهای سؤالات عملیاتی غالباً با خطا همراه است. با این همه انتخاب سؤال در CAT همیشه با توجه به ملاک بهینه‌سازی انجام می‌شود و سؤالاتی انتخاب می‌شوند که بتواند بیشینه‌ی آگاهی را ایجاد کند. لذا، زمانی‌که برآوردهای سؤال شامل خطا باشند، فرآیندی تحت عنوان “سرمایه‌گذاری روی شانس” یا “بهره‌برداری از شانس” ایجاد می‌شود و ممکن است در فرایند انتخاب سؤال در CAT نیز اثر گذارد، زیرا مدرج‌سازی سؤالات با خطای اندازه‌گیری همراه بوده است (وندرلیندن و گلاس، ۲۰۰۰). اگرچه در این پژوهش، تا حد امکان در شبیه‌سازی سؤالات بهینه عامل خطای انداز‌گیری در نظر گرفته شد، ممکن است این خطاها به طور کامل و صد در صد کنترل نشده باشند.
دوم: یکی از اهداف اصلی در طراحی یک خزانه‌ی سؤال بهینه‌ی CAT، ایجاد دستورالعملی برای به دست دادن مطلوب‌ترین نتایج مربوط به الگوریتم‌های مورد استفاده در CAT است. با توجه به این‌که در عمل، غالباً از داده‌های خزانه‌ی سؤال CAT عملیاتی به عنوان یک بخش مهم و جدایی ناپذیر در شبیه‌سازی استفاده می‌شود، ممکن است ویژگی‌های بهینه‌ی تعیین شده، تا حدی مطلوب‌تر از آنچه هستند به نظر برسند. اگرچه، این اثر را جزئی و قابل اغماض است، با این‌همه توجه به آنها در تفسیر و تعمیم نتایج توصیه می‌شود.
سوم: روش‌های پیش‌بینی ویژگی‌های عملیاتی خزانه‌های بهینه در این مطالعه تنها بر روی یک خزانه‌ی سؤال عملیاتی مبتنی بود، در حالی که، به شرط وجود خزانه‌های عملیاتی چند گانه می‌توان به طور همزمان از چندین خزانه‌ی سؤال عملیاتی به منظور بهبود عملکرد مدل P استفاده کنیم. در این پژوهش به دلیل فقدان آزمون CAT پیش ساخته در کشور (برخلاف تحقیقات مشابه خارجی)، به ضرورت از یک که یک خزانه‌ی CAT عملیاتی برای محک زدن نتایج استفاده کردیم. اگرچه این رویکرد نیز در ادبیات مطالعه و تدوین خزانه‌های سؤال مرسوم است، با این‌همه این نکته نیز بهتر است در تعبیر و تفسیر نتایج مورد توجه قرار گیرد.
پیشنهادات پژوهشی
با توجه به یافته‌های این پژوهش و همچنین، محدودیت‌هایی که در قسمت قبل به آن اشاره شد، موارد ذیل به عنوان پیشنهاد‌های پژوهشی معرفی می‌شود:
اول: با توجه به اهمیت خطاهای برآورد در تعیین ویژگی‌های خزانه‌ی سؤال بهینه، پیشنهاد می‌شود که مطالعات آتی بر روی ماهیت وچگونگی تاثیر خطاهای برآوردی بر عملکرد خزانه‌های سؤال CAT توجه کنند و به عنوان یک موضوع پژوهشی جدید به آن بپردازند.
دوم: به منظور حفظ اعتدال بهینگی در خزانه‌های سؤال پیشنهاد می‌شود مطالعات آینده چندین خزانه‌ی سؤال عملیاتی استفاده کرده و نتایج را با شرایطی که در آن تنها از یک خزانه‌ی سؤال عملیاتی استفاده شده، مقایسه نمایند.
سوم: بهتر است در تحقیقات آتی دو مدل MRP و MTI با توجه به مزیت‌های هر دو روش ایجاد پارامترهای بهینه‌ی سؤال با یکدیگر تلفیق شده، به طوری‌که در ایجاد سؤال، همبستگی بین پارامترهای سؤال را در حالی‌که ضرورت حداقل آگاهی سؤال را برقرار می‌کند، را در نظر بگیرد.
چهارم: از آنجا که این امکان وجود دارد که توزیع‌های آماری زیربنای توانایی بر توزیع پارامترهای سؤال اثر بگذارند، پیشنهاد می‌شود که در تحقیقات آتی تاثیر نوع توزیع توانایی در ایجاد خزانه‌های بهینه بررسی شود.
پنجم: روش بیشینه‌ی آگاهی یکی از معتبرترین و پرکاربردترین روش‌های انتخاب سؤال در CAT است، با این‌همه امکان استفاده از روش کمینه‌ی پسین مورد انتظار نیز در این مورد وجود دارد. لذا، پیشنهاد می‌شود در تحقیقات آتی نتایج حاصل به‌کار گیری این دو روش مورد مقایسه و بررسی قرار گیرد.
ششم: با توجه به ملاحظات نظری و عملی در این پژوهش از روش کنترل مواجه سیمپسون-هتر استفاده شد، سایر روش‌هایی که در این مورد می‌تواند مورد استفاده قرار گیرد مانند روش α طبقه‌بندی شده می‌تواند، موضوع تحقیقات آتی در مورد کاربرد شیوه‌های دیگر کنترل مواجه‌ی سؤال قرار گیرد.
دشواری‌های اجرایی پژوهش
اول: یکی از محدودیت‌های اصلی اجرایی این پژوهش هزینه‌های بسیار بالای طراحی ۹۲۱ سؤال برای خزانه‌ی عملیاتی بود، زیرا تا به حال در ایران یک آزمون CAT عملیاتی که برای اهداف پژوهشی از این نوع مناسب باشد ساخت نشده بود.
دوم: یکی دیگر از محدودیت‌های اجرایی، صرف زمان بیشتر از ۱۸ ماه برای ساخت سؤالات مناسب با اهداف پژوهشی بود.
سوم: از آنجا که مدرج کردن این تعداد زیاد سؤال به صورت یک جا امکان پذیر نبود، این سؤالات در ۱۳ مرحله در طول یک سال تحصیلی بر روی ۵۰۰ آزمودنی ثابت مدرج شد. ثابت نگه داشتن این آزمودنی‌ها در طول این یک سال هزینه و زمان هنگفتی برای محقق ایجاد کرد.
چهارم: زمان‌بر بودن اجراهای برنامه‌های شبیه‌سازی، که گاهی هریک چندین ماه متوالی به طول می‌انجامید.
منابع پژوهش
Adema, J. J. (1990a). Models and Algorithms for the Construction of Achievement Tests. Unpublished doctoral dissertation, University of Twente, Enschede, The Netherlands.
Adema, J. J. (1990b). The construction of customized two-staged tests. Journal of Educational Measurement, 27, 241–۲۵۳.
Ariel, A., Veldkamp, B. P., & van der Linden, W. J. (2004). Constructing rotating item pools for constrained adaptive testing. Journal of Educational Measurement, 41, 345-360.
Belov, D. I. & Armstrong, R. D. (2009). Direct and inverse problems of item pool design for computerized adaptive testing. Educational and Psychological Measurement, 69(4), 53-547.
Bergstrom, B. A., & Lunz, M. E. (1999). CAT for certification and licensure. In F. Drasgow & J.Olson-Buchanan (Eds.), Innovations in Computerized Assessment (pp. 67-91). Mahwah, NJ: Lawrence Erlbaum Associates, Inc.
Boekkooi-Timminga, E. (1987). Simultaneous test construction by zero-one programming. Methodika, 1, 1101–۱۱۲.
Boekkooi-Timminga, E. (1989). Models for Computerized Test Construc- tion. Unpublished doctoral dissertation, University of Twente, Enschede, The Netherlands.
Boekkooi-Timminga, E. (1990a). The construction of parallel tests from IRT-based item banks. Journal of Educational Statistics, 15, 129–۱۴۵.
Boekkooi-Timminga, E. (1990b). A cluster-based method for test construc- tion. Applied Psychological Measurement, 15, 129–۱۴۵.
Boekkooi-Timminga,E.(1991).A Method for Designing Rasch Model Based Item Banks. Paper presented at the Annual Meeting of the Psychometric Society, Princeton, NJ.392 Bibliography.
Boekkooi-Timminga,E.(1993).Computer-assisted test construction. Social Science Computer Review, 11, 292–۳۰۰.
Boekkooi-Timminga, E., & Sun, L. (1991). CONTEST: A computerized test construction system. In J. Hoogstraten & W. J. van der Linden (Eds.), Methodologie (pp. 69–۷۶). Amsterdam, The Netherlands: SCO.
Boekkooi-Timminga, E., & van der Linden, W. J. (1988). Algorithms for automated test design. In F. J. Maarse, L. J. M. Mulder, W. P. B. Sjouw, & A. E. Akkerman (Eds.),Computers in Psychology: Methods, Instrumentation, and Psychodiagnosis (pp.171–۱۷۶).Berwyn,PA:Swets Publishing.
Brown, J. M., & Weiss, D. J. (1977). An adaptive testing strategy for achievement test batteries (No. 77-6). Minneapolis: University of Minnesota, Psychometric Methods Program.
Chang, H. (2007). Book review: Linear models for optimal test design. Psychometrika, 72, 279-281.
Chang, H. H., & van der Linden, W. J. (2003). Optimal stratification of item pools in a-stratified computerized adaptive testing. Applied Psychological Measurement, 27, 262-274.
Chang, H. H., & Ying, Z. (1999). Alpha-stratified multistage computerized adaptive testing. Applied Psychological Measurement, 23, 211-222.
Cheng, Y., & Chang, H. (2009). The maximum priority index method for severely con- strained item selection in computerized adaptive testing. British Journal of Mathematical and Statistical Psychology, 62, 369-383.

فرم در حال بارگذاری ...

فید نظر برای این مطلب

وبلاگ

توضیح وبلاگ من

طراحی و کاربرد الگوهای تهیه‌ی خزانه‌ی‌ سؤال در بهینه سازی کارکرد سنجش انطباقی کامپیوتری در آزمونهای سرنوشت ساز- قسمت ۱۰۵

منوی وبلاگ

موضوعات