بیستم: در مجموع، این پژوهش، روشی برای تعیین ویژگیهای مطلوب یک خزانهی سؤال برای CAT آزمون ریاضی فراهم کرده است. نتایج نشان داد که، اندازهی خزانهی سؤال به توزیع جمعیت آزمودنیها و تعداد افرادی که از آنها CAT گرفتهمیشود بستگی دارد، این نتایج با تحقیقات ریکیسی، ۲۰۰۷ همسو میباشد.
بیست و یکم: همچنین نتایج نشان داد که، شکل خزانهی سؤال طراحی شده، توزیع نرمالی از مقادیر پارامتر دشواری مدل راش نیست، بلکه توزیعی مسطح و یکنواخت است و فراوانیهای کاملاً بالایی در دنبالههای توزیع دارد، این نتایج نیز با تحقیقات ریکیسی، ۲۰۰۷ ؛ ۲۰۱۰ همسو میباشد. این امر تاییدی بر این قضیه است که، برخلاف آزمونهای سنتی مداد کاغذی، که انتخاب سؤالات به نوعی است که بهترین سنجش را برای آزمودنیهایی با توانایی متوسط فراهم میکند، سنجش انطباقی میتواند دامنهی گستردهای از توانایی را پوشش دهد. از اینرو، به سؤالاتی با کیفیت بالا برای دامنه گستردهای از توانایی نیاز است (میلمن و آرتر، ۱۹۸۴). البته، طراحی خزانهی سؤال برای یک سنجش انطباقی بسیار خاص است و به طراحی شیوه و ویژگیهای مورد نیاز در CAT و جمعیت آزمودنی بستگی دارد (ریکیسی، ۲۰۰۱، ۲۰۰۷).
بیست و دوم: در کل، این روششناسی بسیار کلی میباشد و میتواند در شکلهای دیگری از توزیعهای آزمودنی و شکلهای متفاوتی از مدلهای IRT نیز بهکار رود. در این پژوهش، ما این روش را برای سؤالاتی که با مدل دو و سه پارامتری مدرج میشدند، به کار بردیم که از پیچیدگی خاصی برخوردار بود، زیرا میزان آگاهی سؤالات، حتی زمانیکه پارامترهای b برابری داشته باشند، متفاوت است، زیرا، پارامترهای a و c متفاوتی دارند. در مدلهای دو و سه پارامتری، آگاهی سؤال به ترتیب با ترکیب دو و سه پارامتر تعیین میشود (لیکسیونگ و ریکیسی، ۲۰۰۷). همچنین، ما در این پژوهش این روش را زمانی که کنترل مواجهه سؤال و سیستم امنیتی آزمون از اهمیت بهسزایی برخوردار است نیز بهکار بردیم و تعادل محتوایی متنوع را که یکی از مهمترین مولفهها در سنجش انطباقی میباشد را در الگوریتمهای انتخاب سؤال CATوارد کردیم. بدون تردید، زمانیکه، این مولفهها (تعداد پارامترها، کنترل مواجهه و تعادل محتوایی) در طراحی خزانهی سؤال اضافه میشوند، به خزانهی سؤال بزرگتری نیاز داریم (هی و ریکیسی، ۲۰۱۰؛ ۲۰۱۱؛ گو و ریکیسی، ۲۰۰۷).
تلویحاتی در مورد ساخت خزانههای سؤال و مدیریت یا نگهداری از آنها
این پژوهش بر روی این مفروضه مبتنی است که آزمودنیها به طور نرمالی با میانگین توانایی صفر و انحراف معیار۱ توزیع شدند. با این وجود، در واقع توزیعهای آزمودنیها همیشه نرمال نیست، و توزیع مورد انتظار ممکن است با توزیع دقیق آزمودنیها -که در بیشتر مواقع تنها زمانیکه آزمونها اجرا شود، به صورت قطعی معین میشود،- مطابقت نداشته باشد. در این مورد سؤالی که ایجاد میشود این است که، چگونه طرح یا الگوی ایجاد شده به تخطی از توزیعها مقاوم است. در این حالت دو موقعیت وجود دارد و به دنبال آن دو رفتار مورد نیاز میشود. در موقعیت اول، جامعهی مورد انتظار نرمال نیست و آزمودنیها از یک جامعهی از قبل تعریف شده که از طریق اجراهای قبلی آزمون بدست آمده نمونهگیری شدند، در این موقعیت طراحی الگوی خزانهی سؤال بهینه باید بر اساس توزیع زیربنایی توانایی آزمودنیها باشد. در موقعیت دوم، ممکن است فرض شود که توزیع زیر بنایی نرمال است، امّا پس از اجرای آزمونهای CAT متوجه شویم که توزیع زیر بنایی از توزیع نرمال تخطی کرده است، در این صورت تخطی از این مفروضه، اعتبار[۲۲۷] مطالعه را به خطر میاندازد و ممکن است بر نتایج نیز اثر گذارد. وسعت و نوع این تاثیرات بالقوه، میتواند پژوهش جالبی باشد که برای تحقیقات آتی مناسب است.
در مجموع، طرح نهایی خزانهی سؤال، الگویی را پیشنهاد میکند که تعداد سؤالات مورد نیاز در هر bin را لیست میکند، همچنین، توزیع پارامترهای a و b را در یک دامنهی معین نشان میدهد. همانند یک طرح آزمون مداد-کاغذی، طرح خزانهی سؤل بهینهی شبیهسازی شده میتواند به عنوان راهنمایی برای ایجاد و طراحی خزانهی سؤال و انتخاب سؤال از خزانه یا بانک سؤال به کار رود. این طرح، ترکیب سؤالات بهینهای که یک خزانهی سؤال باید داشته باشد را توصیف میکند، و همچنین میتواند به عنوان مبنایی برای طراحان سؤالات آزمون باشد تا تلاش کنند، سؤالاتشان با الگوی اولیه مطابقت داشته باشد. و یا سؤالاتی با پوشش محتوایی و آمارههای مطلوب میتواند از سؤالاتی که از قبل در خزانه وجود داشتهاند، انتخاب شوند.
در این پژوهش، زمانیکه خزانههای سؤال بهینهی شبیهسازی شده با خزانهی عملیاتی مقایسه شد، فرض بر این بود که همهی سؤالات شبیهسازی شده در دسترس بودند. البته در عمل و در دنیای واقع، به نظر دشوار میرسد که سؤالاتی با پارامترهای دقیقاً یکسان با الگوی طراحی شده ایجاد کنیم. با این وجود، با پیشرفتهایی که در پژوهشهای مدل یابی سؤال ایجاد شده (گو، ۲۰۰۷)، این امکان بیش از پیش وجود دارد تا تعداد زیادی از سؤالات مطلوب به همراه ویژگیهای مورد نظر روانسنجی، مشابه با الگو ایجاد کنیم. در این میان چون رویکرد MRP ، همبستگی بین پارامترهای a و b را در نظر میگیرد، الگویی که از این طریق ساخته میشود، آسانتر به واقعیت نزدیک میشود. امّا خزانههای سؤالی که از طریق رویکرد MTI ساخته میشوند، به دقت اندازهگیری قابل قبولی با حداقل تعداد سؤال دست پیدا میکنند، امّا در این رویکرد اینکه چه اندازه طراحی چنین سؤالی دشوار است، مشخص نیست. بنابراین، بهتر است این دو رویکرد با یکدیگر تلفیق شود، تا مزیتهای هر دو رویکرد با یکدیگر ترکیب شده و یک طرح عملیتری ایجاد کند. بعلاوه، باید خاطر نشان شود که با تعریف پهنای bin ها، الگوی طراحی شده به سؤالات مشابهی درون یک دامنهی معین نیاز دارد. این روش دشواری نوشتن سؤالاتی با پارامترهای دقیق و مشابه با طرح را کمتر میکند.
همچنین، در عمل، خزانههای سؤال عملیاتی ایستا نیستند و باید پویا باشند. در اغلب برنامههای سنجش، تستها از خزانههای سؤال انتخاب میشوند و سؤالات جدید به صورت متوالی پیش آزمون میشوند و سپس به خزانه اضافه میشوند. سؤالات بسیار استفاده شده یا قدیمی[۲۲۸] طی زمانهای متوالی از خزانه حذف میشوند. بنابراین، نظارت بر استفادهی مناسب از سؤالات و دوباره جایگزین کردن خزانه از سؤالات جدید، دو وظیفهی مهم مدیریت و محافظت از خزانهی سؤال میباشد (وندرلیندن و ولدکمپ، ۲۰۰۰).
روشهای طراحی خزانهی سؤال که در این پژوهش ارائه شد، میتواند به آسانی به منظور مدیریت خزانهی سؤال نیز به کار رود. در بیشتر موقعیتها، خزانههای عملیاتی از یک خزانهی بزرگتر انتخاب میشوند. در اصل، خزانههای بزرگ اجتماعی از خزانههای عملیاتی است. توزیع یک خزانهی بزرگ بهینه میتواند به سادگی برابر با تعدادی از تکرارهای توزیع خزانههای عملیاتی باشد. به عبارت دیگر اگر خزانهی بزرگ از ۱۰ خزانهی عملیاتی تشکیل شده باشد، توزیع بهینهی سؤال در خزانهی بزرگ در هر bin برابر با ۱۰ برابر توزیع سؤال در خزانهی بهینه است. همچنین، روش اجتماع ریکیسی میتواند نرخهای مواجهه مورد انتظار سؤالات در هر bin را در نظر بگیرد. به طوریکه تعداد سؤالات مورد نیاز در هر bin میتواند به شیوهی زیر محاسبه میشود:
R: تعداد خزانههای سؤال عملیاتی است که از یک خزانهی بزرگ میتواند استخراج شود.
: نرخ مورد انتظار مواجهه برای تعداد سؤالات در هر bin است.
بر اساس این روش، خزانهی بزرگ در bin هایی که دارای مواجهه بیشتری هستند، دارای سؤالات بیشتر و در bin هایی که حداقل مقدار مواجهه را دارند، دارای سؤالات کمتری هستند.
خلاصه اینکه، مشخصات خزانهی سؤال بهینه میتواند به چندین هدف در ساخت خزانههای سؤال عملیاتی کمک کند. ابتدا، این مشخصات میتوانند به عنوان یک مدل طراحی خزانهی سؤال و یک راهنما برای سرهم کردن خزانهی سؤال عملیاتی مفید باشند. دارا بودن این مدل این اطمینان را به ما میدهد که در طراحی الگوریتم CAT مورد نظر، نه تنها به بهترین کیفیت اندازهگیری در دسترس رسیدهایم (مکبرید و وایس، ۱۹۷۶، ص۹)، بلکه توانستهایم که چندین خزانهی سؤال بهینهی هم ارز ایجاد کنیم (هی و ریکیسی، ۲۰۱۰). دوم، ویژگیهای ROPهای ساخته شده، میتوانند بینشهایی در مورد مدیریت خزانهی سؤال ایجاد کنند. برای مثال، بینشی که ما در این پژوهش ایجاد کردیم، این است که خزانههای سؤال که بر اساس روش bin-and-union ساخته میشوند، میتوانند مدیریت و نگهداری خزانهی سؤال را ساده کنند. سوم، ویژگیهای خزانهی سؤال، به خصوص، توزیع صفات آماری سؤال، میتواند به عنوان راهنمایی برای فرایند نوشتن سؤال به کار روند، این راهنما به نویسندگان سؤال یاد میدهد تا سؤالاتی با خصیصههای مطلوب مبتنی بر مدل یا طرح مشخص شدهای بنویسند (هی و ریکیسی، ۲۰۱۰).
محدودیتهای پژوهشی
انجام پژوهش های علمی به دلیل ظرافتها و پیچیدگیهای خاصی که در مراحل مختلف فرایند ان وجود دارد، همواره با محدودیتهایی همراه است که مدّنظر قرار دادن آنها در تعبیر و تفسیر یافتههای پژوهش از اهمیت شایان توجهی برخوردار است. در این تحقیق نهایت تلاش به عمل آمد تا فرایند انجام تحقیق با لحاظ کردن عوامل و شرایط که به نوعی بر روی نتایج اثر میگذارد، انجام شود. با این همه، ذکر موارد ذیل و در نظر گرفتن آنها در تعمیم نتایج بهتر است مورد توجه قرار گیرد.
اول: در این پژوهش همانند شیوههای رایج این روشها، زمانی که مشخصات خزانهی بهینهی سؤالات ارزیابی شد، پارامترهای سؤال به صورت معلوم درنظر گرفته شدند، به گونهای که مقادیر واقعیشان دارای خطای برآورد نبود. این در حالی است که برآوردهای سؤالات عملیاتی غالباً با خطا همراه است. با این همه انتخاب سؤال در CAT همیشه با توجه به ملاک بهینهسازی انجام میشود و سؤالاتی انتخاب میشوند که بتواند بیشینهی آگاهی را ایجاد کند. لذا، زمانیکه برآوردهای سؤال شامل خطا باشند، فرآیندی تحت عنوان “سرمایهگذاری روی شانس” یا “بهرهبرداری از شانس” ایجاد میشود و ممکن است در فرایند انتخاب سؤال در CAT نیز اثر گذارد، زیرا مدرجسازی سؤالات با خطای اندازهگیری همراه بوده است (وندرلیندن و گلاس، ۲۰۰۰). اگرچه در این پژوهش، تا حد امکان در شبیهسازی سؤالات بهینه عامل خطای اندازگیری در نظر گرفته شد، ممکن است این خطاها به طور کامل و صد در صد کنترل نشده باشند.
دوم: یکی از اهداف اصلی در طراحی یک خزانهی سؤال بهینهی CAT، ایجاد دستورالعملی برای به دست دادن مطلوبترین نتایج مربوط به الگوریتمهای مورد استفاده در CAT است. با توجه به اینکه در عمل، غالباً از دادههای خزانهی سؤال CAT عملیاتی به عنوان یک بخش مهم و جدایی ناپذیر در شبیهسازی استفاده میشود، ممکن است ویژگیهای بهینهی تعیین شده، تا حدی مطلوبتر از آنچه هستند به نظر برسند. اگرچه، این اثر را جزئی و قابل اغماض است، با اینهمه توجه به آنها در تفسیر و تعمیم نتایج توصیه میشود.
سوم: روشهای پیشبینی ویژگیهای عملیاتی خزانههای بهینه در این مطالعه تنها بر روی یک خزانهی سؤال عملیاتی مبتنی بود، در حالی که، به شرط وجود خزانههای عملیاتی چند گانه میتوان به طور همزمان از چندین خزانهی سؤال عملیاتی به منظور بهبود عملکرد مدل P استفاده کنیم. در این پژوهش به دلیل فقدان آزمون CAT پیش ساخته در کشور (برخلاف تحقیقات مشابه خارجی)، به ضرورت از یک که یک خزانهی CAT عملیاتی برای محک زدن نتایج استفاده کردیم. اگرچه این رویکرد نیز در ادبیات مطالعه و تدوین خزانههای سؤال مرسوم است، با اینهمه این نکته نیز بهتر است در تعبیر و تفسیر نتایج مورد توجه قرار گیرد.
پیشنهادات پژوهشی
با توجه به یافتههای این پژوهش و همچنین، محدودیتهایی که در قسمت قبل به آن اشاره شد، موارد ذیل به عنوان پیشنهادهای پژوهشی معرفی میشود:
اول: با توجه به اهمیت خطاهای برآورد در تعیین ویژگیهای خزانهی سؤال بهینه، پیشنهاد میشود که مطالعات آتی بر روی ماهیت وچگونگی تاثیر خطاهای برآوردی بر عملکرد خزانههای سؤال CAT توجه کنند و به عنوان یک موضوع پژوهشی جدید به آن بپردازند.
دوم: به منظور حفظ اعتدال بهینگی در خزانههای سؤال پیشنهاد میشود مطالعات آینده چندین خزانهی سؤال عملیاتی استفاده کرده و نتایج را با شرایطی که در آن تنها از یک خزانهی سؤال عملیاتی استفاده شده، مقایسه نمایند.
سوم: بهتر است در تحقیقات آتی دو مدل MRP و MTI با توجه به مزیتهای هر دو روش ایجاد پارامترهای بهینهی سؤال با یکدیگر تلفیق شده، به طوریکه در ایجاد سؤال، همبستگی بین پارامترهای سؤال را در حالیکه ضرورت حداقل آگاهی سؤال را برقرار میکند، را در نظر بگیرد.
چهارم: از آنجا که این امکان وجود دارد که توزیعهای آماری زیربنای توانایی بر توزیع پارامترهای سؤال اثر بگذارند، پیشنهاد میشود که در تحقیقات آتی تاثیر نوع توزیع توانایی در ایجاد خزانههای بهینه بررسی شود.
پنجم: روش بیشینهی آگاهی یکی از معتبرترین و پرکاربردترین روشهای انتخاب سؤال در CAT است، با اینهمه امکان استفاده از روش کمینهی پسین مورد انتظار نیز در این مورد وجود دارد. لذا، پیشنهاد میشود در تحقیقات آتی نتایج حاصل بهکار گیری این دو روش مورد مقایسه و بررسی قرار گیرد.
ششم: با توجه به ملاحظات نظری و عملی در این پژوهش از روش کنترل مواجه سیمپسون-هتر استفاده شد، سایر روشهایی که در این مورد میتواند مورد استفاده قرار گیرد مانند روش α طبقهبندی شده میتواند، موضوع تحقیقات آتی در مورد کاربرد شیوههای دیگر کنترل مواجهی سؤال قرار گیرد.
دشواریهای اجرایی پژوهش
اول: یکی از محدودیتهای اصلی اجرایی این پژوهش هزینههای بسیار بالای طراحی ۹۲۱ سؤال برای خزانهی عملیاتی بود، زیرا تا به حال در ایران یک آزمون CAT عملیاتی که برای اهداف پژوهشی از این نوع مناسب باشد ساخت نشده بود.
دوم: یکی دیگر از محدودیتهای اجرایی، صرف زمان بیشتر از ۱۸ ماه برای ساخت سؤالات مناسب با اهداف پژوهشی بود.
سوم: از آنجا که مدرج کردن این تعداد زیاد سؤال به صورت یک جا امکان پذیر نبود، این سؤالات در ۱۳ مرحله در طول یک سال تحصیلی بر روی ۵۰۰ آزمودنی ثابت مدرج شد. ثابت نگه داشتن این آزمودنیها در طول این یک سال هزینه و زمان هنگفتی برای محقق ایجاد کرد.
چهارم: زمانبر بودن اجراهای برنامههای شبیهسازی، که گاهی هریک چندین ماه متوالی به طول میانجامید.
منابع پژوهش
Adema, J. J. (1990a). Models and Algorithms for the Construction of Achievement Tests. Unpublished doctoral dissertation, University of Twente, Enschede, The Netherlands.
Adema, J. J. (1990b). The construction of customized two-staged tests. Journal of Educational Measurement, 27, 241–۲۵۳.
Ariel, A., Veldkamp, B. P., & van der Linden, W. J. (2004). Constructing rotating item pools for constrained adaptive testing. Journal of Educational Measurement, 41, 345-360.
Belov, D. I. & Armstrong, R. D. (2009). Direct and inverse problems of item pool design for computerized adaptive testing. Educational and Psychological Measurement, 69(4), 53-547.
Bergstrom, B. A., & Lunz, M. E. (1999). CAT for certification and licensure. In F. Drasgow & J.Olson-Buchanan (Eds.), Innovations in Computerized Assessment (pp. 67-91). Mahwah, NJ: Lawrence Erlbaum Associates, Inc.
Boekkooi-Timminga, E. (1987). Simultaneous test construction by zero-one programming. Methodika, 1, 1101–۱۱۲.
Boekkooi-Timminga, E. (1989). Models for Computerized Test Construc- tion. Unpublished doctoral dissertation, University of Twente, Enschede, The Netherlands.
Boekkooi-Timminga, E. (1990a). The construction of parallel tests from IRT-based item banks. Journal of Educational Statistics, 15, 129–۱۴۵.
Boekkooi-Timminga, E. (1990b). A cluster-based method for test construc- tion. Applied Psychological Measurement, 15, 129–۱۴۵.
Boekkooi-Timminga,E.(1991).A Method for Designing Rasch Model Based Item Banks. Paper presented at the Annual Meeting of the Psychometric Society, Princeton, NJ.392 Bibliography.
Boekkooi-Timminga,E.(1993).Computer-assisted test construction. Social Science Computer Review, 11, 292–۳۰۰.
Boekkooi-Timminga, E., & Sun, L. (1991). CONTEST: A computerized test construction system. In J. Hoogstraten & W. J. van der Linden (Eds.), Methodologie (pp. 69–۷۶). Amsterdam, The Netherlands: SCO.
Boekkooi-Timminga, E., & van der Linden, W. J. (1988). Algorithms for automated test design. In F. J. Maarse, L. J. M. Mulder, W. P. B. Sjouw, & A. E. Akkerman (Eds.),Computers in Psychology: Methods, Instrumentation, and Psychodiagnosis (pp.171–۱۷۶).Berwyn,PA:Swets Publishing.
Brown, J. M., & Weiss, D. J. (1977). An adaptive testing strategy for achievement test batteries (No. 77-6). Minneapolis: University of Minnesota, Psychometric Methods Program.
Chang, H. (2007). Book review: Linear models for optimal test design. Psychometrika, 72, 279-281.
Chang, H. H., & van der Linden, W. J. (2003). Optimal stratification of item pools in a-stratified computerized adaptive testing. Applied Psychological Measurement, 27, 262-274.
Chang, H. H., & Ying, Z. (1999). Alpha-stratified multistage computerized adaptive testing. Applied Psychological Measurement, 23, 211-222.
Cheng, Y., & Chang, H. (2009). The maximum priority index method for severely con- strained item selection in computerized adaptive testing. British Journal of Mathematical and Statistical Psychology, 62, 369-383.
فرم در حال بارگذاری ...