«Математические модели и комплексы программ для автоматизированной оценки результатов обучения с использованием латентных переменных ...»
Федеральное государственное бюджетное образовательное
учреждение высшего профессионального образования «ЮжноРоссийский государственный технический университет
(Новочеркасский политехнический институт)» (ФГБОУ ВПО
«ЮРГТУ (НПИ)»)
Институт сферы обслуживания и предпринимательства (филиал)
федерального государственного бюджетного образовательного
учреждения высшего профессионального образования «Донской
государственный технический университет»
(ИСОиП (филиал) ДГТУ)
На правах рукописи
ЕЛИСЕЕВ ИВАН НИКОЛАЕВИЧ
Математические модели и комплексы программ для автоматизированной оценки результатов обучения с использованием латентных переменных Специальность 05.13.18 – Математическое моделирование, численные методы и комплексы программ Диссертация на соискание ученой степени доктора технических наук
Научный консультант:
- доктор технических наук, профессор, Ткачв А.Н.
Новочеркасск - Оглавление Введение
1 Теоретическое обоснование выбора математических моделей для оценки результатов обучения и постановка задач исследования……………………….… 1.1 Краткий обзор состояния диагностики результатов обучения в профессиональном образовании…………………………………………..…..… 1.2 Анализ основных подходов к оценке результатов обучения
1.3 Критерии и показатели качества диагностических средств………………..…... 1.3.1 Надёжность гомогенного теста…………………………………………….... 1.3.2 Валидность теста…………………………………………………………..…. 1.3.3 Разрешающая способность теста……………………………………….….... 1.4 Расчёт параметров, характеризующих результаты обучения, на основе классической теории тестирования………………………………………….……. 1.5 Теоретические обоснование возможности использования дихотомической модели Раша для оценки результатов обучения…………………………………. 1.6 Свойства дихотомической модели Раша………………………………………..... 1.7 Теоретическое обоснование возможности использования моделей Раша для политомической индикаторной переменной………………………………… 1.8 Представление и интерпретация данных обработки…………………………...... 1.8.1 Интерпретация на основе классической теории тестирования……….…… 1.8.2 Интерпретация данных на основе теории латентных переменных……….. 1.8.3 Оценка адекватности результатов тестирования дихотомической модели Раша………………………………………………………………………….... 1.8.4 Построение гистограмм и информационных функций заданий……….…. Выводы к главе 1…………………….………………………………………………..... 2 Разработка алгоритмов и комплексов программ для расчета параметров, характеризующих результаты обучения и качество диагностических средств.. 2.1 Математическое обоснование алгоритма расчета латентных параметров на основе дихотомической индикаторной переменной…………………….………. 2.1.1 Решение нелинейных уравнений методом секущих………………………..… 2.1.2 Решение нелинейных уравнений методом Ньютона…………………………. 2.2 Алгоритмы расчета оценок максимального правдоподобия латентных параметров основной модели Раша....……………………………………………. 2.3 Математическое обоснование расчета латентных параметров политомической модели Раша для рейтинговой шкалы………………………………………….… 2.3.1 Получение итерационных выражений на основе метода секущих……….…. 2.3.2 Итерационные процедуры на основе использования метода Ньютона……... 2.4 Алгоритмы расчета оценок максимального правдоподобия латентных параметров модели рейтинговой шкалы ……………...…………………………. 2.5 Математическое обоснование расчета латентных параметров политомической модели частичного доверия……………………………………………………….. 2.5.1 Итерационные процедуры на основе метода секущих……………………… 2.5.2 Получение итерационных выражений с помощью метода Ньютона………. 2.6 Алгоритмы расчета оценок максимального правдоподобия латентных параметров модели частичного доверия ………..……………………………….. 2.7 Программный комплекс RILP-1M ……………………………………………….. 2.8 Программный комплекс RILP-2 …………………………………………………. 2.9 Оценка достоверности результатов расчета латентных параметров программным комплексом RILP -1М…………………………………………..... 2.10 Оценка достоверности результатов расчета латентных параметров программным комплексом RILP-2……………………………………………….. 2.10.1 Оценка достоверности данных, полученных с использованием модели Раша для рейтинговой шкалы………………………………………............ 2.10.2 Оценка достоверности данных, полученных на основе алгоритма для модели частичного доверия…………………………………………….….. Выводы к главе 2……………………………..…………………………………….…. 3 Теоретическое исследование свойств оценок латентных параметров дихотомической модели Раша………………………………………………………... 3.1 Исследование существования и единственности оценок максимального правдоподобия латентных параметров дихотомической модели Раша…….…. 3.1.1 Постановка задачи………………………………………………………….... 3.1.2 Допустимая дихотомическая матрица результатов тестирования………... 3.1.3 Теоретическое обоснование существования и единственности оценок латентных параметров дихотомической модели Раша…………………….. 3.2 Расчет доли допустимых дихотомических матриц результатов тестирования... 3.3 Результаты вычислительного экперимента по расчёту доли допустимых дихотомических матриц результатов тестирования…………………………...... 3.4 Исследование состоятельности оценок латентных параметров основной модели Раша при ограниченном числе заданий теста…………………………... 3.5 Экспериментальное подтверждение состоятельности оценок трудности заданий теста при их фиксированном количестве………………………………………… 3.6 Исследование поведения оценок латентных параметров модели Раша при неограниченном увеличении объёма выборки и числа заданий теста……….... 3.7 Экспериментальные исследования состоятельности оценок латентных параметров при неограниченном увеличении числа заданий теста……………. 3.8 Сходимость итерационных оценок, рассчитанных методом Ньютона………... 3.9 Распределение значений латентных параметров дихотомической модели Раша Выводы к главе 3…………………………………………………………………….… 4 Расчёт оценок латентных параметров модели Раша на основе моделирования дихотомических матриц ответов…………………………………………………...... 4.1 Краткий обзор современных методов обработки выборок ограниченного объема…………………………………………………………………………….... 4.2 Метод складного ножа и его использование для калибровки тестовых заданий Бутстреп-метод и его применение для калибровки заданий теста ………….… Теоретический анализ значений бутстреп-оценок ……………………………… Теоретический анализ значений оценок, рассчитанных с использованием метода складного ножа……………………………………………………………. Результаты экспериментальных исследований оценок, рассчитанных методами бутстреп и складного ножа……………………………………………………….. Модель генеральной дихотомической матрицы результатов тестирования…………………………………………………………………….…. 4.7.1 Актуальность создания модели генеральной дихотомической матрицы ответов…………………………….………………………………………..…. 4.7.2 Методика формирования модели генеральной дихотомической матрицы результатов тестирования………………………………………………….... 4.7.3 Проведение вычислительного эксперимента по формированию квазигенеральной дихотомической матрицы ответов……………………... Алгоритм формирования модели дихотомической матрицы ответов….…….... Исследование погрешности калибровки тестовых заданий на основе моделирования нормативных дихотомических матриц ответов……………...... 4.9.1 Методика формирования моделей нормативных дихотомических матриц ответов разных размеров………………………………………….… 4.9.2 Проведение вычислительного эксперимента и анализ результатов исследования погрешностей калибровки тестовых заданий……………….. 5 Разработка инструментария и моделей мониторинга результатов обучения и оценки качества диагностических средств …………………………..……………… 5.1 Метод оценки уровня сформированности компетенций обучаемого…………… 5.2 Метод калибровки заданий теста на основе моделирования нормативных 5.3 Метод расчета квазигенеральных оценок латентных параметров на основе моделирования нормативных дихотомических матриц ответов………………... 5.4 Оценка эффективности методов калибровки заданий и расчёта квазигенеральных оценок латентных параметров при эмпирическом законе 5.5 Методика экспертизы качества педагогического теста………………………..… 5.6 Основные положения методологии оценки результатов компетентностноориентированного обучения …………………………………………………...…. 5.7 Модель мониторинга уровня подготовки обучаемых и оценки качества 5.8 Модель автоматизированной системы оценки уровня подготовки выпускников 6 Применение результатов диссертационного исследования для независимой оценки результатов обучения…………………………………………………….….… 6.1 Оценка качества диагностических средств и уровня сформированности когнитивного компонента компетенции………………………………………..… 6.2 Оценка уровня сформированности личностного компонента компетенции с помощью опросника Т. Лири………………………………………………………. 6.2.1 Исследование качества опросника Т. Лири для оценки межличностных отношений………………………………………………………………………. 6.2.2 Оценка компетенций студентов с помощью опросника Т. Лири………..… 6.3 Оценки уровня сформированности личностного компонента компетенции с помощью опросника Л. П. Калининского…
6.3.1 Исследование качества опросника Л. П. Калининского «Профиль личностных свойств»…………………………………………………………. 6.3.2 Оценка личностных качеств обучаемых с помощью опросника Л. П.
Калининского………………………………………………………………….. 6.4 Оценка качества выпускной квалификационной работы и интегративнодеятельностного компонента компетенции…
Выводы к главе 6……………………………………………………..………………..... Заключение………………………………………………………………………………. Список литературы………………….………………………………………………….. Приложение А – Руководство пользователя для работы с программным комплексом RILP-1M…………………………………………………………………….. Приложение Б – Руководство пользователя для работы с программным комплексом RILP-2dotNET………………………………………………………………. Приложение В – Блок-схемы алгоритмов проверки дихотомических матриц результатов тестирования на соответствие условиям допустимости …
Приложение Г – Руководство пользователя для работы с программным комплексом RILP-Multi…………………………………………………………………
Приложение Д – Таблицы данных и алгоритм формирования моделей дихотомических матриц ответов
Приложение Е- Параметры индикаторов опросников Т. Лири и Л.П. Калининского Приложение Ж – Акт внедрения результатов научно-исследовательских, опытноконструкторских и технологических работ в ГБУ РО РОЦСО…………...……..…..... Приложение И – Акт о внедрении результатов докторской диссертационной работы Елисеева Ивана Николаевича в ФГБОУ ВПО «ДГТУ»
Приложение К - Акт о внедрении результатов докторской диссертационной работы Елисеева Ивана Николаевича в ФГБОУ ВПО «РГСУ»
Приложение Л – Документы, подтверждающие внедрение результатов докторской диссертационной работы Елисеева И.Н. в ФГБОУ ВПО «ЮРГУЭС»
Приложение М – Справка о внедрении результатов исследования
Приложение Н - Отзыв
В современных условиях быстрого обновления техники и технологий, увеличения риска возникновения техногенных катастроф возросла роль человеческого фактора во многих сферах деятельности, и как следствие, возросли требования к наджности оценивания уровня профессиональной подготовки кадров.
Особенно это касается оборонных предприятий и взрывоопасных производств, железнодорожного, водного и воздушного транспорта, учреждений и подразделений Министерства по чрезвычайным ситуациям, Министерств обороны и внутренних дел. Уровень профессиональной подготовки специалистов и персонала служб можно оценить, прежде всего, на основе результатов их обучения в системе непрерывного образования: в ссузе, вузе, по программам повышения квалификации и переподготовки, в учебных центрах различных министерств и ведомств.
Неадекватная оценка профессиональной подготовки специалиста может приводить к ошибкам в управлении персоналом, при принятии управленческих решений, большим материальным убыткам и даже к человеческим жертвам. В связи с этим особую актуальность приобретает решение проблем снижения погрешности автоматизированной оценки результатов обучения, которая обеспечивается автоматизированной системой независимой оценки (АСНО).
Эффективная работа АСНО невозможна без использования математического моделирования и наджных инструментальных средств диагностики результатов обучения. Их состав и предъявляемые требования во многом определяются используемыми подходами к оценке качества подготовки обучаемых. Специалистам и персоналу различных служб часто приходится работать в условиях быстро изменяющейся обстановки, требующей умения оперативно менять способы действия в незнакомой ситуации и находить наилучший. Поэтому для обучения и переподготовки кадров преимущественно используется компетентностный подход, согласно которому о результатах обучения судят по наличию у обучаемых компетенций, соответствующих их профессиональной деятельности. В связи с этим актуальным становится решение проблемы формализации процедуры оценивания уровня сформированности компетенций слушателей и студентов, теоретического обоснования и реализации используемых для этого моделей и инструментария, разработки программно-алгоритмических средств обработки результатов диагностики обучения (входных данных (ВД)), а также оценки качества диагностических средств (ДС) и текущего уровня подготовки обучаемых. Современные подходы к оценке учебных достижений слушателей и студентов базируются на использовании классической теории тестирования и теории латентных переменных, математический аппарат и основы которых были созданы известными зарубежными и отечественными учными. Под термином «Латентная переменная (параметр)»
принято понимать теоретический конструкт, который характеризует некое скрытое свойство или качество (например, уровень подготовки обучаемого, трудность тестового задания), которые непосредственно измерены быть не могут. Достоинствами классической теории тестирования являются обеспечение получения информации о показателях качества ДС, наглядность выполняемых расчтов и простая интерпретация данных обработки. Основной недостаток – зависимость результатов оценивания параметров обучаемых от трудности заданий ДС. Применение теории латентных переменных, базирующейся на моделях Раша, обеспечивает возможность независимости оценки вычисляемых значений латентного параметра «уровень подготовки» обучаемых i от значений «трудности заданий» j ДС. Это способствует повышению объективности получаемых оценок уровня подготовки обучаемых. По этой причине в диссертационной работе сделан акцент на применение именно теории латентных переменных.
Создание математического аппарата классической теории тестирования и теории латентных переменных обеспечило разработку программноалгоритмических средств обработки результатов диагностики, оценки качества ДС и уровня подготовки обучаемых. Зарубежными учными E.B. Andersen, D.
Andrich, A. Birnbaum, L.L.Guttman, J. M. Linacre, F.M. Lord, G.N. Masters, B.D.
Wright и учными России (В.С. Аванесов, А.А. Маслак, В.Г. Наводнов, М.Б. Челышкова и др.) были созданы программные средства, реализующие возможности и теории латентных переменных, и классической теории тестирования. С их помощью можно решить многие задачи, связанные с оценкой результатов обучения.
Вместе с тем, практика работы с существующим программным обеспечением (ПО) показала, что ему присущи достаточно серьзные недостатки, связанные с наличием нерешнных проблем в самой теории латентных переменных. В частности, не обоснованы условия существования и единственности получаемых оценок латентных параметров моделей Раша, их сходимость и качество, например, состоятельность. Без решения этих проблем нельзя считать оценки латентных параметров наджными, а полученные с их помощью оценки результатов обучения объективными.
Одной из важных для отечественного образования и не решнных в рамках теории латентных переменных задач является моделирование и параметризация диагностических тестов, в частности калибровка (определение трудности) тестовых заданий по выборкам ограниченного объма (40-50 человек). Из-за малого объма выборки погрешности и интервалы оценивания латентного параметра «трудность задания», рассчитываемые на основе стандартных методик параметрической статистики, могут в несколько раз превышать значения самих оценок.
Одним из возможных способов решения задачи является применение методов имитационного моделирования. Однако реализация данного подхода затруднена изза отсутствия теоретико-методологических основ создания моделей нормативных дихотомических матриц ответов заданного размера, позволяющих снизить влияние случайных факторов на параметризацию диагностических средств. Второй возможный способ решения задачи заключается в использовании непараметрических методов математической статистики, но их применение требует теоретического обоснования и экспериментальной проверки.
К перечню нерешнных задач в области разработки теоретикометодологической базы вычисления оценок латентных параметров модели Раша следует отнести и проблему математического обоснования их вычислительных процедур, хотя сами итерационные выражения для расчта оценок в литературных источниках приводятся. Алгоритмы нахождения оценок латентных параметров на основе упомянутых процедур являются, как правило, коммерческой тайной и недоступны. По этой причине разработка отечественных программных средств невозможна без построения итерационных вычислительных алгоритмов, позволяющих создать программное обеспечение, которое обеспечивает обработку новых результатов обучения и не уступает по своим функциональным возможностям лучшим зарубежным аналогам.
В соответствии с изложенным проблема исследования определяется необходимостью устранения противоречий между требованиями(ем):
1. Автоматизации, независимости и низкой погрешности оценивания уровня подготовки обучаемых по выборкам ограниченного объма и отсутствием теоретических основ создания необходимых для этого математических моделей, программно-алгоритмических и методических средств. Оценивания уровня сформированности общекультурных и профессиональных компетенций (ОК и ПК) обучаемых и отсутствием теоретической и методологической базы для построения моделей АСНО новых результатов обучения - компетенций;
2. Наличия качественных средств диагностики уровня сформированности компетенций и отсутствием теоретической и методической базы, обеспечивающей повышение точности расчта характеристик и показателей качества диагностических средств по выборкам ограниченного объма.
Актуальность диссертационного исследования обусловлена сформулированными неотложными потребностями обучения и отсутствием реальных возможностей их обеспечения.
Работа выполнена в рамках гранта по аналитической ведомственной целевой программе (АВЦП) «Развитие научного потенциала высшей школы (2009г.г.)» (РН 3.4.1/3224 и 3.4.1/10601) Минобрнауки РФ; утвержднных научных направлений «Научно-методическое обеспечение инновационного развития высшей школы» ФГБОУ ВПО «ЮРГТУ (НПИ)» и «Методы, технические и программные средства измерения латентных переменных в области образования, социальных и экономических системах» ФГБОУ ВПО «ЮРГУЭС»; ЕЗН Минобрнауки РФ «Разработка методов и программных средств для расчта латентных переменных по экспериментальным выборкам малого объма» (ЮРГУЭС-4.08Ф, № ГР 01.200.802798).
Целью диссертационной работы является обеспечение автоматизированной независимой оценки результатов компетентностно-ориентированного обучения на основе развития теории латентных переменных, разработки и обоснования математических моделей, создания программно-инструментальных средств.
Для достижения указанной цели были поставлены следующие задачи исследования:
- теоретически обосновать процедуры расчта латентных параметров обучаемых и средств диагностики, а также разработать необходимые для этого алгоритмы и комплексы программ;
- обосновать условия существования и единственности оценок латентных параметров обучаемых и средств диагностики, исследовать состоятельность оценок, рассчитанных по дихотомической матрице ответов ограниченного размера;
- разработать методы, обеспечивающие снижение погрешности расчта оценок латентных параметров обучаемых и средств диагностики на основе компьютерного моделирования матрицы ответов ограниченного размера;
- экспериментально и теоретически исследовать применимость непараметрических методов математической статистики для повышения точности калибровки заданий диагностических средств по дихотомическим матрицам ответов ограниченного размера; разработать необходимые для этого алгоритмы и программное обеспечение;
- разработать модель дихотомической матрицы ответов, применение которой позволит снизить влияние искажающих факторов на результаты исследования латентных параметров и характеристик диагностических средств;
- разработать методологические основы оценки уровня сформированности компетенций обучаемых и модель мониторинга, позволяющую объективно отслеживать результаты обучения и показатели качества диагностических средств;
- разработать модель системы оценки уровня подготовки выпускников учреждений по обучению, повышению квалификации и переподготовке кадров, обеспечивающую объективную оценку их профессиональной подготовки и соответствие е требованиям стандарта;
- провести вычислительные эксперименты, подтверждающие эффективность новых вычислительных алгоритмов и справедливость полученных теоретических результатов.
Объектом исследования является процесс независимой оценки результатов обучения при подготовке, повышении квалификации и переподготовке кадров в учреждениях различных министерств и ведомств.
Предмет исследования: теоретические основы, математические модели, вычислительные алгоритмы, комплексы программ систем автоматизированной оценки результатов обучения.
Методы исследования. Теоретическую основу исследования составляют:
теория латентных переменных, теория вероятностей и математической статистики. Для решения поставленных задач применялись методы: вычислительной математики, имитационного моделирования, математического анализа, теории множеств и матричной алгебры, теоретического и экспериментального исследования.
На защиту выносятся:
- обоснование условий существования и единственности оценок максимального правдоподобия латентных параметров основной модели Раша и разработанный на их основе алгоритм проверки дихотомической матрицы ответов на соответствие этим условиям;
- теоретическое и экспериментальное обоснование состоятельности оценок максимального правдоподобия латентных параметров основной модели Раша, рассчитанных по допустимым квазинормативным дихотомическим матрицам ответов ограниченного размера;
- метод расчета квазигенеральных оценок латентных параметров «уровень подготовки» обучаемого и «трудность задания» ДС путм моделирования допустимой нормативной дихотомической матрицы ответов с ограниченным числом строк и столбцов нормативными матрицами с их существенно большим количеством;
- метод калибровки заданий теста путм моделирования допустимой квазинормативной дихотомической матрицы ответов ограниченного размера аналогичными матрицами с существенно большим количеством строк и с равными значениями столбцовых сумм, позволяющий получить квазигенеральные оценки трудности заданий;
- модель нормативной дихотомической матрицы ответов, методика и алгоритм е формирования;
- модель мониторинга уровня компетенций обучаемых и оценки качества средств диагностики;
- модель системы независимой оценки уровня подготовки выпускников учреждений, осуществляющих обучение, повышение квалификации и переподготовку кадров, по уровню сформированности их компетенций.
- алгоритмы и комплексы программ для расчта параметров и характеристик обучаемых и средств диагностики.
Научная новизна исследования:
1. Впервые получены условия допустимости, которым должны удовлетворять дихотомические матрицы результатов тестирования, используемые для расчта оценок максимального правдоподобия латентных параметров основной модели Раша, выполнение которых обеспечивает существование и единственность оценок. Предложены алгоритм проверки дихотомической матрицы ответов на соответствие е условиям допустимости и алгоритм расчта доли таких матриц ответов заданного размера. Показано, что доля допустимых дихотомических матриц ответов зависит от соотношения числа их строк и столбцов;
2. Впервые показано, что оценки максимального правдоподобия латентных параметров основной модели Раша, рассчитанные по квазинормативным допустимым матрицам ответов ограниченного размера ( N, L 50 ) являются состоятельными. Установлено, что при одновременном увеличении числа и строк, и столбцов матрицы ответов обеспечивается состоятельность оценок параметров и «уровень подготовки» обучаемого, и «уровень трудности» задания. Если увеличивается только число строк матрицы, а количество столбцов фиксировано и все столбцовые суммы одинаковы, состоятельны только оценки параметра «уровень трудности» задания, а оценки параметра «уровень подготовки» обучаемого, стремятся по вероятности к первоначальным значениям. Установлены минимально достаточные размеры нормативной допустимой матрицы ответов, по которой могут быть рассчитаны генеральные оценки латентных параметров i и j ;
3. Предложены новая модель нормативной дихотомической матрицы ответов, методика и алгоритм е формирования по заданным законам распределения латентных параметров i, j, отличающаяся от экспериментальных матриц ответов высокой адекватностью модели Раша и высокими показателями качества соответствующего ей виртуального диагностического средства. Предложена методика экспертизы качества диагностических средств по нормативным дихотомическим матрицам ответов ограниченного размера, отличающаяся от известных меньшей погрешностью калибровки заданий этих средств;
4. Теоретически и экспериментально обоснован новый метод калибровки заданий теста путм моделирования допустимой квазинормативной дихотомической матрицы ответов ограниченного размера N H xLH аналогичными матрицами с существенно большим числом строк и с одинаковыми значениями столбцовых сумм, позволяющий получить квазигенеральные оценки трудности заданий;
5. Предложен новый метод расчета квазигенеральных оценок латентных параметров i0 и 0 путм моделирования допустимой нормативной дихотомичеj ской матрицы ответов ограниченного размера N H xLH нормативными матрицами с существенно большим числом строк и столбцов;
6. На основе предложенной методологии оценки сформированности компетенции по значениям его личностного, когнитивного и интегративнодеятельностного компонентов впервые разработана модель мониторинга, позволяющая объективно отслеживать уровень сформированности компетенций обучаемых и проводить экспертизу качества диагностических средств. Разработана новая модель АСНО уровня подготовки выпускников учреждений по обучению, повышению квалификации и переподготовке кадров, обеспечивающая объективную оценку соответствия его требованиям соответствующих стандартов;
7. Предложены новые вычислительные алгоритмы для обработки результатов диагностики обучения и проверки их качества, отличающиеся от известных наджной сходимостью итерационных оценок к оцениваемому параметру и позволяющие создать ПО для объективной формализованной оценки параметров и характеристик обучаемых и средств диагностики.
Теоретическая значимость:
- полученные в диссертационной работе научные результаты по исследованию существования и единственности оценок максимального правдоподобия латентных параметров основной модели Раша, состоятельности этих оценок, рассчитанных по допустимой квазинормативной матрице ответов ограниченного размера, вносят вклад в дальнейшее развитие теории латентных переменных;
- получили сво дальнейшее развитие и совершенствование теория построения программно-алгоритмических средств обработки результатов диагностики обучения (входных данных) и оценки качества диагностических средств за счт математического обоснования и реализации новых алгоритмов расчта оценок латентных параметров моделей Раша, разработки компьютерных моделей нормативных дихотомических матриц ответов, методики и алгоритма их формирования, создания новых компьютерных алгоритмов и программного обеспечения, реализованных в программных комплексах RILP-1M, RILP-2, RILP-multi;
- созданы теоретико-методологические основы мониторинга результатов компетентностно-ориентированного обучения и оценки качества диагностических средств по матрицам ответов ограниченного размера, моделирования автоматизированных систем независимой оценки уровня подготовки выпускников учреждений, осуществляющих обучение, повышение квалификации и переподготовку кадров в рамках реализации компетентностного подхода.
Практическая значимость результатов работы:
1. Разработаны программные комплексы RILP-1M и RILP-2 который обеспечивает обработку результатов диагностики обучения, представленных квазинормативной матрицей ответов, наджную оценку качества диагностических материалов и получение независимых оценок уровня подготовки обучаемых;
2. Использование методов калибровки тестовых заданий и расчта квазигенеральных оценок латентных параметров путм моделирования допустимой квазинормативной матрицы ответов ограниченного размера позволяет с доверительной вероятностью 0,95 существенно снизить погрешности расчта параметров (не менее чем в 2 раза при выборочной дисперсии уровня подготовки обучаемых, не превышающей 0,58 логит2);
3. Замена реальной допустимой нормативной дихотомической матрицы ответов е моделью с высокими показателями качества при параметризации средств диагностики обучения обеспечивает снижение влияния искажающих факторов на результаты параметризации, за счт чего достигается повышение точности оценивания результатов обучения. С помощью моделирования нормативных дихотомических матриц ответов установлено, что погрешность калибровки тестовых заданий трудностью j 0,18 логит не превышает 6 % при объме выборки N=200 и 3 % при N=300;
4. Методологические основы оценки уровня сформированности компетенций обучаемых и методика экспертизы качества диагностических средств обеспечивают наджное количественное оценивание результатов компетентностноориентированного обучения и эффективное управление его процессом;
5. Модель мониторинга уровня сформированности компетенций обучаемых позволяет объективно отслеживать уровень их подготовки в процессе обучения и получать информацию о качестве диагностических средств. Использование модели обеспечит создание в короткие сроки качественных средств диагностики, пригодных для проведения итоговой государственной аттестации выпускников;
6. Модель системы оценки уровня подготовки выпускников учреждений по обучению, повышению квалификации и переподготовке кадров, базирующаяся на методологии оценки компетенций обучаемых, позволяет получить объективную информацию о владении выпускников компетенциями и о соответствии их уровня требованиям соответствующих стандартов.
Все перечисленные в п.п. 1-6 результаты позволят обеспечить высокую наджность независимой оценки уровня подготовки обучаемых.
Достоверность и обоснованность полученных научных результатов подтверждена соответствием фундаментальным положениям математического анализа, теории вероятностей и математической статистики; корректностью применения математического аппарата; строгим доказательством сформулированных утверждений; их обоснованной математической трактовкой и непротиворечивостью известным (опубликованным) данным; соответствием (с точностью до 2 %) ожидаемых данных эмпирическим; результатами вычислительных экспериментов; устойчивой повторяемостью результатов; представительным количеством использованных источников информации; сочетанием количественного и качественного анализа; положительной оценкой на международных и всероссийских конференциях, полученной в результате критического обсуждения. Выводы, полученные с помощью разработанных моделей и методов, находятся в логическом соответствии с основными положениями теории латентных переменных.
Реализация результатов работы. Результаты диссертационной работы внедрены и используются в следующих организациях:
- Государственное бюджетное учреждение Ростовской области «Ростовский областной центр обработки информации в сфере образования» - программный продукт RILP-1M, методика обработки результатов диагностики и расчта характеристик и латентных параметров обучаемых и средств диагностики;
- ФГБОУ ВПО «Донской государственный технический университет» - программный комплекс RILP-1M, теоретическая модель мониторинга сформированности компетенций обучаемых и оценки качества диагностических средств, метод расчета уровня сформированности компетенций обучаемого и методология их независимой оценки, методика экспертизы качества диагностических средств;
- ФГБОУ ВПО «Ростовский государственный строительный университет» метод и методология независимой оценки уровня сформированности общекультурных компетенций студентов, модель мониторинга сформированности компетенций обучаемых и оценки качества диагностических средств, программный комплекс RILP-1M;
- ФГБОУ ВПО «Южно-Российский государственный университет экономики и сервиса» - программные комплексы RILP-1M, RILP- multi, программы для построения психограмм и моделирования дихотомических матриц ответов, методы и методики расчта характеристик и параметров обучаемых и средств диагностики процесса обучения, методология оценки уровня сформированности компетенций и модель его мониторинга;
- ОАО «Системный оператор единой энергетической системы» - программный комплекс RILP-1M, теоретическая модель мониторинга независимой оценки уровня сформированности компетенций обучаемых, методика экспертизы качества диагностических средств по дихотомическим матрицам ответов ограниченного размера;
- ФГОУ «Академия дополнительного профессионального образования «Учебный центр подготовки руководителей»» - методология оценки уровня сформированности компетенций студентов (использована в докладе автора диссертации на семинаре проректоров по учебной работе вузов России и положительно оценена участниками семинара (отзыв от 29.10.2011)).
Внедрение результатов работы подтверждено соответствующими актами.
Результаты диссертационного исследования использованы в учебных пособиях с грифом УМО «Методологические основы разработки и оценки качества педагогических измерительных материалов (на примере дисциплины «Основы теории цепей»)» и «Теория линейных электрических цепей в тестах» для обучения студентов ВПО направления подготовки 210300 «Радиотехника» по указанной дисциплине.
Основные результаты исследования получены при выполнении НИР «Разработка оценочных и диагностических средств для независимой оценки качества образования в многоуровневых университетских комплексах» в рамках АВЦП «Развитие научного потенциала высшей школы (2009-2011 г.г.)» (РН 3.4.1/3224 и 3.4.1/10601) Минобрнауки РФ и НИР «Разработка методов и программных средств для расчта латентных переменных по экспериментальным выборкам малого объма» по ЕЗН Минобрнауки РФ (ЮРГУЭС-4.08Ф, № ГР 01.200.802798).
НИР выполнены в ФГБОУ ВПО «ЮРГУЭС» под научным руководством автора настоящего диссертационного исследования.
Программное обеспечение для ЭВМ, реализующее новые методы и алгоритмы расчта характеристик ДС и параметров обучаемых, зарегистрированы в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам (РОСПАТЕНТ).
Апробация. Основные положения и научные результаты исследований докладывались и получили одобрение на: ежегодных международных форумах и конференциях «Современное образование: содержание, технологии, качество» (г.
Санкт-Петербург, СПбГЭТУ «ЛЭТИ», 2010-2013); ежегодных международных научно-методических конференциях НИТЭ (Астрахан. гос. техн. ун-т, 1998, 2000);
международных и всероссийских научных конференциях в г. Таганроге «Системы и модели в информационном мире», «Методы и алгоритмы принятия эффективных решений» и др. (ТТИ ЮФУ, 2008-2011); Международной научнопрактической конференции «Информатизация образования-2011» в г. Ельце (гос.
ун-т им. И.А. Бунина, 2011); Международном семинаре «Физико-математическое моделирование систем» (г. Воронеж, 2011); Всероссийской и Международной научно-методической конференции «Пути совершенствования подготовки специалистов для текстильной промышленности» в МГТУ им. А.Н. Косыгина (1995, 2002); ежегодных всероссийских научно-методических конференциях «Развитие тестовых технологий в России» (г. Москва, ФЦТ, 1999-2007); всероссийских научно-методических семинарах «Автоматизированные системы управления учебным процессом в ВУЗе: опыт, проблемы, возможности» (г. Шахты, 2003, 2008);
Всероссийской научно-методической конференции «Фундаментализация высшего технического образования» (г. Новочеркасск, НГТУ, 2000); ежегодных всероссийских научно-практических конференциях в г. Славянске-на-Кубани «Теория и практика измерения латентных переменных в образовании и других социальноэкономических системах» (2007-2010); ежегодных всероссийских научнопрактических конференциях в г. Красноярске «Тестирование в сфере образования: проблемы и перспективы развития» (СГТУ, 2009, 2010, 2013); Всероссийской научно-технической конференции «Приоритетные направления развития науки и технологий» (г. Тула, 2011).
Публикации. Результаты диссертации изложены в монографии, 52 печатных работах, в том числе в 23 статьях, опубликованных в ведущих рецензируемых научных журналах, рекомендованных ВАК, в 11 свидетельствах о регистрации программ для ЭВМ, в 18 статьях сборников материалов международных и всероссийских конференций, симпозиумов и семинаров.
Структура работы. Диссертация состоит из введения, шести глав, заключения, списка использованных источников из 261 наименования и двенадцати приложений. В работе содержится 54 таблицы и 64 рисунка. Общий объм работы – 371 страница.
Личный вклад автора в работах, опубликованных в соавторстве Постановка задач исследований, планирование натурного и вычислительного экспериментов, обработка их данных и анализ полученных результатов, их обобщение в виде выводов и рекомендаций, интерпретация, изложение содержания работ в виде научных публикаций, апробация являются личным вкладом автора во все работы, выполненные в соавторстве. Кроме того, личный вклад автора состоит в том, что в работах:
- [49; 65; 72; 95] обоснованы процедуры исследования свойств оценок латентных параметров модели Раша, теоретические результаты подтверждены данными натурного и вычислительного экспериментов и интерпретированы, разработаны алгоритмы и методы расчта квазигенеральных оценок латентных параметров;
- [32; 77; 78; 80; 87; 89; 94; 190-193; 195; 198-201] теоретически обоснованы и разработаны алгоритмы работы компьютерных программ, структура программных комплексов, выполнен анализ качества их работы по результатам натурного и вычислительного экспериментов;
- [35; 38; 40; 47; 51; 68; 74; 75; 86; 98; 136; 196; 197] теоретически обоснованы и разработаны методики и алгоритмы расчта оценок латентных параметров и оценивания качества диагностических средств.
1 Теоретическое обоснование выбора математических моделей для оценки результатов обучения и постановка задач исследования 1.1 Краткий обзор состояния диагностики результатов обучения Современное состояние профессионального обучения характеризуется достаточно высоким уровнем информатизации, связанной, прежде всего, с его компьютеризацией и интернетизацией, созданием новых образовательных технологий, в которых основной акцент делается на самостоятельную работу обучаемых [120], интеграцией разных уровней профессионального образования на основе принципа преемственности их содержания [43]. В результате этого расширился спектр траекторий обучения потребителей образовательных услуг (студентов вузов и ссузов, персонала различных фирм и предприятий, слушателей учреждений дополнительного образования и курсов переподготовки), что позволило сократить общие сроки получения ими профессионального образования разных уровней.
Вместе с тем, возросли требования к качеству обучения [205] и, как следствие, к организации самостоятельной работы обучаемых, к снижению погрешностей оценки уровня их подготовки, особенно при переподготовке и повышении квалификации. Такая оценка должна быть независимой и объективной, что обеспечивается применением автоматизированной системы независимой оценки результатов обучения [183-185], использующей наджные и качественные инструментальные средства:
-диагностические материалы (тестовые задания (индикаторы), педагогические и диагностические тесты), обеспечивающие получение результатов диагностики обучения (входных данных);
- программно-алгоритмическое обеспечение и математические модели, с помощью которых осуществляется обработка входных данных, проверка качества диагностических средств и расчт параметров обучаемых;
- методическое обеспечение для анализа, интерпретации результатов обработки и оценивания уровня подготовки студентов, слушателей, персонала.
Состав и требования к перечисленным инструментальным средствам во многом определяются используемыми подходами к оценке качества подготовки обучаемых. До 1 сентября 2011 года системы оценки результатов обучения и используемые в них методология и инструментарий были ориентированы на проверку знаний, умений и навыков. С их помощью можно было выявить наличие некоторой совокупности распределнных по отдельным дисциплинам знаний, которые не могли дать полного представления о личностных качествах и умениях обучаемого, характеризующих его способности к нестандартному решению проблем в реальных профессиональных ситуациях.
В основу образовательных стандартов нового поколения [206] положен компетентностный подход к оценке качества подготовки обучаемого, когда проверяются, прежде всего, не его знания, а готовность применять их на практике и продуктивно действовать в нестандартной ситуации, способность создавать требуемый способ действия. Поэтому под качеством подготовки понимается степень готовности обучаемого продемонстрировать соответствующие компетенции.
Пути создания методологической базы, моделей и инструментария для оценивания новых результатов профессионального обучения невозможно уяснить без анализа понятия, содержания и структуры компетенции, научных истоков отечественного компетентностно-ориентированного обучения.
Содержание понятий «компетенция» и «компетентность» в общем случае многопланово. Если рассматривать данные категории в контексте профессионального обучения, то содержание их можно определить следующим образом.
«Компетенция - совокупность взаимосвязанных качеств личности (знаний, умений, навыков, способов деятельности), задаваемых по отношению к определенному кругу предметов и процессов, и необходимых для качественной продуктивной деятельности по отношению к ним [112; 113; 128; 213]. Она определяет способность человека применять имеющиеся знания на практике в нестандартной ситуации, акцентируя внимание на деятельностном ее аспекте. От сформированности компетенций зависит способность человека продуктивно действовать в ситуации отсутствия конкретного умения [202]. В рамках ФГОС ВПО термин «Компетенция» трактуется как «некоторое отчужднное наперд заданное требование к образовательной подготовке выпускника, единица учебной программы, составляющая «анатомию» компетентности» [27].
Исходя из изложенного, под термином «Компетенция» будем понимать отдельное личностное качество обучаемого, на основе которого реализуется определнная составляющая его профессиональной деятельности. Степень выраженности этого качества у обучаемого на разных этапах обучения определяет его уровень владения компетенцией или уровень сформированности компетенции.
Компетентность – обладание соответствующей компетенцией, включающей личностное отношение человека к ней и предмету деятельности. По сути дела, компетенция – некоторое отчужденное, наперд заданное требование (норма) к образовательной подготовке ученика, а компетентность – «уже состоявшееся его личностное качество (совокупность качеств) и минимальный опыт по отношению к деятельности в заданной сфере» [128, с.54].
Из анализа и обобщения результатов работ отечественных учных следует, что в качестве «генетического прообраза» современных представлений компетентностного подхода в отечественной педагогике являются идеи развивающего и личностно-ориентированного обучения [18; 29; 169; 213; 214]. Поэтому уровень овладения компетенцией необходимо оценивать на основе показателей личностно - профессионального развития студента по направлениям, определяемым структурой компетенции.
Анализ сущностных характеристик компетенций и их компонентного состава показывает, что в самом общем виде любая компетенция складывается из трех основных компонентов [213]:
1) когнитивного, связанного со знаниями и способами их получения;
2) интегративно-деятельностного, определяющего процесс становления умений на основе полученных знаний и способов реализации умений;
3) личностного, представляющего собой мотивы и ценностные установки личности, проявляющиеся в процессе реализации компетенции.
Исходя из этого, логику диагностики уровня владения компетенциями необходимо строить на основе оценки показателей личностно- профессионального развития по направлениям формирования трх перечисленных компонентов, для чего необходимо иметь три набора качественных диагностических средств с известными характеристиками и параметрами.
Обобщение отечественного и зарубежного опыта реализации компетентностного подхода к оцениванию результатов обучения позволяет сделать следующие выводы, определяющие основные подходы к оценке уровня владения компетенциями [109; 111]:
- компетенции динамичны, поскольку они не являются неизменным качеством в структуре личности человека, а способны развиваться, совершенствоваться или полностью исчезать при отсутствии стимула к их проявлению. Поэтому можно говорить об уровне владения компетенцией, оценивать его количественно, осуществлять его мониторинг;
- компетенции – многофункциональны и надпредметны, поэтому при оценке качества подготовки обучаемых необходимо иметь комплексные измерители, требующие включения различных оценочных средств. К ним могут быть отнесены тесты учебных достижений [212], диагностические тесты [24; 106; 139; 147;
216], психологические тесты [15; 19; 165; 166; 168];
- при оценке результатов обучения необходимо рассматривать их в динамике, что требует проведения диагностики образовательного процесса с использованием процедур мониторинга;
- уровень владения компетенцией является скрытым (латентным) параметром обучаемого и непосредственному измерению не поддатся. Он может быть оценен с определенной вероятностью. Поэтому при его оценивании следует использовать вероятностный подход [139; 156].
Из изложенного ясно, что существующие модели, методология и инструментарий квалификационной модели подготовки специалиста не могут обеспечить:
- оценивание уровня сформированности социально-личностного и интегративно-деятельностного компонентов компетенций;
- надежное количественное оценивание результатов компетентностноориентированного обучения и эффективное управление его качеством;
- оценивание уровня подготовки обучаемого и соответствие его требованиям образовательных стандартов;
- полноценную оценку качества диагностических средств и мониторинг процесса обучения;
- создание в короткие сроки банков качественных средств диагностики, пригодных для автоматизированной независимой оценки уровня подготовки выпускников учреждений по обучению, повышению квалификации и переподготовке кадров.
Отсюда следует, что для создания современных АСНО результатов профессионального обучения необходимо, прежде всего, решить две задачи:
- разработать теоретические и методологические основы моделирования и параметризации процесса обучения и диагностических средств, используемых для оценивания его результатов;
- теоретически обосновать и реализовать программно-алгоритмические средства обработки результатов диагностики обучения (тестирования, анкетирования), а также инструментарий для оценки результатов обучения и качества диагностических средств.
Теоретико-методологической базой решения названных задач явились результаты исследования, прежде всего, таких зарубежных авторов как W. Brown [225], L.J. Cronbach [226], J.P. Guilford [229], H. Gulliksen [230], L.L.Guttman [231; 232], Клайн П. [126], G.F. Kuder & M. W. Richardson [237], F.M. Lord & M. Novick [240], G.Sax [247], G. Sax & J.L. Hermen [246], C. Spearman [250]. A.Н.G.S. Van der Ven [255]. Ими были разработаны теоретические основы создания диагностических материалов и классического подхода к обработке, анализу и интерпретации результатов диагностики: понятийного аппарата классической теории тестирования, критериев и показателей качества диагностических средств, методологических основ их конструирования и экспертизы качества. Глубоко исследованы вопросы шкалирования и сравнения данных обработки. Из отечественных учных большой вклад в развитие теории тестирования внесли В.С. Аванесов [1-4, 8], Н.Ф. Ефремова [106-108], В.И.
Звонников [112], А. Н. Майоров [137], Е.А Михайлычев [149], В.Г. Наводнов [150], Ю.М. Нейман и В.А. Хлебников [156; 158; 207; 208], М.Б. Челышкова [210], А.О. Татур [167] и др. С их участием были созданы теоретико-методологические основы использования классической теории тестирования в оценке результатов учебных достижений школьников, что позволило объективно оценивать их знания, проводить конкурсный отбор в вузы, а в конечном итоге создать систему независимой оценки знаний выпускников общеобразовательных учреждений. Обобщение опыта теории и практики оценки результатов обучения в общем образовании позволили заложить основы разработки аналога такой системы в учреждениях высшего, среднего и дополнительного профессионального образования (в виде интернет-экзамена [125;
151]), учебных центрах повышения квалификации и переподготовки кадров.
Теоретическая база создания инструментальных средств АСНО результатов образовательного процесса получила сво дальнейшее развитие за счт создания теории латентных переменных [157; 159; 218; 219; 222; 224; 228; 233; 234; 236;
238; 239; 241; 243; 249; 252-254; 257-261], основы которой изложены в трудах таких зарубежных учных как D. Andrich, F.B. Baker, T.G. Bond, C.M. Fox, R.K.
Hambleton, G.S. Ingebo, P.F. Lazarsfeld, J. M. Linacre, F.M. Lord, R.D. Luce, G.N.
Masters, G. Rasch, E.V. Smith., M.S. Smith, R.M. Smith, J.W. Tukey, M. Wilson, B.D.
Wright и других. Используя вероятностные модели Раша, теория латентных переменных обеспечила перевод оценки качества подготовки обучаемых в плоскость педагогических измерений. Главная цель, сфера и главный смысл применения этой теории – научное исследование качества тестовых заданий [7]. Применение е в практике оценивания учебных достижений позволило снизить погрешности получаемых оценок за счт повышения точности калибровки (определения трудности) заданий (индикаторов) диагностических средств. По существу с помощью моделей теории латентных переменных была создана универсальная независимая от состава выборки шкала измерений, применяемая к индивидам с широко варьируемым уровнем способностей и к тестовым заданиям с большим диапазоном изменения уровня трудности [208].
В работах Раша, его учеников и последователей были разработаны модели для обработки результатов обучения, представленных политомической переменной, и исследованы различные аспекты использования созданных моделей в социологии, медицине, психологии, образовании и гуманитарных науках [217-219;
222; 224; 243; 247]. Создание политомических моделей Раша позволило решить целый ряд практических задач по автоматизированному оцениванию латентных параметров различных объектов исследования, в частности, личностных параметров обучаемых. Это способствовало признанию и широкой популяризации теории латентных переменных и моделей Раша в зарубежных странах: США, Австралии, Дании, Великобритании и др.
Результаты применения теории латентных переменных в России приводятся в исследованиях, выполненных В.С. Аванесовым [5-7], А.А. Маслаком [139], Ю.М. Нейманом и В.А. Хлебниковым [156 - 159; 207], М.Б. Челышковой [210;
211], чему не в малой степени способствовали объективно сформировавшиеся потребности централизованного тестирования (ЦТ) и единого государственного экзамена (ЕГЭ). В дальнейшем в работах Ю.М. Неймана и Е.Ю. Кардановой [117были исследованы проблемы применения политомических моделей Раша для обработки результатов централизованного тестирования и ЕГЭ.
В частности, теоретически обоснована возможность использования этих моделей для обработки результатов выполнения заданий на соответствие, правильной последовательности действий и заданий с несколькими верными ответами [118; 119;
123; 124]. Различные практические аспекты использования теории латентных переменных и моделей Раша в образовании и других социально-экономических системах представлены результатами работ А.А. Маслака, Т.С. Анисимовой и других авторов [9-14; 24; 138-147; 216]. Однако, несмотря на полученный положительный опыт применения в ЦТ и ЕГЭ и широкое использование за рубежом теория латентных переменных и модели Раша не нашли (за редким исключением) применения для оценки результатов обучения в учреждениях профессионального образования России. Это можно объяснить трудностью освоения достаточно сложного математического аппарата теории, методик конструирования на его основе средств диагностики, анализа и интерпретации данных обработки.
Применение математического аппарата классической теории тестирования и теории латентных переменных для обработки результатов диагностики позволило разработать численные методы расчта и алгоритмы вычисления оценок параметров обучаемых и средств диагностики, основных подходов к организации и проведению процедуры диагностики обучения (D. Andrich, J. M. Linacre, G.N. Masters, G. Rasch, R.M. Smith, B.D. Wright и др.) [228; 234; 248; 249; 252; 253; 258 - 261]. Это обеспечило переход к созданию необходимого программного обеспечения.
Подавляющее большинство программных средств, созданных отечественными разработчиками для оценки результатов обучения, представляют собой программные оболочки, с помощью которых осуществляется подготовка диагностических материалов и проведение процедуры тестирования (диагностики), проверка его результатов, обработка и вывод их на печать в виде протоколов и ведомостей [23, 28, 82; 104; 105; 110; 130; 148; 153-155; 173; 174; 189]. Качество средств диагностики в большинстве случаев не оценивается, а если оценивание и предусматривается, то проводится оно на базе классической теории тестирования.
Вследствие этого погрешность оценок результатов обучения может быть велика, а объективность оценивания низкой. Особую остроту оценка качества диагностических средств приобрела в последние годы в связи с созданием различными министерствами, ведомствами и организациями автоматизированных систем для дистанционного обучения и переподготовки кадров. В частности, такие системы используются Федеральной налоговой службой России, ОАО «Системный оператор единой энергетической системы» и другими организациями.
Попытки создания программного обеспечения на базе теории латентных переменных в сочетании с классической теорией тестирования неоднократно предпринимались в России с середины 90-х годов. Первой такой программой, созданной на базе MS DOS, является программа R-Latent [96], разработанная коллективом авторов с участием В.С. Аванесова и М.Б. Челышковой. Реализация в ней возможностей теории латентных переменных в разумном сочетании с классической теорией тестирования позволили повысить точность оценки качества диагностических средств. Однако функциональные возможности R-Latent достаточно ограничены. Прежде всего, это выражается в ограничении размера обрабатываемой дихотомической матрицы ответов: число столбцов L не должно превышать 95, количество строк N – нескольких сотен. Не решены вопросы устойчивости рассчитываемых оценок латентных параметров, что является причиной частых сбоев в работе программы в случаях, когда N>300. Из созданного позже ПО, реализующего положения теории латентных переменных, следует отметить программу для обработки тестовых результатов в рамках классической теории тестов и Item Response Theory Дальневосточного государственного технического рыбохозяйственного университета [135], программный модуль «Анализатор» ЮжноРоссийского государственного университета экономики и сервиса [54; 81; 183;
184; 188], программу «КаТеЗа» Федерального центра тестирования, программу «Камертон» Центра государственной аккредитации Минобразования России [148;
152] и диалоговую систему «Измерение латентных переменных» филиала Кубанского государственного университета в г. Славянске-на-Кубани [146].
К общим недостаткам всех перечисленных программ относится отсутствие функций проверки адекватности результатов ответов обучаемых принятой модели измерения – модели Раша, возможностей построения информационной функции теста, представления сведений, на основе которых проводится дистракторный анализ диагностических материалов. Без использования этих функций нельзя получить информацию, необходимую для полноценной оценки качества средств диагностики. Кроме этого, значения оценок латентных параметров, рассчитанные с помощью отечественных программных средств, могут существенно отличаться от аналогичных значений, полученных с помощью зарубежных программ. Таким образом, на данный момент в России нет отечественных программ, обеспечивающих выполнение всего спектра процедур, необходимых для создания качественных диагностических средств для АСНО результатов обучения.
Зарубежные программные средства аналогичного назначения выгодно отличаются от отечественных своей многофункциональностью. Известный пакет программ SPSS [25; 116] обеспечивает обработку входных данных и получение необходимой информации в рамках классической теории тестирования. Более высокую точность калибровки заданий (индикаторов) диагностических средств и оценки уровня подготовки студентов позволяют получить широко используемые за рубежом программы WINSTEP, MINISTEP [172], созданные на базе результатов работ E.B. Andersen, D. Andrich, A. Birnbaum, L.L.Guttman, J. M. Linacre, F.M.
Lord, G.N. Masters, B.D. Wright (см., например, [258- 260]). Хорошо известна и успешно используется в некоторых вузах России диалоговая система RUMM, разработанная в лаборатории Мердокского университета в Австралии [171]. С помощью перечисленного ПО можно решать многие задачи, связанные с обработкой результатов диагностики, оценкой качества диагностических средств и параметров объекта диагностики.
Вместе с тем, практика работы с существующим ПО показала, что ему присущи достаточно серьзные недостатки, связанные с наличием нерешенных проблем в самой теории латентных переменных. В частности, не обоснованы условия существования и единственности получаемых оценок латентных параметров моделей Раша, их сходимость и качество, например, состоятельность. Без решения этих проблем нельзя считать оценки латентных параметров надежными, а полученные с их помощью оценки результатов обучения объективными.
Одной из важных для объективной оценки результатов обучения и не решнных в рамках теории латентных переменных задач является моделирование и параметризация диагностических тестов, в частности калибровка (определение трудности) тестовых заданий по выборкам ограниченного объема (40-50 человек).
Из-за малого объма выборки погрешности и интервалы оценивания латентного параметра трудность задания, рассчитываемые на основе стандартных методик параметрической статистики, могут в несколько раз превышать значения самих оценок. Одним из возможных способов решения задачи является применение методов имитационного моделирования [22; 235; 242]. Однако реализация данного подхода затруднена из-за отсутствия теоретико-методологических основ создания моделей нормативных дихотомических матриц ответов [163] заданного размера, позволяющих снизить влияние случайных факторов на параметризацию диагностических средств. Второй возможный способ решения задачи заключается в использовании непараметрических методов математической статистики [215; 227; 244; 245; 251;
256], но их применение требует теоретического обоснования и экспериментальной проверки.
К перечню нерешнных задач в области разработки теоретикометодологической базы вычисления оценок латентных параметров модели Раша следует отнести и проблему математического обоснования их вычислительных процедур, хотя сами итерационные выражения для расчта оценок в литературных источниках [158; 258] приводятся. Алгоритмы нахождения оценок латентных параметров на основе упомянутых процедур являются, как правило, коммерческой тайной и недоступны. Поэтому они не могут быть использованы для создания отечественного программного обеспечения. По этой причине разработка отечественных программных средств невозможна без построения итерационных вычислительных алгоритмов, позволяющих создать программное обеспечение, которое не уступает по своим функциональным возможностям лучшим зарубежным аналогам и обеспечивает обработку новых результатов обучения.
В соответствии с изложенным проблема исследования определяется необходимостью устранения противоречий между требованиями(ем):
1) автоматизации, независимости и низкой погрешности оценивания уровня подготовки обучаемых по выборкам ограниченного объма и отсутствием теоретических основ создания необходимых для этого математических моделей, программно-алгоритмических и методических средств. Оценивания уровня сформированности общекультурных и профессиональных компетенций (ОК и ПК) обучаемых и отсутствием теоретической и методологической базы для построения моделей АСНО новых результатов обучения - компетенций;
2) наличия качественных средств диагностики уровня сформированности компетенций и отсутствием теоретической и методической базы, обеспечивающей повышение точности расчта характеристик и показателей качества диагностических средств по выборкам ограниченного объма.
1.2 Анализ основных подходов к оценке результатов обучения Уровень подготовки обучаемого является скрытым (латентным) параметром и непосредственному измерению не поддатся. Он может быть оценен в процессе проверки знаний с определенной вероятностью. Мы никогда не можем точно предсказать, решит или не решит студент или слушатель задачу, но мы можем сказать, каковы их шансы решить е. Поэтому при оценивании уровня подготовки обучаемого следует использовать вероятностный подход.
Современные подходы к оцениванию уровня подготовки обучаемого и расчту характеристик диагностических материалов базируются на использовании классической теории тестов [1; 210; 211; 225; 226; 229; 231; 237; 240; 241; 250;
251] и теории латентных переменных [56; 156; 210; 211; 252 - 254; 258 - 261]. В первом случае уровень подготовки участников тестирования оценивается с помощью их индивидуальных баллов Xi или долей pi правильных ответов на задания теста, а трудность каждого задания теста – долей правильных pj и неправильных qj ответов тестируемых на это задание. В теории латентных переменных предполагается, что между наблюдаемыми результатами тестирования и латентными качествами тестируемых (например, уровнем подготовки обучаемого по конкретной учебной дисциплине) существует определнная связь. Каждому участнику тестирования ставится в соответствие только одно значение латентного параметра, который определяет наблюдаемые результаты тестирования. Результат выполнения каждого задания теста зависит от разности значений латентных параметров задания j и тестируемого i. В отличие от классической теории тестов, где индивидуальный балл тестируемого рассматривается как постоянное число, в теории латентных переменных латентный параметр интерпретируется как некоторая переменная, значение которой находится непосредственно по эмпирическим данным и уточняется путм последовательных приближений.
Каждый из описанных подходов имеет свои преимущества и недостатки.
Несомненными достоинствами классической теории тестирования являются возможность получения информации о показателях качества диагностического средства, доступность и наглядность выполняемых расчтов, а также простая интерпретация данных обработки. К недостаткам относятся [112; 139; 210; 211]:
– зависимость рассчитанной по результатам тестирования оценки уровня подготовки тестируемого от трудности заданий теста;
– зависимость оценки трудности заданий теста, рассчитанной по результатам тестирования, от уровня подготовки участников тестирования;
– нелинейность шкалы измерения уровня подготовки тестируемых, выраженного в тестовых баллах;
– нелинейная зависимость тестового балла от трудности заданий теста.
Отмеченные недостатки могут явиться причиной существенного искажения информации как об уровне подготовки обучаемых, так и о трудности используемых для его измерения диагностических материалов.
Свободной от перечисленных недостатков является теория латентных переменных, благодаря чему при е использовании можно получить более наджные значения параметров обучаемых и средств диагностики. Именно поэтому ведущие специалисты в области обработки и интерпретации результатов диагностики (тестирования, анкетирования и т.д.) отдают ей предпочтение при выборе методологии и программно-аналитических средств обработки эмпирических данных [139; 156; 257]. Однако применение теории латентных переменных сопряжено с преодолением определнных трудностей, связанных с необходимостью [210; 211]:
– знания и владения достаточно сложным аппаратом математической статистики и численных методов расчта латентных переменных;
– изучения логистических моделей, используемых в педагогических измерениях, и освоения методов измерения латентных параметров диагностических материалов и участников тестирования на основе теории латентных переменных;
– разработки и освоения специальных алгоритмов и программного обеспечения для расчта параметров и характеристик средств диагностики и обучаемых.
Кроме того, интерпретация результатов обработки с помощью этой теории достаточно сложна и требует определнных навыков. Поэтому расчт уровня подготовки обучаемых и параметров и характеристик диагностических материалов по результатам тестирования условно разделяется на два этапа: на первом этапе используется классическая теория тестирования, на втором этапе – теория латентных переменных.
Описанные подходы могут быть использованы и для оценки новых результатов обучения – уровня сформированности компетенций студентов [34; 35; 44;
56; 139]. В этом случае под латентным параметром i понимается уровень сформированности какого-либо компонента компетенции или всей компетенции в целом, а под латентным параметром j – уровень трудности или приемлемости индикатора опросника.
1.3 Критерии и показатели качества диагностических средств Качество диагностических средств, которые используются для оценки результатов обучения, должно удовлетворять научно обоснованным критериям.
Применительно к педагогическим тестам для проверки знаний, умений и навыков принято использовать следующие шесть критериев [1; 59; 210].
1) Соответствие содержания теста (диагностического средства) сформулированным целям или цели его создания. Выполнение этого критерия достигается за счт оптимального отображения в системе тестовых заданий тех элементов содержания учебной дисциплины, которые должны быть освоены обучаемыми на заданном уровне. Требование оптимальности предполагает использование определнной методики отбора материала дисциплины [210].
2) Полнота отображения материала дисциплины, которая оценивается по её программе. Необходимость оценки полноты отображения связана с тем, что обычно содержание теста значительно уже, чем это предусмотрено соответствующей программой. Невозможно включить в тест все вопросы программы, поскольку число тестовых заданий ограничено. В то же время, чем полнее содержание теста, тем выше его содержательная валидность [137] и тем больше уверенность в объективной оценке знаний тестируемых, полученной с его помощью.
3) Правильность отображения пропорций материала дисциплины в содержание теста. Задания теста должны охватывать все важные аспекты предметной области и в правильной пропорции. Смещение пропорций может произойти, например, из-за того, что тест легко перегрузить разделами содержания, по которым легче составить задания.
4) Соответствие содержания тестовых заданий уровням усвоения знаний, планируемым в спецификации теста. Проверка его выполнения осуществляется путм сравнения уровней усвоения знаний, контролируемых заданиями теста, с требованиями к уровню усвоения знаний, предусмотренных образовательным стандартом.
5) Оценка определённости и предметной чистоты измеряемого элемента содержания. Каждое задание должно оценивать усвоение одного конкретного элемента знаний. Попытка проверки одним заданием усвоения нескольких элементов знаний может стать причиной неопределнности в измерении знания элемента содержания. Другой причиной такой неопределнности может явиться двусмысленность формулировок, порождающая несколько правильных ответов.
6) Оценка значимости содержания каждого задания теста. Этот критерий отражает необходимость включения в тест только тех элементов содержания, которые являются наиболее важными, ключевыми. Такие элементы, ввиду их важности, называются структурными элементами знания. Правильное выполнение заданий теста, содержащих опорные, структурные элементы содержания, позволяет судить о знании предмета в целом. Включение в тест второстепенных элементов содержания может привести к неоправданным выводам о знании или незнании содержания предмета.
Качество диагностических средств анализируется вместе с оценкой уровня подготовки обучаемых по данным, полученным в процессе обработки результатов диагностики [34; 35; 44; 56; 59; 74; 102].
О том, насколько полно обеспечено выполнение критериев качества диагностического средства (теста) при его разработке, можно судить по значениям основных показателей его качества: наджности, валидности и разрешающей способности.
Важнейшим показателем, характеризующим качество разработанного теста, является его наджность, которая отражает точность тестовых измерений и устойчивость результатов тестирования в одинаково подготовленных группах тестируемых к воздействию случайных факторов [163]. Количественно она характеризуется коэффициентом наджности теста rнт.
Существуют различные методы расчта наджности теста по результатам его эмпирической проверки на репрезентативной выборке респондентов, которые описаны в литературе [1; 137; 210; 225; 226; 237; 250]. Наиболее предпочтительным со статистической точки зрения является метод параллельных форм, когда надежность рассчитывается по результатам корреляции двух параллельных тестов, созданных для измерения одного и того же свойства. Однако из-за практического отсутствия параллельных тестов этот метод применяется редко. На практике чаще всего используется ретестовый метод, когда один и тот же тест двукратно применяется в одной группе студентов. Проверяется наличие корреляции результатов обоих сеансов тестирования, по которой оценивается наджность теста. Чем выше коэффициент корреляции rk12 между двумя полученными массивами данных, тем выше надежность. Для расчета значения rk12 используется формула классического коэффициента корреляции Пирсона:
где Xn и Yn – индивидуальные баллы n-го индивида, полученные при первичном и повторном тестировании; N – число участников тестирования. Величина rk12 принимается в качестве показателя наджности теста и оценивается по наличию корреляции данных по двум тестам для одной и той же выборки тестируемых. Достоинства метода: сравнительная простота использования, ясность основных посылок, лежащих в определении надежности, простота расчетов. К его существенным недостаткам относится неопределенность в выборе временного интервала между первым и вторым сеансами тестирования.
Свободным от указанного недостатка является метод расчта наджности теста по результатам оценки корреляции данных, полученных путм разбиения теста на две равные части, который получил название метода расщепления. Он позволяет оценить наджность теста при однократном тестировании. Чаще всего одну из частей образуют нечтные задания теста, вторую – чтные задания. Индивидуальные баллы тестируемых, полученные отдельно по нечтным и отдельно по чтным заданиям, оцениваются на наличие корреляции. Далее находится коэффициент наджности теста rk по двум частям:
где Xn и Zn – индивидуальные баллы n-го участника тестирования, полученные по нечтным и чтным заданиям. Рассчитанное значение rk корректируется с помощью формулы Спирмана-Брауна [225; 250] Корреляция двух частей теста возрастает с ростом однородности (гомогенности) теста. Поэтому метод расщепления позволяет наряду с наджностью оценить его внутреннюю согласованность и сделать вывод о степени гомогенности.
Помимо рассмотренных формул (1.1)-(1.3) для расчта наджности теста используется выражение, связывающее дисперсию se ошибочных компонентов с дисперсией sх индивидуальных баллов тестируемых по всему тесту:
Практическое использование формулы (1.4) ограничено тем, что величина se не всегда известна.
Рассмотренные выше методы определения надежности основаны на предположениях о параллельности и эквивалентности тестов, которые не всегда выполняются. Поэтому были разработаны прямые методы оценки наджности, предполагающие непосредственное использование полученных экспериментальных данных и не зависящие от выполнения упомянутых выше допущений. Среди них из-за своей простоты и наглядности широкое распространение получил метод, базирующийся на использовании средних значений коэффициента интеркорреляции заданий теста [1; 56]. Формула для расчта коэффициента наджности теста по этому методу имеет вид где r r j L1 – среднее значение коэффициента интеркорреляции всех заданий теста, а r j r jm L1 – среднее значение коэффициента интеркорреляции j-го задания; L – число заданий теста.
Избежать большого объма вычислений и получить объективные значения коэффициента наджности теста позволяет коэффициент наджности Kr, предложенный Кронбахом [226]:
где sj – дисперсия j-го задания теста; sx – дисперсия индивидуальных баллов тестируемых. Если обозначить результат выполнения j-го задания участником тестирования с номером i через хij (хij= 0,1,2…..mj), то величину sj можно рассчитать по формуле Для дихотомической переменной xij, принимающей значения только 0 или 1, формула (1.7) запишется в виде где p j x j – доля верных, а qj= 1-pj – доля неверных ответов на j-ое задание.
С учтом выражения (1.8) получим для расчта коэффициента наджности rнт аналог формулы (1.6), предложенный Кудером и Ричардсоном [237]:
Выбор конкретной формулы для расчта коэффициента наджности теста зачастую зависит от типа экспериментальных данных, выбранных методов их обработки, интерпретации и других факторов. При разработке алгоритмов и программного обеспечения для экспертизы качества тестов целесообразно использовать несколько (2-3) рассмотренных методов. Это позволяет повысить степень объективности оценки коэффициента наджности.
Из приведнных расчтных формул (1.4), (1.6, (1.9) видно, что для повышения наджности теста необходимо уменьшить дисперсию его заданий. Это достигается, прежде всего, за счт высокой однородности содержания заданий: оно должно быть направлено на измерение какой-то одной характеристики обучаемого, например, его подготовленности по предмету.
Вторым важным фактором, влияющим на наджность теста, является его длина. Чем больше заданий содержится в тесте, тем выше его наджность. Однако чрезмерное увеличение длины теста приводит к неоправданному возрастанию продолжительности процедуры тестирования. При этом возрастт утомляемость участников и, как следствие этого, ошибка измерения. Наджность теста, связанная с количеством L заданий в нм, определяется обобщнной формулой СпирманаБрауна:
где n – кратность увеличения длины теста (количества заданий в нм); rSB0 – коэффициент наджности после увеличения длины теста; rSB - коэффициент наджности до увеличения его длины.
Видно, что, увеличивая число заданий в тесте, можно увеличить значение rSB0 и приблизить его к 1. Иногда на практике ставится задача расчта кратности n увеличения длины теста для того, чтобы обеспечить необходимое значение коэффициента наджности rSB0. В таких случаях значение n можно найти по формуле Применение формул (1.10)-(1.11) предполагает, что содержание добавляемых заданий удовлетворяет плану и спецификации теста [1; 56; 210]. Кроме того, добавляемые задания должны иметь статистические характеристики, близкие к характеристикам заданий теста. На практике это условие выполнить сложно, поэтому величину n, рассчитанную с помощью формул (1.10)-(1.11), можно рассматривать лишь как приближнную. Практически длину теста определяют опытным путем с учетом нескольких факторов. По данным международных сравнительных исследований (IAEP, TIMSS) для выполнения заданий с выбором ответа из четырх-пяти рекомендуется отводить до одной минуты, с кратким дополняемым ответом – в среднем, до 2 минут, с полным свободно конструируемым ответом – до 5 минут. Исходя из этого, можно заключить, что при длительности тестирования 90 минут оптимальное число заданий с выбором ответа в тесте должно быть, в среднем, порядка 50. При такой длине теста обеспечивается его приемлемая наджность. Если число заданий теста выбирать меньше 30, то его наджность становится очень низкой [210].
Третьим фактором, влияющим на значения коэффициента наджности теста, является адекватность выборки тестируемых. Прежде всего, нужно обеспечить е необходимый объм. Чем он больше, тем выше точность расчта коэффициента наджности теста. По мнению Гилфорда [229], минимальный объм выборки должен составлять не менее 200 участников тестирования. Ньюнелли [126] считает, что их должно быть не менее 300. Наряду с объмом выборки важное значение имеет е состав. Выборка должна отражать ту категорию лиц, для которой предназначен тест. Иначе говоря, выборка тестируемых должна полностью отражать разнообразие параметров, присущих генеральной совокупности тестируемых.
На практике в качестве нижнего предела допустимых значений коэффициента наджности rнт. выбирают 0,7 [1; 210]. При более низких значениях существенно возрастает погрешность измерения, и целесообразность использования теста вызывает сомнение. Коэффициент наджности профессионально разработанных тестов составляет не менее 0,8.
Вторым важным показателем качества теста является его валидность – комплексная характеристика, отражающая способность теста служить той цели, для которой он создавался. Различают несколько видов валидности теста [137; 163;
210]. Важнейшим из них является содержательная валидность.
Содержательная валидность теста – характеристика, выражающая показатель полноты охвата его тестовыми заданиями той области знания, учебные достижения тестируемых в которой этот тест оценивает. Это основной вид валидности для тестов достижений, когда должен быть точно определн материал учебной дисциплины, который необходимо отразить в содержание теста, и когда существует достаточная ясность смысла измеряемого параметра. Тест считается валидным по отношению к контролируемому содержанию учебной дисциплины, если он позволяет проверить вс то, что указано в его плане и спецификации. Для критериально-ориентированного теста (КОТ) и содержательно ориентированного теста (СОТ) содержательная валидность выражает фактически второй из перечисленных выше критериев качества теста. Для повышения содержательной валидности в тест лучше включать задания с низкими значениями коэффициента взаимной корреляции, поскольку при прочих равных условиях в этом случае повышается полнота охвата содержания учебной дисциплины. Но чрезмерное перенасыщение теста такими заданиями неминуемо приведт к снижению его наджности, поскольку обеспечение высокой наджности теста связано с отбором заданий, имеющих большие значения коэффициентов взаимной корреляции [240]. Для разрешения этого противоречия необходимо стремиться к повышению наджности гомогенного теста в разумных пределах. По мнению авторов работ [126; 229;
240], максимум содержательной валидности достигается тогда, когда все задания слабо, но положительно коррелируют друг с другом, но каждое из них имеет высокую корреляцию с критерием по тесту. Поэтому для повышения валидности в тест необходимо включать задания с большими значениями бисериального коэффициента корреляции [1; 210]. Обычно на практике значения коэффициента интеркорреляции rij рекомендуется выбирать в диапазоне 0 rij 0,3, а значения бисериального коэффициента корреляции тестового задания с индивидуальной суммой баллов тестируемых Rb j – в пределах от 0,3 до 0,99 (на начальных этапах экспертизы качества теста – от 0,2 до 0,99) [1; 210]. Формулы для расчта коэффициентов rij и Rb j приведены в параграфе 1.3.
Другим важным типом валидности является критериальная валидность - характеристика, отражающая его возможность несмещнно сопоставлять результаты тестирования с установленным внешним критерием, характеризующим объект измерения. Фактически критериальная валидность теста характеризует четвртый из названных выше критериев качества теста. Суть е заключается в определении способности служить индикатором или прогнозировать достижение строго определнного критерия, например, уровня требований образовательного стандарта.
Содержательная валидность в обязательном порядке оценивается для СОТ.
Для КОТ оценивается и содержательная, и критериальная валидность.
Определения других видов валидности теста приведены в работах [59; 163].
На валидность теста большое влияние оказывает его разрешающая способность: чем она выше, тем более валидным оказывается тест.
Разрешающая способность теста – длина промежутка на шкале уровня подготовленности тестируемых, соответствующая изменению первичного балла тестируемого на единицу [56; 156; 163].
В классической теории тестирования разрешающая способность теста характеризуется коэффициентом наджности теста rxx, определяемым как отношение дисперсии ошибки st истинных баллов тестируемых к дисперсии sх наблюдаемых тестовых баллов:
где se – дисперсия ошибки. То есть разрешающая способность теста определяется статистическими параметрами индивидуального тестового балла и ошибки.
В теории латентных переменных вместо тестового балла используется понятие уровня подготовки тестируемого i, оценки которого i рассчитывается по результатам тестирования и выражаются в логитах:
где i – погрешность расчта значения i. Для значений латентной переменной разрешающая способность теста Rs определяет длину промежутка на оси латентной шкалы в логитах, который соответствует шагу индивидуального балла 1. Фактически разрешающая способность Rs теста определяет его порог чувствительности. Различные значения 1 и 2 нельзя отличить с помощью теста, если Величина разрешающей способности теста может быть рассчитана по формуле [156] где pij вычисляется по формуле (1.37) по известным значениям i и j или бертся из эксперимента, а qij=1- pij.
В реальном тесте с числом заданий L Для приближенных вычислений обычно используется оценочная формула Среднеквадратичная ошибка логитах) по формуле На практике при обработке результатов тестирования удобно использовать для характеристики разрешающей способности теста коэффициент дифференциации участников тестирования rd. По аналогии с выражением (1.12) он определяется выражением сия погрешности его расчта по всем участникам тестирования.
С точки зрения классической теории тестирования выполнение критериев качества теста обеспечивается, если показатели качества составляют [1; 56; 210]:
KH 0,7; rd 0,7.
1.4 Расчт параметров, характеризующих результаты обучения, Если в качестве диагностических материалов при тестировании используются тесты с заданиями открытой и закрытой форм с альтернативным выбором ответа, то результат ответа xij участника тестирования с номером i на тестовое задание с номером j можно рассматривать как дихотомическую переменную, принимающую значение 1 при правильном выборе номера ответа и 0, когда ответ на задание выбран неверно. Представляя результаты каждого из N участников тестирования на каждое из L заданий теста в виде последовательностей единиц и нулей, получим матрицу результатов (ответов) размером N х L. Каждая строка матрицы представляет собой профиль ответа тестируемого на все задания теста и позволяет судить о его структуре знаний. Индивидуальный балл Xi i-го участника тестирования в классической теории тестов получают путм суммирования значений xij по всем L заданиям:
Доли верных pi и неверных qi ответов тестируемого на задания определяются соотношениями:
Индивидуальный балл Yj j-го задания получим, если просуммируем ответы xji по всем участникам тестирования:
Долю верных pj и неверных qj ответов всех студентов на задание получим, если поделим Yj и N- Yj на N:
Дальнейший анализ результатов тестирования базируется на использовании методов математической статистики [21; 133]. Для проверки системообразующих свойств заданий, входящих в тест, необходимо рассчитать коэффициенты интеркорреляции заданий и корреляцию индивидуальных баллов заданий и тестируемых. Для этого необходимо знать выборочные средние арифметические X и Y и оценки стандартных отклонений x и величин X и Y. Для индивидуальных баллов участy ников тестирования X i указанные величины будут равны [131; 133]:
где S x – оценка дисперсии величины X.
С помощью аналогичных выражений рассчитываются и параметры для индивидуальных баллов заданий Yj::
В некоторых случаях наряду с величинами X, Y, и x, необходимо знать моменты более высоких порядков: значения ассиметрии (x 3 ) и y3) и эксцесса x4 ) и (y 4 ). Их оценки могут быть рассчитаны на основе известных соотношений [131; 133]:
Коэффициент интеркорреляции rij заданий i и j, вычисляемый по дихотомическим данным, может быть рассчитан по достаточно простой формуле [210] где pij – доля тестируемых, выполнивших правильно задания i и j; pj – доля тестируемых, выполнивших правильно задание j; pi – доля тестируемых, выполнивших правильно задание i.
Коэффициент корреляции Rbn индивидуального балла задания с индивидуальными баллами тестируемых, который является показателем валидности задания, рассчитывается по формуле где xni – результат выполнения n-ым студентом i-го задания.
Более громоздкими получаются выражения для расчта статистических параметров при политомическом описании результатов тестирования. Результат выполнения каждого шага j тестового задания i с несколькими верными ответами участником тестирования с номером n можно описать дихотомической переменной xnij, принимающей значения 1 или 0. Вс же задание в целом будет оцениваться политомической переменной xni, величина которой может изменяться в пределах от 0 до mi, где mi число шагов (градаций) в i-м задании [68; 87]. Результаты тестирования N участников с помощью L заданий, каждое из которых состоит из mi шагов, можно представить в виде трхмерной матрицы с числом строк N, числом столбцов L и числом подстолбцов mi. В каждый подстолбец j задания i заносится результат выполнения j-го шага задания (1 или 0), в каждый столбец i – суммарное значение результатов выполнения всех mi шагов задания i. Результат xni выполнения n-м испытуемым i-го задания будет равен Количество баллов Xn, которое наберт участник тестирования с номером n, определится суммированием xni по всем L заданиям:
Максимальное количество баллов М тестируемого будет равно В качестве начальных оценок трудности шага j задания i в классической теории тестов используются доли верных pij и неверных qij ответов всех испытуемых на j-й шаг задания i. Их значения могут быть рассчитаны по формулам:
где y ij x n ij – количество верных ответов на j-й шаг задания i, полученных всеj ми участниками тестирования. Доли верных pi и неверных qi ответов на вс задание с номером i определятся выражениями:
где Yi y ij – индивидуальный балл i-го задания.
Выражения для расчта доли верных p n и неверных q n ответов n-го участника тестирования на все задания теста запишутся в виде:
Формула для расчта коэффициентов интеркорреляции заданий для случая политомической оценки примет вид где xni, xnj – результаты выполнения n-м тестируемым i-го и j-го заданий соответственно.
нен по формулам (1.20) – (1.23).
1.5 Теоретические обоснование возможности использования дихотомической модели Раша для оценки результатов обучения Основы теории измерения латентных переменных были разработаны в 1950-х годах датским математиком Георгом Рашем [252]. Перед ним была поставлена задача: исследовать, как изменяются в процессе обучения школьников навыки чтения незнакомого текста. Исследования должны быть выполнены при соблюдении следующих требований:
– тексты должны соответствовать уровню подготовки школьника: они не должны быть слишком трудными или слишком легкими;
– при каждом исследовании должны использоваться различные тексты;
– значения уровня подготовки школьников должны измеряться на одной и той же шкале.
При решении поставленной задачи Рашем в качестве статистики было выбрано число ошибок, допущенных при чтении. На основе обработки и анализа многочисленных данных и диаграмм Г. Раш предположил в качестве гипотезы, что среднее число ошибок x p t, которые сделает p-ый школьник, должно быть пропорционально отношению трудности t-ого текста Bt к уровню подготовки школьника Dp: x p t k (k – коэффициент пропорциональности).
Тогда отношение среднего числа ошибок x p1 и x p 2, которые допустит p-й школьник при чтении двух текстов разной трудности B1 и B2, определится только отношением этих трудностей, и не будет зависеть от уровня подготовки школьника:
Исходя из полученного результата, Г. Раш пришл к выводу о том, что трудность всех текстов, которые используются для проверки уровня подготовки школьников в области чтения, можно откалибровать относительно некоторого стандартного текста и представить их на одной шкале. Школьникам можно дать для проверки навыков чтения любой из текстов, и их уровень подготовки будет измерен на одной и той же шкале.
Одним из важнейших выводов, полученных Рашем в результате обработки и анализа результатов исследования, заключался в том, что для оценки навыков чтения школьником незнакомого текста необходимо использовать вероятностный подход. Это в наибольшей степени соответствует результатам прочтения текста.
Например, хорошо подготовленный школьник может допустить много ошибок при прочтении лгкого текста, а плохо подготовленный - может прочесть трудный текст с малым количеством ошибок. Мы никогда не можем точно предсказать, прочтт или не прочтт безошибочно школьник незнакомый текст, но мы можем сказать, насколько высоки у него шансы сделать это.
Для расчта вероятности Pnj правильного прочтения j-го текста трудностью j школьником n с уровнем подготовки i Рашем была предложена однопараметрическая дихотомическая модель которая нашла в дальнейшем широкое применение в области оценки результатов обучения, социологических и психодиагностических исследований и в других областях.
Рассмотрим обоснование допустимости использования дихотомической модели Раша для оценки результатов обучения [92] с учтом изложенных ранее требований. Пусть n-ый тестируемый выполняет тест по учебной дисциплине, состоящий из j заданий (j = 1, 2, …, L). Индивидуальный балл n-ого тестируемого позволяет получить представление об уровне знаний материала дисциплины, но на его основании нельзя получить прогноз по выполнению других заданий в будущем. Для получения прогноза безусловно необходимой информацией является знание того, с какой вероятностью в следующий раз n-ый тестируемый успешно выполнит j-ое задание теста. Иначе говоря, при оценке уровня подготовки тестируемого, как и при оценке навыков чтения незнакомого текста школьником, необходимо использовать вероятностную модель.
Рассмотрим прогноз выполнения задания теста двумя тестируемыми m и n.
Обозначим через Pnj вероятность того, что n-ый тестируемый успешно выполнит j-ое задание теста. Тогда величина (1-Pnj) будет равна вероятности неверного выполнения этого же задания этим же тестируемым. Аналогичные обозначения введм для m-ого участника тестирования. В соответствии с теоремой об умножении вероятностей матрица ожидаемых результатов для этих тестируемых может быть представлена в виде таблицы 1.1.