А. В. Мальцев
Существуют различные подходы к классификации педагогических тестов по форме, содержанию, уровню контроля, форме предъявления [см., например: Майоров, 2000; Аванесов, 2002; Челышкова, 2002]. Как правило, эти формализованные подходы не вызывают затруднений с пониманием и интерпретацией. В отличие от них, деление тестов по целям вызывает неоднозначное толкование и интерпретацию, поскольку оно включает в себя менее формализованные критерии. В мировой практике применения тестов для оценки уровня достижений учащихся сложилось два разных подхода, определяющих деление педагогических тестов по целям на нормативно-ориентированные и критериально-ориентированные [см.: Вилфорд, 1999]. Основным критерием различий между ними является главная задача, стоящая перед тестированием. В случае нормативно-ориентированного тестирования такой задачей является дифференциация тестируемых по уровню знаний, а при критериально-ориентированном – в установлении соответствия уровня знаний определенному критерию, который представляет собой некий количественный показатель уровня знаний. Кроме того, нормативно- и критериально-ориентированные педагогические тестирования различаются характером распределения результатов, соответствующей их обработкой математическими методами, шкалами, используемыми для оценивания и интерпретации результатов.
Многие тестологи, констатируя различия между двумя указанными типами тестов, отмечают относительность этих различий, так как на практике эти цели тестирования могут совпадать [см. об этом: Челышкова, 2002].Так, в случае применения тестов централизованного абитуриентского тестирования явно выраженная цель дифференциации абитуриентов по уровню знаний сочетается с целью определения критерия, который бы установил границу для отбора прошедших и не прошедших конкурс. Единственным формальным признаком, позволяющим разграничить эти виды тестирования, является характер распределения результата. В случае, если результаты тестирования имеют распределение, подчиняющееся закону нормального распределния, можно утверждать о состоявшемся нормативно-ориентированном тестировании. Во всех случаях, когда кривая распределения «сырых» баллов существенно отклоняется от нормального распределения (кривая Гауса), справедливо возникает вопрос о критериально-ориентированной интерпретации результатов. Последняя ситуация крайне неудобна для тестологов, поскольку заставляет их отказаться от применения большинства математических методов анализа результатов, так как они предназначены только для переменных, имеющих нормальный характер распределения. Выходом из этой ситуации является увеличение числа тестируемых, поскольку при этом характер распределения результатов стремится к нормальному распределению.
По мнению В. Ю. Переверзева [2003], в рамках критериально-ориентированных тестов из мировой практики можно выделить два основных вида, которые в отечественной литературе не получили своего названия: это domain-referenced tests и mastery tests. Первые предназначены для выявления полноты знаний, выражаемой долей знаний к общему объему учебного материала, который соответственно должен быть отражен в тесте. Вторые предназначены для оценивания квалификационных способностей, следовательно, для разделения испытуемых на две группы – подтвердивших и не подтвердивших квалификацию.
С точки зрения тестологии деление тестов на критериально- и нормативно-ориентированные является самым главным принципом классификации, так как за ним стоит совершенно разная идеология измерительной процедуры при оценивании уровня знаний. Во-первых, следует подчеркнуть, что назначение педагогических тестов как особой формы контроля знаний как раз и состоит в том, чтобы измерить уровень знаний, а не оценить, как это принято в традиционных формах (устный и письменный экзамены). Во-вторых, идеология этого измерения может быть разной. При критериально-ориентированном тестировании измеренный результат тестирования сравнивается с максимально возможным в случае domain-referenced tests или с предложенным критерием в случае mastery tests. При нормативно-ориентированном тестировании результаты измерения сравниваются между собой. В первом, а особенно во втором случае для возможности измерения необходима большая статистика. Так, при нормативно-ориентированном тестировании чем больше испытуемых приняло участие в тестировании, тем точнее, т. е. с меньшей ошибкой, можно определить уровень их знаний. Трудность заданий также определяется статистически: чем меньше испытуемых правильно ответило на задание, тем выше его трудность. Значение экспертной оценки трудности важно только на начальном этапе разработки педагогического теста с нормативно-ориентированной целью. Измерительный характер процедуры тестирования предполагает соответствующий способ интерпретации результатов тестирования. При нормативно-ориентированном тестировании разрабатываются специальные шкалы измерений: Z-шкала и шкала логитов. В данном случае шкала «сырых» баллов только в первом приближении может выполнить измерительную функцию. При критериально-ориентированном тестировании чаще всего используется шкала процентов, которая является прямым отражением шкалы «сырых» баллов. Таким образом, в указанных подходах при интерпретации результатов тестирования превалирует явно выраженный количественный результат. Не случайно современная тестология рассматривается многими специалистами как наука об измерении знаний, построенная на математических моделях, имеющих статистический характер [см.: Челышкова, 2002].
В специальной отечественной литературе при рассмотрении вопроса о классификации тестов можно встретить упоминание еще об одном типе педагогических тестов – предметно-ориентированных [см.: Аванесов, 2002]. Этому типу тестирования в соответствии с целью отводится диагностическая функция выявления усвоенных и не усвоенных тестируемыми элементов содержания учебной дисциплины. Как справедливо отмечает В. С. Аванесов [2002], для содержательно-ориентированной интерпретации результатов необходимо большое число заданий в тесте и точность их формулировок. Каждое задание теста должно проверять тот или иной элемент учебной дисциплины, и значение экспертных оценок заданий в этом типе тестов в сравнении с другими значительно возрастает. В. С. Аванесов [2002] относит предметно-ориентированные, или содержательно-ориентированные, тесты к категории domain-referenced tests и не отождествляет их, как В. Ю. Переверзев [2003], с критериально-ориентированными тестами. С нашей точки зрения, предметно-ориентированное педагогическое тестирование, в отличие от вышеуказанных критериально- и нормативно-ориентированных типов, тем и выделяется, что прежде всего решает не количественную, а качественную задачу, стоящую перед контролем знаний. Эту задачу можно сформулировать как определение структуры знаний. При решении этой задачи приходится опираться прежде всего на описание соответствующего элемента знаний, т. е. на качественную его характеристику. В данном случае под качеством знаний, вслед за В. Б. Беспалько [1995], мы понимаем его содержательную и функциональную валидность.
В соответствии с содержательной валидностью, для каждого задания в тесте определяется его соответствие учебному элементу того или иного типологического ранга: учебный вопрос, тема, раздел, образовательная линия, предмет или группа предметов. В соответствии с функциональной валидностью, задания соотносятся с тем или иным уровнем знаний. Применение указанного подхода на практике сопряжено с рядом определенных научных и методических проблем. Описание заданий по содержательной валидности в основном сталкивается с трудностями формального характера – выбором соответствующих образовательных программ и особенностями их структуры. Описание заданий по функциональной валидности главным образом затруднено из-за отсутствия четких критериев разграничения категорий уровня знаний и их научно-педагогического обоснования, несмотря на значительное разнообразие соответствующих классификаций [см., например: Кларин, 1989; Беспалько, 1995; Родионов, Татур, 1995]. Преодолению обозначенных трудностей должны способствовать вводимые в образование стандарты, поэтому сами образовательные стандарты и педагогические тесты как инструмент контроля за их выполнением представляются как взаимосвязанные вещи.
Современный педагогический тест всегда сопровождается спецификацией, которая как раз и призвана дать описание его содержания в соответствии с содержательной и функциональной валидностью. Большую роль при этом должны сыграть выбранные для описания образовательные программы или другие нормативные документы и классификация знаний. В рамках массовых аттестационных процедур, использующих тестовую технологию – централизованное тестирование (ЦТ) и единый государственный экзамен (ЕГЭ), – в составляемых спецификациях по разным предметам не всегда выдерживается единый подход, который как раз и связан с отсутствием образовательных стандартов. Вместе с тем это не является препятствием для осуществления предметно-ориентированного подхода к интерпретации результатов. В процедуре централизованного тестирования, несмотря на значительную историю этого мероприятия (первое всероссийское тестирование было проведено в 1988 г.), только в 2003 г. на основе данных всей Российской Федерации был впервые осуществлен (хотя и не в полной мере) предметно-ориентированный подход в интерпретации результатов [см.: Вопросы тестирования в образовании, 2003]. Уральский государственный университет им. А. М. Горького с начала проведения централизованного тестирования особое внимание уделял значимости анализа результатов тестирования в предметно-содержательной области [см.: Мониторинг качества образования…, 2000; Итоги абитуриентского централизованного тестирования, 2003]. Такой подход является вполне оправданным с педагогической точки зрения и расширяет понимание значимости массовых аттестационных процедур по технологии тестирования. Ведь каждому преподавателю важно знать не только количественный результат тестирования, но и получить ответ на вопросы, какие темы и разделы и на каком функциональном уровне знаний лучше или хуже усвоены учащимися. Относительно отдельного испытуемого ответы на эти вопросы будут означать, с какими заданиями учащийся справился, а с какими – не справился, но относительно группы учащихся ответы будут связаны со статистикой результата. Поскольку ЦТ и ЕГЭ – массовые аттестационные процедуры, то по статистике результата можно определить с точки зрения содержательного анализа, какие учебные вопросы, темы и разделы усвоены лучше, а какие хуже. С точки зрения функционального анализа соответственно можно проверить, какие навыки и умения освоены учащимися лучше, а какие хуже.
Педагога может не удовлетворить только сравнительный анализ, и тогда потребуется определение статистического критерия для заключения об усвоении или неусвоении данного учебного вопроса, темы, раздела, т. е. об уровне знаний. Выработка такого критерия представляет самостоятельную научно-методическую задачу, тем более что для тестов разной трудности этот критерий может оказаться разным. При самом общем подходе к решению данной проблемы можно воспользоваться рекомендациями В. П. Беспалько [1995], который предлагает 70%-й критерий, означающий, что учебный вопрос, тему, раздел, уровень знаний можно считать освоенными, если с соответствующими заданиями справилось 70 % учащихся. Для такого заключения к самим заданиям теста должны быть предъявлены самые высокие требования с точки зрения содержательного и функционального качества. Можно согласиться с мнением В. С. Аванесова [2002], что каждое задание в тесте должно являться индикатором соответствующего знания, а добиться этого возможно только за счет тщательной экспертизы теста специалистами-предметниками.
Для примера анализа результатов тестирования в соответствии с предметно-ориентированным подходом мы воспользовались результатами централизованного абитуриентского тестирования учащихся Российской Федерации и Свердловской области по биологии за 2002 г. Статистическая информация о результатах была предоставлена Центром тестирования МО РФ в виде базы данных StatInfo 8.2. Выявление структуры результата тестирования по биологии возможно на основе структуры самого теста, описанного в спецификации. В описании содержания теста наиболее крупными категориями являются разделы. В тестах по биологии 2002 г. было выделено четыре раздела (табл. 1).
Полученная статистика по РФ (25 299 прошедших тестирование по предмету) позволяет делать надежные выводы о структуре знаний учащихся по биологии. Наибольший процент верных ответов по разделу «Надорганизменные системы: экосистемы» свидетельствует о том, что знания учащихся 11-го класса по этому разделу лучше, чем по остальным. Соответственно наименьший процент верных ответов по разделу «Организм как биологическая система» свидетельствует о том, что знания учащихся 11-го класса по данному разделу хуже, чем по остальным (см. табл. 1). Разберем этот результат с позиций структуры теста. Число заданий по указанным разделам было неодинаковым: по разделу «Организм как биологическая система» – 38, а по разделу «Надорганизменные системы: экосистемы» – 4. Следовательно, уровень знаний, который может показывать средний процент верных ответов на задания теста, был более точно определен по первому указанному разделу, чем по второму.
Для более подробного анализа результата можно воспользоваться различными формальными подходами, например, формой заданий. Соотношение типов заданий по форме (тип А – с выбором ответа; тип В – на дополнение) по названным разделам почти не отличается. В разделе «Надорганизменные системы: экосистемы» задание типа В – одно из четырех, т. е. ровно четверть, а в разделе «Организм как биологическая система» заданий типа В – восемь из тридцати восьми, т. е. тридцать процентов общего числа. Процент верных ответов на задания типа А выше, чем процент верных ответов на задание типа В как по разделам, так и по тесту в целом (см. табл. 1). Эта закономерность неоднократно подтверждалась практикой педагогического тестирования [Беспалько, 1995]. При выборе правильного ответа в заданиях закрытой формы учащиеся руководствуются узнаванием, а при выполнении заданий открытой формы вспоминают материал, поэтому относительно одного содержания первые задания легче, чем вторые. Незначительное преобладание заданий открытой формы (тип В) в разделе «Организм как биологическая система», в сравнении с разделом «Надорганизменные системы: экосистемы», отчасти объясняет различие в уровне знаний по ним. Сравнение результатов по однотипным заданиям показало, что задания закрытой формы (тип А) в разделе «Организм как биологическая система» имели существенно более низкий процент верных ответов, чем соответствующие задания в разделе «Надорганизменные системы: экосистемы», а по заданиям открытой формы – наблюдалась обратная закономерность. Поскольку по обоим разделам преобладающим типом заданий являются задания закрытой формы, то результаты по ним и оп
Таблица 1
Структура результата по разделам теста по биологии (абитуриентское тестирование) за 2002 год |
||||
Показатель |
Клетка как биологическая система |
Организм как биологическая система |
Надорганизменные системы: популяция и вид |
Надорганизмен-ные системы: экосистемы |
Процент верных ответов |
48, 4 |
44, 7 |
52, 3 |
56, 2 |
Число заданий |
9 |
38 |
4 |
4 |
Тип заданий А+В |
9+0 (48, 4+0) |
30+8 (46, 2+42, 2) |
3+1 (56, 3+39, 9) |
3+1 (64, 3+31, 6) |
Уровни знаний 1+2+3 |
8+1+0 (49, 9+36, 2+0) |
24+8+6 (47, 8+41, 0+42, 3) |
1+1+2 (51, 4+39, 9+58, 8) |
0+2+2 (0+47, 8+64, 5) |
Виды проверяемых знаний: |
||||
Фактуальные |
8 (49, 9) |
22 (47, 8) |
2 (45, 6) |
1 (31, 6) |
Умение классифицировать и систематизировать |
– |
8 (43, 0) |
– |
– |
Умение применять биологические знания, используя алгоритмы |
– |
1 (38, 2) |
– |
1 (64, 0) |
Установление причинно-следственных связей |
1 (36, 2) |
1 (40, 6) |
1 (50, 9) |
– |
·Распознавать, определять, сравнивать, сопоставлять |
– |
5 (42, 0) |
– |
2 (64, 5) |
Системные, интегративные знания, умения |
– |
1 (38, 6) |
1 (66, 8) |
– |
Другой формализованный подход к анализу, который возможно применить, связан с функциональной валидностью заданий. Задания в тесте были разделены на три уровня: 1) репродуктивный, 2) продуктивный (решение по образцу), 3) творческий ( применение знаний в нестандартной ситуации). В разделе «Организм как биологическая система» задания 1-го уровня составляют 63 %, 2-го уровня – 21 %, 3-го уровня – 16 %. Раздел «Надорганизменные системы: экосистемы» не включал заданий 1-го уровня, а задания 2-го и 3-го уровней были включены в тест в равном количестве, т. е. по 50 %. Исходя из этого, задания раздела «Надорганизменные системы: экосистемы» должны быть труднее, а средний показатель – процент верных ответов, соответственно ниже, чем по разделу «Организм как биологическая система», но это не так. Следовательно, несмотря на высокий уровень ориентации заданий раздела «Надорганизменные системы: экосистемы», результаты по ним оказались относительно высокими, что свидетельствует о высоком уровне знаний по этому разделу.
Обращает на себя внимание результат, полученный в заданиях разного уровня. В разделе «Организм как биологическая система» на задания 1-го уровня средний процент ответов выше, чем на задания 2-го и 3-го уровней; а в разделе «Надорганизменные системы: экосистемы» средний процент ответов выше в заданиях 3-го уровня, чем 2-го. Такое противоречие объясняется содержанием заданий, так как задания разного уровня имели разное содержание, которое во многом и определило реальную трудность заданий. На различия в проценте верных ответов на задания разного уровня могла повлиять форма заданий. Так, из восьми заданий 2-го уровня в разделе «Организм как биологическая система» семь были открытой формы, а в заданиях 3-го уровня этого же раздела все шесть были закрытой формы, которая, как отмечалось, в целом легче открытой.
Еще одним признаком формализации результата в соответствии со спецификацией могут быть виды проверяемых знаний. Авторы теста предложили шесть видов проверяемых знаний (см. табл. 1). В заданиях на фактуальные знания процент верных ответов был выше в разделе «Организм как биологическая система», а в заданиях на умение распознавать, определять, сравнивать, сопоставлять – в разделе «Надорганизменные системы: экосистемы». Для более точного сравнения результатов в рассматриваемых разделах по видам проверяемых знаний необходима эквивалентность числа заданий, но тест построен таким образом, что раздел «Организм как биологическая система» преобладает над остальными по числу заданий, поэтому сравнение по различным категориям качества самих заданий возможно лишь приблизительно.
В тестах централизованного тестирования, предназначенных для отбора абитуриентов, на наш взгляд, нельзя применять рекомендованный 70%-й критерий для установления освоения учебного элемента [см.: Беспалько, 1995]. В этом случае целесообразен 50%-й критерий.
В соответствии с этим критерием по результатам 2002 г. с точки зрения содержательной валидности можно говорить об освоении учащимися двух разделов – «Надорганизменные системы: популяция и вид» и «Надорганизменные системы: экосистемы» и неосвоении также двух разделов – «Клетка как биологическая система» и «Организм как биологическая система». С точки зрения функциональной валидности в соответствии с указанным критерием можно предполагать овладение репродуктивного уровня и уровня творческого в рамках раздела «Надорганизменные системы: популяция и вид» и творческого в рамках раздела «Надорганизменные системы: экосистемы». Последнее заключение кажется противоречивым, поскольку показывает овладение более высоким уровнем и неовладение более низким. Но при этом, нужно отметить, что в рамках одного раздела разные уровни знаний проверялись заданиями различного содержания, поэтому каждое из таких в заданий в отдельности не может быть индикатором знаний всего раздела. В отношении разделов «Клетка как биологическая система» и «Организм как биологическая система» ни по одному из трех уровней, в том числе по самому низкому – первому, нельзя сделать заключение об овладении знаниями в соответствии с определенным критерием.
В отношении видов проверяемых знаний освоенными в разделе «Надорганизменные системы: популяция и вид» следует считать умение применять биологические знания, используя алгоритмы, системные и интегративные знания и умения; в разделе «Надорганизменные системы: экосистемы» – умение применять биологические знания, используя алгоритмы, и умение распознавать, определять, сравнивать, сопоставлять. В разделах «Клетка как биологическая система» и «Организм как биологическая система» ни по одному из шести видов проверяемых знаний нельзя константировать освоение. Как и в случае уровня знаний, анализ результата по видам проверяемых знаний вызывает противоречие с точки зрения педагогической логики: освоение более сложных видов знаний и неосвоение менее сложных. Это объясняется разным содержанием заданий на разные виды знаний, и поэтому результат по отдельным заданиям не может быть экстраполирован на весь учебный раздел.
Предметно-содержательный анализ результатов тестирования может быть проведен по годам, причем тем точнее, чем больше совпадают структуры тестов в разные годы. При установлении причин различий по годам на задания, относящиеся к одной и разным темам и разделам, необходимо разделить влияние изменения трудности заданий и влияние возможного изменения уровня подготовки учащихся. Первый фактор (трудность заданий) можно оценивать экспертным путем, а можно воспользоваться спецификацией, составленной авторами теста, в которой каждое задание классифицировано по виду и уровню знаний и умений.
Использование спецификации абитуриентских тестов по биологии позволило сравнить результаты тестирования за 2001–2002 гг. по разделу «Клетка – структурная и функциональная единица живого» (табл. 2). За оба года были получены статистические данные по Российской Федерации – более 20 тыс. участников. Результаты 2002 г. оказались существенно выше результатов 2001 г., несмотря на то, что число заданий по этому разделу было почти в два раза больше. Более высокий показатель 2002 г. можно однозначно связать с более легкими заданиями, чем в 2001 г. Во-первых, в 2002 г. в тестах использовался только один, более легкий, тип – закрытые задания (тип А), а в 2001 г. из пяти одно задание было открытого типа (тип В), исключающее угадывание. Верные ответы в открытом задании составили 38, 8 %, т. е. ниже, чем в среднем по разделу в этом году (40, 3 %). Тем не менее на результатах тестирования в первую очередь сказалась трудность закрытых заданий, определяемая уровнями знаний, на которые ориентированы эти задания. В 2001 г. из пяти заданий раздела два имели соответственно второй и третий уровни и только одно задание – первый. В 2002 г. из девяти заданий только одно было второго уровня и восемь – первого. Преобладание заданий первого уровня при тестировании в 2002 г. и определило более высокий результат в сравнении с 2001 г. Сравнение результатов выполнения заданий одного уровня показало, что их различия по годам незначительны, несмотря на то, что задания имели разное содержание. На задания первого уровня в 2001 г. процент верных ответов составил 47, 8, а в 2002 г. – 49, 9; на задания второго уровня в 2001 г. – 39, 3, а в 2002 г. – 36, 2. Следовательно, уровень знаний учащихся по разделу «Клетка – структурная и функциональная единица живого» в 2002 г. в сравнении с 2001 г. с учетом уровня знаний, на которые ориентированы задания, не изменился. В меньшей степени такой вывод можно сделать на основании сравнения ответов на задания, относящиеся к одному виду проверяемых знаний. Так, в 2001 г. два из пяти заданий проверяли фактуальные знания; средний процент верных ответов на них составил 43, 8, а в 2002 г. таких заданий было восемь из девяти, и по ним соответственно процент верных ответов составил 49, 9. Хотя разница по годам существенна, но если учесть, что в 2001 г. одно задание из двух на фактуальном уровне было второго уровня, а в 2002 г. – все восемь заданий были первого уровня, то такой результат вполне объясним.
Таблица 2
Структура результата по разделу «Клетка - структурная и функциональная единица живого» |
||
Показатель |
2001 |
2002 |
Число участников |
22296 |
25299 |
Процент верных ответов |
40, 3 |
48, 4 |
Число заданий |
5 |
9 |
Тип заданий А+В |
4+1 (41, 9+38, 8) |
9+0 (48, 4+0) |
Уровни знаний 1+2+3 |
1+2+2 (47, 8+39, 3+39, 9) |
8+1+0 (49, 9+36, 2+0) |
Виды проверяемых знаний: |
||
Фактуальные |
2 (43, 8) |
8 (49, 9) |
Установление причинно-следственных связей |
– |
1 (36, 2) |
Распознавать, определять, сравнивать, сопоставлять |
3 (39, 6) |
– |
Таким образом, различие результатов тестирования по разделу «Клетка – структурная и функциональная единица живого» в 2001 и 2002 гг. объясняется главным образом изменением трудности заданий. Однако сделать окончательный вывод об отсутствии изменений в уровне подготовки учащихся по данному разделу за разные годы все-таки нельзя. Для этого необходимо, чтобы все характеристики заданий в тестах разных лет были одинаковы. В связи с этим следует высказать пожелание разработчикам тестов о необходимости параллельности тестов разных лет. Необходимо утвердить спецификацию тестов и соответственно структуру теста по числу заданий, относящихся к разным разделам, соотношение типов заданий, соотношение заданий разного уровня и заданий, проверяющих разные виды знаний в каждом разделе как нормативный документ на несколько лет. Установление постоянной структуры теста по аналогии со стандартами позволит вести мониторинг уровня и структуры знаний учащихся по предмету.
Список литературы
Аванесов В. С. Композиция тестовых заданий. 3-е изд., доп. М., 2002.
Беспалько В. П. Педагогика и прогрессивные технологии обучения: Учеб. пособие. М., 1995.
Вилфорд Д. Современная типология педагогических тестов // Тесты в образовании. Вып.1. 1999.
Вопросы тестирования в образовании. 2003. № 6.
Итоги абитуриентского централизованного тестирования 2002 года: Сб. науч.-метод. ст. Екатеринбург, 2003.
Кларин М. В. Инновационные модели обучения в зарубежных педагогических поисках. М., 1989.
Майоров А. Н. Теория и практика создания тестов для системы образования: (Как выбирать, создавать и использовать тесты для целей образования). М., 2000.
Мальцев А. В. Педагогическое тестирование: Метод. разработка. Екатеринбург, 1998.
Мониторинг качества образования: теория и практика: Сб. ст. Екатеринбург, 2000.
Переверзев В. Ю. Критериально-ориентированное педагогическое тестирование: Учеб. пособие. М., 2003.
Родионов Б. У., Татур А. О. Стандарты и тесты в образовании. М., 1995.
Челышкова М. Б. Теория и практика конструирования педагогических тестов: Учеб. пособие. М., 2002.