Меню

Методика оценки валидности тестовых заданий

Расчёт и анализ характеристик теста

Для повышения уровня педагогического измерения

Содержание

  1. Интерфейс
  2. Теория
    1. Валидность
    2. Надежность
      1. Надежность как устойчивость
      2. Надежность как внутренняя согласованность
    3. Дискриминативность
  3. Интерпретация результата
  4. Рекомендации для тестолога

Интерфейс

Пиктограммы

В крайнем левом столбце таблицы записаны номера тестируемых персон, в самой верхней строке записаны номера тестовых заданий

Знак суммы; в этом столбце суммируется и выводится количество правильных заданий выполненных тестируемым

Экспертная оценка — это оценка, которую выставляет сам преподаватель по десятибальной шкале, исходя из личного мнения о тестируемом, из опыта преподавания; преподавателем не должны овладеть злость, щедрость, обиды, радости, волнения, негодавания или иные проявления отношения к тому или иному тестируемому — иначе результаты анализа теста могут оказаться неудовлетворяующими действительности

Теория

Валидность

  1. Валидность — пригодность тестовых результатов для той цели, ради чего проводилось тестирование.
  2. Валидность — это характеристика способности теста служить поставленной цели измерения.
  3. Валидность — определяет, насколько тест отражает то, что он должен оценивать.

Для оценки валидности теста обычно используют корреляцию между показателями теста и некоторым внешним критерием. При такой оценке очень важно выбрать значимый внешний критерий. Для педагогических тестов в качестве критерия обычно берутся оценки экспертов, выставленные ими при традиционной проверке знаний студентов без использования тестов. Процесс валидизации осложняется необходимостью установления меры согласованности оценок экспертов, которых обычно бывает не менее трех человек.

количество правильных ответов известно
средняя арифметическая тестовых баллов тестируемых $$ = \frac<1>\sum\limits_^n y_ $$
экспертная оценка известно
среднее арифметическое экспертных оценок $$ = \frac<1>\sum\limits_^n Y_ $$
стандартное отклонение количества правильных оценок $$ =\sqrt<\frac<1>\sum\limits_^n (y_ — \overline)^<2>> $$
стандартное отклонение экспертных оценок $$ =\sqrt<\frac<1>\sum\limits_^n (Y_ — \overline)^<2>> $$

Надежность

    Надежностью называется характеристика теста, отражающая точность тестовых измерений, а также устойчивость тестовых результатов к действию случайных факторов. Во-первых, тест считается надежным, если он обеспечивает высокую точность измерений. И во-вторых, тест считается надежным, если он дает при повторном выполнении близкие результаты при условии, что подготовка ученика не изменилась за время до повторного выполнения теста. Таким образом будем считать, что надежность теста показывает, на сколько точно тест измеряет знания студентов или другие явления. Надежность характеризует точность теста как измерительного инструмента, устойчивость его к действию помех. Различают два вида надежности:
  1. надежность как устойчивость
  2. надежность как внутреннюю согласованность.

Однако большинство авторов предпочитают рассматривать только надежность как внутреннюю согласованность, так как этот вид измерений требует проведение тестирование только один раз. В случае надежность как внутренняя согласованность проводить тестирование приходится два раза.

Надежность как устойчивость

Надежность как устойчивость измеряется с помощью повторного проведения теста на той же выборке испытуемых, обычно через две недели после первого тестирования. Для нахождения данной характеристики предлагается использовать формулу Пирсона.

 Основная формула (Пирсона)

тестовый балл i-го испытуемого при первом измерении
тестовый балл i-го испытуемого при повторном измерении

Надежность как внутренняя согласованность

Для проверки внутренней согласованности предлагается метод расщепления (автономных частей). При применении метода расщепления тестовую матрицу разбивают на две половины, состоящие из заданий с четными и нечетными номерами. Используя формулу Рюлона, найдем нужный нам коэффициент.

 Основная формула (Рюлона)

дисперсия разностей между результатами каждого испытуемого по обеим половинам теста $$ = \frac<1>\sum\limits_^n \left ( (X_ — Y_) — \frac<1>\sum\limits_^n(X_ — Y_)\right )^2 $$
дисперсия суммарных баллов результата $$ = \frac<1>\left (\frac<1>\sum\limits_^n Z_ — Z_\right )^2 $$
количество правильных ответов
количество правильных ответов c четным номером
количество правильных ответов c нечетным номером
среднее арифметическое количества правильных ответов $$ = \frac<1>\sum\limits_^n Z_ $$
обозначение $$ = \frac<1>\sum\limits_^n (X_ — Y_) $$

Дискриминативность

Дискриминативность задач определяется как способность отделять испытуемых с высоким общим баллом по тесту от тех, кто получил низкий балл, или испытуемых с высокой продуктивностью учебной деятельности от испытуемых с низкой продуктивностью.

Другими словами, дискриминативность — способность заданий теста дифференцировать студентов относительно «максимального» или «минимального» результата теста. Определение дискриминативности тестового задания необходимо для того, чтобы поставить заслон некачественным заданиям.

Для вычисления дискриминативности будет применяться метод крайних групп: при расчете дискриминативности тестового задания учитываются результаты наиболее и наименее успешных студентов — это самый простой и наглядный метод вычисления дискриминативности.

Доля членов крайних групп может изменяться в широких пределах в зависимости от величины выборки. Чем больше выборка, тем меньшей долей испытуемых можно ограничиться при выделении групп с высоким и низким результатами. Нижняя граница «отсечения групп» составляет 10% от общего числа испытуемых в выборке, верхняя — 33%. В данном случае будет использоваться 27% группа, так как при таком процентном соотношении достигается максимальная точность определения дискриминативности. Индекс дискриминации вычисляется как разность между долей лиц, правильно решивших задачу, из «высокопродуктивной» и «низкопродуктивной» групп.

Источник

Методика оценки валидности тестовых заданий

1. Основные термины и определения

1.1. Валидизация — исследование и анализ теста, с целью определить степень валидности теста, то есть определить, измеряет ли он реально то качество, для измерения которого он был предложен, можно ли делать на основании его результатов осмысленные выводы.

1.2. Валидность теста — характеристика теста, которая показывает, в какой мере тест измеряет именно то качество, для измерения которого он создан. Чем выше валидность теста, тем более обосновано использование результатов тестирования для выводов и предсказаний.

1.3. Валидизацию проводит специальный уполномоченный орган по экспертизе тестовых материалов с привлечением специалистов-тестологов и независимых специалистов-экспертов по различным предметным областям.

2. Область использования и сфера применимости теста

2.1. Тест должен сопровождаться пояснениями о рекомендуемой цели применения этого теста.

2.2. В тесте должно содержаться описание совокупности тестируемых (испытуемых), на которых рассчитан тест, например возраст тестируемых, определенный год обучения, уровень способностей и т.п.

2.3. Эксперт должен оценить: соответствует ли тест поставленным целям и годится ли он для тех учащихся на которых рассчитан и отразить это в протоколе экспертизы.

3. Содержательная валидность теста

3.1. Содержательная валидность теста — характеристика теста, отражающая степень уверенности, что задания теста достаточно полно отражают содержание определенной области знания, а владение всеми навыками, наличие которых измеряет тест, существенно для данной деятельности, и при этом тест не проверяет наличия второстепенных или ненужных знаний и навыков. Другими словами, содержательная валидность — это характеристика, определяющая соответствие тестовых заданий содержанию ГОС или учебной программе. Содержательная валидность оценивается с помощью метода экспертных оценок.

3.2. О содержательной валидности теста необходимо судить по спецификации теста и методам, которые используются при его разработке.

3.3. Эксперт должен определить какова процедура отбора, призванная обеспечить включение в текст нужного материала, обеспечивает ли эта процедура возможность судить по выполнению отобранных заданий об уровне знаний испытуемого в данной области и овладении им специфическим для данной области навыками.

3.4. Эксперт должен определить достаточно ли ясно указано, владение какими именно знаниями или навыками должен выявить тест.

3.5. В спецификация теста должны быть перечислены все основные элементы содержания данной дисциплины на основе обязательных образовательных минимумов.

3.6. Для каждого пункта спецификации должно быть указано число тестовых заданий, вид этих заданий, уровень их сложности и способности, которые они проверяют, отведенное на их решение время, а также дополнительные требования.

3.7. Количественно тестовые задания должны быть распределены равномерно по каждому пункту спецификации теста.

3.8. Спецификация составляется таким образом, чтобы ее анализ позволил убедиться, что в ходе тестирования проверяется знание всех основных элементов содержания и в тест не включены задания, относящиеся к темам, которые не изучались.

3.9. Эксперт выставляет оценку содержательной валидности теста в диапазоне от 0 до 1. Если оценка содержательной валидности равна 1, то тест полностью валиден по содержательности. Если оценка содержательной валидности равна 0, то тест является полностью не валидным по содержательности.

3.10. Тест считается содержательно-валидным, если значение оценки содержательной валидности составляет больше 0.8.

3.11. Если оценка содержательной валидности теста меньше 1, то эксперт обязан внести замечания по содержательной валидности в «Лист замечаний» экспертизы.

4. Расчет критериальной валидности теста

4.1. Тест должен быть проверен на критериальную валидность — характеристика теста, отражающая степень уверенности, что первичный тестовый балл реально отражает достижение определенного уровня знаний или навыков. Критериальная валидность определяется на основании сравнения результатов тестирования и показателей, полученных независимым путем (например, путем традиционных оценок, экспертных суждений, результатов других тестов, валидность которых уже установлена).

4.2. Критериальная валидность определяется органом по экспертизе тестовых материалов по представленному банку тестовых заданий.

Источник



Особенности определения валидности педагогического теста

Аннотация

В статье рассматривается понятие валидности, ее виды, приводится вычислительный алгоритм проверки качества педагогического теста с помощью коэффициента валидности.

Педагогический тест сегодня стал одним из наиболее распространенных инновационных педагогических инструментов контроля качества образовательного процесса. Так или иначе, в своей деятельности педагоги сталкиваются с необходимостью разработать педагогический тест. Созданный тест необходимо проверить на его качество. Одним из показателей качества теста является проверка его на валидность.

Понятие «валидность» произошло от анг. слова «valid», что в переводе означает «годный». Валидность — один из базовых показателей качества созданного теста, характеризует пригодность результатов полученных после тестирования именно для той цели, ради которой и проводилось само тестирование.

Аванесов В.С. в своей статье «Тесты: история и теория» пишет: «Валидность характеризует пригодность теста для измерения определенной величины, но нельзя говорить о валидности не указав его применения» [2]. Приведем пример для понимания смысла валидности. Два лучника стреляют по мишеням. Первый лучник набрал 70 очков, а второй 80 из 100. На первый взгляд кажется, что второй лучник лучше первого. Но при уточнении результатов оказалось, что второй лучник поразил чужую мишень. Поэтому, второй стрелок является «не валидным», он не может достигнуть цели, которая перед ним ставилась.

В научной работе Майорова А. «Теория и практика создания тестов для системы образования» говорится «Валидность – должна определять насколько тест может отражать то, что он должен оценивать» [6].

Валидизация теста, это ни что иное, как процесс накопления подтверждений для доказательства его валидности. В теории тестирования существует несколько классификаций валидности. Майоров А. выделяет три вида валидности: конструктная, критериальная и содержательная [6].

Конструктная валидность – определяется в тех случаях, когда представление об измеряемом свойстве существует в форме абстрактного образа. В критериальной или эмпирической валидности оценивается величина связи теста с независимыми критериями. Для оценки степени связи используются средства математической статистики (корреляция двух рядов значений: баллов по тесту и показателей по внешним параметрам). При этом можно выделить два подвида: текущая и прогностическая валидность. Текущая валидность рассматривает корреляцию с критерием существующим в настоящее время (например, тест по предмету сравнивается со школьными оценками). Прогностическая валидность определяется на основе сравнения результатов с критериями которые предположительно появятся в будущем (например, результаты прошлого года переносим на следующий год).

Содержательная валидность характеризует тест по степени его соответствия предметной области, глубина и проработка соответствия. Анна Анастази пишет «Содержательная валидность означает систематическую проверку содержания теста, с тем чтобы установить соответствует ли оно репрезентативной выборке измеряемой области» [4].

Согласно Клайну П., тест с высокой содержательной валидностью можно определить следующим образом [5]:

  1. Указать категорию лиц, для которых предназначен тест.
  2. Составить список знаний, умений и навыков, подлежащих тестированию.
  3. Выполнить внешнюю экспертизу полученного списка на предмет его полноты и обоснованности.
  4. На основе списка составить перечень заданий.
  5. Выполнить внешнюю экспертизу составленных заданий.
  6. На данной основе создать тестовые задания образующие тест, при этом тест будет содержательно валидным.

Вычислить числовой коэффициент валидности теста означает эмпирически установить, как выполнение теста испытуемыми соотносится с другими независимо опредленными оценками их знаний. Для определения валидности требуется независимый внешний критерий, то есть оценка эксперта (преподавателя). За коэффициент валидности принимают коэффициент корреляции результатов тестовых измерений и критерия. Если экспертная оценка знаний испытуемых, полученная независимо от процедуры тестирования, представлена числовой последовательностью Y1,Y2, …, Yn, то коэффициент валидности теста может быть рассчитан по формуле, предложенной в своих работой Анастази А., Аванесовым В.С [1, 3, 4, 7]:

где n – количество испытуемых, — экспертная оценка i-го учащегося, » width=»16″ height=»19″/> — средняя арифметическая экспертных оценок, — стандартное отклонение экспертных оценок, — количество правильных ответов у i-го учащегося, — » width=»12″ height=»18″/> средняя арифметическая количества правильных ответов, — стандартное отклонение количества правильных ответов.

a) если V принимает значение в диапазоне от 0,6 до 1 – валидность считается высокой,

b) если V принимает значение в диапазоне от 0,3 до 0,6 – валидность считается средней,

c) если V принимает значение меньшее 0,3– валидность считается низкой,

Рассмотрим пример расчета валидности теста.

Тест «Информационные процессы» должна выполнить группа студентов из 7 человек (в нашем примере мы рассмотрим небольшую группу, на практике рекомендуется проводить проверку теста на группе не менее 30 человек). Тест состоит из 10 заданий.

Экспертом, предварительно оцениваются результаты (экспертом может выступить преподаватель информационных технологий, хорошо знающий данную группу студентов, и имеющий возможность предсказать результата выполнения ими данного теста).

Результаты оценивания экспертов приведены в таблице 1.

Таблица 1. Результаты оценивания экспертов.

Источник

Как рассчитать валидность теста

Надежность и валидность — ключевые характеристики психометрического теста

Надежность_Валидность.JPG

1. НАДЕЖНОСТЬ

Относительное постоянство, устойчивость, согласованность результатов теста. Независимость методики от действия случайных факторов

Устойчивость определяется с помощью повторного тестирования (ретеста)
1.1. Метод повторного тестирования (ретеста)
Ретестовая надежность определяется путем повторного обследования одних и тех же лиц при помощи одной и той же методики. Основан на подсчете корреляции индивидуальных баллов испытуемых, полученных в результате двукратного выполнения ими одного и того же теста. Чем выше коэффициент корреляции, тем выше надежность, и мы получаем примерно то же самое распределение. Обычно повторное тестирование проводится через 1-2 недели. Наименьшим удовлетворительным значением для ретестовой надежности является 0.76

Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Ещё один недостаток повторного тестирования — это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

Надежность.jpg

1.2. Метод параллельных форм
Проверяется с помощью взаимозаменяемых форм теста (т.е. одни и те же обследуемые сначала обследуются с помощью одного теста, затем (через определенный интервал) с помощью другого теста). Метод эффективен, когда изначально разрабатываются параллельные варианты теста с целью ротации. Имеются трудности в доказательстве того, что обе формы — параллельные наборы заданий — являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.

Внутренняя согласованность (англ. — internal consistency) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.

Для проверки внутренней согласованности применяются различные методы:

1.3. Метод расщепления или метод автономных частей
Характеристика надежности осуществляется путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных заданий теста. Для этого тест расщепляется/ разделяется на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным. Другие названия — одномоментная надежность, надежность-согласованность.

1.4. Метод эквивалентных бланков
Состоит в применении двух сопоставимых друг с другом форм теста для большой выборки. Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен.

1.5. Метод альфа Кронбаха
В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, то каждый отдельный вопрос направлен на исследование одного и того же общего основания.
Если все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха будет равен 1. При случайном разбросе результатов ответов на вопросы, коэффициент альфа Кронбаха будет равен 0, и тест ненадежен.

2. ВАЛИДНОСТЬ ТЕСТА

Валидность теста (от англ. valid – актуальный, подходящий, действительный) – понятие, указывающее, что именно тест измеряет и насколько хорошо он это делает. Это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность.

Не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Проверка валидности методики называется валидизацией.

Валидность.png



2.1. Концептуальная валидность
Понимается как обоснование с позиции соответствия авторским представлениям об особенностях диагностируемых свойств, как мера соответствия заданий теста авторской концепции этих свойств.

2.2. Содержательная (логическая) валидность
Под содержанием понимается фактический материал, входящий в пункты тестов. Валидность по содержанию оценивает соответствие содержания теста (заданий, вопросов) той реальной деятельности, в которой проявляется измеряемое в методике свойство.

Например, чтобы тест математических способностей имел достаточный уровень содержательной валидности, его пункты не должны иметь таких формулировок, при которых для испытуемого решающими оказываются вербальные способности, необходимые для того, чтобы понять, о чём спрашивается в этом пункте.

Содержание должно быть уравновешено таким образом, чтобы все тестируемые аспекты были представлены. Тест не должен быть перегружен, допустим, пунктами на умножение в ущерб пунктам на сложение.
Установление содержательной валидности есть в значительной степени субъективная операция, основанная на мнениях «экспертов» относительно уместности используемых материалов.

2.3. Конструктная валидность (концептуальная, понятийная, внутренняя валидность)

Под конструктом понимают психологический феномен, который невозможно наблюдать непосредственно, но можно вывести из поведения человека, например, экстраверсия, общий интеллект, открытость, умения и т.д.

Конструктная валидность определяет наличие взаимосвязи между новым и ранее существующим тестом-эталоном, изучающим тот же конструкт, валидность которого была ранее определена. Она указывает на то, что разрабатываемый тест измеряет примерно ту же сферу поведения, способность, личностное качество, что и эталонная методика

При анализе конструктной валидности методики формулируют ряд гипотез о том, как будет коррелировать разрабатываемый тест с широким кругом других тестов, направленных на конструкты, находящиеся в теоретически известной или предполагаемой связи с исследуемыми. Конструктная валидность характеризуется не только связями проверяемого теста с близкородственными показателями эталонного теста, но и с теми, где, исходя из гипотезы, значимых связей наблюдаться не должно.

2.4. Операциональная валидность
Определяет степень соответствия используемой экспериментальной методики (экспериментальных утверждений) теоретическим положениям, которые положены в основу организации и проведения данного эксперимента


2.5. Очевидная (доверительная) валидность
Очевидная валидность показывает в какой степени содержание теста и его заданий (пунктов) выглядит в глазах тестируемого подходящим для данной ситуации. Именно она в первую очередь определяет отношение испытуемых к обследованию. Тест должен восприниматься испытуемым как серьезный инструмент познания его личности.

Наличие очевидной валидности способствует воспринимаемой целесообразности психологического теста и создает у тестируемого впечатления, что тест учитывает его индивидуальность и опыт работы. Позволяет добиться сотрудничества и хорошего раппорта между тестирующим и тестируемыми.
Недостаток очевидной валидности (независимо от технической валидности, или точности, теста) может вызывать у тестируемых чувства раздражения, неудовлетворенности и обманутости, создавать негативное общественное мнение.
Хотя очевидная валидность, на первый взгляд, кажется подобной содержательной валидности, смысл этих показателей различен.

2.6. Критериальная (прагматическая, эмпирическая) валидность
Такая валидность показывает ее практическую полезность. Для этого используется независимый внешний относительно самого теста критерий – показатель проявления изучаемого свойства в повседневной жизни.

Критериальная (прагматическая, эмпирическая) валидность позволяет выяснить насколько высокие или низкие результаты теста соответствуют высокой или низкой оценке того поведенческого проявления — критерия, которое он должен предсказать

Например, практическая задача теста – выявить тех, кто будет эффективен в будущей работе. Критерий «эффективность» определен как % выполнения плана продаж. В таком случае, валидный тест позволяет с определенной вероятностью отделить «выполняющих план» от «не выполняющих план».

Важно можно ли с помощью теста разделить испытуемых на эти две группы. Обладает ли тест дискриминативностью. Важно, что тест или отдельное его задание успешно (с высокими баллами) проходят «эффективные», а неуспешно (с низкими баллами) «неэффективные». В случае, когда группы отличаются друг от друга только по одной переменной, причина дифференциации бывает понятна. Но это не важно. Важно, чтобы тест умел хорошо разделять группы по целевому критерию.

Для вычисления коэффициента валидности сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреляции (по Спирмену, по Пирсону).

Виды критериальной валидности:

  • «Прогностическая» (предсказательная) валидность показывает возможность экстраполирования результатов на будущее. Определяется также по достаточно надежному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Внешним критерием обычно бывает выраженная в каких-нибудь оценках способность человека к тому виду деятельности, для которой он отбирался по результатам диагностических испытаний.
  • «Ретроспективная» валидность определяется на основе критерия, отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики.

Источник

Читайте также:  Проверочные работы по литературному чтению по всем темам УМК Школа России 2 й класс