Здесь можно найти образцы любых учебных материалов, т.е. получить помощь в написании уникальных курсовых работ, дипломов, лабораторных работ, контрольных работ и рефератов. Так же вы мажете самостоятельно повысить уникальность своей работы для прохождения проверки на плагиат всего за несколько минут.

ЛИЧНЫЙ КАБИНЕТ 

 

Здравствуйте гость!

 

Логин:

Пароль:

 

Запомнить

 

 

Забыли пароль? Регистрация

Повышение уникальности

Предлагаем нашим посетителям воспользоваться бесплатным программным обеспечением «StudentHelp», которое позволит вам всего за несколько минут, выполнить повышение уникальности любого файла в формате MS Word. После такого повышения уникальности, ваша работа легко пройдете проверку в системах антиплагиат вуз, antiplagiat.ru, etxt.ru или advego.ru. Программа «StudentHelp» работает по уникальной технологии и при повышении уникальности не вставляет в текст скрытых символов, и даже если препод скопирует текст в блокнот – не увидит ни каких отличий от текста в Word файле.

Результат поиска


Наименование:


Лекции Шкалирование результатов тестирования (шкала порядковая, интервальная, метрическая, номинальная). Интерпретация результатов математической обработки данных тестирования. Статистические характеристики теста. Математико-статистическая обработка данных.

Информация:

Тип работы: Лекции. Предмет: Педагогика. Добавлен: 10.05.2009. Сдан: 2009. Страниц: 2. Уникальность по antiplagiat.ru: --.

Описание (план):


КОНТРОЛЬНО-ИЗМЕРИТЕЛЬНЫЕ МАТЕРИАЛЫ (КИМЫ) И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ
План

1. Шкалирование результатов тестирования.
2. Статистические характеристики теста.
1. Шкалирование результатов тестирования

Начнем с привычных шкал термометра, вольтметра или обыкновенной школьной линейки. По положению ртутного столбика, стрелки вольтметра или штрихов линейки мы узнаем температуру, напряжение или длину, т.е. измеряем определенные характеристики определенных объектов. Результатом измерения является число. В реальной жизни не всегда удается выполнить измерение непосредственно. Часто для измерения доступны лишь некоторые функции интересующих нас латентных параметров объекта, и оценивание этих параметров производится путем определенной математической обработки косвенных измерений. Примером такой ситуации является и обработка результатов тестирования с целью оценивания подготовленности участников тестирования или трудности заданий. Раскрытие смысла этих параметров и разработка средств и методов их оптимального оценивания и являются основными объектами теории моделирования и параметризации педагогических тестов.
С математической точки зрения, процесс измерения есть отображение состояния измеряемого объекта на некоторое множество действительных чисел (или на некоторое множество точек числовой оси), называемое шкалой. Однако шкала - это не просто определенное множество - дискретное или сплошь заполняющее некоторый промежуток. Важнейшей отличительной чертой шкалы является набор тех соотношений между ее элементами (отсчетами), которые имеют содержательный смысл и разумное толкование в рамках этой шкалы.
Существует много различных шкал, в том числе, в педагогике. Но нас будут интересовать только четыре вида.
1. Порядковые шкалы, где результаты измерений осмысленно можно только сравнивать между собой. Примером может служить принятая в школе система оценок, выставляемых ученикам в зависимости от их успехов в учебе. Из соотношения отметок b1 < b2 для учеников А1 и А2 можно лишь заключить, что А1 учится хуже А2. Если же, например, b1 - b2 = 1, то утверждение "успехи А1 на 1 выше, чем успехи А2" не объясняет, каково различие между учениками и, по существу, лишено смысла. То же можно сказать и относительно шкалы первичных баллов (в абсолютном или относительном выражении) как для участников тестирования, так и для тестовых заданий. Максимум, что можно сделать в рамках этих шкал, это упорядочить участников тестирования или тестовые задания в порядке возрастания (или убывания) оценок соответствующих латентных параметров.
Основными статистиками порядковых шкал являются медиана, квантили и ранговая корреляция.
2. Шкала более высокого уровня называется интервальной, или метрической.
Ее отличительной чертой является наличие метрики. Это означает, что для любых отсчетов b1 и b2 содержательный смысл имеют не только соотношения типа b1 < b2 или b1 - b2, но и разность b2 - b1. При этом |b2 - b1| трактуется как расстояние (между двумя элементами метрического множества), выраженное в определенных единицах и, главное, имеющее осмысленное толкование. Специфика шкалы состоит в отсутствии нулевого штриха, то есть в отсутствии начала отсчета. Поэтому метрическая шкала прекрасно подходит для фиксации взаимного положения измеряемых объектов (относительно друг друга), но она не в состоянии информировать о местоположении объекта в некоторой единой системе координат (удалении от начала отсчета). С математической точки зрения указанная ситуация означает, что на множестве определена метрика, единица измерения расстояния, но нет понятия нормы (определено понятие "расстояние", но нет понятия "длина"). Например, при строительстве гидросооружений важно измерять превышения (разности высот) между определенными точками (взаимное положение по высоте, имеющее конкретную гидродинамическую трактовку), но не сами высоты. Превышение между двумя точками, имеющие высоты, например 48 м. и 45 м., имеет то же смысл, что и превышение между точками с высотами 5 м. и 2 м. В противоположность этому разности между первичными баллами 48-45 и 5-2 невозможно сравнивать осмысленно.
По такой же, по существу, шкале, по которой измеряются превышения, измеряются и латентные параметры трудность задания () и уровень знаний (), но только единицей измерения расстояний служат не метры, а логиты.
Таблица 1.1
Разность -
Вероятность
верного
решения, Р
Информация
в ответе,
=pq
Относительная
эффективность
в процентах
5
0,99
0,01
4
4
0,98
0,02
8
3
0,95
0,05
20
2
0,88
0,11
44
1
0,73
0,20
80
0
0,50
0,25
100
-1
0,27
0,20
80
-2
0,12
0,11
44
-3
0,05
0,05
20
-4
0,02
0,02
8
-5
0,01
0,01
4
Таблица 1.1 указывает соотношение между разностями - в логитах и их трактовкой в виде вероятности того, что задание трудности будет верно выполнено участником с уровнем подготовленности . Данные этой таблицы никак не изменятся, если к величинам и прибавить любую константу. Последний столбец таблицы 1.1 содержит произведения р(1 - р), которые можно трактовать как количество информации о разности - , которое содержится в соответствующем элементе матрицы ответов. Содержание этого столбца мы используем позже, но уже сей час полезно отметить, что информативность ответов зависит только от расстояния | - | между и и заметно падает с увеличением этого расстояния. Так, одно задание максимальной эффективности равносильно (с точки зрения поддержания одной и той же точности измерения) около 25 заданий минимальной эффективности.
Метрическая (интервальная) шкала, в которой определено начало отсчета, называется шкалой нормированной. В такой шкале определено не только понятие метрики, по и понятие нормы, позволяющее измерять "длины" (то есть определенно» местоположение относительно нуля, на чала отсчета). Поэтому и такой шкале имеет смысл говорить не только о разностях типа - , но и о каждой величине или в отдельности. Такая шкала является наиболее привлекательной, а ее построение в теории педагогических измерений представляет собой определенную революцию в этой теории, поскольку позволяет преодолеть основной ее недостаток - зависимость оценок одного индивидуума от использованного теста и контингента всех участников тестирования или определенной группы участников.
Кроме перечисленных "количественных" шкал, выделяют еще номинальную шкалу, основанную на качественных переменных, не поддающихся количественному измерению. Примером может служить пол участников тестирования, принадлежность определенному региону России и т.п. Числа по-прежнему используются в номинальных шкалах, но служат они всего лишь для различения отдельных фактов, как бы для их названия. Поэтому никаких содержательных соотношений, кроме а = b или а b, между такими числами нет. При этом выбор чисел вместо реальных имен или других способов идентификации, конечно, не обязателен, поскольку речь не идет о том, на сколько отличаются друг от друга объекты или события, обладающие каким-либо свойством или признаком.
Если признаков, различающих объекты или события, только два, то номинальная шкала называется дихотомной. Примером могут служить элементы матрицы ответов участников тестирования на задания теста: правильное выполнение задания ("да") обозначается единицей, ошибочное ("нет") - нулем. При этом разность 1-0 не имеет никакого смысла, и сами цифры 1 и 0 можно заменить любыми другими, например, цифрами 9 и 5, символами "+", "-", словами "да", "нет", "зачет", "незачет" и т.п.
Соответствующие номинальным шкалам данные состоят из наблюдаемых значений частот или табличных сведений о числе появлений каждой из разновидностей изучаемой переменной. Для характеристики номинальных данных часто используются такие (дескриптивные) статистики, как пропорция и процентное отношение.
Использование той или иной шкалы из перечисленных четырех накладывает отпечаток и на применимость тех или иных методов математической обработки, которой обычно подвергаются исходные данные. Например, регрессионный анализ применим только по отношению к количественно выраженным переменным, измеряемым, по крайней мере, в метрической шкале. Примерно тоже самое можно сказать и относительно наиболее известных методов корреляционного анализа. Сказанное не означает, что результаты тестирования, отнесенные к порядковым или даже номинальным шкалам, нельзя анализировать количественно. Однако методы такого анализа должны быть, в общем случае, специальными и от личными от тех, которые используются для переменных в шкалах метрических и нормированных. Например, даже такую общепринятую оценку центра рассеяния переменной как арифметическая средняя часто бывает более обоснованным заменить медианой вариационного ряда, если переменные отнесены к шкале порядковой, а не метрической.
Таким образом, содержательная интерпретация результатов математической обработки данных тестирования может быть дана лишь в том случае, если методы этой обработки адекватны тем шкалам, к которым отнесена исходная информация.
2. Статистические характеристики теста

После сбора эмпирических данных начинается этап математико-статистической обработки, которая проводится, как правило, с помощью специального программного обеспечения. В практическом плане применение программного обеспечения сопряжено с некоторыми трудностями. В частности, необходимо использование компьютерной техники, приобретение программных продуктов, создание специальной группы технического сопровождения. Однако, как показывает опыт, все эти трудности могут быть преодолены даже силами небольшого преподавательского коллектива, особенно в тех случаях, когда подсчет статистики осуществляется на небольших выборках в 50-100 человек.
Этап математико-статистической обработки можно разбить на 10 шагов.
Первый шаг. Первый шаг связан с формированием матрицы тестовых результатов, в которой количественные данные представляются в систематизированной и сжатой форме, чтобы обеспечить их дальнейшую обработку и интерпретацию. Формирование матрицы начинается с выбора определенного правила для оценки ответов учеников на задания теста. Обычно результаты ответов оцениваются дихотомически, а именно за каждый правильный ответ учащийся получает один балл, а за неправильный ответ или за пропуск задания -- нуль баллов.
Если символом Ху обозначить результат выполнения Х-м испытуемым у-го задания теста, то в сокращенной форме приведенное выше правило можно записать в виде:
l, если ответ Х-го испытуемого на у-е задание верный;
0, если ответ Х-го испытуемого на у-е задание неверный.
После выбора оценочного правила эмпирические данные сводятся в матрицу. Строки матрицы, состоящие из нулей и единиц, соответствуют ответам учеников на различные задания теста. По столбцам располагаются профили ответов испытуемых на каждое задание теста.
Из дидактических соображений для иллюстрации математико-статистических методов выбрана небольшая матрица, когда 12 учеников отвечали всего на 10 заданий теста (табл. 2.1).
Однако все формулы и подсчеты, обсуждаемые в разделе, могут быть распространены на любые выборки испытуемых и применимы к тестам любой длины.
Второй шаг. На втором шаге из матрицы тестовых результатов устраняются строки и столбцы, состоящие только из нулей или только из единиц. В приведенном выше примере таких столбцов нет, а строк только две, последние в матрице тестовых результатов. Одна из них, нулевая строка, соответствует ответам 11-го испытуемого, который не смог выполнить правильно ни одного задания в тесте. В этом случае вывод довольно однозначен. Если сложилась такая ситуация, то тест непригоден для оценки знаний 11-го ученика. Для выявления его уровня знаний тест необходимо облегчить, добавив несколько очень легких заданий, которые, скорее всего, большинство остальных испытуемых группы выполнит правильно.
Таблица 2.1. Матрица результатов тестирования
Номер испытуемого i
Номер задания j
1
2
3
4
5
6
7
8
9
10
1
1
1
1
1
1
1
0
0
0
0
2
1
1
0
0
0
0
0
0
0
0
3
0
0
0
0
0
0
0
1
0
0
4
1
1
0
1
1
1
1
1
1
1
5
1
0
1
0
1
1
0
0
0
0
6
1
1
1
0
0
0
0
1
0
0
7
1
1
1
1
0
1
0
0
0
0
8
1
1
1
1
0
0
0
0
0
0
9
1
1
1
1
1
1
1
1
1
0
10
1
1
1
1
1
0
1
0
0
0
11
0
0
0
0
0
0
0
0
0
0
12
1
1
1
1
1
1
1
1
1
1
Столь же непригоден, но уже по другой причине тест для оценки знаний 12-го ученика, который выполнил правильно все без исключения задания теста. Причина непригодности теста -- его излишняя легкость, не позволяющая выявить истинный уровень подготовки 12-го ученика. Его результаты указывают лишь на знание предложенного в тесте материала, но не позволяют установить границу между освоенным и неосвоенным содержанием курса. Возможно, 12-й ученик знает много чего другого и в состоянии выполнить по контролируемым разделам содержания гораздо более трудные задания, которые просто не были включены в тест. В эту, казалось бы, привычную для традиционного контроля и желаемую для педагога ситуацию, когда испытуемый справился со всем объемом контролируемого материала, необходимо привнести элементы тестовой науки. Хотя традиционный и тестовый контроль служат одной и той же цели - оценке знаний испытуемых, между ними есть существенные различия не только по форме проведения, но и по качеству получаемых оценок. В отличие от традиционных тестовые методы контроля позволяют ответить на наиболее важный вопрос: насколько точна оценка знаний каждого испытуемого и следует ли ей вообще доверять?
Сама по себе постановка вопроса никак не связана с недостатками тестовых методов, поскольку ошибка (погрешность) измерения существует всегда и везде. В том числе и в процессе тестовых измерений возникает ряд погрешностей, мешающих получить истинные баллы учеников. Существование погрешностей приводит к мысли об относительной точности оценок, которая варьирует и которую можно счесть как достаточной, так и не позволяющей доверять полученным оценкам.
Обычно, если нормативно-ориентированный тест сделан хорошо, то достаточной точностью обладают примерно 70% результатов, находящихся в центре распределения, а примерно 5% самых слабых и 5% самых сильных результатов вообще нельзя доверять, так как они отражают истинный уровень знаний учеников с очень большой ошибкой измерения. Именно по этим соображениям профессионально организованные тестовые службы при обработке отбрасывают не менее 3 или 5% результатов на концах распределения. К сожалению, в нашей стране зачастую тестовые оценки испытуемых выставляются без учета теоретических ограничений на возможные диапазоны их применения.
Причина такого положения - практическое незнакомство большинства преподавателей с основами тестовой теории, незнание основных ее положений. Особенно пагубно это незнание сказывается на качестве тестов, разрабатываемых в нашей стране. Нередко автор теста, если его выполнили все или почти все испытуемые группы, расценивает свою работу как успех. У этой тенденции есть свои печальные следствия. Тестовые оценки, полученные со значительной ошибкой измерения, порождают у преподавателей многочисленные сомнения в возможностях педагогических тестов. В сущности, здесь виноваты не тесты, а отсутствие должного профессионализма их разработчиков, но об этом почему-то никто не думает, особенно в тех случаях, когда ругают педагогические тесты.
При правильном положении вещей последние две строки матрицы должны быть удалены, и матрица тестовых результатов примет вид, приведенный в табл. 2.2.
Таблица 2.2. Матрица результатов после удаления строк
Номер испытуемого i
Номер задания у
1
2
3
4
5
6
7
8
9
10
1
1
1
1
1
1
1
0
0
0
0
2
1
1
0
0
0
0
0
0
0
0
3
0
0
0
0
0
0
0
1
0
0
4
1
1
0
1
1
1
1
1
1
1
5
1
0
1
0
1
1
0
0
0
0
6
1
1
1
0
0
0
0
1
0
0
7
1
1
1
1
0
1
0
0
0
0
8
1
1
1
1
0
0
0
0
0
0
9
1
1
1
1
1
1
1
1
1
0
10
1
1
1
1
1
0
1
0
0
0
Третий шаг. Третий шаг связан с подсчетом индивидуальных баллов испытуемых и количеством правильных ответов испытуемых на каждое задание теста. Индивидуальный балл испытуемого получается суммированием всех единиц, полученных им за правильно выполненные задания теста. Например, 4-й испытуемый выполнил правильно 9 заданий, поэтому его индивидуальный балл равен 9. В строке ответов 2-го испытуемого стоят всего две единицы -- его индивидуальный балл Х2 = 2. Для удобства полученные индивидуальные баллы Xi (i= 1, 2,..., 10) приводятся в последнем столбце матрицы результатов (табл. 2.3).
Таблица 2.3.
Матрица результатов с индивидуальными баллами испытуемых и количеством правильных ответов на задания теста
Номер испытуемого i
Номер задания j
Индивидуальный балл (множество Аj)
1
2
3
4
5
6
7
8
9
10
1
1
1
1
1
1
1
0
0
0
0
6
2
1
1
0
0
0
0
0
0
0
0
2
3
0
0
0
0
0
0
0
1
0
0
1
4
1
1
0
1
1
1
1
1
1
1
9
5
1
0
1
0
1
1
0
0
0
0
4
6
1
1
1
0
0
0
0
1
0
0
4
7
1
1
1
1
0
1
0
0
0
0
5
8
1
1
1
1
0
0
0
0
0
0
4
9
1
1
1
1
1
1
1
1
1
0
9
10
1
1
1
1
1
0
1
0
0
0
6
Число правильных ответов (множество Аi)
9
8
7
6
5
5
3
4
2
1
50
Число правильных ответов на задания Х также получается суммированием единиц, но уже расположенных по столбцам. Например, в 1-м столбце стоят 9 единиц -- число испытуемых, правильно ответивших на 1-е задание, равно 9. На последнее, 10-е задание ответил правильно только один ученик, поэтому Х10= 1. Число правильных ответов на каждое задание также помещается в матрицу результатов, обычно оно располагается в последней строке под номером соответствующего задания теста (см. табл. 3).
Четвертый шаг. На четвертом шаге осуществляется упорядочение матрицы результатов тестирования. Для этого производят перестановку столбцов, располагая числа Л в порядке убывания. Затем меняют местами строки матрицы так, чтобы верхняя строка соответствовала обучаемому с минимальным индивидуальным баллом. Значения Xi располагают сверху вниз в порядке возрастания. Упорядоченная матрица данных тестирования приведена в табл. 2.4.
Пятый шаг. На пятом шаге производится графическая интерпретация эмпирических данных. Эмпирические результаты тестирования можно представить в виде полигона, гистограммы, сглаженной кривой (процентилей, огивы) или машинописного графика.
Для построения кривых необходимо упорядочить результаты эксперимента. Их можно записать в виде несгруппированного ряда произвольной формы (табл. 2.5), ранжированного ряда (табл. 2.6), частотного распределения (табл. 2.7) или распределения сгруппированных частот (табл. 2.8).
Таблица 2.5. Несгруппированный ряд
Номер
1
2
3
4
5
6
7
8
9
10
Балл
6
2
1
9
4
4
5
4
9
6
Таблица 2.6. Ранжированный ряд
Ранг
1
2
3
3
< и т.д.................


Перейти к полному тексту работы



Смотреть похожие работы


* Примечание. Уникальность работы указана на дату публикации, текущее значение может отличаться от указанного.