Teoría de respuesta al ítem - Aplicaciones y Test

Dentro del campo de la Teoría de los Tests Psicométricos han aparecido distintas denominaciones que en la actualidad toman el nombre de "Teoría de la Respuesta al ítem" ( F.M. Lord, 1980 ). Esta denominación presenta unas diferencias respecto al modelo clásico: 1.- la relación entre el valor esperado de las puntuaciones del sujeto y el rasgo ( característica responsable de los valores ), no suele ser de tipo lineal. 2.- pretende hacer predicciones individuales sin necesidad de hacer referencia a las caracterísiticas del grupo normativo.

Teoría de la respuesta al ítem o modelos del rasgo latente en la teoría de los tests

Vemos, pues, que esta Teoria de la Respuesta al item proporciona la posibilidad de describir de forma separada tanto a los items como a los individuos; además considera que la respuesta que da el sujeto depende del nivel de habilidad que tenga en el rango considerado. El origen de estos modelos se deben a Lazarsfeld , 1950 , el cual introdujo el término " rasgo latente " .

Desde aquí se considera que cada individuo tiene un parámetro individual el cual es el responsable de las características del sujeto, denominadas también "rasgo". Este rasgo no es medible directamente, de ahí que el parámetro individual reciba el nombre de variable latente. A la hora de aplicar los tests se pueden obtener dos cosas distintas, la puntuación verdadera y la escala de aptitud ; esto se consigue si pasamos dos tests acerca de la misma aptitud a un mismo grupo.

En la Teoría del Rasgo Latente o Teoría de la respuesta al item la puntuación verdadera es aquel valor que se espera de la puntuación observada. Según Lord, la puntuación verdadera y la aptitud son la misma cosa pero expresadas en diferentes escalas de medición.

Modelos de la teoría de la respuesta al ítem (tri)

Modelos de Error Binomial: fueron introducidos por Lord (1965), los cuales suponen que la puntuación observada corresponde con el número de respuestas correctas obtenidas en el test ( cuyos items tienen todos la misma dificultad y tienen independencia local, es decir, que la probabilidad de responder correctamente a un item no está afectada por las respuestas dadas a otros items ).

Modelos de Poisson: estos modelos son apropiados para aquellos tests que tienen un gran número de items y en los que la probabilidad de respuesta correcta o incorrecta es pequeña. Dentro de este grupo, a su vez, tenemos distintos modelos:

Modelo poissoniano de Rasch, cuyas hipótesis son: cada test posee un gran número de items binarios que son localmente independientes. la probabilidad de error en cada ítem es pequeña. la probabilidad de que el sujeto cometa error depende de dos cosas, de la dificultad del test y de la aptitud del sujeto. la aditividad de las dificultades , entendida como el resultado de mezclar dos tests equivalentes en un sólo test cuya dificultad es la suma de las dificultades de los dos tests iniciales.
Modelo de Poisson para evaluar la rapidez: Este modelo también fue propuesto por Rasch y se caracteriza porque se tiene en cuenta la velocidad en la ejecución del test. El modelo se puede plantear en dos sentidos: contabilizar el número de errores cometidos y de palabras leidas en una unidad de tiempo. contabilizar el número de errores cometidos y el tiempo invertido en completar la lectura del texto. La probabilidad de realización de un cierto número de palabras de un test ( i ) por un sujeto ( j ), durante un tiempo ( t )
Modelos de Ojiva Normal: es un modelo propuesto por Lord (1968), que se utiliza en tests con items dicotómicos y con una sola variable en común.Su gráfico sería el siguiente : Los supuestos básicos que caracterizan a este modelo son:

el espacio de la variante latente es unidimensional ( k= 1).
independencia local entre intems.
la métrica para la variable latente se puede elegir de manera que la curva de cada item es la ojiva normal.

Modelos Logísticos; es un modelo muy parecido al anterior pero además tiene más ventajas respecto a su tratamiento matemático. La función logística toma la siguiente forma: Existen distintos modelos logísticos en función del número de parámetros que tengan:

Modelo logístico de 2 parámetros, Birnbaum 1968, entre sus características citamos que es unidimensional, hay independencia local, los itens son dicotómicos, etc
Modelo logístico de 3 parámetros, Lord, se caracteriza porque la probabilidad de acertar por adivinación es un factor que va a inflluir en el rendimiento del test. 4.3. Modelo logístico de 4 parámetros: modelo propuesto por McDonald 1967 y Barton-Lord en 1981 , cuyo fin es explicar aquellos casos en que los sujetos que tienen un nivel de aptitud alto no responden correctamente al item.
Modelo logístico de Rasch: este modelo es el que ha generado mayor número de trabajos a pesar de tener un inconveniente , éste es que su ajuste a los datos reales es más difícil.Pero en contraposición a esto la ventaja que hace que sea tan utilizado es que no precisa de grandes tamaños de muestra para su ajuste.

Estimación de parámetros

El método que más se ha utilizado es el de Máxima Verosimilitud, junto a este método se usan procedimientos numéricos de aproximación como el de Newton-Raphson y el Scoring (Rao). El Método de Máxima Verosimilitud se basa en el principio de obtener estimadores de los parámetros desconocidos que maximicen la probabilidad de obtener dichas muestras. Además de la Máxima Verosimilitud también se usa la Estimación Bayesiana,basada en el Teorema de Bayes, la cual consiste en incorporar toda la información conocida, a priori, que sea relevante al proceso de hacer inferencias. Un estudio más a fondo del método bayesiano para la estimación de los parámetros de aptitud es el que realizaron Birnbaum (1996) y Owen (1975) .

FUNCIONES DE INFORMACIÓN

El mejor test que puede construirse es aquel que proporciona la mayor cantidad de información sobre el rasgo latente. La cuantificación de esta información se realiza a través de las "funciones de información". La fórmula de la función de información, Birnbaum 1968, es la siguiente: Hay que tener en cuenta que la información obtenida en un test es la suma de las informaciones de cada item, además la contribución de cada ítem no depende del resto de los items que componen el test. En líneas generales podemos decir que la información, en todos los modelos:

varía con los niveles de aptitud.
cuanto mayor es la pendiente de la curva mayor información.
depende de la varianza de las puntuaciones, cuanto mayor es ésta, menor información.

Construcción de tests

La primera tarea y una de las más importantes a la hora de construir un test es la elección de los items, previo acorde de los supuestos teóricos que deben definir el rasgo que el test pretenda medir. El concepto "Análisis de items" hace referencia al conjunto de aquellos procedimientos formales que se llevan a cabo para seleccionar aquellos items que finalmente formarán el test. La información que se considera más relevante respecto a los items es:

Dificultad del item , porcentaje de individuos que lo aciertan.
Discriminación , correlación de cada item con la puntuación total sobre el test.
Distractores o análisis de error, su influencia es relevante, afecta a la dificultad del item y hace que se subestimen los valores de discriminación.

A la hora de establecer indicadores de los distintos índices suele usarse unos estadísticos o índices, siendo los siguientes los más utilizados:

Indice de dificultad Indice de discriminación Indice de fiabilidad Indice de validez Conocidos los índices que hay que tener en cuenta para la selección de los items que formarán el test, vamos a ver qué pasos son necesarios para la construcción de un test:

Especificación del problema.
Enunciar un amplio conjunto de items y depurarlos.
Elección del modelo.
Probar los items preseleccionados.
Seleccionar los items idóneos.
Estudiar las cualidades del test
Establecer las norma de interpretación del test final obtenido.

De los puntos anteriores hay que señalar que la elección del modelo, punto 3 , va a depender de los objetivos que persiga el test, de las características y calidad de los datos, y de aquellos recursos de que se dispone. Cuando se elige un modelo ya vienen dadas las condiciones teóricas en las que se puede aplicar, no obstante sus virtudes hay que analizarlas en cada caso y circunstancias concretas. Las propiedades atribuibles a aquellos modelos que integran la Teoría de la Respuesta al Item (TRI), pueden verse afectadas por:

la dimensionalidad de la prueba la escasa disponibilidad de muestra falta de recursos informáticos Hay una serie de preferencias a la hora de usar unos u otros modelos, veámoslas: los modelos de ojiva normal no suelen usarse en las aplicaciones, su valor es teórico.
Rasch: adecuado para la comparación horizontal ( tests comparables en niveles de dificultad con similares distribuciones de aptitud ). para disponer de formas distintas de un mismo test. * 2 y 3 parámetros: son los que mejor se ajustan a una diversidad de problemas.
para detectar patrones de respuesta errónea. para la igualación vertical de tests ( compara tests con diferentes niveles de dificultad y diferentes distribuciones para la aptitud).

1 y 2 parámetros:

adecuados para construir una única escala, así poder comparar las aptitudes en diferentes niveles.

La elección del modelo, además del fin que se persiga, puede verse afectada por el tamaño de la muestra; en el caso de que la muestra sea grande y representativa no existirá ningún problema ya sea el modelo clásico o de rasgo latente. Pero en la TRI ( teoría de la respuesta al ítem ) una muestra pequeña obliga a elegir modelos con un múmero pequeño de parámetros, incluso el modelo uniparamétrico.

Aplicaciones de la teoría de la respuesta al ítem

Vamos a ver cuáles son las aplicaciones más usuales: a) Igualación de tests, en algunas ocasiones es necesario poner en relación las puntuaciones que se han obtenido en distintos tests, con dos posibles finalidades:

Igualación Horizontal: se busca obtener distitas formas de un mismo test.
Igualación Vertical: se busca construir una única escala de aptitud con diferentes niveles de dificultad. Respecto a la igualación de tests, Lord (1980) introduce el concepto de "equidad", la cual implica que para cada sujeto dos tests pueden ser intercambiables ya que se aplica que uno u otro no hará variar el nivel de aptitud que se había estimado para el sujeto.

Estudio del sesgo de los items, un ítem está sesgado cuando en media , da puntuaciones significativamente diferentes en grupos específicos que se supone forman parte de una misma población.

Tests adaptados o a la media , por medio de la TRI se pueden construir tests individualizados que permiten inferir de una forma más precisa el verdadero valor del rasgo en cuestión. Los items se administrarán de forma secuencial, la presetación de un ítem u otro dependerá de las respuestas dadas anteriormente. Existen distintos tipos de tests adaptados, señalamos los siguientes:

procedimiento en dos etapas, Lord 1971; Bertz y Weiss 1973 - 1974.Se pasa primero un mismo test y dependiendo de los resultados se les administra un segundo test.
Procedimiento en varias etapas, es igual al anterior sólo que el proceso incluye más etapas.
Modelo ramificado fijo, Lord 1970 , 1971 , 1974 ; Mussio 1973. Todos los sujetos resuelven un mismo ítem, según la respuesta se pasa a resolver un conjunto de items.
Modelo ramificado variable, está basado en la independencia entre los items y en las propiedades de los estimadores de máxima verosimilitud.

Banco de items, disponer de un gran conjunto de items es algo que va a mejorar la calidad del test pero para ello los items deben pasar antes por un proceso de depuración. Para clasificar los items hay que tener en cuenta cuál es el rasgo que pretende medir el test del que formará parte ese ítem.

Interpretación de las puntuaciones

Escalas: su fin es el de ofrecer un contínuo para poder ordenar, clasificar o conocer cuál es la magnitud relativa del rasgo evaluado; esto nos permitirá establecer diferencias y semejanzas en las personas respecto a ese rasgo. Las escalas que se utilizan en Psicología son: nominales, ordinales, de intervalo y de razón; estas escalas se construyen a partir de los resultados de las pruebas, resultados denominados " puntuaciones directas " .

Tipificar : tipificar un test es transformar las puntuaciones directas en otras que sean fácilmente interpretables ya que la puntuación tipificada nos revelará la posición del sujeto respecto al grupo, y nos permitirá hacer comparaciones intra e intersujetos. Existen dos formas de tipificación:

Lineal, conservan la forma de la distribución y no modifican el tamaño de las correlaciones.
No Lineal, no conservan la distribución ni el tamaño de las correlaciones .

ESCALA DE APTITUD En la TRI, la escala que se construye es aquella escala que corresponde con los niveles de aptitud; esta escala se caracteriza porque las estimaciones y las referencias se hacen directamente con respecto a la aptitud y su escala. Además esta aptitud que es estimada sólo depende de la forma de la curva característica de los items. Dentro de las escalas posibles, señalamos dos:

Escala , propuesta por Woodcock (1978) y viene definida por la siguiente fórmula:
Escala WITS, propuesta por Wright (1977), esta escala es una modificación de la anterior y viene dada por la siguiente relación:

Este artículo es meramente informativo, en Psicología-Online no tenemos facultad para hacer un diagnóstico ni recomendar un tratamiento. Te invitamos a acudir a un psicólogo para que trate tu caso en particular.

Si deseas leer más artículos parecidos a Teoría de respuesta al ítem - Aplicaciones y Test, te recomendamos que entres en nuestra categoría de Psicología experimental.