Publicado: 02-03-2011 20:13

Actualizado:

La medición es inherente a todas las ciencias, y la psicología no es una excepción. El fin general de toda teoría de la medición, sea en la ciencia que sea, es estimar los errores aleatorios que se producen en todo proceso de medición.
 
Caracterización de lo psicológico.
 
La conducta humana es fruto de la interacción entre la base neurológica y el entorno social y cultural, lo que estudia la psicología es el fruto de esta interacción, donde el resultado es de mayor complejidad y muy distinto a cada una de las partes tomadas de manera conjunta o independiente.
 
Si bien es posible medir lo psicológico, no resulta sencilla la medición en el sentido clásico acorde con los axiomas de Hölder y las propuestas ortodoxas de Campbell. No obstante, dentro de la psicología se han desarrollado una serie de instrumentos de los cuales los mas conocidos son los test, que construidos para usos de medida específicos, tratan de predecir o explicar unas variables en función de otras.
 
La medición es un proceso, que como tantos otros, tiene que cumplir una serie de requisitos para que dicha medida tenga significación, tres de los aspectos mas importantes de toda medida son la fundamentación teórica de la medición, la fiabilidad y la validez.
 
Inicios de la medición.
 
Los primeros intentos de medir con rigor atributos psicológicos tuvieron lugar en Alemania en la segunda mitad del siglo XIX de la mano de Fechner. Su trabajo consistió en relacionar la estimulación física con las sensaciones psicológicas. Lo primero con que se encontró Fechner es que si bien había métodos para medir los continuos físicos, estos no existían para los continuos psicológicos. Desarrollo así una serie de métodos conocidos como métodos psicofísicos indirectos.
 
Basándose en los trabajos de Weber, Fechner estableció que la función que unía el continuo físico con el psicológico era una función logarítmica. Esto quiere decir que al producirse un aumento en progresión geométrica en la estimulación física, las sensaciones lo hacen siguiendo una progresión aritmética, lo que significa que al principio, al aumentar la estimulación física aumenta rápidamente las sensaciones, pero a medida que la estimulación aumenta es preciso un incremento cada vez mayor en la estimulación física para que se de un aumento en la sensación. Esta ley ya había sido observada en el campo de la economía entre el crecimiento de la fortuna y el placer experimentado por el afortunado.
 
La ley psicofísica de Fechner fue cuestionada por Stevens, y defiende que la conexión entre los continuos físicos y de sensación no es una función logarítmica (como afirma Fechner) sino de tipo potencial. Así Stevens tuvo que desarrollar una serie de métodos alternativos, los denominados métodos directos, frente al los métodos indirectos que desarrollo Fechner. Stevens piensa que lo que se considera constante es la fracción entre la relación del incremento de sensación y del incremento del estimulo.
 
En la actualidad gran parte de las investigaciones en psicofísica se llevan a cabo dentro de la teoría de la decisión y la teoría de detección de señales. La particularidad de la teoría de detección de señales es que no considera el sistema perceptivo como un sistema neutral, sino que aunque tiene aspectos invariantes, está influido en gran medida por ciertos aspectos cambiantes de lo percibido, lo que se refleja en la matriz de pagos, que modulan la decisión final.
 
Muchos de nosotros hemos observado como ciertos problemas muy importantes y de solución conocida, no son resueltos de manera adecuada por los hombres, cuando nos enfrentamos a preguntas como ¿por qué la gente fuma sabiendo que es perjudicial? decimos que por que las personas no actúan con lógica. Y la verdad es que las personas no funcionan por las leyes de la lógica, funcionan por las leyes de la psicología.
 
Otros temas bien importantes que han tratado de ser medidos son facetas tan importantes como las actitudes o forma en que las personas se enfrentan al mundo que les rodea. En este caso, ya desaparece el estímulo físico que antes era el referente para comparar la sensación.
 
Otras vías se han referido al escalamiento de estímulos, ya sea con referente físico (psicofísica) o sin el (actitudes). Otra línea ha sido el escalamiento de sujetos, para cuya medida se han diseñado multitud de test. El origen de los tests se encuentra en las primeras pruebas sensomotoras realizadas por Galton en su famoso laboratorio antropométrico de Kensington.
 
Un giro radical lo constituye la escala de Bidet y Simon para el escalamiento individual de la inteligencia, pero la verdadera eclosión de los tests se produce tras la primera guerra mundial con los tests alfa y beta diseñados por un equipo dirigido por Yerkes.
 
Fiabilidad.
 
La fiabilidad se refiere a la precisión de un instrumento de medida. La estimación de la fiabilidad es importante por que siempre que se realiza una medición se produce un cierto grado de error, medir ese error es importante, y la manera de medirlo es la fiabilidad.
 
A principios del s. XX Spearman desarrollo el modelo lineal clásico o teoría clásica de los tests, que propugna que toda puntuación empírica esta compuesta por una puntuación verdadera mas un error aleatorio.
 
Posteriormente, en los años 60 y 70 se desarrolla nuevos modelos de estimación del error conocidos con la denominación genérica de teoría de respuesta a los ítems.
 
Modelo clásico.
 
La teoría clásica de los tests desarrollada por Spearman parte de unos supuestos básicos muy sencillos, que los podemos resumir en:
 
1.      La puntuación empírica esta compuesta por la puntuación verdadera mas el error aleatorio de medida.
2.      La puntuación verdadera es la que una persona como promedio obtiene si realizase una prueba infinitas veces.
3.      No hay relación entre la puntuación verdadera y los errores de medida.
4.      Los errores de medida de los test no están relacionados.
 
A partir de estos supuestos y mediante los desarrollos matemáticos adecuados, se obtiene la fórmula del coeficiente de fiabilidad, con el que podemos estimar la cuantía de los errores cometidos en el proceso de medición. La fiabilidad indica la cantidad de varianza de la puntuación verdadera que hay en la puntuación empírica, o en términos de la teoría de la información, la proporción de señal-ruido en el proceso de medición. La fiabilidad es pues, el cociente entre la puntuación verdadera y la empírica. Lo ideal seria que toda la varianza de la puntuación empírica se deba a la varianza de la puntuación verdadera, en tal caso la fiabilidad es perfecta y su valor es 1, si la fiabilidad fuese nula su valor seria 0.
 
El cálculo empírico de la fiabilidad se puede llevar a cabo de diferentes formas:
 
1.      Correlación entre formas paralelas de un test.
2.      Correlación entre dos mitades aleatorias del test corregida mediante la formula de Spearman-Brown.
3.      Correlación entre dos aplicaciones del mismo test a una muestra de personas.
 
La fiabilidad puede calcularse mediante diferentes formulas entre las que destacan: Rulon, Guttman, Flanagan, las de Kuder y Richardson KR20 y KR21, el coeficiente alfa de Cronbach que expresa la fiabilidad en función de la consistencia interna del test. Otra forma de estimar la fiabilidad es mediante el error típico de medida o fiabilidad absoluta. De estos métodos se escogerá el mas adecuado según las circunstancias concretas de cada investigación.
 
Las fuentes de error de medida son muchas, pero quizás las mas habituales puedan resumirse en tres puntos:
 
1.      La variabilidad propia de la persona evaluada, las personas no se comportan siempre de la misma manera aunque las circunstancias sean iguales.
2.      Los instrumentos de medida pueden influir diferencialmente en los sujetos evaluados.
3.      La aplicación, corrección e interpretación hechas por los profesionales.
 
Cuando la estimación de la fiabilidad tiene valores muy próximos a 1, es viable hacer una estimación puntual de la puntuación del individuo en la prueba, si la fiabilidad no está próxima a 1, es más adecuado hacer una estimación por intervalo.
 
Si bien la teoría clásica habla de error de medida y su medición, las fuentes de error no son identificadas. Los diversos intentos en esta línea no han cuajado por su complejidad, aun así, en esta línea destaca la teoría de la generalizabilidad propuesta por Cronbach, que mediante complejos análisis de varianza permite identificar las fuentes del error. Para tal fin se ha diseñado el programa de ordenador GENOVA.
 
Teoría de respuesta a los ítems.
 
Aunque la teoría clásica de los tests ha dado muy buenos frutos, también ha presentado sus dificultades, de las que quizás las más importantes sean:
 
1.      Ausencia de invariancia de las puntuaciones respecto al instrumento utilizado, es decir, cuando se emplean dos test distintos para evaluar la misma variable, los resultados no aparecen en la misma escala, por lo que se hace necesaria la equiparación de puntuaciones.
2.      La dependencia que las propiedades del test tienen de las propias personas evaluadas, lo que no es deseable dentro del marco riguroso general de la teoría de la medición.
3.      La dependencia entre la cantidad de error y el nivel de los sujetos en la variable medida, lo que hace que la fiabilidad sea distinta para cada uno de los sujetos evaluados.
 
Para dar solución a estos problemas la teoría clásica de los test ha optado por el cálculo de varios coeficientes de fiabilidad en función de los distintos niveles de las personas evaluadas, pero la solución radical ha venido de la mano de la teoría de respuesta a los ítems (TRI).
 
Bajo la perspectiva de la TRI la fiabilidad pasa a denominarse función de información, y es una función matemática continua a lo largo de la escala de las puntuaciones de la prueba. Así la prueba ya no tiene una fiabilidad determinada, sino que esta en función del nivel de la persona en la variable medida. La fiabilidad así pasa a expresarse mediante la función de información, que toma distintos valores según el nivel de la persona en la variable medida.
 
Esta nueva conceptualización del error que se ha expresado dentro del marco de la TRI ha llevado a una verdadera revolución en la evaluación psicológica. Ya no es preciso usar el mismo test para evaluar a los distintos sujetos, ahora se emplean los test adaptativos computerizados, que están proliferando en otros países pero que en España aun están en fase embrionaria.
 
El funcionamiento de los tests adaptativos computerizados es sencillo, los ítems se encuentran en una base de datos de tal forma que a media que el sujeto va resolviendo los distintos ítems, los siguientes van siendo mas o menos complejos en función de si el sujeto ofrece o no la respuesta correcta. De esta manera es posible conocer el nivel de competencia de los distintos sujetos, y por tanto, poder asignarle la puntuación mas adecuada en la prueba.
 
Conceptos básicos de la TRI.
 
Aunque la TRI ha supuesto una enorme mejora con respecto a la teoría clásica de los tests, dicha mejora no ha supuesto una sustitución, sino un complemento, un complemento que ha logrado solucionar problemas que se hallaban presentes en la teoría clásica, pero conservando las virtudes de esta, que quizás la mayor sea su simplicidad.
 
Aunque los primeros orígenes de la TRI se encuentran en trabajos de Richardson (1936) y otros, el despegue de este modelo se produce en 1968 con el libro de Lord y Novick. Desde entonces ha proliferado la bibliografía y los programas informáticos para su desarrollo.
 
Recordemos que en la teoría clásica se asentaba en el supuesto de que la puntuación empírica esta compuesta por la puntuación verdadera mas un error aleatorio. De igual manera, la TRI parte del supuesto (mas restrictivo) de que existe una relación matemática que conecta la competencia de los individuos con la probabilidad de que estos respondan correctamente a un ítems, o lo que es lo mismo, si conocemos la competencia de una persona, sabemos que probabilidad tiene de acertar un ítems.
 
La función matemática que une los niveles de competencia de los sujetos con la probabilidad de acertar unos ítems se denomina curva característica del ítem (CCI), y cada ítem tiene la suya propia. Las más habituales adoptan la forma de “S”. En la grafica se muestra en el eje de abscisas los valores de la variable medida, y en el de ordenadas aparece la probabilidad de acertar los ítems. Así conociendo el valor que toma la variable medida, podemos conocer la probabilidad de acertar dicho ítems por un sujeto dado.
 
La forma exacta de la CCI quedara especificada una vez que se establezca una función matemática genérica, como la distribución normal acumulada o la función logística entre otras.
 
La estimación de los parámetros de los modelos se lleva a cabo mediante programas de ordenador (BICAL, BILOG, LOGIST, etc.) la mayoría de los cuales utilizan procedimientos de máxima verosimilitud o bayesianos.
 
Función de información del test.
 
Una vez estimados los parámetros del modelo, puede calcularse la función de información del test, que indica la precisión con que mide la variable objeto de medición, es decir, los errores cometidos son estimados mediante la función de información. La función de información específica la precisión de las mediciones en función del nivel de los sujetos en la variable medida.
 
Validez.
 
Una vez que sabemos que el instrumento mide con precisión, estamos aun lejos de haber terminado con el debate sobre la medición. El siguiente paso es preocuparse por si las medidas (aunque precisas) son indicadores adecuados de lo que se pretende medir, por que puede ocurrir que una prueba X diseñada para medir la inteligencia mida la atención o el conocimiento que una persona posee en un determinado ámbito. En tal caso las inferencias derivadas de la aplicación de dicha prueba serian erróneas por que serian atribuidas a una variable que en realidad no ha sido evaluada.
 
Para analizar el tema de la validez será preciso por tanto recabar información empírica que nos aporte claridad sobre el variable objeto de evaluación, los tres procedimientos principales son:
 
1.      Validez de contenido.- su objetivo es comprobar que la prueba recoge una muestra representativa de los contenidos correspondientes al campo evaluado.
2.      Validez predictiva.- se centra en la comprobación de que las pruebas predicen aquello para lo que fueron diseñadas. La capacidad predictiva se expresa mediante el coeficiente de validez, que es la correlación entre las puntuaciones en la prueba y el criterio que se pretende predecir. Cuando hay varias pruebas para predecir un criterio se utiliza como coeficiente de validez la correlación múltiple entre las pruebas y el criterio.
3.      Validez de constructo.- trata de asegurar que las variables o constructo medidos, además de capacidad predictiva, tienen entidad, rigor y se encuentran inmersas en el seno de alguna teoría. Las formas de recoger esta evidencia van desde las que se usan para cualquier teoría científica, hasta aquellas mas específicas como la matriz multi-rasgo multi-método o técnicas multi-variadas como el análisis factorial exploratorio y confirmatorio, por lo que en estos casos hablaríamos de validez convergente-discriminante y de validez factorial respectivamente.
 
El uso de los tests.
 
La evolución de los tests de inteligencia puede representar la evolución de los tests en general.
Los primeros tests de inteligencia nacieron hace un siglo, y han sido depurados, mejorados y se ha analizado en que circunstancias es más adecuado su uso y para que fines. La tarea de mejora de los tests es una tarea aparentemente sin fin, con el paso del tiempo, los nuevos descubrimientos, las nuevas técnicas estadísticas, etc. propician que pruebas que originalmente habían sido diseñadas para medir una determinada faceta puedan ser empleadas para medir otras variables relacionadas con la primera.
 
Así los tests de inteligencia que en principio se usaron como mero previsor del éxito académico, hoy día pueden ser empleados como provisores del éxito laboral y social. Se han encontrado correlaciones de 0,5 entre la inteligencia y el éxito académico, laboral y social, esto significa que el 25% de la varianza presente en estas variables puede ser explicado por la variable inteligencia.
 
Aunque los test son unos instrumentos de medida normalizados, hay que tener presente que todos no son de la misma calidad, lo que conlleva prejuicios, pero también beneficios. Por lo tanto es preciso ser muy cuidadoso con el uso de los tests por que su mal uso parece claro ser su mayor inconveniente, y no sus deficiencias psicométricas.
 
Pero la solución al problema de la medición de variables psicológicas no termina aquí, los factores contextuales en los que se realiza la prueba pueden tener una influencia dramática en el resultado de esta. Las circunstancias personales, el estado de animo, el cansancio, el calor, el frío, etc., son factores que siempre se reflejan en cualquier prueba, y por tanto factores que no podemos olvidar en ningún proceso evaluativo.
 
Teoría de la medición.
 
La teoría de la medición se desarrollo originariamente en el campo de la física, por lo que los criterios de dicha postura teórica se preocupaban de los aspectos relacionados con las medidas físicas y la justificación de estas. Así las medidas que procedían del campo de la psicología se encontraban con problemas tremendamente graves.
 
En 1940 un comité dirigido por Campbell emitió un informe en torno al cual se cuestionaba el estatus métrico de la medición psicológica puesto que no se cumplían los axiomas del Hölder, entre ellos, la ausencia de isomorfismo entre la cantidad y las magnitudes de las propiedades a medir.
 
Esta postura ya había sido cuestionada por Bertrand Russell, ya que llevando estas consideraciones a último término, muchas de las medidas de la física tampoco entrarían dentro de los axiomas de Hölder.
 
Aproximación clásica.
 
La medición en psicología sufrió una autentica revolución entre 1946 y 1951 cuando Stevens elimina la restricción de que los números asignados como medida tengan que obedecer necesariamente leyes de cantidad, se abre así la posibilidad a otros tipos de escalas.
 
Para Stevens la medición es la asignación de números a objetos según unas determinadas reglas. Al permitirse diferentes reglas, se extiende el sistema de Campbell y aparecen las hoy clásicas cuatro escalas, que tienen como característica que no tienen el por que utilizar todas las propiedades del sistema numérico para representar la realidad empírica. Estas escalas son:
 
1.      Escala nominal.- en ella los números son considerados como nombres. Es una variable de tipo discreto. Ejemplo: asignamos cero a las mujeres y uno a los hombres.
2.      Escala ordinal.- se tiene en cuenta un orden. Diferencias iguales no implican diferencias idénticas. Se trata de variables de tipo discreto. Ejemplo: Podemos así asignar un 1, a un cabo, un 2 a un sargento, y un 3 a un capitán.
3.      Escala de intervalo.- los objetos son asignados a números de tal modo, que unas diferencias iguales entre los números, reflejen diferencias idénticas en las cuantías de los atributos que se han medido. No existe el cero absoluto, por lo que el cero forma parte de la escala. Se trata por tanto de variables de tipo continuo. Ejemplo: la temperatura o la hora del día.
4.      Escala de razón.- los números tienen todas las propiedades de la escala de intervalo y, además, contamos con un punto cero absoluto de la escala. Una puntuación cero indica la ausencia de la propiedad que se mide, en este caso el cero no forma parte de la escala de medida. Se trata por tanto de variables de tipo continuo. Ejemplo: la altura, el peso, el tiempo, la velocidad, etc.
 
Tras la propuesta de Stevens surgen numerosas escalas como la de Coombs, Torgerson, etc., pues no hay el por que limitarse a las propiedades de las cuatro mencionadas.
 
Enfoque representacional.
 
Tanto Campbell como Stevens hacen un análisis teórico de la medición que se mueve dentro del marco clásico, ya que para Campbell lo esencial son las relaciones empíricas, y para Stevens lo esencial son las propiedades de la escala, para ambos los sistemas empírico y formal se relacionan de manera axiomática.
 
El nuevo enfoque representacional sobre la teoría de la medición que aparece en los años 60 se caracteriza fundamentalmente por reconocer explícitamente el papel que juega la teoría en la medición, pasando esta a formar parte de la propia teoría. Medir es construir un modelo de una realidad existente en el mundo, por tanto como cualquier otra modelización, implica establecer correspondencias entre el sistema relacional empírico (el fenómeno tal cual) y el sistema relacional formal (el modelo) de tal modo que se puede decir que uno representa al otro, si el modelo es numérico entonces la representación se denomina medición. En este contexto los problemas de la medición no son otros que los problemas científicos generales para establecer modelos de la realidad.
 
Aunque este interesante enfoque es dominante entre los teóricos de la ciencia, su influencia en la psicología tanto en la teórica como en la aplicada ha sido escasa.
 
Resumen del artículo:
LA MEDICIÓN DE LO PSICOLÓGICO
José Muñiz
Universidad de Oviedo

 

Volver atrás