Psicologia
Enviado por dayyannaa • 2 de Marzo de 2015 • 2.116 Palabras (9 Páginas) • 152 Visitas
1.6. Análisis y Selección de Ítems
Siguiendo a Tornimbeni et al. (2004) podemos afirmar que existen varios procedimientos de análisis de los ítems de una prueba preliminar. Todos ellos se ocupan esencialmente de: a) la distribución de los puntajes de cada ítem y b) la relación estadística entre el ítem y la prueba total. Tal como lo plantean los autores mencionados, el primer paso para obtener información psicométrica sobre los items de pruebas homogéneas consiste en administrar los elementos preliminares a una muestra amplia (superior a 300 sujetos) que sea representativa de la población que se quiere evaluar en la prueba final. Para descartar los ítems que no funcionan bien debe contarse con una cantidad de sujetos por lo menos cinco veces superior al número inicial de reactivos y aproximadamente el doble de ítem de los que aparecerán en la versión definitiva de la medida. La determinación del numero muestral necesario para realizar análisis de ítem y los estudios de validez y confiabilidad de un test es un punto conflictivo debido a las dificultades existentes para seleccionar participantes en
37
determinados contextos de aplicación de la psicología o con determinadas poblaciones. El ideal, coincidiendo con los autores mencionados, ronda entre los 300 a 400 sujetos para estudios correlacionales pero este número no es condición suficiente de buenos índices psicométricos (por ejemplo un alfa superior a .80). Existen otros factores intervinientes como el entrenamiento de los evaluadores o la heterogeneidad de la muestra que pueden incrementar los valores de confiabilidad y validez y compensar tamaños maestrales inferiores al estándar mencionado (Pajares, Hartley y Valiente, 2001).
El procedimiento más empleado en el análisis inicial de reactivos es la correlación de cada uno de ellos con el puntaje total de la prueba. Si el test consta de diversas subescalas, cada ítem debe correlacionarse con el puntaje total de esa parte, no con el puntaje total de la prueba. El estadístico usual es el producto momento de Pearson ( r ) o correlación punto biserial si se trata de ítem dicotómicos (si/no, verdadero/falso). Los ítem con correlaciones no significativas o bajas (inferiores a .30) se eliminan o se revisan y se conservan los menos ambiguos, ni fáciles ni dificultosos y más relacionados con el constructo (Nunnally y Bernstein, 1995). Cuando hay items con varias alternativas de respuesta es aconsejable obtener las correlaciones de cada una de las alternativas con el puntaje de la prueba total, sobre todo en aquellos de correlación baja o negativa. Los mejores distractores serán aquellos que obtengan correlaciones negativas con los puntajes de la prueba, es decir, que sean seleccionados por quienes tienen puntajes bajos en la prueba (Herrera Rojas, 1993).
En las pruebas de habilidades (ítems dicotómicos) es importante conocer el índice de dificultad de cada ítem, o sea el porcentaje de personas que responden acertadamente al reactivo analizado. El índice de dificultad de los reactivos tiene un rango de 0 a 1 y se simboliza como p. Un reactivo cuyo p es 0 está indicando que ningún sujeto contestó correctamente y un reactivo con p igual a 1 es aquel que todos los sujetos respondieron correctamente. El valor óptimo de p para un reactivo depende de varios factores, tales como los objetivos de la prueba y la cantidad de alternativas de respuesta. Si el propósito del test es identificar sólo un porcentaje reducido de los mejores postulantes para un empleo, por ejemplo, entonces los items de la prueba deberían ser lo suficientemente difíciles y tener un valor medio-bajo de p. Para pruebas convencionales de habilidades se recomiendan valores p entre .20 y .80 (Aiken, 2003)
La proporción de acierto de un ítem es un estimador adecuado de la dificultad de un ítem. Sin embargo, esta información hay que complementarla con la distribución de frecuencias en todas las opciones de respuesta (en elecciones múltiples) y las
38
estimaciones de proporción para diferentes rangos de puntuación en la prueba total. En escalas con formatos tipo Likert, los reactivos donde la mayoría de los evaluados responde con las máximas o mínimas categorías (p.ej. 1 o 10) indican que tales items carecen de suficiente dificultad (atractivo) o son excesivamente difíciles para los evaluados. Con la misma lógica deben eliminarse los reactivos donde la mayoría de los sujetos de la muestra obtiene el mismo puntaje puesto que tales elementos de prueba no discriminan entre los evaluados (Bandura, 2001)
Las pruebas referidas a criterios, como explica Martínez Arias (1995) se evalúan y seleccionan los items de una forma particular, diferente a las pruebas referidas a normas. El análisis se realiza comparando los resultados de un grupo antes de aplicar un programa de aprendizaje y después del mismo, o comparando dos grupos similares, uno de ellos, que recibió capacitación y el otro no. Al calcular el índice de dificultad los resultados esperados son, items con alta dificultad para los grupos que no han pasado por el proceso de aprendizaje, y baja dificultad para los que han sido sometidos al proceso de instrucción. En cuanto al índice de discriminación, obtenido por la comparación entre grupos, se espera máxima discriminación entre los grupos y mínima entre los individuos de un mismo grupo.
Una vez realizada la aplicación de la prueba piloto y habiendo obtenido resultados estadísticos sobre el comportamiento de cada ítem se podrán tomar decisiones sobre cuáles de ellos deben integrar la forma final del test y hacer estimaciones de su confiabilidad y validez mediante algunos de los procedimientos ya conocidos.
La lógica de este proceso de análisis es obtener pruebas lo más homogéneas posibles, es decir, donde todos los reactivos se relacionen con un núcleo común de medición que es el constructo o dominio, información que se obtiene aplicando a los reactivos de una escala el coeficiente alfa de Cronbach, por ejemplo. El conjunto de ítems seleccionados después de examinar la correlación ítem-total de cada uno, es analizado con este procedimiento de homogeneidad (alfa o KR-20) y debemos asegurarnos valores de.80 o superiores. Los ítems con correlaciones bajas con el puntaje total se pueden remover para incrementar el valor del alfa. Si bien un coeficiente alfa elevado es una condición necesaria de unidimensionalidad esta propiedad solo es garantizada por el análisis factorial (Goldberg, 1999)
El paso decisivo para asegurar la unidimensionalidad de cualquier escala homogénea y el primer paso en un conjunto inicial de ítem heterogéneos (sin un explícito marco teórico previo) es el análisis factorial (Martínez Arias, 1995). El análisis factorial es esencialmente un método para agrupar las variables que se correlacionan
...