CATEGORIZACION DE VARIABLES.
Enviado por Jessica Cortéz • 19 de Octubre de 2016 • Apuntes • 2.293 Palabras (10 Páginas) • 1.753 Visitas
CATEGORIZACIÓN DE VARIABLES
Existen diferentes motivos por los que variables que siendo originalmente de tipo cuantitativo, son convertidas en clasificaciones cualitativas de tipo ordinal o incluso en un resultado de tipo dicotómico (con sólo dos valores posibles). La razón principal suele ser el intento de simplificar la interpretación de la variable en cuestión, de tal manera que la clasificación en categorías facilite la toma de decisiones.
La conversión de una variable cuantitativa en cualitativa se denomina categorización, este proceso se utiliza principalmente para:
- Dividir el rango de un atributo continuo en intervalos
- Ajustar las variables debido a que algunos algoritmos de clasificación solo aceptan atributos categóricos
- Reducir el tamaño de los datos
- Preparar para análisis posteriores
Algunos beneficios de la categorización son:
- Más fácil tratar a OUTLERS.
- Más fácil entender las relaciones lo que implica ganar conocimiento de la cartera.
- Mayor control del desarrollo, ya que formando grupos se obtiene una scorecard más entendible.
- Permite al usuario entender el comportamiento del riesgo lo que puede ayudar en el desarrollo de mejores estrategias.
Las variables categorizadas ofrecen varias ventajas como: ofrecer una clasificación simple de riesgo (“alto” y “bajo”, “presencia” y “ausencia”); ofrecen una interpretación más simple a través de las medidas de asociación utilizadas en los modelos estadísticos correspondientes, tales como odds ratio y riesgo relativo; permiten evitar el supuesto de linealidad implícito en los modelos estadísticos comunes para variables continuas y resumir los datos de manera más eficiente.1-2,8-12 Aunque resulta atractiva la utilización de un método sistemático para la elección de los puntos de corte, la categorización de una variable cuantitativa supone siempre una pérdida importante de información, y si además los puntos de corte se eligen en base a la información proporcionada por los propios datos del estudio puede dar lugar a que las conclusiones sean menos extrapolables a otras situaciones. Los métodos estadísticos para la determinación del punto de corte caen en dos grandes categorías: orientado a datos y orientado a resultados. Los métodos orientados a datos se basan en el cálculo de los cuartiles, mientras que los métodos orientados a resultados proporcionan un valor de punto de corte en correspondencia con la relación más significativa con los resultados.
METODO DE CATEGORIZACIÓN POR PERCENTILES
La elección del número y valores de los puntos de corte puede efectuarse de acuerdo a diferentes métodos. Un procedimiento muy empleado para la elección de los puntos de corte se basa en escoger los valores de los cuartiles o de percentiles específicos de la distribución de los datos en nuestro estudio. Este método se suele utilizar para fijar intervalos de referencia de pruebas analíticas a partir de una muestra representativa de la población
CALCULO DE CUANTILES
Se debe verificar que los datos siguen una distribución normal, sin embargo lo más frecuente es que los resultados de pruebas analíticas presenten distribuciones asimétricas, concentradas en el lado izquierdo y con una cola larga al lado derecho, por lo que será preciso realizar una transformación de los datos.
TRANSFORMACIÓN DE LOS DATOS
Las transformaciones √X, Ln(x) y 1/x comprimen los valores altos de los datos y expanden los bajos, por su parte si la concentración de datos está, en el lado de la derecha y la cola en la izquierda, se puede utilizar la transformación x², que comprime la escala para valores pequeños y la expande para valores altos. En todos los casos para los cálculos estadísticos basados en la teoría gaussiana, se utilizarán los valores transformados, pero después para la presentación de los resultados se efectuará la transformación inversa para presentarlos en su escala de medida natural.
CALCULOS DE MEDIA, PERCENTILES Y CUARTILES
Una vez comprobada la normalidad se suele estimar como punto de corte el valor m -2s (m = media; s = desviación estándar) en una muestra de controles. Un procedimiento muy empleado para fijar intervalos de referencia de pruebas analíticas, a partir de una muestra representativa de la población, se basa en seleccionar los valores de dos percentiles centrados en torno a la mediana de la distribución, concretamente los percentiles 2,5 y 97,5, que definen un intervalo de referencia del 95 %, tomando como puntos de corte los valores extremos del intervalo respectivamente.
Si el objetivo del estudio es determinar punto de corte para guiar la toma de decisiones, el cálculo de los percentiles de la distribución a partir de los valores de la muestra da lugar a estimaciones sesgadas si el tamaño de la muestra no es suficientemente grande, y en general sus valores pueden variar en gran medida de una muestra a otra, por lo que se prefiere realizar su cálculo a partir de un modelo de distribución de probabilidad.
TERCER CUARTIL
De modo que, se propone, una vez calculada la media y la desviación estándar, estimar el tercer cuartil consultando en una tabla de probabilidad de la distribución normal el valor para el cual Pr (x ≤ z) = 0,75, que corresponde a 0,674 por lo que se estima dicho cuartil como m +0,674s
JI CUADRADO Y EL ODD RATIO EN LA TABLA DE CONTINGENCIA 2x2
En la dicotomización de una variable, frente a la elección como punto de corte de un percentil, existe una alternativa sistemática que nos puede ayudar en la decisión. Consiste en determinar, para todos los valores de la variable X que se desea categorizar, el valor que mejor separa los perfiles de acuerdo a la prueba de asociación del Ji-Cuadrado. Se confeccionará una tabla de contingencia 2x2 para cada valor de la variable continua X y se calculará el indicador Ji-Cuadrado y el Odd Ratio (OR) para cada tabla.
[pic 1]
X es la variable continua dicotomizada, B es un valor cualquiera de la variable X, Y es la variable respuesta de tipo binaria (0=”GOODS”, 1=”BADS”). Se toma como punto de corte candidato el valor B para el cual siendo Ji-Cuadrado máximo, maximice el OR. Para evaluar los posibles puntos de corte se recomienda no considerar los valores más extremos de la variable a ambos lados, excluyendo entonces entre el 5 % o el 10 % de ellos en cada extremo. Asimismo debido al aumento de la probabilidad de error de tipo I, que se produce al efectuar comparaciones múltiples, es también aconsejable utilizar alguna fórmula de ajuste para el valor de probabilidad mínimo obtenido. Altman et al. Proponen una fórmula de corrección muy sencilla para el caso de que se excluya el 5 % de los valores más extremos de X a ambos lados (percentiles 5 y 95): p = −3,13 p_min(1 + 1,65 ln(p_min) ), y otra para cuando se excluye el 10% (percentiles 10 y 90): p = −1,63 p_min(1 + 2,35 ln(p_min)) donde p_min es el valor de probabilidad mínimo obtenido y p es el valor corregido
...