Analisis Discriminante
vivitc8920 de Abril de 2013
3.462 Palabras (14 Páginas)574 Visitas
Análisis discriminante
Anny Julieth Valencia1*, Leydi Johanna Velasco2**
1 ESCUELA DE INGENIERÍA INDUSTRIAL Y ESTADÍSTICA, FACULTAD DE INGENIERÍAS, UNIVERSIDAD DEL VALLE, CALI, COLOMBIA
......................................
Introducción
El análisis discriminante se utiliza para clasificar a distintos individuos en grupos, o poblaciones, alternativos a partir de los valores de un conjunto de variables sobre los individuos a los que se pretende clasificar. Cada individuo puede pertenecer a un solo grupo. La pertenencia a un grupo u otro se introduce en el análisis mediante una variable categórica que toma tantos valores como grupos existentes. En el análisis discriminante esta variable juega el papel de variable dependiente.
A las variables que se utilizan para realizar la clasificación de los individuos las denominaremos variables clasificadoras. También se emplean las denominaciones de variables criterio o variables predictoras, o la denominación genérica de variables explicativas. En el análisis discriminante, la información de las variables clasificadoras, se sintetiza en funciones, denominadas funciones discriminantes, que son las que finalmente se utilizan en el proceso de clasificación.
El análisis discriminante se aplica para fines explicativos y predictivos. En la utilización explicativa se trata de determinar la contribución de cada variable clasificadora a la clasificación correcta de cada uno de los individuos. En una aplicación predictiva, se trata de determinar el grupo al que pertenece un individuo para el que se conocen los valores que toman las variables clasificadoras.
Caso práctico. Análisis de préstamos fallidos en el banco de Ademuz.
Cuando un banco concede un préstamo personal a un cliente se enfrenta a la doble posibilidad de que sea reintegrado o de que no lo sea. En este último caso el préstamo será finalmente calificado como fallido. Así pues, se pueden considerar dos grupos de clientes: Clientes cumplidores y clientes fallidos. Como es obvio, si el banco conociera de antemano que una persona va a resultar fallido le concedería el préstamo en ningún caso. Sin embargo, puede utilizar la información existente en el banco sobre los préstamos concedidos en el pasado en la concesión de préstamos que después puedan resultar fallidos. Así, en los archivos del banco seguramente existirá información de las características de las personas a las que a las que ha concedido un préstamo, ya que el cliente, cuando realiza una petición de préstamo, debe facilitar datos acerca de cuestiones tales como ingresos, edad, sexo, situación familiar, antigüedad en su puesto de trabajo, régimen de tendencia de la vivienda, etc.
Es muy posible que los clientes cumplidores tengan características distintas a las de los clientes fallidos. Utilizando estas características se trata de establecer funciones que clasifiquen lo más correctamente posible a los clientes a los que se les ha concedido un préstamo en cumplidores y fallidos (finalidad explicativa). Posteriormente, sus funciones se emplearan, en el caso de que haya realizado adecuadamente dicha clasificación, para determinar si se conceden o no los préstamos a futuros solicitantes (Finalidad Predictiva).
En el banco de Ademuz se tiene información de 16 clientes a los cuales se les concedió un préstamo de los llamados instantáneos por un aporte de 1 millón de pesetas cada uno. Una vez pasados tres años desde la concesión de los préstamos había 8 clientes, de ese grupo de 16, que fueron clasificados como fallidos, mientras que los otros los otros 8 clientes son cumplidores, ya que reintegraron el préstamo. Para cada uno de los clientes se dispone la información sobre su patrimonio neto y deudas pendientes que corresponden al momento de la solicitud.
En el cuadro 1. Se ha reflejado esta información, así como la indicación de si resultaron o no fallidos.
Cuadro 1: Datos sobre características de préstamo concedidas en el banco de ADEMUZ (datos en millones de pesetas)
Fallidos No fallidos
Clientes Patrimonio neto Deudas pendientes Clientes Patrimonio neto Deudas pendientes
1
2
3
4
5
6
7
8 1.3
3.7
5.0
5.9
7.1
4.0
7.9
5.1 4.1
6.9
3.0
6.5
5.4
2.7
7.6
3.8 9
10
11
12
13
14
15
16 5.2
9.8
9.0
12.0
6.3
8.7
11.1
9.9 1.0
4.2
4.8
2.0
5.2
1.1
4.1
1.6
Total 40.0 40.0 Total 72.0 24.0
Media 5.0 5.0 Media 9.0 3.0
Por otra parte, en la mesa del director del banco hay dos nuevas solicitudes de un préstamo instantáneo. El primer solicitante dispone de un patrimonio neto de 10.1 (millones de pesetas), con unas deudas pendientes de 6.8 (millones de pesetas). Para el segundo solicitante los valores de estas variables son 9.7 y 2.2 respectivamente.
¿Cómo se realizaría en este caso la aplicación del análisis discriminante?
Con la información sobre las variables de patrimonio neto y deudas pendientes se trata de construir una función discriminante que clasifique con los menores errores posibles a los clientes en dos grupos: fallidos y no fallidos. Si se obtienen buenos resultados en esta clasificación, en un paso posterior se utilizara la función discriminante construida para determinar si se concede si se concede el préstamo a los dos nuevos solicitantes. De esta forma, si a un nuevo solicitante se le clasifica a priori como fallido, no se le concederá el préstamo solicitado.
Clasificación con Dos Grupos
Clasificación con dos grupos y una variable clasificadora
Se va a considerar el supuesto más sencillo en el que existen dos poblaciones o grupos, a los que se denominan I y II, y una sola variable clasificadora, a la que se denomina X. el problema que se plantea es el de clasificar a cada individuo en el grupo correcto atendiendo al valor de la variable clasificadora.
En la figura 1. Se han representado unas hipotéticas funciones de frecuencias de la variable X correspondiente a dos grupos. Tanto la configuración de distribución de frecuencias como la varianza son las mismas en los dos grupos, es decir, los dos grupos coinciden en todo excepto en su media. Como puede verse, las distribuciones de frecuencias, que se han representado de forma estilizada, están entrelazadas en el sentido de que se solapan. Precisamente, al existir solapamiento se comenten o pueden cometerse errores de clasificación. De no existir tal solapamiento el problema de clasificar a cada individuo en uno de los dos grupos seria trivial.
Dados los supuestos establecidos y denominados (x₁) ̅ y (x₂) ̅ a las medias de los grupos I y II respectivamente, el punto de intersección de las dos funciones corresponde al valor medio (x₁) ̅ y (x₂) ̅. Es decir, este punto medio, al que denominaremos c, es igual a
C = (x ̅_I+x ̅_II)/2 (1)
Figura 1: Función de distribución de frecuencias hipotéticas de dos grupos
A las vista de la figura 1, parece tomar el siguiente criterio para clasificar a un individuo i :
Si Xi < C, se clasifica al individuo i en el grupo I
Si Xi > C, se clasifica al individuo i en el grupo II
Por la función que cumple, designaremos a C como el punto de corte discrimínate, o simplemente como el punto de corte, en el sentido de que es el punto que se toma como referencia para clasificar a un individuo en uno u otro grupo.
Aplicando este criterio se cometen errores de clasificación, como puede comprobarse en la figura. Así, el área tramada existente a la derecha de c recoge individuos pertenecientes al grupo I pero en los que Xi > C; es decir, son individuos del grupo I incorrectamente clasificados en el grupo II. Recíprocamente, el área de trama más suave existente a la izquierda de C recoge individuos pertenecientes al Grupo II pero en los que Xi> C, es decir, son individuos del grupo II incorrectamente clasificados en el grupo I.
Análisis práctico (Análisis de préstamos fallidos en el banco de Ademuz).
Como variable clasificadora se utilizara el patrimonio neto de los clientes, al que se denominara X₁. el grupo de clientes fallidos será el I, mientras que el II corresponderá a los no fallidos.
Las medias muéstrales de los grupos son las siguientes: x ̅_(1,I)=5, x ̅_(1,II)=9
Aplicando (1) a este caso concreto se obtiene el siguiente valor para el punto de corte:
C₁ = (x ̅_(1,I)+x ̅_(1,II))/2 = (5+9)/2 = 7
Por lo tanto, este punto de corte C₁ se utilizara para clasificar a los clientes a los que les ha concedido préstamos en el banco Ademuz. Si el patrimonio neto es menor que 7 (millones de pesetas) se clasifica como fallido (I), mientras que se clasifica como fallido (II) si el patrimonio es mayor que esa cifra. Con este criterio se observa cuantos clientes se clasificaron incorrectamente en el banco.
Clasificado como
Situación real Fallidos No fallidos Total
Fallidos
No fallidos 6 (75%)
2 (25%) 2 (25%)
6 (75%) 8 (100%)
8 (100%)
Cuadro 2: porcentaje de clasificaciones correctas e incorrectas utilizando la variable patrimonio neto.
Del total de 16 clientes se ha clasificado correctamente a 10, lo que equivale a un 75% del total. En concreto, se ha clasificado incorrectamente como no fallidos a los clientes 5 y 7. Por el contrario,
...