CLASIFICACIÓN NEAREST NEIGHBORS
Enviado por Adela Calderon Gallo • 20 de Junio de 2021 • Informe • 1.316 Palabras (6 Páginas) • 87 Visitas
[pic 1][pic 2]
[pic 3]
CLASIFICACIÓN NEAREST NEIGHBORS
[pic 4]
INTEGRANTES:
- Bejarano Gálvez Juan Edmundo
- Calderon Gallo Adela Martha
- Huamán Calderón Jean Pieer Arturo
CURSO: Inteligencia Artificial y Robótica
GRUPO: A
FECHA DE ENTREGA: 08/06/2021.
Lima, Perú
ÍNDICE
1. INTRODUCCIÓN 3
2. OBJETIVO 3
3. EXPLICACIÓN DEL ALGORITMO Y DEL CONJUNTO DE DATOS DE ENTRENAMIENTO Y PRUEBA 3
4. EJEMPLO Y EXPLICACIÓN DE PROGRAMACIÓN USANDO EL ALGORITMO 5
5. RESULTADOS Y ANÁLISIS 8
6. APLICACIONES DE ESTE TIPO DE ALGORITMO 8
7. CONCLUSIONES 9
8. FUENTES DE INFORMACIÓN 9
INTRODUCCIÓN
K-NN es un algoritmo basado en instancia de tipo supervisado ya que cuenta con datos de entrenamiento. Puede usarse para definir la clasificación de nuevas muestras o para predecir la regresión.
Este algoritmo es uno de los métodos más sencillos en su aplicación y a su vez es considerado un método perezoso puesto que no aprende del conjunto de entrenamiento de inmediato, sino que almacena el conjunto de datos y al momento de la clasificación es donde realiza la acción.
Por otro lado, debido al cálculo de la distancia su costo es alto ya que tendría que hacer el trabajo entre el nuevo punto con las muestras de entrenamiento.
OBJETIVO
El objetivo de la aplicación de un algoritmo K-NN es el poder asumir la similitud entre un nuevo caso o dato y los casos disponibles para colocar este nuevo caso en una de las categorías ya existentes de acuerdo con su distancia.
EXPLICACIÓN DEL ALGORITMO Y DEL CONJUNTO DE DATOS DE ENTRENAMIENTO Y PRUEBA
- Para explicar el algoritmo se tendrá en cuenta dos categorías, en este caso la Categoría A y Categoría B. Como se puede ver se tiene un punto entre estas dos categorías y no se sabe a cuál va a pertenecer. Para resolver este problema se necesitará un algoritmo K-NN donde se definirá el número de vecinos (K) y respecto a este se definirán los puntos más próximos para que lo reconozca como parte de esa clasificación.
[pic 5][pic 6]
- Para poder definir cuáles son los puntos más cercanos se aplicará la fórmula de la Distancia Euclidiana:[pic 7][pic 8]
- A partir de la formula aplicada las menores distancias entre el nuevo punto y las perteneciente a cada categoría serán escogidas de acuerdo con el número K (se recomienda siempre tomar a K=5). Por lo tanto, la categoría que tenga mas puntos cercanos al nuevo punto será la escogida para que lo reconozca como parte de. [pic 9]
- Debido a ello es que el nuevo punto al tener más puntos cercanos con la Categoría A se toma como parte de esta.[pic 10]
EJEMPLO Y EXPLICACIÓN DE PROGRAMACIÓN USANDO EL ALGORITMO
Necesitaremos tener instalado anaconda y usaremos Jupyter.
Usaremos el data set de iris que nos brinda cuatro atributos: ancho del pétalo, longitud del pétalo, ancho del sépalo y longitud del sépalo. El fin de nuestro algoritmo es predecir a que clase pertenece nuestras plantas, tenemos tres conjuntos de datos: iris setosa, iris-versicolor e iris- virginica.
- Importación de las librerías
[pic 11]
- Importación del conjunto de datos
[pic 12]
- Usaremos este comando para ver los datos que contiene nuestro conjunto de datos
[pic 13]
[pic 14]
- Procesamiento
[pic 15]
Con esto logramos dividir nuestro conjunto de datos en sus atributos y etiquetas
- Divisiones de Prueba
[pic 16]
Con eso dividiremos nuestro conjunto de datos en divisiones de entramiento y prueba, para que nuestro algoritmo se pueda probar con datos que no ha visto
- Escalado de Características
[pic 17]
A manera de realizar una buena práctica siempre es buena idea escalar las entidades para que se puedan escalar de manera uniforme.
- Entrenamiento y predicciones
[pic 18]
[pic 19]
- Evaluación del algoritmo
[pic 20]
Para logar hacer la evaluación una de las mejores maneras es usar una matriz de confusión, mostrando así los siguientes resultados
...