MÉTRICAS DE DISTANCIA - SIMILITUD

MÉTRICAS DE DISTANCIA - SIMILITUD

INTRODUCCIÓN

II. MARCO TEÓRICO

III. EJEMPLOS

3.1. EJEMPLO DE DISTANCIA EUCLÍDEA

3.2. EJEMPLO DE DISTANCIA MANHATTAN

INTRODUCCIÓN

II. MARCO TEÓRICO

DISTANCIA EUCLÍDEA

DISTANCIA MANHATTAN

DISTANCIA DE HAMMING

DISTANCIA DE LEVENSHTEIN

SIMILITUD DE PEARSON

III. EJEMPLOS

3.1. EJEMPLO DE DISTANCIA EUCLÍDEA

3.2. EJEMPLO DE DISTANCIA MANHATTAN

Juan GutierresInforme19 de Mayo de 2018

1.373 Palabras (6 Páginas)321 Visitas

Página 1 de 6

[pic 1]

ESCUELA SUPERIOR POLITÉCNICA AGROPECUARIA DE MANABÍ MANUEL FÉLIX LÓPEZ

CARRERA DE COMPUTACIÓN

SEMESTRE SÉPTIMO PERÍODO ABR. – SEP. /2018

INTELIGENCIA ARTIFICIAL II.

TEMA:

MÉTRICAS DE DISTANCIA/SIMILITUD

AUTOR:

JUAN P. GUTIERRES SÁNCHEZ

FACILITADOR:

DR. JORGE A. PÁRRAGA ÁLAVA

CALCETA, MAYO 2018

Las métricas de distancia definen una distancia entre cada par de elementos de un conjunto, nos ayudan a determinar la equivalencia o similitud entre dos objetos basándose en las características que estos presentan, tienen muchos casos de uso, desde determinar distancias entre ciudades hasta la detección y corrección de errores.

Una métrica de similitud es una función matemática que asocia un valor numérico entre un par de descriptores, tal valor numérico es conocido con el nombre de distancia (Briñez et all. 2013).

Exististe varias métricas de distancia/similitud, en el presente informe se presentarán las mas conocidas, analizando sus casos de uso y dando a conocer ejemplos prácticos de cada una de ellas.

DISTANCIA EUCLÍDEA

Se trata de una función no negativa usada en diversos contextos para calcular la distancia entre dos puntos, primero en el plano y luego en el espacio.

Es recomendable cuando las variables sean homogéneas y estén medidas en unidades similares y/o cuando se desconozca la matriz de varianzas (Universitat de Valencia [UV], 2009).

La medida de distancia más comúnmente utilizada para las variables cuantitativas es la distancia euclídea. Esto mide principalmente la raíz de las diferencias cuadradas entre las coordenadas de un par de objetos (Bandyopadhyay y Saha, 2013).

La distancia euclidiana proporciona la distancia desde cada celda en el ráster hasta el origen más cercano. Un caso de uso podría ser: Determinar la distancia a la ciudad más cercana.

[pic 2]

Imágen 1: Fórmula de Distancia Euclídea (Beyoca, 2011)

DISTANCIA MANHATTAN

La distancia de Manhattan o métrica city-block o ciudad, calculada como la suma de las diferencias absolutas entre unidades para cada variable. Se utiliza para variables cuantitativas.

Es menos sensible a valores muy grandes o aberrantes, ya que es función de diferencias absolutas en lugar de diferencias al cuadrado, adicionalmente cada variable puede ser estandarizada por su rango (Casanoves et al. 2011).

[pic 3]

Imágen 2: Fórmula de Distancia Manhattan (Beyoca, 2011)

DISTANCIA DE HAMMING

Es la distancia mínima entre dos cadenas de caracteres, donde la distancia es 1 por cada elemento diferente y 0 por cada elemento idéntico en la cadena.

Se utiliza en la detección y corrección de errores que se producen en la transmisión de códigos binarios, la palabra de código se conforma por los bits de comprobación y los bits de información. El sistema de códigos Hamming es muy utilizado en elementos como memorias y en comunicaciones en las tramas de Wifi (Cisneros, 2012).

DISTANCIA DE LEVENSHTEIN

También conocida como distancia de edición, es un algoritmo tal que, dadas dos cadenas, devuelve un entero que da una idea de la distancia (o parecido) entre ellas. La definición de distancia es el mínimo número de operaciones que hay que realizar para transformar una cadena en la otra (Rodríguez, 2010).

Algunas aplicaciones en la que se puede usar la distancia de edición son:

Sistemas para la revisión de faltas ortográficas automatizada en textos.
Sistemas de reconocimiento de voz
Sistemas para el análisis de ADN.
Sistemas para la detección de plagios.

SIMILITUD DE PEARSON

El coeficiente de correlación de Pearson se utiliza, en ocasiones, preferentemente con datos cuantitativos y utilizando el algoritmo de distancia mínima (Universitat de Valencia [UV], 2009).

Las correlaciones Pearson van entre -1.00 (que significa que dos actores tienen exactamente los mismos lazos opuestos entre sí), a través de cero (que implica que el conocimiento de los vínculos de un actor a un tercero no nos ayuda a estimar los lazos de otro actor con ese tercero) a +1 (implicando que los dos actores tienen exactamente el mismo par de vínculos con otros, una equivalencia estructural perfecta). (Hanneman, 2005.).

Las correlaciones Pearson se usan a menudo para sumarizar equivalencia estructural pareada, porque el estadístico "r" se usa frecuentemente en estadística social. Si los datos no son verdaderamente nominales o si la densidad es muy alta o muy baja, las correlaciones pueden ser problemáticas y deberían examinarse los aciertos. Diferentes estadísticos usualmente entregan las mismas respuestas (Hanneman, 2005.).

Suponga que tiene cuatro tipos de bebidas alcohólicas con dos atributos (Volumen en ml y Grados de alcohol). Calcule la distancia / similitud entre dichas medicinas a través de la métrica euclídea.

La matriz de Distancia Euclídea es:


	Cerveza	Whisky	Vodka	Tequila
Cerveza	0	35,8	30,8	40,8
Whisky	-	0	5	5
Vodka	-	-	0	10
Tequila	-	-	-	0

Se muestra la tabla con la calificación (1 a 10 puntos) que han obtenido cinco estudiantes del séptimo semestre de la Carrera de Computación. Se requiere medir la distancia / similitud de los puntajes de las materias a través de la métrica manhattan.

Materia	Juan	María	Joselin	Cinthya	Ronaldo
Practicas	8	9	7	8	7
IA	9	10	8,5	8	8
PW2	10	8,5	9	8,5	7
Ing. de Soft.	7	8	8	6,5	8,5
Simulación	8,5	9	9	8	9

...

Descargar como (para miembros actualizados) txt (12 Kb) pdf (204 Kb) docx (397 Kb)

Leer 5 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com

Grados de Alcohol