Artificial V
Maria MunevarSíntesis1 de Octubre de 2015
6.052 Palabras (25 Páginas)161 Visitas
Unidad 1: PREPOCESAMIENTO: Filtros, mejora de imgs, operaciones morfológicas. FILTROS: Suavizar la img (reducir las variaciones de intensidad entre píxeles vecinos) y Eliminar ruido (modificar aquellos píxeles cuyo nivel de intensidad es muy diferente al de sus vecinos). También Realzar la img (aumentar las variaciones de intensidad, allí donde se producen) y Detectar bordes (detectar aquellos píxeles donde se produce un cambio brusco en la función intensidad). F.Media: Es lineal. Asigna al pixel central la media de todos los pixeles incluidos en la ventana. La matriz de filtrado estaría compuesta por 1’s y el divisor sería el número total de elementos en la matriz. Es el más simple, intuitivo y fácil de implementar. Suaviza las imgs reduciendo la cantidad de variaciones de intensidad entre píxeles vecinos. Se visita cada píxel de la imagen y se reemplaza por la media de los píxeles vecinos. Se puede operar mediante convolución con una máscara determinada. Cuando el # de texel es impar, el valor del mismo se posiciona geométricamente exacto en el centro del texel en la nueva img; Si es par no pasa nada pero no se posiciona en el centro del texel en la nueva img sino que toma una posición de al lado. Desventajas: Bastante sensible a cambios locales, crea nuevas intensidades de grises que no aparecían en la img. F.media ponderada: los elementos de la matriz de filtrado no son todos 1s sino que se da más peso a uno de ellos, (generalmente el central) para obtener un resultado más parecido a la img original y evitar que aparezca borrosa. F.mediana: Este filtro NO lineal es mejor porque elimina ruido utilizando técnicas detección de bordes. También el 1er valor se crea y el segundo se escoge. Para calcular el nuevo valor de un píxel: - En una vecindad N ordenar los valores de intensidad de sus píxeles - Seleccionar el valor que se encuentra en el medio de la ordenación. Una mejor alternativa para ruidos sal y pimienta e impulso. Preserva mejor la información de los bordes. Tiene la ventaja de que el valor final del pixel es un valor real presente en la img y no un promedio, asi se reduce el efecto borroso que tienen las imgs que han sufrido un filtro de media. Es menos sensible a valores extremos. Normalización: Transformación lineal de la img para mejorar el contraste en dos diferentes formas, por ej. Una img en gris, la idea es separar los valores de intensidad para mejorar el contraste asi: 1. Lineal función y 2. No lineal función (ecualización) Linearización o ecualización es una forma de manipulación de histograma que reduce automáticamente el contraste en las áreas muy claras o muy oscuras de una imagen. También expande los niveles de gris a lo largo de todo intervalo. Consiste en una transformación no lineal que considera la distribución acumulativa de la imagen original para generar una img resultante cuyo histograma será aprox. Uniforme. El resultado de la ecualización maximiza el contraste de una img sin perder info de tipo estructural, conservando su entropía (info). Umbralización: valor mínimo de la intersección de las gaussianas. Busca un umbral óptimo que permita distinguir en una imagen los objetos del fondo de los objetos del primer plano, separar los objetos de la img obteniendo 2 niveles de grises en la img., todos los niveles de gris que se encuentren por encima del umbral se le asigna un nivel max. de blanco y al resto un valor 0 o negro. /Umbral global: 1 umbral/img. Se utiliza en imgs donde existe una clara diferencia entre objetos y entorno y cuando la iluminación es uniforme, es decir, se elige un valor umbral para toda la img. Este método es el más fácil de calcular pero tb es muy sensible a las pequeñas variaciones que pueden existir en la luminosidad de la img. Se basa en el histograma de la imagen. Emplea funciones de densidad de probabilidad (FDP). Umbral local: many umbral/img. Cuando el umbral a utilizar sea diferente en cada zona iluminada por una franja distinta, es decir se divide la img original en regiones y se establece un valor umbral para cada una de ellas, sin afectar la calidad. En comparación con el global, es menos sensible a las variaciones de luminosidad pero en las fronteras entre las regiones elegidas pueden aparecer desniveles visibles. Útiles cuando hay varios objetos en la img de distintos niveles de gris. y las condiciones de iluminación no son uniformes. Umbral dinámico: 1 umbral/pixel. Cuando se utiliza iluminación arbitraria que puede provocar en la img efectos de sombras reflejos, etc. Los umbrales a elegir deberán adaptarse a las condicione especiales que se producen en esas zonas de efectos especiales, es decir se define para cada pixel una zona vecina a la que se asigna un valor de umbral adecuado. Es muy estable frente a cambios de luminosidad localizados, pero la potencia de cálculo se incrementa mucho ya que para cada pixel se debe calcular un nuevo valor umbral. Quadtree: para codificar imágenes. Cada imagen se puede dividir en cuatro cuadrantes, y a su vez, cada cuadrante se puede dividir en otros cuatro sub-cuadrantes, etc. La imagen es representada por el nodo padre, mientras que los cuatro cuadrantes son representados por sus nodos hijos en un orden determinado. Mean moving thresholding: Operaciones morfológicas: método no lineal de simplificar imgs digitales basadas en la forma. Su objetivo es cuantificar estructuras geométricas. Los filtros están definidos por su kernel (no de convolución sino de un elemento estructurante). Simplifica los datos de una imagen, preservar características esenciales y eliminar aspectos irrelevantes. Teniendo en cuenta que la identificación y descomposición de objetos, la extracción de rasgos, la localización de defectos e incluso los defectos en líneas de ensamblaje están sumamente relacionados con las formas, es obvio el papel de la morfología matemática. Erosión: Efecto de encogimiento, contracción o reducción. Puede ser utilizado para eliminar islas menores en tamaño que el elemento estructurante. Útil para eliminar pequeños objetos. Sobre cada pixel de la img se superpone el origen del elemento estructurante. Si cada elemento no 0 de dicho elemento está contenido en la img, entonces el pixel de salida es puesto a 1. Se seleccionan los puntos para los cuales el núcleo se encuentra totalmente incluido en la imagen. Disminuye el tamaño de los objetos. Como pasaba en la dilatación, la cantidad y la forma en que se produce esta disminución depende del elemento estructural elegido. Eliminación detalles irrelevantes (en términos de tamaño) de una imagen binaria. Dilatación: el efecto básico de este operador en una img binaria es para agrandar gradualmente los límites de las regiones de los pixeles de primer plano. Asi las áreas de los pixeles de primer plano crecen en tamaño mientras que los agujeros dentro de esas regiones se hacen más pequeños. Relleno, expansión o crecimiento. Opera en con 2 datos de entrada: la img que de ser dilatada y el elemento estructurante (kernel, matriz pequeña). El elemento estructurante determina el efecto preciso de dilatación de la img de entrada. Elimina huecos rellenándolos, esquenas redondeadas. Aumenta el tamaño de un objeto. La cantidad y la forma en que aumenta el tamaño depende de la elección del elemento estructural. se seleccionan los puntos para los cuales el núcleo toca a algún punto de la imagen. Apertura: Reducir el ruido. Se obtiene por la erosión seguida de la dilatación. Su efecto es parecido al de la erosión ya que tiende a eliminar parte de los pixeles de los bordes de las regiones pero es menos destructivo que la erosión. El efecto es preservar las regiones que tienen una forma similar al elemento estructurante, mientras que va eliminando a todas las demás regiones de pixeles. Redondea las cosas, los bordes afilados desaparecen. Es decir, suaviza el contorno de un elemento, rompe uniones angostas y elimina salientes finas. Elimina objetos pequeños y se suavizan los contornos generados por la mala segmentación, dado que está compuesto por una operación de erosión seguida de una de dilatación. No siempre aplicar la erosión antes de la dilatación se obtiene la img original. Cierre: Se cierran los huecos y aperturas del tamaño del núcleo que presente el objeto, dado que está compuesto por una dilatación seguida de una erosión. Su efecto es similar al de dilatación ya que tiende a ampliar los límites de las regiones del objeto de en la img, pero es menos destructivo de la forma del contorno original. El efecto del operador es preservar las regiones del fondo que tengan una forma similar al elemento estructurante o que pueda contener completamente el elemento estructurante, mientras que va eliminado todas las demás regiones de pixeles del fondo. Suaviza contornos, une cortes en partes angostas y golfos largos y finos, elimina pequeños huecos y llena baches con los contornos.
Unidad 2: EXTRACCION DE CARACTERISTICAS: Extracción de características geométricas: Se ocupa de la detección y localización de entidades geométricas simples y complejas. Desde entidades simples como líneas y puntos hasta geometrías complejas como curvas y cuádricas. Borde: son transiciones entre dos regiones de niveles de gris significativamente distintos. Suministran una valiosa información sobre las fronteras de los objetos y puede ser utilizada para segmentar la imagen, reconocer objetos, etc. DETECCIÓN DE BORDE: Gradiente: El gradiente de una función continua f(x,y) es un vector y su magnitud expresa el ratio de cambio por unidad de distancia en la dirección del vector. El objetivo es detectar cambios en los niveles de gris que tienen lugar en zonas o regiones reducidas. Se fundamentan en que un borde existe sí hay una discontinuidad en la función de intensidad de la imagen, es decir, si la derivada de los valores de intensidad de la imagen es un máximo. La derivada de una señal continua proporciona las variaciones locales con respecto a la variable, de forma que el valor de la derivada es mayor cuanto más rápidas son estas variaciones. Sobel. Calculo del gradiente que se basa en la obtención de las derivadas parciales de cada uno de los pixeles de una img. Se destaca por tener un efecto de suavizado ya que típicamente los operadores derivativos tienden a incrementar el ruido. Se basa en el uso de las máscaras las cuales se aplican mediante una convolución espacial de forma que se va recorriendo la img pixel a pixel hasta que se genere una img de salida completa. Generalmente se usan dos mascaras 3x3. Calcula el gradiente de la intensidad de brillo de cada punto (pixel) dando la dirección del mayor incremento posible (de negro a blanco) además calcula el monto de cambio en esa dirección, es decir, devuelve un vector. El resultado muestra qué tan abruptamente o suavemente cambia una imagen en cada punto analizado, y a su vez que tanto un punto determinado representa un borde en la imagen y también la orientación a la que tiende ese borde. Consiste en una máscara de convolución 3x3 orientada al cómputo del gradiente. Canny: orientado a optimizar tres condiciones: error, localización y respuesta. Buena detección: para encontrsr todos los puntos posibles que pertencen, buena localización: si en el contorno real, el punto o pixe es localizado en la misma o en la posición original; la distancia entre la posición real y la localizada del borde se debe minimizar, y clara respuesta: tomar pixel por pixel que define la forma del objeto. Es un algoritmo de 4 pasos, el 1ro consiste en reducir ruido usando un filtro basado en Gauss. Aplica una máscara para suavizar la img (convoluciona con una gaussiana de dos dimensiones)-aplica un operador derivativo (sobel) para encontrar bordes-supresión de no máximos sobre los bordes encontrados. El algoritmo de Canny: 1 image smoothing: la imagen se suaviza mediante un filtro de Gauss con una desviación estándar especificado. La reducción de varianza produce más candidatos de bordes porque el smoothing aumenta 2 diferenciacion: El gradiente local y la dirección del borde se calculan en cada punto. Un punto de borde se define como un punto cuya fuerza es localmente máxima en la dirección del gradiente. 3. Supresion de no máximos: The edge points give rise to ridges in the gradient magnitude image. The algorithm then tracks along the top of these ridges and sets to zero all pixels that are not actually on the ridge top so as to give a thin line, a process known as nonmaximal suppression. The ridge pixels are the thresholded using thresholds, T1 and T2, with T1 < T2. Ridge pixels with values greater than T2 are said to be “strong” edge pixels and pixels between T1 and T2 “weak” edge pixels. 4. Edge thresholding (Histeresis): the algorithm performs edge linking by incorporating the weak pixels that are 8-connected to strong pixels. T2>T1 Pixel se mantiene si (is>T2) o si (>T1 y tiene un vecino >T2) Si se incrementa el umbral habrán mas candidatos a bordes. Detección de líneas. Transformada de Hough: Se puede usar para aislar las características de una forma en particular dentro de un a img. (detección de todo tipo de figuras rectas, circunferencias, elipses, etc.) Todos los puntos contenidos en la recta del espacio xy de la imagen se corresponde a una recta en el espacio de parámetros ab ab (Hough). Es decir a cada punto en el espacio xy de la imagen se corresponde a una recta en el espacio de parámetro ab y cada pinto en el espacio se corresponde con una recta en el espacio xy por lo tanto a cada punto de intersección entre rectas del espacio de parámetros representa una línea den la img. Su ventaja es que es tolerante a lagunas en descripciones de características de bordes y es relativamente poco afectada por ruido de imagen. Para la detección de líneas rectas se usan parámetros que describen dicha recta en coordenadas polares. Un detector de borde define solo donde están las características en una imagen. Mientras que Hough determina lo que son las características y cuantas de ella existen en la imagen. Es por eso que Hough necesita que un operador de detección para que le descriaba los bordes. Está orientado a la detección de líneas rectas basado en el criterio de que un grupo de puntos sobre una misma línea en la imagen da lugar a un conjunto de líneas rectas en el espacio Hough que intersecta en un punto que denota el parámetro de la línea recta en la imagen. Presenta una singuliridad para la líneas rectas con una pendiente infinita que luego es representado en coordenadas polares. Hough generalizada: se utiliza para la detección de un objeto de cualquier forma; consiste en elegir un punto de referencia dentro del objeto próximo al centro del mismo. Detección de esquinas: Las esquinas son puntos comunes de interés en una imagen, detección de esquinas es bueno para la obtención de tareas como el seguimiento y reconocimiento de objetos, especialmente para objetos tridimensionales a partir de imágenes bidimensionales. Detección de esquinas de Harris: Está orientado a la detección de la intersección de dos líneas en un punto en el que sus direcciones cambian para lo cual el gradiente de la img en ambas direcciones tiene una lata variación que puede ser usado para detectarlo. Se realiza mediante el cálculo de gradiente de cada píxel Harris utiliza una ventana circular Gaussiana, para la reducción de ruido. Harris se distingue entre los detectores de bordes y esquinas por su mayor precisión. Solo emplea derivadas de primer orden. Aplica supresión de no máximos para evitar respuestas múltiples alrededor de la misma esquina. Detección de esquinas de Susan: Significa smallest univalue segment assimilating nucleus. A todos los pixeles se les coloca una máscara circular y se comparan con el núcleo. El operador tiene una puntuación positiva, si el área es lo suficientemente pequeña, lo cual se puede encontrar con la supresión de no/máximos. Pasos: 1 coloca la máscara circular alrededor del pixel. 2 # de pixeles dentro de la máscara circular que tiene brillo similar al núcleo. 3 resta el tamaño USAN del umbral geométrico para producir una img de esquina. 4 supresión de no máximo para encontrar esquinas. Supone que dentro de una región circular relativamente pequeña (mascara circular), los pixeles que pertenecen a un objeto dado tendrán brillo relativamente uniforme. El algoritmo calcula el número de píxeles con brillo similar al píxel en el centro de la máscara (el núcleo de la máscara). Estos píxeles son llamados el USAN. 2.4 Detección de agujeros: pequeños agujeros son características importantes que pueden usarse para ubicar objetos complejos. Si son grandes y circular es la transformada Hough es útil. Si es de tamaño intermedio se usan histogramas laterales 2.4.1 Convolución: aplicando una máscara. 2.4.2 Histograma Lateral: lista de todos los objetos candidatos que se presentan en las intersecciones de las líneas horizontales y verticales correspondientes a los "hits" en los histogramas laterales. Implica la proyección de una imagen en dos o más ejes sumando las intensidades de los píxeles, y el uso de los histogramas resultantes para identificar los objetos en la imagen. No se limita al uso en imágenes binarias. Adaptado a la ubicación de los objetos redondos. Localiza eficiente de (1) los pequeños objetos redondos o huecos, y (2) los objetos que son bastante grandes, redondos, y algo borrosos o de poco contraste. 2.5 Extracción de círculos: Procedimiento basado en la Transformada Hough: 1. Localizar los bordes dentro de la imagen, 2. Perpendicular a cada píxel de contorno, 3. Definir algunos radios arbitrarios, 4. Mantiene las coordenadas de pixeles para cada radio. Un método típico está basado en la transformada de Hough comienza obteniendo el mapa de bordes de la imagen, la información obtenida se utiliza para deducir la ubicación de los centros (x, y) y los valores de los radios (r), por último se lleva a cabo la detección de máximos manteniendo coordenadas de pixel para cada radio. 2.6 Extracción de elipse: problema clave en muchas aplicaciones en el campo de visión por computador y reconocimiento de patrones. Vario enfoques: transformada de Hough. 2.7 Arbitrary Shapes Recognition: generalized Hough transform. Tenemos varias clases, y por tanto se debe ser capaz de caracterizar cada clase por algunas Propiedades del grupo de observaciones pasadas (training set). 2.7.1 Etapa de entrenamiento supervisada: escoger puntos arbitrarios dentro del objeto, para cada punto en el contorno se define una tabla donde index=B y training (rB, aB). Luego contar numero de apariciones de la coordenada (xi,yi) 2.7.2 Etapa de test: para cada punto en el contorno 1.perpendicular 2.computar angulo B, 3. aplicar ecuación (xi,yi), xi=x+rBi*cosaBi , yi=y+rBi*cosaBi 4. Contar el unmero de apariciones de la coordenada (xi,yi) 2.8 Curve Representation: (Chain code): Specifies the direction of each edge point along the contour. (1) Start at the first edge point and go clockwise around the contour. (2) The direction to the next edge point is specified using one of the four or eight quantized directions.
...