Procesadores de lenguaje

Ensayo6 de Noviembre de 2012

1.521 Palabras (7 Páginas)488 Visitas

Página 1 de 7

4o Ingeniera Informatica

II26 Procesadores de lenguaje

Analizador lexico

Esquema del tema

1. Introduccion

2. Repaso de conceptos de lenguajes formales

3. Categoras lexicas

4. Especicacion de las categoras lexicas

5. Automatas de estados nitos

6. Implementacion del analizador lexico

7. Introduccion a un generador automatico de analizadores lexicos:

8. Algunas aplicaciones de los analizadores lexicos

9. Resumen del tema

1. Introduccion

Vimos que la primera fase del analisis es el analisis lexico. El principal objetivo del analizador

lexico es leer el

ujo de caracteres de entrada y transformarlo en una secuencia de componentes

lexicos que utilizara el analizador sintactico.

Al tiempo que realiza esta funcion, el analizador lexico se ocupa de ciertas labores de \limpieza".

Entre ellas esta eliminar los blancos o los comentarios. Tambien se ocupa de los problemas que

pueden surgir por los distintos juegos de caracteres o si el lenguaje no distingue mayusculas y

minusculas.

Para reducir la complejidad, los posibles smbolos se agrupan en lo que llamaremos categoras

lexicas. Tendremos que especicar que elementos componen estas categoras, para lo que emplearemos

expresiones regulares. Tambien sera necesario determinar si una cadena pertenece o no a

una categora, lo que se puede hacer ecientemente mediante automatas de estados nitos.

2. Repaso de conceptos de lenguajes formales

2.1. Por que utilizamos lenguajes formales

Como acabamos de comentar, para transformar la secuencia de caracteres de entrada en una

secuencia de componentes lexicos utilizamos automatas de estados nitos. Sin embargo, estos

automatas los especicaremos utilizando expresiones regulares. Tanto unos como otras son ejemplos

de utilizacion de la teora de lenguajes formales. Es natural preguntarse si es necesario dar este

rodeo. Existen varias razones que aconsejan hacerlo.

La primera razon para emplear herramientas formales es que nos permiten expresarnos con

precision y, generalmente, de forma breve. Por ejemplo, para describir la categora de los enteros,

podemos intentar utilizar el castellano y decir algo as como que son \secuencias de dgitos". Pero

entonces no queda claro cuales son esos dgitos (por ejemplo, en octal, los dgitos van del cero al

siete). Cambiamos entonces a \secuencias de dgitos, cada uno de los cuales puede ser un 0, un 1,

un 2, un 3, un 4, un 5, un 6, un 7, un 8 o un 9". Todava queda otro problema mas, >valen las

cadenas vacas? Normalmente no, as que llegamos a \un numero entero consiste en una secuencia

de uno o mas dgitos, cada uno de los cuales puede ser un 0, un 1, un 2, un 3, un 4, un 5, un 6,

un 7, un 8 o un 9". Sin embargo, con expresiones regulares, podemos decir lo mismo con [0{9]+.

2 II26 Procesadores de lenguaje

Otra ventaja de las herramientas formales, es que nos permiten razonar sobre la correccion

de nuestros dise~nos y permiten conocer los lmites de lo que podemos hacer. Por ejemplo, el

lema de bombeo nos permite saber que no podremos utilizar expresiones regulares para modelar

componentes lexicos que tengan el mismo numero de parentesis abiertos que cerrados, por lo que

averiguar si algo esta bien parentizado sera tarea del analizador sintactico.

Como ultima ventaja del empleo de lenguajes formales, comentaremos la existencia de herramientas

para automatizar la implementacion. Por ejemplo, el paso de las expresiones regulares

a un programa que las reconozca se puede hacer mediante un generador de analizadores lexicos

como flex.

2.2. Alfabetos y lenguajes

Al trabajar con lenguajes formales, utilizaremos una serie de conceptos basicos. En primer

lugar, un alfabeto es un conjunto nito de smbolos. No nos interesa la naturaleza de los smbolos.

Dependiendo de la aplicacion que tengamos en mente, estos pueden ser: caracteres, como

al especicar el analizador lexico; letras o palabras, si queremos trabajar con lenguaje natural;

categoras lexicas, al especicar el analizador sintactico; direcciones en el plano, al hacer OCR,

etc. Justamente esta abstraccion es lo que hace que los lenguajes formales se puedan aplicar ampliamente.

Una cadena es una secuencia nita de smbolos del alfabeto. Nuevamente, no estamos interesados

en la naturaleza precisa de las cadenas. Si estamos especicando el analizador lexico, podemos

ver la entrada como una cadena; si trabajamos con lenguaje natural, la cadena puede ser una

pregunta a una base de datos; para el analizador sintactico, una cadena es el programa una vez

pasado por el analizador lexico; en OCR, una cadena es la descripcion de una letra manuscrita,

etc.

La cadena de longitud cero se denomina cadena vaca y se denota con . Para referirnos al

conjunto de cadenas de longitud k, utilizamos k. Si nos referimos al conjunto de todas las cadenas

que se pueden escribir con smbolos del alfabeto, usamos . Se cumplira que:

k=0

k = 0 [ 1 [ 2 [ : : :

Date cuenta de que es un conjunto innito, pero que cualquiera de sus cadenas es nita.

Finalmente, un lenguaje formal es un subconjunto de . Tal como esta denido, puede ser

nito o innito. Es mas, la denicion no impone la necesidad de que el lenguaje tenga algun sentido

o signicado; un lenguaje formal es simplemente un conjunto de cadenas.

...

Descargar como (para miembros actualizados) txt (11 Kb)

Leer 6 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com