ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

¿Cómo se lee la calidad de los archivos FASTA?


Enviado por   •  10 de Octubre de 2021  •  Apuntes  •  1.678 Palabras (7 Páginas)  •  94 Visitas

Página 1 de 7

07 / mayo / 2021

Secuenciación de nueva generación.

Metodologías mas empleadas debido a su potencial a la gran cantidad de información que se puede obtener a partir de ellas, sin embargo, hay que comprender ciertos conceptos básicos como: ¿qué tipo de resultado vamos a obtener cuando realicemos un ensayo de secuenciación?

Archivo FASTQ. Formato basado en texto utilizado para almacenar una secuencia de nucleótidos ya secuenciada, como también se almacena sus puntuaciones de calidad correspondientes, y este archivo tiene un formato especifico.

Cuando tengamos la necesidad de llevar a cabo un ensayo de secuenciación, como resultado vamos a tener un archivo tipo FASTA, cuando hacemos una secuenciación Sanger el electrofalograma lo que nos da es un conjunto de curvas, que representa cada una a un nucleótido que al final nos da el resultado en un archivo FASTQ, que es un archivo de texto donde se asume los nucleótidos cuando se hace una secuenciación. Cuando se descarga un archivo de este tipo, aparece el identificador y la secuencia. ¿Qué pasa con estas metodologías? Nos van a entregar los resultados en un archivo FASTQ modificado, porque aparte de la secuencia incluye un criterio de calidad (elementos del archivo FASTA, más unos adicionales propios del archivo FASTQ, y esos elementos incluyen el identificador y la secuencia). Estos archivos FASTA, son archivos de texto compuestos por 4 líneas:

[pic 1]

  • Identificador del archivo: Contenido en la primera línea de todo el documento (numero de experimento, termociclador utilizado, marca, lote, fecha, hora, u otros elementos adicionales para identificar la muestra).
  • Secuencia: Mismos datos que en un archivo FASTA.
  • Carácter separador
  • Línea donde hay diversos caracteres del código FASTQ, que cada uno representa un valor diferente y de probabilidad. Cada valor corresponde a cada nucleótido, es decir, si tengo una secuencia de 50 nucleótidos, tendremos 50 caracteres de calidad.

Un archivo FASTQ normalmente usa cuatro líneas por secuencia.

  • La línea 1 comienza con un carácter '@' y va seguida de un identificador de secuencia y una descripción opcional (como una línea de título FASTA ).
  • La línea 2 son las letras de secuencia sin procesar.
  • La línea 3 comienza con un carácter '+' y, opcionalmente, va seguida de nuevo por el mismo identificador de secuencia (y cualquier descripción).
  • La línea 4 codifica los valores de calidad para la secuencia en la línea 2 y debe contener el mismo número de símbolos que letras en la secuencia.

¿Cómo se lee la calidad de los archivos FASTA? Se mide con el Phred quality score (Q score) El nivel de calidad Phred (Phred quality score, en Inglés) es una medida de calidad en la identificación de las nucleobases generadas por la secuenciación automatizada de ADN. Esta medida de calidad está ampliamente aceptada para caracterizar la calidad de nuestras secuencias de ADN basadas en la capacidad de poder ser comparadas entre diferentes métodos de secuenciación.

La calidad es exponencial, la vemos representada por afinando códigos que van desde letras, números, caracteres y la escala se llama phred33 (utiliza 33 caracteres para esos rangos de probabilidad).

¿Por qué es importante tener un estimado de la calidad nucleótido – secuenciación? Para saber la precisión de la base sea correctamente nombrada, y la probabilidad del factor de error de la base, entre más nivel tenga la calidad tenga el phred menos probabilidad de error va tener en ser nombrada la base y entre menor calidad mayor será el error al nombrar la base.

¿Cuántas bases puede tener una secuencia generada por secuenciación Sanger? De 650 a 700 pares de bases.  ¿De qué longitud pueden llegar a ser los fragmentos secuenciados? 

¿De qué tamaño son las bases que pueden alcanzarse con la secuenciación? Para un ensayo LGS se producen fragmentos pequeños

Cada nucleótido que se secuencia de un código de calidad, y ese código está definido logarítmicamente.  

Ejemplos de niveles de calidad y su relación logarítmica a las probabilidades de error de la base

Nivel de calidad Phred

Probabilidad de factor de error de base

Precisión de que la base sea correctamente nombrada

10

1 en 10

90%

20

1 en 100

99%

30

1 en 1000

99,9%

40

1 en 10.000

99,99%

50

1 en 100.000

99,999%

60

1 en 1.000.000

99,9999%

Estos valores se defienden empleando valores del código ASCII, que van desde los signos de puntuación, numero, letras mayúsculas y minúsculas. Podemos definir con que confiabilidad se secuencio un nucleótido, si observamos la calidad que tiene cada nucleótido.

Los valores de calidad del 0 al 21 representan la menor calidad equivalente al % (comenzando con el), las letras minúsculas corresponden a los elementos con mayor calidad. ¿En qué se basa el termociclador, la computadora o el programa para definir la calidad? Por ejemplo, en el caso de ilumina, en la definición de la foto, en la capacidad de identificar realmente y poder distinguir un color de otro.

...

Descargar como (para miembros actualizados)  txt (10 Kb)   pdf (233 Kb)   docx (169 Kb)  
Leer 6 páginas más »
Disponible sólo en Clubensayos.com