Cómo convertir un archivo txt a FASTA

Los estudios clínicos se llevan a cabo para analizar datos de secuencias de proteínas y encontrar tratamientos para enfermedades. sequence data la proteína se pone en el (todo rápido) formato FASTA para que los programas de software a entender cómo procesar la secuencia de datos. El formato FASTA tiene un máximo de 80 caracteres por línea de sequence data y utiliza el IUB / IUPAC (Unión Internacional de Bioquímica / Unión Internacional de Química Pura y Aplicada) estándar de código. La conversión de un TXT (texto plano) el archivo en formato FASTA implica editar o agregar datos de secuencias FASTA con formato a un archivo de texto existente con las líneas de datos de secuencias de proteínas. los programas de edición de texto como el Bloc de notas hacen de este sencillo de hacer.


  • Abra el archivo de texto de secuencias de proteínas que desea editar en un programa de edición de texto, como el Bloc de notas.

  • Editar o añadir la línea de descripción que sigue el formato FASTA. Por ejemplo,> gi | 129295 | sp | P01013 | OVAX_CHICK gen X de proteínas (ovoalbúmina relacionada) es una línea de descripción FASTA válida. Esta línea ofrece una descripción única para las líneas de datos de secuencias que siguen. El formato FASTA requiere el uso de la símbolo mayor que (>) para que el programa de software puede identificar la información descriptiva único y evitar el procesamiento de la descripción como una línea de secuencia de datos de proteínas.

  • Video: Curso Java #28 Como Leer un Archivo de texto en Java [Archivos]

    Pulse la tecla "Enter" para insertar un salto de línea una vez que se edita la línea de descripción.

  • Video: Convertir texto con formato en texto plano (.txt) con TextEdit

    Editar o añadir el formato de línea de datos de secuencias de proteínas que se ajustan a los códigos estándar IUB / IUPAC. El estándar IUB / IUPAC utiliza las letras del alfabeto para representar códigos aceptables o secuencias de consulta para los aminoácidos o ácidos nucleicos en el formato FASTA. Por ejemplo, QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE
    representa una línea de datos de secuencia válidos ya que comienza con la letra "Q", que representa glutamina, y termina con la letra "E", que representa el glutamato.

  • Añadir más líneas de datos de secuencias, editar líneas de datos de secuencias existentes o añadir saltos de línea después de 80 caracteres, según sea necesario. La adhesión a las normas de línea de datos de secuencias FASTA y saltos de línea asegura que el programa sigue las instrucciones relacionadas con la glutamina, glutamato y otros códigos de letras. Las letras de la norma IUB / IUPAC son simplemente instrucciones al programa de software que procesa los datos con formato FASTA.

  • Haga clic en "Archivo", seleccione "Guardar" y luego haga clic en el botón "Guardar". Su archivo TXT está ahora en formato FASTA.

Artículos Relacionados