Skip to main content

Analyses des données d'annotation GFF

Project description

Documentation du Projet : Analyseur d'Annotations GFF

Ce projet est un outil conçu pour analyser, manipuler et visualiser des données biologiques au format GFF. Il permet de représenter les gènes, transcrits et exons, de les manipuler (fusion, exportation), et d'extraire des statistiques ou des visualisations utiles.


Présentation Générale

Le projet est structuré en plusieurs modules et fonctionnalités :

  1. Modélisation biologique : Les entités biologiques telles que les gènes, transcrits, et exons sont représentées par des classes.
  2. Fusion et manipulation des annotations : Combine des annotations provenant de différents fichiers GFF.
  3. Exportation et statistiques : Génère des fichiers résumant les informations et calcule des statistiques.
  4. Visualisation : Produit des graphiques (boxplots) pour représenter la distribution des longueurs d'ARN.

Structure du Code

Classes Principales

  1. Gene
    Représente un gène et gère ses transcrits associés. Il permet la fusion avec d'autres gènes ayant le même identifiant.

  2. Transcrit
    Représente un transcrit (ARNm) et gère ses exons associés. Un transcrit est toujours lié à un gène parent.

  3. Exon
    Représente un exon associé à un transcrit. Chaque exon est défini par sa position sur le génome.

  4. Annotation
    Gère l'ensemble des annotations (gènes, transcrits, exons). Elle offre des fonctionnalités pour :

    • Ajouter et récupérer des gènes.
    • Fusionner deux annotations.
    • Générer des fichiers au format GFF.
    • Créer des statistiques et des visualisations.

Méthodes Clés

  1. parser_gff
    Parse un fichier GFF et construit une instance de la classe Annotation.

  2. Fusion des annotations
    Combine deux annotations via la surcharge de l'opérateur +.

  3. Statistiques
    Génère des résumés statistiques sur les annotations :

    • Nombre de transcrits par gène.
    • Nombre d'exons par transcrit.
  4. Visualisation
    Crée un boxplot représentant la distribution des longueurs totales des exons pour chaque gène.

  5. Exportation
    Permet de sauvegarder les annotations dans un fichier GFF compatible ou un fichier texte résumant les informations.


Utilisation en Ligne de Commande

Le script propose plusieurs options via des arguments de ligne de commande :

  • Fichier d'entrée GFF : Spécifiez le fichier à analyser.

    annotation fichier.gff
    
  • Fusionner deux fichiers GFF :
    Combine deux annotations et génère un fichier fusionné.

    annotation fichier1.gff -f fichier2.gff -o fichier_fusionne.gff
    
  • Générer un boxplot :
    Produit une visualisation des longueurs d'ARN.

    annotation fichier.gff -i
    
  • Afficher les statistiques :
    Crée un fichier texte contenant un résumé des annotations.

    annotation fichier.gff -s stats.txt
    
  • Extraire des informations sur un gène spécifique :
    Génère un fichier texte avec les détails d'un gène.

    annotation fichier.gff -g ID_du_gene
    

Exemple d'Exécution

Pour analyser un fichier annotations.gff, fusionner avec un autre fichier, produire un boxplot et générer des statistiques :

annotation annotations.gff --fusion autre_fichier.gff --output fusion.gff --image --stats statistiques.txt

Dépendances

  • Python 3.8+
  • Bibliothèques nécessaires :
    • matplotlib
    • argparse

Installez les dépendances avec :

pip install matplotlib argparse

Conclusion

Ce projet offre un ensemble d'outils puissants et flexibles pour analyser des données GFF. Il est conçu pour être extensible et répond aux besoins des biologistes et bio-informaticiens travaillant avec des annotations génomiques.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

gff_tpg_pack-0.1.1.tar.gz (3.2 MB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

gff_tpg_pack-0.1.1-py3-none-any.whl (3.0 MB view details)

Uploaded Python 3

File details

Details for the file gff_tpg_pack-0.1.1.tar.gz.

File metadata

  • Download URL: gff_tpg_pack-0.1.1.tar.gz
  • Upload date:
  • Size: 3.2 MB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: uv/0.5.4

File hashes

Hashes for gff_tpg_pack-0.1.1.tar.gz
Algorithm Hash digest
SHA256 9b2a1e43fcbd3992e29acc00f44805da3029d034e8bb8dc6ff76df06d7cc7775
MD5 33f01b85105d3caa18d54cda650d355d
BLAKE2b-256 8d94e64fae5798bcd213886c16c6958f37add4b529f984f321a6a8b5979d282a

See more details on using hashes here.

File details

Details for the file gff_tpg_pack-0.1.1-py3-none-any.whl.

File metadata

File hashes

Hashes for gff_tpg_pack-0.1.1-py3-none-any.whl
Algorithm Hash digest
SHA256 84c46ed77e13e3e7da934c9df87ddcdddf52e6645a1275a10aa028e7788b6e95
MD5 b4b6c752c4bfb06fca73bb7339fe047a
BLAKE2b-256 c4c0dc8b5f8c99786296ecae3e3ea7c0d2768ed3ad99358a960f9a3dc6bfb884

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page