Le résultat du séquençage parvient aux chercheurs sous la forme d’un fichier FASTQ, qui contient les séquences des READS ainsi que la qualité de celles-ci. En effet, toutes les reads qui proviennent du séquenceur n’ont pas la même qualité. Il est nécessaire de les filtrer au moyen de logiciels adéquats.
Dans le « Matériel et Méthodes » posté dans la section Dataset, le contrôle qualité utilisé y est mentionné :
Read quality was assessed using fastqc 0.10.1 (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/). Quality trimming and the removal of adapters were conducted using trimmomatic 0.32 (Bolger et al., 2014), with the following parameters: trim bases with quality scores lower than Q26 in 5’ and 3’ of reads; remove any reads with Q < 26 in any sliding window of 10 bases; crop one base in 3 of all reads; and discard reads shorter than 70 bases. Overall, the quality filtering discarded between 7 and 9% of the raw reads.
L’étape suivante consiste, au moyen d’un logiciel adapté (tophat, dans le cas présent), à quelle région du génome (i.e. à quel gène) correspond chacune des reads obtenues. Pour cela, il est indispensable d’utiliser un génome de référence ainsi qu’un fichier d’annotation de référence indiquant les localisations des gènes ainsi que de leurs introns et exons. Il reste alors à calculer une matrice de comptage grâce à un logiciel adapté (ici: htseq-count).
Voici la portion du matériel et méthode décrivant cette partie de l’analyse :
The Arabidopsis reference genome sequence (TAIR10) and annotation (2016/06 version) files were downloaded from Araport on 16 September 2016 (https://www.araport.org). Read mapping on the genome was achieved using tophat 2.1.1, with the following parameters: –read-mismatches 2; –min-intron-length 40; –max-intron-length 2000; 2 –report-secondary-alignments; –no-novel-juncs and providing an indexed genome annotation file. Raw read counts were obtained using htseq-count 0.6.1p1.
Le résultat du comptage peut être exprimé de différentes manières. La méthode la plus simple consiste à indiquer simplement le nombre total de reads obtenues pour chacun des gènes (=Raw read count). Il s’agit d’un format qui est utile pour l’identification ultérieure au moyen de packages tels que DESeq2 (que nous allons utiliser).
Cependant, il est fréquent de rencontrer d’autres formats dans la littérature : RPM (Reads per million mapped reads), RPKM (Reads per kilobase per million mapped reads), FPKM (Fragments per kilobase per million mapped reads) et TPM (Transcript per million). Ces différents formats correspondent à des données normalisées :
Un article scientifique détaillant ces différents formats est accessible ici.
Nous n’utiliserons donc pas les formats dans le cadre de ce cours, mais plutôt la matrice de compte brute (raw read count matrix). Celle-ci est disponible en pièce jointe dans l’onglet “downloads”. Il est possible de l’ouvrir avec Excel (ou dans R, bien sûr).
Dans cet onglet, vous trouverez également un document reprenant tous les détails du code informatique nécessaire à la réalisation des étapes décrite dans ce cours, depuis l’analyse et la filtration des données FASTQ jusqu’à l’identification des gènes différentiellement exprimés.