Detection of structural variants in cancer genomes using a Bayesian approach. You will find below the abstract of my PhD thesis - Archive ouverte HAL Access content directly
Theses Year : 2015

Detection of structural variants in cancer genomes using a Bayesian approach. You will find below the abstract of my PhD thesis

Detection de variantes structurales dans des génomes tumoraux par une approche bayésienne.


According to the current knowledge, cancer develops as a result of the mutational process of the genomic DNA. In addition to point mutations, cancer genomes often accumulate a significant number of chromosomal rearrangements also called structural variants (SVs). Some types of cancer are associated with recurrent SVs (e.g., ABL/BCR in chronic myelogenous leukemia, EWSR1/FLI1 in Ewing sarcoma, amplification of MYCN in neuroblastoma, amplification of ERBB2 in ovarian and breast cancers, SV in the promoter of TAL1 in lymphoblastic leukemia). It is important to be able to identify exact positions and types of these variants to be able to track cancer development or select the most appropriate treatment for the patient. Next generation sequencing (NGS) technologies provide a possibility to identify SVs in a very precise and time-efficient manner. In my PhD work, I propose a new computational method named SV-Bay, aimed to detect structural variants using whole genome sequencing data. This method combines two SV detection techniques into one: it takes into account both paired-end mapping abnormalities and variation of the depth of coverage. SV-Bay uses a probabilistic Bayesian approach to combine these techniques. SV-Bay statistical model includes possible sequencing errors, read mappability profile along the genome and changes in the GC-content. On one hand, our approach is capable to accurately filter out false candidate SV, and thus has an improved SV detection precision. On the other hand, the fact of taking into account read mappability and GC-content makes of SV-Bay an extremely sensitive approach. In addition, SV-Bay includes a possibility to keep only somatic SVs if matched normal control data are provided. I performed a comparison of SV-Bay with 4 widely used SV detection tools: Delly, GASVPro, Lumpy and BreakDancer (BreakDancerMax). For this comparison, I used simulated mate-pair and paired-end datasets along with real mate-pair data for the CLB-GA neuroblastoma cell line. For all simulated datasets, the proposed method showed the best results in terms of both recall and precision. For the experimental neuroblastoma dataset, structural variants discovered by SV-Bay explained 78% of breakpoints in the copy number profile, calculated using an Affymetrix SNP6.0 array, while providing a much smaller number of candidate SVs than the three other tools. As a part of my PhD work, I also constructed a novel exhaustive catalogue of SV types. Based on the previous publications and experimental data I introduced a list of 17 structural variant types; this list included seven SV types ignored by the existing SV calling algorithms. This, to date the most comprehensive SV classification, was used in the SV-Bay method to annotate predicted SVs.
Il est admis actuellement que le cancer se développe à la suite d’un processus de mutations sur l’ADN d’un génome. En sus des mutations ponctuelles, les génomes tumoraux contiennent souvent un nombre significatif de rearrangements chromosomiques appelés variantes structurales (SV). Certains types de cancer sont associés à des variantes structurales récurrentes (ABL/BCR dans la leucémie myeloïde chronique, EWSR/FLI1 dans le sarcoma d’Ewing, l’amplification de MYCN dans le neuroblastome, l’amplification de ERBB2 dans les cancers de l’ovaire ou du sein, certains SV dans le promoteur de TAL1 pour la leucémie lymphoblastique). Il est important d’identifier les positions exactes et les types de ces variantes pour pouvoir suivre l’évolution du cancer et choisir le traitement le plus approprié pour le malade. Le séquençage Nouvelle Génération (NGS) ouvre la possibilité d’identifier rapidement et précisémement des variantes structurales Je propose une nouvelle méthode, SV-Bay, pour détecter des variantes structurales à partir de données de séquençage. Cette méthode combine deux techniques en une seule: elle prend en compte les anomalies dans l’alignement de données “paired-end” et les variations de taux de couverture. SV-Bay utilise une approche probabiliste bayésienne. où le modèle statistique prend en compte les erreurs de séquençage, le profil de mappabilité le long du genome et les variations de contenu en GC. D’une part, cette méthode améliore la précision en filtrant efficacement de faux candidats SV. D’autre part, la prise en compte de la mappabilité des “reads” et du contenu en GC assure une excellente sensibilité. De plus, SV-Bay inclut la possibilité de ne garder que les SV somatiques lorsque des données sur un génome normal de contrôle sont disponibles. Ce travail présente une comparaison approfondie de SV-Bay et de 4 outils de detection de variantes stucturales fréquemment utilisés: Delly, GASVPro, Lumpy et BreakDancer (BreakDancerMax). Cette comparaison se base sur des données “mate-pair” et “pair-end” simulées et sur des données “mate-pair” provenant d’une lignée cellulaire du neuroblastome CLB-GA. Sur tous les ensembles de données simulées, SV-Bay obtient les meilleures performances à la fois sur le “recall” et sur la precision. Sur les données expérimentales du neuroblastome, les variantes structurales découvertes par SV-Bay permettent l’interprétation de 78% des points de rupture dans le profil du nombre de copies, calculé avec un tableau Affymetrix SNP6.0 . Sa spécificité est bien meilleure: il propose moins de SVs potentielles que les trois autres outils. Une contribution originale de ma thèse est un nouveau catalogue exhaustif des types de variantes structurales. Sur la base de publications récentes et de données expérimentales, je propose 17 types de variantes structurales. Sept d’entre elles sont ignorées par les algorithmes de détection de SV. Ce catalogue, le plus à jour actuellement, a été utilisé par SV-Bay pour annoter des SV prédites.
Fichier principal
Vignette du fichier
Iakovishina-thesis.pdf (5.68 Mo) Télécharger le fichier

Dates and versions

tel-01294142 , version 1 (27-03-2016)


  • HAL Id : tel-01294142 , version 1


Daria Iakovishina. Detection of structural variants in cancer genomes using a Bayesian approach. You will find below the abstract of my PhD thesis. Computer Science [cs]. Ecole Polytechnique, 2015. English. ⟨NNT : ⟩. ⟨tel-01294142⟩
311 View
1151 Download


Gmail Facebook Twitter LinkedIn More