Datum: 23.11.2021

Optimalizace sestavení genomu a identifikace lokusů pro evoluční analýzy

Základní součást studia evoluční biologie a molekulární ekologie je bioinformatické zpracování prvotních sekvenačních dat. Optimalizace určitých částí tohoto procesu v současnosti představuje základní předpoklad pro další rozvoj těchto studií. Například chyběly postupy pro optimalizaci parametrů na seskupení osekvenovaných fragmentů DNA, které představují tu samou sekvenci (tzv. "contigs") bez referenčního genomu (tzv. "de novo assembly"), a také na získání cílových lokusů z těchto sekvencí. Také neexistovaly práce hodnotící dostupné bioinformatické nástroje, které dokážou zpracovat data získaná různými molekulárními technikami (např. ze sekvenování celých genomů a cíleného "odchytu" sekvencí - tzv. target capture sequencing).

Obr.: Používání pokynů a přístupů popsaných v naší studii může zlepšit účinnost evolučních analýz zejména u organismů, pro které nejsou k dispozici žádné referenční genomy. Motýl z neotropického rodu Urbanus z podčeledi Eudaminae (Lepidoptera: Hesperiidae) je jedním z takových organismů. Řešení otázek o evoluční historii této skupiny může vrhnout světlo na výjimečné vzorce neotropické biodiverzity. Autor fotografie: Daniel Linke.

V této práci jsme porovnali dva ze dvou nejvíce používaných nástrojů na získání sekvencí z genomických dat, programy ABySS a SPAdes. Srovnávali jsme jejich schopnosti de novo seskupovat fragmenty DNA získané různými způsoby sekvenování: celogenomové sekvenování s různým pokrytím (tzv. "coverage" - 10X, 5X a 2X) a cílený odchyt sekvencí. Vyvinuli jsme nový způsob získání lokusů, při čemž je mnoho sekvencí (contigs) po seskupení dohromady spojeno v programu ABySS, aby je bylo možné použít v programu SECAPR (Andermann et al., 2018), což je program umožňující současné zprocesování dat z obou sekvenačních technik. Ukázali jsme, že za použití tohoto postupu pak program SPAdes a námi nově vyvinutý přístup v ABySS dokáže lépe seskupit sekvence a tak lze při kombinaci obou technik získat více cílových lokusů. Dále jsme ukázali, že celogenomové sekvenování s pokrytím 5X je v současnosti nejlepší nákladově efektivní typ sekvenování pro získání cílových lokusů pro fylogenomiku a molekulární ekologii. Věříme, že tato studie představuje krok vpřed v bioinformatice a v evoluční biologii, protože poskytuje návod, jak vhodně vybrat sekvenovací techniku a následný způsob seskupování sekvencí.

de Gusmão Ribeiro P., Torres Jiménez M.F., Andermann T., Antonelli A., Bacon C.D., Matos Maravi P. F. (2021) A bioinformatic platform to integrate target capture and whole genome sequences of various read depths for phylogenomics. Molecular Ecology Early View: DOI: 10.1111/mec.16240

Zpět

 

KONTAKT

Biologické centrum AV ČR, v.v.i.
Entomologický ústav
Branišovská 1160/31
370 05 České Budějovice

NAJÍT PRACOVNÍKA