nf-core / chipseq

GitHub Actions CI StatusGitHub Actions Linting StatusNextflowDOI

install with biocondaDockerGet help on Slack

Introduction

nfcore/chipseq is a bioinformatics analysis pipeline used for Chromatin ImmunopreciPitation sequencing (ChIP-seq) data.

potrubí je postaven pomocí Nextflow, workflow nástroj pro spuštění úkolů napříč více výpočetních infrastruktur ve velmi přenosným způsobem. Dodává se s kontejnery docker, díky nimž je instalace triviální a výsledky jsou vysoce reprodukovatelné.

Potrubí shrnutí

  1. Syrové čtení QC (FastQC)
  2. Adaptér ořezávání (Trim Galore!)
  3. Zarovnání (BWA)
  4. Označit duplikáty (picard)
  5. zarovnání Sloučit z více knihoven téhož vzorku (picard)
    1. Re-mark duplicitní (picard)
    2. Filtrování odstranit:
      • čte mapování na černé listině regionů (SAMtoolsBEDTools)
      • čtení, které jsou označeny jako duplikáty (SAMtools)
      • čte, že nejsou označeny jako primární zarovnání (SAMtools)
      • čtení, které jsou nezmapovaných (SAMtools)
      • zní, že mapa na více místech (SAMtools)
      • čte obsahující > 4 nesouladu (BAMTools)
      • čte, že mají-li vložit velikost > 2kb (BAMTools; spárované-end)
      • zní, že mapa na různých chromozomech (Pysam; spárované-end)
      • čte, že nejsou ve FR orientace (Pysam; spárované-end)
      • čte, kde pouze jeden číst z dvojice nesplňuje výše uvedená kritéria (Pysam; spárované-end)
    3. Zarovnání-úroveň QC a odhad knihovna složitosti (picardPreseq)
    4. Vytvořit normalizovaný zvíře soubory zmenšen na 1 milion mapované čte (BEDToolsbedGraphToBigWig)
    5. Generování gen-tělo meta-profil z velkých souborů (deepTools)
    6. Výpočet genomu-široký IP obohacení ve srovnání s kontrolou (deepTools)
    7. Výpočet pramen cross-korelační špičky a ChIP-seq kvalita opatření včetně NSC a RSC (phantompeakqualtools)
    8. Volání široké/úzké píky (MACS2)
    9. Komentovat vrcholy relativní genové funkce (HOMER)
    10. Vytvořit konsensus peakset přes všechny vzorky a vytvořit tabulkové soubor na pomoc při filtrování dat (BEDTools)
    11. Počítat čte v konsensu vrcholy (featureCounts)
    12. Diferenciální vazebné analýzy, PCA a clustering (RDESeq2)
  6. Vytvořit IGV souboru relace obsahující zvíře stopy, vrcholy a diferenciální stránky pro vizualizaci dat (IGV).
  7. Prezentovat QC pro syrové čtení, zarovnání, peak-volání a diferenciální závazné výsledky (MultiQCR)

Rychlý Start

  1. Instalovat nextflow

  2. Instalovat buď Docker nebo Singularity pro úplné potrubí reprodukovatelnost (prosím, používejte pouze Conda jako poslední možnost; viz dokumenty)

  3. Stáhnout potrubí a vyzkoušet na minimální dataset pomocí jediného příkazu:

    nextflow run nf-core/chipseq -profile test,<docker/singularity/conda/institute>

    Prosím, zkontrolujte nf-core/configs, jestli vlastní config soubor spustit nf-core potrubí již existuje pro váš Ústav. Pokud ano, můžete ve svém příkazu jednoduše použít -profile <institute>. To umožní buď docker nebo singularity a nastavit odpovídající provedení nastavení pro místní výpočetní prostředí.

  4. spusťte vlastní analýzu!

    nextflow run nf-core/chipseq -profile <docker/singularity/conda/institute> --input design.csv --genome GRCh37

Viz použití docs pro všechny dostupné možnosti při spuštění potrubí.

Dokumentace

nf-core/chipseq potrubí je dodáván s dokumentací o potrubí, nalezené v docs/ adresář:

  1. Instalace
  2. Potrubí konfigurace
    • Lokální instalace
    • Přidání svůj vlastní systém config
    • Referenční genomy
  3. spuštění potrubí
  4. Výstup a jak interpretovat výsledky
  5. Odstraňování problémů

Kredity

Tyto skripty byly původně napsal Chuan Wang (@chuan-wang) a Phil Ewels (@ewels) pro použití na Národní Genomika Infrastruktury na SciLifeLab ve Stockholmu, Švédsko. Potrubí, od té doby byl znovu realizován Harshil Patel (@drpatelh) z Bioinformatika & Biostatistiky Skupiny na Francis Crick Institute, Londýn.

mnohokrát děkuji ostatním, kteří pomohli a přispěli na cestě taky, včetně (ale ne omezený k): @apeltzer, @bc2zb, @crickbabs, @drejom, @houghtos, @KevinMenden, @mashehu, @pditommaso, @Rotholandus, @sofiahaglund, @tiagochst a @winni2k.

Příspěvky a Podporu

Pokud byste chtěli přispět k tomuto potrubí, viz přispívá pokyny.

Pro další informace nebo pomoc, neváhejte se dostat do kontaktu na Slack #chipseq kanál (lze připojit s tímto pozvat).

Citace

Pokud používáte nf-core/chipseq pro analýzu, prosím, uvést pomocí následujících doi: 10.5281/zenodo.3240506

můžete uvést nf-core zveřejnění takto:

rozsáhlý seznam odkazů pro nástroje používané potrubí lze nalézt v CITATIONS.md soubor.

NF-core framework for community-curated bioinformatics pipelines.

Philip Ewels, Alexander Peltzer, Sven Fillinger, Harshil Patel, Johannes Alneberg, Andreas Wilm, Maxime Ulysse Garcia, Paolo Di Tommaso & Sven Nahnsen.

Nat Biotechnol. 2020 Feb 13. doi: 10.1038/s41587-020-0439-x.
ReadCube: Full Access Link

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.