nf-core / chipseq

GitHub Actions CI StatusGitHub Actions Linting StatusNextflowDOI

install with biocondaDockerGet help on Slack

Introduction

nfcore/chipseq is a bioinformatics analysis pipeline used for Chromatin ImmunopreciPitation sequencing (ChIP-seq) data.

Die Pipeline wird mit Nextflow erstellt, einem Workflow-Tool, mit dem Aufgaben auf sehr tragbare Weise über mehrere Computerinfrastrukturen hinweg ausgeführt werden können. Es kommt mit Docker-Containern, die die Installation trivial machen und die Ergebnisse sehr reproduzierbar machen.

Pipeline-Zusammenfassung

  1. Roh-Lese-QC (FastQC)
  2. Adaptertrimmen (Trim Galore!)
  3. Ausrichtung (BWA)
  4. Duplikate markieren (picard)
  5. Alignments aus mehreren Bibliotheken desselben Samples zusammenführen (picard)
    1. Duplikate neu markieren (picard)
    2. Filtern zum Entfernen:
      • liest die Zuordnung zu Regionen auf der schwarzen Liste (SAMtoolsBEDTools)
      • liest, die als Duplikate markiert sind (SAMtools)
      • liest, die nicht als primäre Ausrichtungen markiert sind (SAMtools)
      • Lesevorgänge, die nicht zugeordnet sind (SAMtools)
      • Lesevorgänge, die mehreren Orten zugeordnet sind (SAMtools)
      • Lesevorgänge, die > 4 Fehlanpassungen (BAMTools)
      • liest, die eine Einfügegröße haben > 2kb (BAMTools; nur gepaartes Ende)
      • liest, die verschiedenen Chromosomen zugeordnet sind (Pysam; nur gepaartes Ende)
      • liest, die sich nicht in FR-Ausrichtung befinden (Pysam; nur gepaartes Ende)
      • liest, bei denen nur ein Lesevorgang des Paares die oben genannten kriterien (Pysam; Alignment-Level QC und Schätzung der Bibliothekskomplexität (picardPreseq)
      • Erstellen Sie normalisierte bigWig-Dateien, die auf 1 Million zugeordnete Lesevorgänge skaliert sind (BEDToolsbedGraphToBigWig)
      • Generierung eines Gen-Körper-Meta-Profils aus bigWig-Dateien (deepTools)
      • Berechnung der genomweiten IP-Anreicherung relativ zur Kontrolle (deepTools)
      • Berechnung der Strangkreuzkorrelationsspitzen- und ChIP-Seq-Qualitätsmaße einschließlich NSC und RSC (phantompeakqualtools)
      • Rufen Sie breite / schmale Peaks auf (MACS2)
      • Kommentieren Sie Peaks relativ zu Genmerkmalen (HOMER)
      • Erstellen Sie ein Konsens-Peakset für alle Stichproben und erstellen Sie eine Tabellendatei, um die Filterung der Daten zu erleichtern (BEDTools)
      • Count liest Konsensusspitzen ein (featureCounts)
      • Differentielle Bindungsanalyse, PCA und Clustering (RDESeq2)
  6. IGV-Session-Datei mit bigWig-Tracks, Peaks und Differential-Sites erstellen zur Datenvisualisierung (IGV).
  7. Präsentieren QC für raw lesen, ausrichtung, peak-aufruf und differential bindung ergebnisse (MultiQCR)

Quick Start

  1. Installieren nextflow

    Installieren Sie entweder Docker oder Singularity für eine vollständige Reproduzierbarkeit der Pipeline (bitte verwenden Sie nur Conda als letzten Ausweg; siehe Dokumente)

  2. Laden Sie die Pipeline herunter und testen Sie sie mit einem einzigen Befehl an einem minimalen Datensatz:

    nextflow run nf-core/chipseq -profile test,<docker/singularity/conda/institute>

    Bitte überprüfen Sie in nf-core/configs, ob für Ihr Institut bereits eine benutzerdefinierte Konfigurationsdatei zum Ausführen von nf-core-Pipelines vorhanden ist. Wenn ja, können Sie einfach -profile <institute> in Ihrem Befehl verwenden. Dadurch wird entweder docker oder singularity aktiviert und die entsprechenden Ausführungseinstellungen für Ihre lokale Rechenumgebung festgelegt.

  3. Starten Sie Ihre eigene Analyse!

    nextflow run nf-core/chipseq -profile <docker/singularity/conda/institute> --input design.csv --genome GRCh37

Alle verfügbaren Optionen beim Ausführen der Pipeline finden Sie in den Anwendungsdokumenten.

Dokumentation

Die nf-core/chipseq-Pipeline enthält eine Dokumentation über die Pipeline, die sich im docs/ Verzeichnis befindet:

  1. Installation
  2. Pipeline-Konfiguration
    • Lokale Installation
    • Eigene Systemkonfiguration hinzufügen
    • Referenzgenome
  3. Ausführen der Pipeline
  4. Ausgabe und Interpretation der Ergebnisse
  5. Fehlerbehebung

Credits

Diese Skripte wurden ursprünglich von Chuan Wang (@chuan-wang ) und Phil Ewels (@ewels) für den Einsatz in der National Genomics Infrastructure am SciLifeLab in Stockholm, Schweden. Die Pipeline wurde seitdem von Harshil Patel (@drpatelh) von der Bioinformatics & Biostatistics Group am Francis Crick Institute, London, neu implementiert.

Vielen Dank an andere, die geholfen haben und auf dem Weg dazu beigetragen haben, einschließlich (aber nicht beschränkt auf): @apeltzer, @bc2zb, @crickbabs, @drejom, @houghtos, @KevinMenden, @mashehu, @pditommaso, @Rotholandus, @sofiahaglund, @tiagochst und @winni2k.

Beiträge und Unterstützung

Wenn Sie tragen Sie zu dieser Pipeline bei, bitte beachten Sie die Richtlinien für Beiträge.

Für weitere Informationen oder Hilfe zögere nicht, dich auf dem Slack #chipseq -Kanal zu melden (du kannst mit dieser Einladung beitreten).

Zitat

Wenn Sie nf-core/chipseq für Ihre Analyse verwenden, zitieren Sie es bitte mit folgendem doi: 10.5281/zenodo.3240506

Sie können die nf-core Publikation wie folgt zitieren:

Eine umfangreiche Referenzliste für die von der Pipeline verwendeten Tools finden Sie in der CITATIONS.md Datei.

Das nf-core Framework für Community-kuratierte Bioinformatik-Pipelines.

Philip Ewels, Alexander Peltzer, Sven Fillinger, Harshil Patel, Johannes Alneberg, Andreas Wilm, Maxime Ulysse Garcia, Paolo Di Tommaso & Sven Nahnsen.

Nat Biotechnol. 2020 Feb 13. doi: 10.1038/s41587-020-0439-x.
ReadCube: Full Access Link

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.