nf-core / chipseq

GitHub Actions CI StatusGitHub Actions Linting StatusNextflowDOI

install with biocondaDockerGet help on Slack

Introduction

nfcore/chipseq is a bioinformatics analysis pipeline used for Chromatin ImmunopreciPitation sequencing (ChIP-seq) data.

Potok jest zbudowany przy użyciu Nextflow, narzędzia workflow do uruchamiania zadań w wielu infrastrukturach obliczeniowych w bardzo przenośny sposób. Jest wyposażony w kontenery docker, dzięki czemu instalacja jest banalna, a wyniki są bardzo powtarzalne.

podsumowanie rurociągu

  1. Raw read QC (FastQC)
  2. przycinanie adaptera (Trim Galore!)
  3. wyrównanie (BWA)
  4. zaznacz duplikaty (picard)
  5. scalanie wyrównań z wielu bibliotek tej samej próbki (picard)
    1. ponowne oznaczanie duplikatów (picard)
    2. filtrowanie w celu usunięcia:
      • odczytuje mapowanie do regionów na czarnej liście (SAMtoolsBEDTools)
      • odczytuje, które są oznaczone jako duplikaty (SAMtools)
      • odczytuje, które są oznaczone jako podstawowe wyrównania (SAMtools)
      • odczytuje, które są odmapowane (SAMtools)
      • odczytuje tę mapę do wielu lokalizacji (SAMtools)
      • odczytuje zawierające > 4 niedopasowania (BAMTools)
      • odczytuje, które mają rozmiar wkładki > 2kb (BAMTools; tylko sparowany koniec)
      • odczytuje tę mapę na różne chromosomy (Pysam; tylko sparowany koniec)
      • odczytuje, że arent w orientacji FR (Pysam; tylko sparowany koniec)
      • odczytuje, gdzie tylko jeden odczyt pary nie spełnia powyższych kryteriów (Pysam;
    3. QC na poziomie wyrównania i oszacowanie złożoności biblioteki (picardPreseq)
    4. Tworzenie znormalizowanych plików bigWig skalowanych do 1 miliona mapowanych odczytów (BEDToolsbedGraphToBigWig)
    5. generowanie meta-profilu ciała genu z plików bigwig (deepTools)
    6. obliczanie wzbogacenia IP całego genomu względem kontroli (deepTools)
    7. obliczanie piku korelacji krzyżowej nici i miar jakości chip-SEQ, w tym NSC i RSC (phantompeakqualtools)
    8. wywoływanie szerokich/wąskich pików (MACS2)
    9. opisywanie pików względem cech genów (HOMER)
    10. Utwórz zestaw pików konsensusu we wszystkich próbkach i utwórz plik tabelaryczny, aby pomóc w filtrowaniu danych (BEDTools)
    11. liczba odczytów w pikach konsensusu (featureCounts)
    12. Analiza różnicowa wiązań, PCA i grupowanie (RDESeq2)
  6. utwórz plik sesji IGV zawierający ścieżki, szczyty i miejsca różnicowe do wizualizacji danych (IGV).
  7. prezentujemy QC dla odczytu raw, wyrównania, wywołania szczytowego i różnicowego wyniku wiązania (MultiQCR)

Szybki Start

  1. zainstalujnextflow

  2. zainstalujDockerlubSingularity, aby uzyskać pełną odtwarzalność potoku (w ostateczności należy użyćConda; Zobacz dokumenty)

  3. Pobierz potok i przetestuj go na minimalnym zestawie danych z pojedyncze polecenie:

    nextflow run nf-core/chipseq -profile test,<docker/singularity/conda/institute>

    sprawdź nf-core / configs, aby sprawdzić, czy niestandardowy plik konfiguracyjny do uruchomienia rurociągów NF-core już istnieje dla Twojego Instytutu. Jeśli tak, możesz po prostu użyć -profile <institute> w swoim poleceniu. Spowoduje to włączenie opcji dockerlub singularity I ustawienie odpowiednich ustawień wykonania dla lokalnego środowiska obliczeniowego.

  4. zacznij prowadzić własną analizę!

    nextflow run nf-core/chipseq -profile <docker/singularity/conda/institute> --input design.csv --genome GRCh37

Zobacz dokumenty użycia dla wszystkich dostępnych opcji podczas uruchamiania potoku.

dokumentacja

rurociąg nf-core/chipseq zawiera dokumentację dotyczącą rurociągu, znajdującą się w katalogu docs/ :

  1. instalacja
  2. konfiguracja rurociągu
    • instalacja lokalna
    • dodawanie własnej konfiguracji systemowej
    • genomy referencyjne
  3. uruchamianie potoku
  4. wyjście i interpretacja wyników
  5. Rozwiązywanie problemów

kredyty

te skrypty zostały pierwotnie napisane przez Chuan Wang (@Chuan-Wang) i Phil ewels (@ewels) do użytku w National Genomics infrastructure w scilifelab w Sztokholmie, Szwecja. Rurociąg został ponownie wdrożony przez Harshila Patela (@drpatelh) z Bioinformatics & Biostatistics Group w Francis Crick Institute w Londynie.

Wielkie podziękowania dla innych, którzy pomogli i przyczynili się również w drodze, w tym (ale nie ograniczając się do): @apeltzer, @bc2zb, @crickbabs, @drejom, @houghtos, @KevinMenden, @mashehu, @pditommaso, @Rotholandus, @sofiahaglund, @tiagochst i @winni2k.

wkład i wsparcie

Jeśli chcesz przyczynić do tego rurociągu, proszę zapoznać się z wytycznymi contributing.

aby uzyskać więcej informacji lub pomocy, skontaktuj się z nami na kanale Slack#chipseq (możesz dołączyć z tym zaproszeniem).

cytowanie

Jeśli używasz nf-core/chipseq do swojej analizy, proszę przytoczyć ją za pomocą następującego doi: 10.5281 / zenodo.3240506

możesz przytoczyć publikację nf-core w następujący sposób:

obszerna lista odniesień do narzędzi używanych przez potok znajduje się w pliku CITATIONS.md.

the NF-core framework for community-curated bioinformatics pipelines.

Philip Ewels, Alexander Peltzer, Sven Fillinger, Harshil Patel, Johannes Alneberg, Andreas Wilm, Maxime Ulysse Garcia, Paolo Di Tommaso & Sven Nahnsen.

Nat Biotechnol. 2020 Feb 13. doi: 10.1038/s41587-020-0439-x.
ReadCube: Full Access Link

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.