Introduction
nfcore/chipseq is a bioinformatics analysis pipeline used for Chromatin ImmunopreciPitation sequencing (ChIP-seq) data.
Potok jest zbudowany przy użyciu Nextflow, narzędzia workflow do uruchamiania zadań w wielu infrastrukturach obliczeniowych w bardzo przenośny sposób. Jest wyposażony w kontenery docker, dzięki czemu instalacja jest banalna, a wyniki są bardzo powtarzalne.
podsumowanie rurociągu
- Raw read QC (
FastQC
) - przycinanie adaptera (
Trim Galore!
) - wyrównanie (
BWA
) - zaznacz duplikaty (
picard
) - scalanie wyrównań z wielu bibliotek tej samej próbki (
picard
)- ponowne oznaczanie duplikatów (
picard
) - filtrowanie w celu usunięcia:
- odczytuje mapowanie do regionów na czarnej liście (
SAMtools
BEDTools
) - odczytuje, które są oznaczone jako duplikaty (
SAMtools
) - odczytuje, które są oznaczone jako podstawowe wyrównania (
SAMtools
) - odczytuje, które są odmapowane (
SAMtools
) - odczytuje tę mapę do wielu lokalizacji (
SAMtools
) - odczytuje zawierające > 4 niedopasowania (
BAMTools
) - odczytuje, które mają rozmiar wkładki > 2kb (
BAMTools
; tylko sparowany koniec) - odczytuje tę mapę na różne chromosomy (
Pysam
; tylko sparowany koniec) - odczytuje, że arent w orientacji FR (
Pysam
; tylko sparowany koniec) - odczytuje, gdzie tylko jeden odczyt pary nie spełnia powyższych kryteriów (
Pysam
;
- odczytuje mapowanie do regionów na czarnej liście (
- QC na poziomie wyrównania i oszacowanie złożoności biblioteki (
picard
Preseq
) - Tworzenie znormalizowanych plików bigWig skalowanych do 1 miliona mapowanych odczytów (
BEDTools
bedGraphToBigWig
) - generowanie meta-profilu ciała genu z plików bigwig (
deepTools
) - obliczanie wzbogacenia IP całego genomu względem kontroli (
deepTools
) - obliczanie piku korelacji krzyżowej nici i miar jakości chip-SEQ, w tym NSC i RSC (
phantompeakqualtools
) - wywoływanie szerokich/wąskich pików (
MACS2
) - opisywanie pików względem cech genów (
HOMER
) - Utwórz zestaw pików konsensusu we wszystkich próbkach i utwórz plik tabelaryczny, aby pomóc w filtrowaniu danych (
BEDTools
) - liczba odczytów w pikach konsensusu (
featureCounts
) - Analiza różnicowa wiązań, PCA i grupowanie (
R
DESeq2
)
- ponowne oznaczanie duplikatów (
- utwórz plik sesji IGV zawierający ścieżki, szczyty i miejsca różnicowe do wizualizacji danych (
IGV
). - prezentujemy QC dla odczytu raw, wyrównania, wywołania szczytowego i różnicowego wyniku wiązania (
MultiQC
R
)
Szybki Start
-
zainstaluj
nextflow
-
zainstaluj
Docker
lubSingularity
, aby uzyskać pełną odtwarzalność potoku (w ostateczności należy użyćConda
; Zobacz dokumenty) -
Pobierz potok i przetestuj go na minimalnym zestawie danych z pojedyncze polecenie:
nextflow run nf-core/chipseq -profile test,<docker/singularity/conda/institute>
sprawdź nf-core / configs, aby sprawdzić, czy niestandardowy plik konfiguracyjny do uruchomienia rurociągów NF-core już istnieje dla Twojego Instytutu. Jeśli tak, możesz po prostu użyć
-profile <institute>
w swoim poleceniu. Spowoduje to włączenie opcjidocker
lubsingularity
I ustawienie odpowiednich ustawień wykonania dla lokalnego środowiska obliczeniowego. -
zacznij prowadzić własną analizę!
nextflow run nf-core/chipseq -profile <docker/singularity/conda/institute> --input design.csv --genome GRCh37
Zobacz dokumenty użycia dla wszystkich dostępnych opcji podczas uruchamiania potoku.
dokumentacja
rurociąg nf-core/chipseq zawiera dokumentację dotyczącą rurociągu, znajdującą się w katalogu docs/
:
- instalacja
- konfiguracja rurociągu
- instalacja lokalna
- dodawanie własnej konfiguracji systemowej
- genomy referencyjne
- uruchamianie potoku
- wyjście i interpretacja wyników
- Rozwiązywanie problemów
kredyty
te skrypty zostały pierwotnie napisane przez Chuan Wang (@Chuan-Wang) i Phil ewels (@ewels) do użytku w National Genomics infrastructure w scilifelab w Sztokholmie, Szwecja. Rurociąg został ponownie wdrożony przez Harshila Patela (@drpatelh) z Bioinformatics & Biostatistics Group w Francis Crick Institute w Londynie.
Wielkie podziękowania dla innych, którzy pomogli i przyczynili się również w drodze, w tym (ale nie ograniczając się do): @apeltzer, @bc2zb, @crickbabs, @drejom, @houghtos, @KevinMenden, @mashehu, @pditommaso, @Rotholandus, @sofiahaglund, @tiagochst i @winni2k.
wkład i wsparcie
Jeśli chcesz przyczynić do tego rurociągu, proszę zapoznać się z wytycznymi contributing.
aby uzyskać więcej informacji lub pomocy, skontaktuj się z nami na kanale Slack#chipseq
(możesz dołączyć z tym zaproszeniem).
cytowanie
Jeśli używasz nf-core/chipseq do swojej analizy, proszę przytoczyć ją za pomocą następującego doi: 10.5281 / zenodo.3240506
możesz przytoczyć publikację nf-core
w następujący sposób:
obszerna lista odniesień do narzędzi używanych przez potok znajduje się w pliku CITATIONS.md
.
the NF-core framework for community-curated bioinformatics pipelines.
Philip Ewels, Alexander Peltzer, Sven Fillinger, Harshil Patel, Johannes Alneberg, Andreas Wilm, Maxime Ulysse Garcia, Paolo Di Tommaso & Sven Nahnsen.
Nat Biotechnol. 2020 Feb 13. doi: 10.1038/s41587-020-0439-x.
ReadCube: Full Access Link