Introduction
nfcore/chipseq is a bioinformatics analysis pipeline used for Chromatin ImmunopreciPitation sequencing (ChIP-seq) data.
conducta este construit folosind Nextflow, un instrument de flux de lucru pentru a rula sarcini pe mai multe infrastructuri de calcul într-un mod foarte portabil. Acesta este dotat cu containere docker face instalarea triviale și rezultate foarte reproductibile.
rezumat conducte
- Raw citit QC (
FastQC
) - adaptor tunderea (
Trim Galore!
) - aliniere (
BWA
) - marca duplicate (
picard
) - merge aliniamente din mai multe biblioteci ale aceluiași eșantion (
picard
)- re-Mark duplicate (
picard
) - filtrare pentru a elimina:
- citește maparea în regiunile listate negre (
SAMtools
BEDTools
) - Citește care sunt marcate ca duplicate (
SAMtools
) - citește că nu sunt marcate ca aliniamente primare (
SAMtools
) - Citește care nu sunt mapate (
SAMtools
) - citește harta în mai multe locații (
SAMtools
) - citește conținând> 4 nepotriviri (
BAMTools
) - citește că au o dimensiune de inserare> 2kb (
BAMTools
; pereche-end numai) - citește că harta la cromozomi diferite (
Pysam
; pereche-end numai) - citește că arent în orientare FR (
Pysam
; pereche-end numai) - citește în cazul în care doar o singură citire a perechea nu îndeplinește criteriile de mai sus (
Pysam
; și estimarea complexității bibliotecii (picard
Preseq
) - creați fișiere bigWig normalizate scalate la 1 milion de citiri mapate (
BEDTools
bedGraphToBigWig
) - generați meta-profilul corpului genei din fișierele Bigwig (
deepTools
) - calculați îmbogățirea IP la nivel de genom în raport cu controlul (
deepTools
) - calculați vârful corelației încrucișate și măsurile de calitate chip-seq, inclusiv NSC și RSC (
phantompeakqualtools
) - apel vârfuri largi/înguste (
MACS2
) - adnota vârfuri în raport cu caracteristicile genei (
HOMER
) - crearea peakset consens în toate probele și de a crea fișier tabelar pentru a ajuta la filtrarea datelor (
BEDTools
) - count citește în vârfuri de consens (
featureCounts
) - analiză de legare diferențială, PCA și clustering (
R
DESeq2
)
- citește maparea în regiunile listate negre (
- re-Mark duplicate (
- creați fișier sesiune IGV care conține piese bigwig, vârfuri și site-uri diferențiale pentru vizualizarea datelor (
IGV
). - prezent QC pentru citire raw, aliniere, peak-asteptare și rezultate de legare diferențială (
MultiQC
R
)
pornire rapidă
-
instalare
nextflow
-
Instalați fie
Docker
sauSingularity
pentru reproductibilitatea completă a conductelor (vă rugăm să folosiți doarConda
în ultimă instanță; consultați documentele) -
descărcați conducta și testați-o pe un set de date minim cu un singur comandă:
nextflow run nf-core/chipseq -profile test,<docker/singularity/conda/institute>
verificați nf-core / configs pentru a vedea dacă există deja un fișier de configurare personalizat pentru a rula conducte NF-core pentru Institutul dvs. Dacă da, puteți utiliza pur și simplu
-profile <institute>
în comanda dvs. Acest lucru va permite fiedocker
sausingularity
și setați setările de execuție corespunzătoare pentru mediul de calcul local. -
începeți să rulați propria analiză!
nextflow run nf-core/chipseq -profile <docker/singularity/conda/institute> --input design.csv --genome GRCh37
consultați documentele de utilizare pentru toate opțiunile disponibile la rularea conductei.
documentație
conducta NF-core/chipseq vine cu documentație despre conductă, Găsită în directoruldocs/
:
- instalare
- configurare conducte
- instalare locală
- adăugarea propriul sistem de configurare
- genomuri de referință
- rularea conductei
- ieșire și cum să interpreteze rezultatele
- depanare
credite
aceste script-uri au fost inițial scrise de Chuan Wang (@chuan-Wang) și Phil ewels (@ewels) pentru utilizare la infrastructura națională de Genomică de la scilifelab din Stockholm, Suedia. De atunci, conducta a fost reimplementată de Harshil Patel (@drpatelh) de la Bioinformatica & grupul de Biostatistică de la Institutul Francis Crick, Londra.
Multe mulțumiri altora care au ajutat și au contribuit de-a lungul drumului, inclusiv (dar fără a se limita la): @apeltzer, @bc2zb, @crickbabs, @drejom, @houghtos, @KevinMenden, @mashehu, @Pditommaso, @Rotholandus, @sofiahaglund, @tiagochst și @winni2k.
contribuții și Asistență
Dacă doriți să contribuiți pentru această conductă, vă rugăm să consultați liniile directoare care contribuie.
pentru informații suplimentare sau ajutor, nu ezitați să luați legătura cu Slack#chipseq
canal (vă puteți alătura cu această invitație).
citare
dacă utilizați NF-core/chipseq pentru analiza dvs., vă rugăm să o citați folosind următorul doi: 10.5281 / zenodo.3240506
puteți cita publicațianf-core
după cum urmează:
o listă extinsă de referințe pentru instrumentele utilizate de conductă poate fi găsită în fișierulCITATIONS.md
.
cadrul NF-core pentru conductele bioinformatice organizate de comunitate.
Philip Ewels, Alexander Peltzer, Sven Fillinger, Harshil Patel, Johannes Alneberg, Andreas Wilm, Maxime Ulysse Garcia, Paolo Di Tommaso & Sven Nahnsen.
Nat Biotechnol. 2020 Feb 13. doi: 10.1038/s41587-020-0439-x.
ReadCube: Full Access Link