nf-core / chipseq

GitHub Actions CI StatusGitHub Actions Linting StatusNextflowDOI

install with biocondaDockerGet help on Slack

Introduction

nfcore/chipseq is a bioinformatics analysis pipeline used for Chromatin ImmunopreciPitation sequencing (ChIP-seq) data.

conducta este construit folosind Nextflow, un instrument de flux de lucru pentru a rula sarcini pe mai multe infrastructuri de calcul într-un mod foarte portabil. Acesta este dotat cu containere docker face instalarea triviale și rezultate foarte reproductibile.

rezumat conducte

  1. Raw citit QC (FastQC)
  2. adaptor tunderea (Trim Galore!)
  3. aliniere (BWA)
  4. marca duplicate (picard)
  5. merge aliniamente din mai multe biblioteci ale aceluiași eșantion (picard)
    1. re-Mark duplicate (picard)
    2. filtrare pentru a elimina:
      • citește maparea în regiunile listate negre (SAMtoolsBEDTools)
      • Citește care sunt marcate ca duplicate (SAMtools)
      • citește că nu sunt marcate ca aliniamente primare (SAMtools)
      • Citește care nu sunt mapate (SAMtools)
      • citește harta în mai multe locații (SAMtools)
      • citește conținând> 4 nepotriviri (BAMTools)
      • citește că au o dimensiune de inserare> 2kb (BAMTools; pereche-end numai)
      • citește că harta la cromozomi diferite (Pysam; pereche-end numai)
      • citește că arent în orientare FR (Pysam; pereche-end numai)
      • citește în cazul în care doar o singură citire a perechea nu îndeplinește criteriile de mai sus (Pysam; și estimarea complexității bibliotecii (picardPreseq)
      • creați fișiere bigWig normalizate scalate la 1 milion de citiri mapate (BEDToolsbedGraphToBigWig)
      • generați meta-profilul corpului genei din fișierele Bigwig (deepTools)
      • calculați îmbogățirea IP la nivel de genom în raport cu controlul (deepTools)
      • calculați vârful corelației încrucișate și măsurile de calitate chip-seq, inclusiv NSC și RSC (phantompeakqualtools)
      • apel vârfuri largi/înguste (MACS2)
      • adnota vârfuri în raport cu caracteristicile genei (HOMER)
      • crearea peakset consens în toate probele și de a crea fișier tabelar pentru a ajuta la filtrarea datelor (BEDTools)
      • count citește în vârfuri de consens (featureCounts)
      • analiză de legare diferențială, PCA și clustering (RDESeq2)
  6. creați fișier sesiune IGV care conține piese bigwig, vârfuri și site-uri diferențiale pentru vizualizarea datelor (IGV).
  7. prezent QC pentru citire raw, aliniere, peak-asteptare și rezultate de legare diferențială (MultiQCR)

pornire rapidă

  1. instalarenextflow

  2. Instalați fieDocker sauSingularity pentru reproductibilitatea completă a conductelor (vă rugăm să folosiți doarConda în ultimă instanță; consultați documentele)

  3. descărcați conducta și testați-o pe un set de date minim cu un singur comandă:

    nextflow run nf-core/chipseq -profile test,<docker/singularity/conda/institute>

    verificați nf-core / configs pentru a vedea dacă există deja un fișier de configurare personalizat pentru a rula conducte NF-core pentru Institutul dvs. Dacă da, puteți utiliza pur și simplu -profile <institute> în comanda dvs. Acest lucru va permite fie dockersausingularity și setați setările de execuție corespunzătoare pentru mediul de calcul local.

  4. începeți să rulați propria analiză!

    nextflow run nf-core/chipseq -profile <docker/singularity/conda/institute> --input design.csv --genome GRCh37

consultați documentele de utilizare pentru toate opțiunile disponibile la rularea conductei.

documentație

conducta NF-core/chipseq vine cu documentație despre conductă, Găsită în directoruldocs/ :

  1. instalare
  2. configurare conducte
    • instalare locală
    • adăugarea propriul sistem de configurare
    • genomuri de referință
  3. rularea conductei
  4. ieșire și cum să interpreteze rezultatele
  5. depanare

credite

aceste script-uri au fost inițial scrise de Chuan Wang (@chuan-Wang) și Phil ewels (@ewels) pentru utilizare la infrastructura națională de Genomică de la scilifelab din Stockholm, Suedia. De atunci, conducta a fost reimplementată de Harshil Patel (@drpatelh) de la Bioinformatica & grupul de Biostatistică de la Institutul Francis Crick, Londra.

Multe mulțumiri altora care au ajutat și au contribuit de-a lungul drumului, inclusiv (dar fără a se limita la): @apeltzer, @bc2zb, @crickbabs, @drejom, @houghtos, @KevinMenden, @mashehu, @Pditommaso, @Rotholandus, @sofiahaglund, @tiagochst și @winni2k.

contribuții și Asistență

Dacă doriți să contribuiți pentru această conductă, vă rugăm să consultați liniile directoare care contribuie.

pentru informații suplimentare sau ajutor, nu ezitați să luați legătura cu Slack#chipseq canal (vă puteți alătura cu această invitație).

citare

dacă utilizați NF-core/chipseq pentru analiza dvs., vă rugăm să o citați folosind următorul doi: 10.5281 / zenodo.3240506

puteți cita publicațianf-core după cum urmează:

o listă extinsă de referințe pentru instrumentele utilizate de conductă poate fi găsită în fișierulCITATIONS.md.

cadrul NF-core pentru conductele bioinformatice organizate de comunitate.

Philip Ewels, Alexander Peltzer, Sven Fillinger, Harshil Patel, Johannes Alneberg, Andreas Wilm, Maxime Ulysse Garcia, Paolo Di Tommaso & Sven Nahnsen.

Nat Biotechnol. 2020 Feb 13. doi: 10.1038/s41587-020-0439-x.
ReadCube: Full Access Link

Lasă un răspuns

Adresa ta de email nu va fi publicată.