nf-core / chipseq

GitHub Actions CI StatusGitHub Actions Linting StatusNextflowDOI

install with biocondaDockerGet help on Slack

Introduction

nfcore/chipseq is a bioinformatics analysis pipeline used for Chromatin ImmunopreciPitation sequencing (ChIP-seq) data.

a csővezeték épül Nextflow, egy munkafolyamat eszköz futtatni feladatokat több számítási infrastruktúrák egy nagyon hordozható módon. Docker konténerekkel érkezik, így a telepítés triviális és az eredmények nagyon reprodukálhatók.

csővezeték összefoglaló

  1. nyers olvasási QC (FastQC)
  2. Adapter vágás (Trim Galore!)
  3. Igazítás (BWA)
  4. Mark Duplikátumok (picard)
  5. igazítások egyesítése ugyanazon minta több könyvtárából (picard)
    1. ismétlődések újbóli megjelölése (picard)
    2. szűrés az eltávolításhoz:
      • beolvassa a feketelistán szereplő régiókhoz való leképezést (SAMtoolsBEDTools)
      • duplikátumként jelölteket olvas (SAMtools)
      • azokat olvassa, amelyek elsődleges igazításként vannak megjelölve (SAMtools)
      • beolvassa azokat, amelyek nem voltak leképezve (SAMtools)
      • több helyre olvassa a térképet (SAMtools)
      • olvassa a > 4 eltérést (BAMTools)
      • beolvassa a beszúrási méretet > 2kb (
        BAMTools

        ; csak párosított vég)

      • különböző kromoszómákra olvassa ezt a térképet (Pysam; csak párosított vég)
      • csak FR orientációban olvassa el az arent-et (Pysam; csak párosított vég)
      • csak akkor olvassa el, ha a A pár nem felel meg a fenti kritériumoknak (Pysam;
    3. igazítási szintű QC és a könyvtár összetettségének becslése (picardPreseq)
    4. normalizált bigWig fájlok létrehozása 1 millió leképezett olvasatra méretezve (BEDToolsbedGraphToBigWig)
    5. generáljon gén-test metaprofilt a BigWig fájlokból (deepTools)
    6. számítsa ki a genom egészére kiterjedő IP-dúsítást a kontrollhoz képest (deepTools)
    7. számítsa ki a szálkeresztkorrelációs csúcsot és a chip-seq minőségi intézkedéseket, beleértve az NSC-t is és RSC (phantompeakqualtools)
    8. hívja a széles/keskeny csúcsokat (MACS2)
    9. jegyezze fel a csúcsokat a génjellemzőkhöz képest (HOMER)
    10. hozzon létre konszenzus csúcskészletet az összes mintában, és hozzon létre táblázatos fájlt az adatok szűrésének elősegítésére (MACS2BEDTools)
    11. a konszenzus csúcsaiban olvasható számok (featureCounts)
    12. differenciális Kötéselemzés, PCA és klaszterezés (RDESeq2)
  6. IGV munkamenet fájl létrehozása, amely bigwig számokat, csúcsokat és differenciális helyeket tartalmaz adatmegjelenítéshez (IGV).
  7. jelen QC nyers olvasási, igazítás, csúcs-hívás és differenciál kötési eredmények (MultiQCR)

Gyorsindítás

  1. Install nextflow

  2. telepítse vagy Docker vagy Singularity a teljes csővezeték reprodukálhatóságához (kérjük, csak a Conda utolsó lehetőségként használja; lásd a dokumentumokat)

  3. töltse le a csővezetéket, és tesztelje azt egy minimális adathalmazon egy egyetlen parancs:

    nextflow run nf-core/chipseq -profile test,<docker/singularity/conda/institute>

    ellenőrizze az nf-core / configs állományt, hogy van-e már saját konfigurációs fájl az NF-core csővezetékek futtatásához. Ha igen, egyszerűen használhatja a-profile <institute> parancsot. Ez lehetővé teszi a docker vagy a singularity funkciót, és megadja a megfelelő végrehajtási beállításokat a helyi számítási környezethez.

  4. indítsa el a saját elemzését!

    nextflow run nf-core/chipseq -profile <docker/singularity/conda/institute> --input design.csv --genome GRCh37

A folyamat futtatásakor az összes rendelkezésre álló opcióhoz lásd a használati dokumentumokat.

dokumentáció

az nf-core / chipseq csővezeték a csővezetékkel kapcsolatos dokumentációt tartalmazza, amely a docs/ könyvtárban található:

  1. telepítés
  2. csővezeték konfiguráció
    • helyi telepítés
    • saját rendszerkonfiguráció hozzáadása
    • referencia genomok
  3. a csővezeték futtatása
  4. kimenet és az eredmények értelmezése
  5. hibaelhárítás

hitelek

ezeket a szkripteket eredetileg Chuan Wang írta (@chuan-Wang) és Phil ewels (@ewels) a stockholmi scilifelab nemzeti genomikai infrastruktúrájában való használatra. A csővezeték azóta újra végre Harshil Patel (@drpatelh) a bioinformatika & Biostatistics Group A Francis Crick Intézet, London.

Sok köszönet másoknak, akik segítettek és hozzájárultak az út mentén is, beleértve (de nem kizárólagosan): @apeltzer, @bc2zb, @crickbabs, @drejom, @houghtos, @KevinMenden, @mashehu, @pditommaso, @Rotholandus, @sofiahaglund, @tiagochst és @winni2k.

hozzájárulások és támogatás

Ha szeretné ahhoz, hogy hozzájáruljon ehhez a csővezetékhez, kérjük, olvassa el a hozzájárulási irányelveket.

további információkért vagy segítségért ne habozzon kapcsolatba lépni a Slack #chipseq csatornán (csatlakozhat ezzel a meghívóval).

Citation

Ha NF-core/chipseq-t használ az elemzéshez, kérjük, idézze meg a következő doi-val: 10.5281/zenodo.3240506

a nf-core kiadvány az alábbiak szerint idézhető:

a csővezeték által használt eszközökre vonatkozó hivatkozások részletes listája megtalálható a CITATIONS.md fájlban.

a közösség által kurált bioinformatikai csővezetékek NF-core keretrendszere.

Philip Ewels, Alexander Peltzer, Sven Fillinger, Harshil Patel, Johannes Alneberg, Andreas Wilm, Maxime Ulysse Garcia, Paolo Di Tommaso & Sven Nahnsen.

Nat Biotechnol. 2020 Feb 13. doi: 10.1038/s41587-020-0439-x.
ReadCube: Full Access Link

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.