Introduction
nfcore/chipseq is a bioinformatics analysis pipeline used for Chromatin ImmunopreciPitation sequencing (ChIP-seq) data.
o gasoduto é construído usando Nextflow, uma ferramenta de fluxo de trabalho para executar tarefas através de múltiplas infra-estruturas computacionais de uma forma muito portátil. Ele vem com contêineres docker tornando a instalação trivial e resultados altamente reprodutíveis.
Pipeline resumo
- read Raw QC (
FastQC
- Adaptador de recorte (
Trim Galore!
- Alinhamento (
BWA
) - Marca de duplicatas (
picard
- Mesclar alinhamentos de várias bibliotecas de uma mesma amostra (
picard
)- Re-marca de duplicatas (
picard
- Filtragem para remover:
- lê o mapeamento na lista negra regiões (
SAMtools
BEDTools
- lê-se que são marcados como duplicados (
SAMtools
- lê que não estão marcados como principal alinhamentos (
SAMtools
) - lê que não estejam mapeados (
SAMtools
- lê-se que o mapa em vários locais (
SAMtools
- lê contendo > 4 incompatibilidades (
BAMTools
) - lê-se que tem um tamanho de inserção > 2kb (
BAMTools
; emparelhado-fim) - lê o mapa para diferentes cromossomos (
Pysam
; emparelhado-fim) - lê o que não está em FR orientação (
Pysam
; emparelhado-final apenas) - lê, onde apenas uma leitura do par falha os critérios acima (
Pysam
; emparelhado-fim)
- lê o mapeamento na lista negra regiões (
- Alinhamento de nível de QC e a estimativa da biblioteca de complexidade (
picard
Preseq
- Criar normalizada grandão arquivos dimensionado para 1 milhão mapeada lê (
BEDTools
bedGraphToBigWig
) - Gerar gene-corpo meta-perfil do grandão arquivos (
deepTools
- Calcular todo o genoma IP de enriquecimento em relação ao controle (
deepTools
- Calcular a vertente cross-correlação de pico e ChIP-seq medidas de qualidade, incluindo o conselho de segurança nacional e RSC (
phantompeakqualtools
- Chamada de largo/estreito picos (
MACS2
- Anotar picos em relação ao gene recursos (
HOMER
) - Criar consenso peakset em todas as amostras e criar tabular arquivo para ajudar na filtragem dos dados (
BEDTools
- Contagem lê-se no consenso de picos (
featureCounts
- Diferencial análise de vinculação, PCA e clustering (
R
DESeq2
- Re-marca de duplicatas (
- Criar IGV sessão ficheiro contém grandão trilhas, picos e diferencial sites para visualização de dados (
IGV
). - Presente de qualidade de matérias de leitura, de alinhamento, de pico de chamada e de diferencial de enlace de resultados (
MultiQC
R
)
Quick Start
-
Instalar
nextflow
-
Instalar
Docker
ouSingularity
por completo pipeline de reprodutibilidade (por favor, useConda
como último recurso; ver docs) -
faça o Download do pipeline e testá-lo em um mínimo de conjunto de dados com um único comando:
nextflow run nf-core/chipseq -profile test,<docker/singularity/conda/institute>
por Favor, verifique nf-core/configs para ver se um arquivo de configuração personalizado para executar nf-núcleo de dutos já existente para o seu Instituto. Se assim for, você pode simplesmente usar
-profile <institute>
no seu comando. Isto irá activar oudocker
ousingularity
e definir as configurações de execução apropriadas para o seu ambiente local de cálculo. -
comece a executar a sua própria análise!
nextflow run nf-core/chipseq -profile <docker/singularity/conda/institute> --input design.csv --genome GRCh37
Ver documentos de utilização para todas as opções disponíveis ao executar o gasoduto.
documentação
o gasoduto NF-core / chipseq vem com documentação sobre o gasoduto, encontrada no
docs/
directório:- Instalação
- configuração de Pipeline
- Local de instalação
- Adicionar o seu próprio sistema de config
- Referência genomas
- Executar o pipeline
- Saída e como interpretar os resultados
- Resolução de problemas
Créditos
Esses scripts foram originalmente escrito por Chuan Wang (@chuan-wang) e Phil Ewels (@ewels) para uso no Nacional de Infra-estrutura Genômica em SciLifeLab em Estocolmo, na Suécia. O gasoduto foi re-implementado desde então por Harshil Patel (@drpatelh) a partir da Bioinformática & Grupo Biostatístico no Francis Crick Institute, Londres.
muito obrigado aos outros que ajudaram e contribuíram ao longo do caminho, incluindo (mas não limitado a): @apeltzer, @bc2zb, @crickbabs, @drejom, @houghtos, @KevinMenden, @mashehu, @pditommaso, @Rotholandus, @sofiahaglund, @tiagochst e @winni2k.
Contribuições e Apoio
Se você gostaria de contribuir para este pipeline, consulte a contribuir com orientações.
para mais informações ou ajuda, não hesite em entrar em contacto com a folga
#chipseq
canal (pode juntar-se a este convite).Citation
Se você usar NF-core/chipseq para sua análise, por favor cite-o usando o seguinte doi: 10.5281 / zenodo.3240506
Você pode citar o
nf-core
publicação da seguinte forma:Uma extensa lista de referências para as ferramentas utilizadas pelo pipeline pode ser encontrado em
CITATIONS.md
arquivo.The nf-core framework for community-curated bioinformatics pipelines.
Philip Ewels, Alexander Peltzer, Sven Fillinger, Harshil Patel, Johannes Alneberg, Andreas Wilm, Maxime Ulysse Garcia, Paolo Di Tommaso & Sven Nahnsen.
Nat Biotechnol. 2020 Feb 13. doi: 10.1038/s41587-020-0439-x.
ReadCube: Full Access Link