1 S. cerevisiae annotation data

There are a few methods of importing annotation data into R. I will attempt some of them in preparation for loading them into the S.cerevisiae RNASeq data.

2 AnnotationHub: loading OrgDb

AnnotationHub is a newer service and has promise to be an excellent top-level resource for gathering annotation data.

tmp <- sm(library(AnnotationHub))
ah = sm(AnnotationHub())
orgdbs <- sm(query(ah, "OrgDb"))
sc_orgdb <- sm(query(ah, c("OrgDB", "Saccharomyces"))) ##   AH49589 | org.Sc.sgd.db.sqlite
sc_orgdb <- ah[["AH49589"]]

## loading from cache '/home/trey//.AnnotationHub/56319'

## Loading required package: AnnotationDbi

## Loading required package: stats4

## Loading required package: Biobase

## Welcome to Bioconductor
## 
##     Vignettes contain introductory material; view with 'browseVignettes()'. To
##     cite Bioconductor, see 'citation("Biobase")', and for packages
##     'citation("pkgname")'.

## 
## Attaching package: 'Biobase'

## The following object is masked from 'package:AnnotationHub':
## 
##     cache

## Loading required package: IRanges

## Loading required package: S4Vectors

## 
## Attaching package: 'S4Vectors'

## The following objects are masked from 'package:base':
## 
##     colMeans, colSums, expand.grid, rowMeans, rowSums

sc_orgdb

## OrgDb object:
## | DBSCHEMAVERSION: 2.1
## | Db type: OrgDb
## | Supporting package: AnnotationDbi
## | DBSCHEMA: YEAST_DB
## | ORGANISM: Saccharomyces cerevisiae
## | SPECIES: Yeast
## | YGSOURCENAME: Yeast Genome
## | YGSOURCEURL: http://downloads.yeastgenome.org/
## | YGSOURCEDATE: 08-Aug-2015
## | CENTRALID: ORF
## | TAXID: 559292
## | KEGGSOURCENAME: KEGG GENOME
## | KEGGSOURCEURL: ftp://ftp.genome.jp/pub/kegg/genomes
## | KEGGSOURCEDATE: 2011-Mar15
## | GOSOURCENAME: Gene Ontology
## | GOSOURCEURL: ftp://ftp.geneontology.org/pub/go/godatabase/archive/latest-lite/
## | GOSOURCEDATE: 20150808
## | EGSOURCEDATE: 2015-Aug11
## | EGSOURCENAME: Entrez Gene
## | EGSOURCEURL: ftp://ftp.ncbi.nlm.nih.gov/gene/DATA
## | ENSOURCEDATE: 2015-Jul16
## | ENSOURCENAME: Ensembl
## | ENSOURCEURL: ftp://ftp.ensembl.org/pub/current_fasta
## | UPSOURCENAME: Uniprot
## | UPSOURCEURL: http://www.UniProt.org/
## | UPSOURCEDATE: Thu Aug 20 15:54:12 2015

## 
## Please see: help('select') for usage information

## Holy crap it worked!
sc_annotv1 <- load_orgdb_annotations(sc_orgdb,
                                     fields=c("alias", "description", "entrezid", "genename", "sgd"))

## Extracted all gene ids.

## 'select()' returned 1:many mapping between keys and columns

summary(sc_annotv1)

##             Length Class      Mode
## genes       6      data.frame list
## transcripts 0      -none-     NULL

sc_annotv1 <- sc_annotv1[["genes"]]
head(sc_annotv1)

##           ensembl              alias
## YGL261C   YGL261C  seripauperin PAU8
## YGL261C.1 YGL261C  seripauperin PAU9
## YGL261C.2 YGL261C seripauperin PAU11
## YAL068C   YAL068C  seripauperin PAU8
## YAL068C.1 YAL068C  seripauperin PAU9
## YAL068C.2 YAL068C seripauperin PAU11
##                                                                                                                                                                                  description
## YGL261C                                                                      Protein of unknown function; member of the seripauperin multigene family encoded mainly in subtelomeric regions
## YGL261C.1                                                                    Protein of unknown function; member of the seripauperin multigene family encoded mainly in subtelomeric regions
## YGL261C.2 Putative protein of unknown function; member of the seripauperin multigene family encoded mainly in subtelomeric regions; mRNA expression appears to be regulated by SUT1 and UPC2
## YAL068C                                                                      Protein of unknown function; member of the seripauperin multigene family encoded mainly in subtelomeric regions
## YAL068C.1                                                                    Protein of unknown function; member of the seripauperin multigene family encoded mainly in subtelomeric regions
## YAL068C.2 Putative protein of unknown function; member of the seripauperin multigene family encoded mainly in subtelomeric regions; mRNA expression appears to be regulated by SUT1 and UPC2
##           entrezid genename        sgd
## YGL261C     851229     PAU8 S000002142
## YGL261C.1   852163     PAU9 S000007592
## YGL261C.2   852630    PAU11 S000003230
## YAL068C     851229     PAU8 S000002142
## YAL068C.1   852163     PAU9 S000007592
## YAL068C.2   852630    PAU11 S000003230

require.auto("TxDb.Scerevisiae.UCSC.sacCer3.sgdGene")

## [1] 0

tmp <- sm(library(TxDb.Scerevisiae.UCSC.sacCer3.sgdGene))
sc_txdb <- TxDb.Scerevisiae.UCSC.sacCer3.sgdGene

3 Loading a genome

There is a non-zero chance we will want to use the actual genome sequence along with these annotations. The BSGenome packages provide that functionality.

tt <- sm(require.auto("BSgenome.Scerevisiae.UCSC.sacCer3"))

4 Loading a genome

There is a non-zero chance we will want to use the actual genome sequence along with these annotations. The BSGenome packages provide that functionality.

tt <- sm(require.auto("BSgenome.Scerevisiae.UCSC.sacCer3"))

5 Loading from biomart

A completely separate and competing annotation source is biomart.

sc_annotv2 <- sm(get_biomart_annotations("scerevisiae"))
head(sc_annotv2)

##           transcriptID   geneID
## X15S_rRNA     15S_rRNA 15S_rRNA
## X21S_rRNA     21S_rRNA 21S_rRNA
## HRA1              HRA1     HRA1
## ICR1              ICR1     ICR1
## LSR1              LSR1     LSR1
## NME1              NME1     NME1
##                                                                                                                                                                                                                                                                                    Description
## X15S_rRNA                                                                                                            Ribosomal RNA of the small mitochondrial ribosomal subunit; MSU1 allele suppresses ochre stop mutations in mitochondrial protein-coding genes [Source:SGD;Acc:S000007287]
## X21S_rRNA                                                                                                                                                                                       Mitochondrial 21S rRNA; intron encodes the I-SceI DNA endonuclease [Source:SGD;Acc:S000007288]
## HRA1                                                                                                         Non-protein-coding RNA; substrate of RNase P, possibly involved in rRNA processing, specifically maturation of 20S precursor into the mature 18S rRNA [Source:SGD;Acc:S000119380]
## ICR1      Long intergenic regulatory ncRNA; has a key role in regulating transcription of the nearby protein-coding ORF FLO11; initiated far upstream from FLO11 and transcribed across much of the large promoter of FLO11, repressing FLO11 transcription in cis [Source:SGD;Acc:S000132612]
## LSR1           U2 spliceosomal RNA (U2 snRNA), component of the spliceosome; pairs with the branchpoint sequence; functionally equivalent to mammalian U2 snRNA; stress-induced pseudouridylations at positions 56 and 93 may contribute to regulation of splicing [Source:SGD;Acc:S000006478]
## NME1                                                    RNA component of RNase MRP; RNase MRP cleaves pre-rRNA and has a role in cell cycle-regulated degradation of daughter cell-specific mRNAs; human ortholog is implicated in cartilage-hair hypoplasia (CHH) [Source:SGD;Acc:S000007436]
##             Type length chromosome strand  start    end
## X15S_rRNA   rRNA     NA       Mito      1   6546   8194
## X21S_rRNA   rRNA     NA       Mito      1  58009  62447
## HRA1       ncRNA     NA          I      1  99305  99868
## ICR1       ncRNA     NA         IX     -1 393884 397082
## LSR1       snRNA     NA         II     -1 680688 681862
## NME1      snoRNA     NA        XIV      1 585587 585926

sc_ontology <- sm(get_biomart_ontologies("scerevisiae"))

6 Read a gff file

In contrast, it is possible to load most annotations of interest directly from the gff files used in the alignments.

## The old way of getting genome/annotation data
sc_gff <- "reference/scerevisiae.gff.gz"
sc_gff_annotations <- gff2df(sc_gff, type="gene")

## Trying attempt: rtracklayer::import.gff3(gff, sequenceRegionsAsSeqinfo=TRUE)

## Trying attempt: rtracklayer::import.gff3(gff, sequenceRegionsAsSeqinfo=FALSE)

## Trying attempt: rtracklayer::import.gff2(gff, sequenceRegionsAsSeqinfo=TRUE)

## Had a successful gff import with rtracklayer::import.gff2(gff, sequenceRegionsAsSeqinfo=TRUE)

## Returning a df with 18 columns and 7050 rows.

rownames(sc_gff_annotations) <- make.names(sc_gff_annotations$transcript_name, unique=TRUE)
head(sc_gff_annotations)

##           seqnames start   end width strand         source type score phase exon_number
## YAL069W          I   335   646   312      + protein_coding gene    NA     0           1
## YAL068W.A        I   538   789   252      + protein_coding gene    NA     0           1
## PAU8             I  1810  2169   360      - protein_coding gene    NA     0           1
## YAL067W.A        I  2480  2704   225      + protein_coding gene    NA     0           1
## SEO1             I  7238  9016  1779      - protein_coding gene    NA     0           1
## YAL066W          I 10091 10396   306      + protein_coding gene    NA     0           1
##             gene_id        ID  p_id protein_id transcript_id transcript_name  tss_id
## YAL069W     YAL069W   YAL069W P3633    YAL069W       YAL069W         YAL069W TSS1128
## YAL068W.A YAL068W-A YAL068W-A P5377  YAL068W-A     YAL068W-A       YAL068W-A TSS5439
## PAU8        YAL068C      PAU8 P6023    YAL068C       YAL068C            PAU8  TSS249
## YAL067W.A YAL067W-A YAL067W-A P4547  YAL067W-A     YAL067W-A       YAL067W-A TSS1248
## SEO1        YAL067C      SEO1 P5747    YAL067C       YAL067C            SEO1 TSS5464
## YAL066W     YAL066W   YAL066W P1766    YAL066W       YAL066W         YAL066W TSS2674
##           seqedit
## YAL069W      <NA>
## YAL068W.A    <NA>
## PAU8         <NA>
## YAL067W.A    <NA>
## SEO1         <NA>
## YAL066W      <NA>

7 Putting the pieces together

In the following block we create an expressionset using the sample sheet and the annotations.

Annoyingly, the gff annotations are keyed in a peculiar fashion. Therefore I need to do a little work to merge them.

## Start by making locations for the biomart data
sc_annotv2[["fwd_location"]] <- paste0(sc_annotv2[["chromosome"]], "_", sc_annotv2[["start"]])
sc_annotv2[["rev_location"]] <- paste0(sc_annotv2[["chromosome"]], "_", sc_annotv2[["end"]])
## Do the same for the gff annotations
sc_gff_annotations[["fwd_location"]] <- paste0(sc_gff_annotations[["seqnames"]], "_", sc_gff_annotations[["start"]])
sc_gff_annotations[["rev_location"]] <- paste0(sc_gff_annotations[["seqnames"]], "_", sc_gff_annotations[["end"]])
sc_gff_annotations[["gff_rowname"]] <- rownames(sc_gff_annotations)
## Now merge them.
sc_fwd_annotations <- merge(sc_annotv2, sc_gff_annotations, by="fwd_location")
sc_rev_annotations <- merge(sc_annotv2, sc_gff_annotations, by="rev_location")
colnames(sc_fwd_annotations) <- c("location","transcriptID","geneID", "Description",
                                  "Type", "length", "chromosome", "strand.x", "start.x",
                                  "end.x", "location.x", "seqnames",
                                  "start.y", "end.y", "width", "strand.y", "source", "type",
                                  "score", "phase", "exon_number", "gene_id", "ID", "p_id",
                                  "protein_id", "transcript_id", "transcript_name", "tss_id",
                                  "seqedit", "location.y", "gff_rowname")
colnames(sc_rev_annotations) <- colnames(sc_fwd_annotations)
sc_all_annotations <- rbind(sc_fwd_annotations, sc_rev_annotations)
rownames(sc_all_annotations) <- make.names(sc_all_annotations[["gff_rowname"]], unique=TRUE)
sc_all_annotations <- sc_all_annotations[, c("transcriptID", "geneID", "Description", "Type",
                                             "length", "chromosome", "strand.x", "start.x", "end.x",
                                             "tss_id")]
colnames(sc_all_annotations) <- c("transcriptID", "geneID", "Description", "Type", "length",
                                  "chromosome", "strand", "start", "end", "tss_id")
sc_all_annotations[["location"]] <- paste0(sc_all_annotations[["chromosome"]], "_", sc_all_annotations[["start"]], "_", sc_all_annotations[["end"]])

sc2_expt <- create_expt(metadata="sample_sheets/all_samples.xlsx",
                        gene_info=sc_all_annotations,
                        file_column="bt2file")

## preprocessing/v2/hpgl0774/outputs/bowtie2_scerevisiae/hpgl0774_forward-trimmed.count.xz contains 7131 rows.

## preprocessing/v2/hpgl0775/outputs/bowtie2_scerevisiae/hpgl0775_forward-trimmed.count.xz contains 7131 rows and merges to 7131 rows.

## preprocessing/v2/hpgl0776/outputs/bowtie2_scerevisiae/hpgl0776_forward-trimmed.count.xz contains 7131 rows and merges to 7131 rows.

## preprocessing/v2/hpgl0777/outputs/bowtie2_scerevisiae/hpgl0777_forward-trimmed.count.xz contains 7131 rows and merges to 7131 rows.

## preprocessing/v2/hpgl0778/outputs/bowtie2_scerevisiae/hpgl0778_forward-trimmed.count.xz contains 7131 rows and merges to 7131 rows.

## preprocessing/v2/hpgl0779/outputs/bowtie2_scerevisiae/hpgl0779_forward-trimmed.count.xz contains 7131 rows and merges to 7131 rows.

## preprocessing/v2/hpgl0780/outputs/bowtie2_scerevisiae/hpgl0780_forward-trimmed.count.xz contains 7131 rows and merges to 7131 rows.

## preprocessing/v2/hpgl0781/outputs/bowtie2_scerevisiae/hpgl0781_forward-trimmed.count.xz contains 7131 rows and merges to 7131 rows.

## preprocessing/v2/hpgl0782/outputs/bowtie2_scerevisiae/hpgl0782_forward-trimmed.count.xz contains 7131 rows and merges to 7131 rows.

## preprocessing/v2/hpgl0783/outputs/bowtie2_scerevisiae/hpgl0783_forward-trimmed.count.xz contains 7131 rows and merges to 7131 rows.

## preprocessing/v2/hpgl0784/outputs/bowtie2_scerevisiae/hpgl0784_forward-trimmed.count.xz contains 7131 rows and merges to 7131 rows.

## preprocessing/v2/hpgl0785/outputs/bowtie2_scerevisiae/hpgl0785_forward-trimmed.count.xz contains 7131 rows and merges to 7131 rows.

## preprocessing/v2/hpgl0786/outputs/bowtie2_scerevisiae/hpgl0786_forward-trimmed.count.xz contains 7131 rows and merges to 7131 rows.

## preprocessing/v2/hpgl0787/outputs/bowtie2_scerevisiae/hpgl0787_forward-trimmed.count.xz contains 7131 rows and merges to 7131 rows.

## preprocessing/v2/hpgl0788/outputs/bowtie2_scerevisiae/hpgl0788_forward-trimmed.count.xz contains 7131 rows and merges to 7131 rows.

## preprocessing/v2/hpgl0789/outputs/bowtie2_scerevisiae/hpgl0789_forward-trimmed.count.xz contains 7131 rows and merges to 7131 rows.

## Bringing together the count matrix and gene information.

library(Biobase)
head(exprs(sc2_expt$expressionset))

##           hpgl0774 hpgl0775 hpgl0776 hpgl0777 hpgl0778 hpgl0779 hpgl0780 hpgl0781
## X15S_rRNA        0        0        0        0        0        0        0        0
## X21S_rRNA        0        0        0        0        0        0        0        0
## AAC1           536      477      743      443      634      188      763      414
## AAC3           126      216       93      765      152      154      102      738
## AAD10         1784     1928     2327     3869     2172      994     2472     3551
## AAD14         1054      901     1222     1863     1106      836     1307     1588
##           hpgl0782 hpgl0783 hpgl0784 hpgl0785 hpgl0786 hpgl0787 hpgl0788 hpgl0789
## X15S_rRNA        0        0        0        0        0        0        0        0
## X21S_rRNA        0        0        0        0        0        0        0        0
## AAC1           175      145      140      237      124      142      141      181
## AAC3           295      119      341      542      210      118      438     1071
## AAD10          365      589     1476     1593      352      542     1782     2082
## AAD14          542      766     1580     1814      439      795     1924     2333

head(fData(sc2_expt$expressionset))

##           transcriptID  geneID
## X15S_rRNA         <NA>    <NA>
## X21S_rRNA         <NA>    <NA>
## AAC1           YMR056C YMR056C
## AAC3           YBR085W YBR085W
## AAD10          YJR155W YJR155W
## AAD14          YNL331C YNL331C
##                                                                                                                                                                                                                                                                                                                                                                                Description
## X15S_rRNA                                                                                                                                                                                                                                                                                                                                                                             <NA>
## X21S_rRNA                                                                                                                                                                                                                                                                                                                                                                             <NA>
## AAC1                                                                           Mitochondrial inner membrane ADP/ATP translocator; exchanges cytosolic ADP for mitochondrially synthesized ATP; phosphorylated; Aac1p is a minor isoform while Pet9p is the major ADP/ATP translocator; relocalizes from mitochondrion to cytoplasm upon DNA replication stress [Source:SGD;Acc:S000004660]
## AAC3                                                  Mitochondrial inner membrane ADP/ATP translocator; exchanges cytosolic ADP for mitochondrially synthesized ATP; expressed under anaerobic conditions; similar to Aac1p; has roles in maintenance of viability and in respiration; AAC3 has a paralog, PET9, that arose from the whole genome duplication [Source:SGD;Acc:S000000289]
## AAD10     Putative aryl-alcohol dehydrogenase; similar to P. chrysosporium aryl-alcohol dehydrogenase; mutational analysis has not yet revealed a physiological role; members of the AAD gene family comprise three pairs (AAD3 + AAD15, AAD6/AAD16 + AAD4, AAD10 + AAD14) whose two genes are more related to one another than to other members of the family [Source:SGD;Acc:S000003916]
## AAD14     Putative aryl-alcohol dehydrogenase; similar to P. chrysosporium aryl-alcohol dehydrogenase; mutational analysis has not yet revealed a physiological role; members of the AAD gene family comprise three pairs (AAD3 + AAD15, AAD6/AAD16 + AAD4, AAD10 + AAD14) whose two genes are more related to one another than to other members of the family [Source:SGD;Acc:S000005275]
##                     Type length chromosome strand  start    end  tss_id
## X15S_rRNA           <NA>     NA       <NA>     NA     NA     NA    <NA>
## X21S_rRNA           <NA>     NA       <NA>     NA     NA     NA    <NA>
## AAC1      protein_coding    930       XIII     -1 387315 388244 TSS5132
## AAC3      protein_coding    924         II      1 415983 416906 TSS1609
## AAD10     protein_coding    867          X      1 727405 728271 TSS5024
## AAD14     protein_coding   1131        XIV     -1  16118  17248 TSS6941
##                     location
## X15S_rRNA               <NA>
## X21S_rRNA               <NA>
## AAC1      XIII_387315_388244
## AAC3        II_415983_416906
## AAD10        X_727405_728271
## AAD14        XIV_16118_17248

head(pData(sc2_expt$expressionset))

##          sampleid  strain condition batch originalbatch tube cbf5igv upf1igv
## hpgl0774 hpgl0774 yJD1524   wtc_wtu     r             a    f      wt      wt
## hpgl0775 hpgl0775 yJD1525   mtc_wtu     r             a    f     mut      wt
## hpgl0776 hpgl0776 yJD1745   wtc_mtu     r             a    f      wt     mut
## hpgl0777 hpgl0777 yJD1746   mtc_mtu     r             a    f     mut     mut
## hpgl0778 hpgl0778 yJD1524   wtc_wtu     r             b    g      wt      wt
## hpgl0779 hpgl0779 yJD1525   mtc_wtu     r             b    g     mut      wt
##          incubationtime
## hpgl0774            18h
## hpgl0775            18h
## hpgl0776            18h
## hpgl0777            18h
## hpgl0778            18h
## hpgl0779            18h
##                                                                                                                    genotype
## hpgl0774                                   wt ade2-1 can1-100 his3-11 leu2-3, 112 trp1-1 ura3-1 cbf5::TRP1 + CBF5 on pRS313
## hpgl0775                            d95a ade2-1 can1-100 his3-11 leu2-3, 112 trp1-1 ura3-1 cbf5::TRP1 + CBF5 D95A on pRS313
## hpgl0776        wt ade2-1 can1-100 his3-11 leu2-3, 112 trp1-1 ura3-1 cbf5::TRP1 upf1::LEU2 + CBF5 on pRS313 (yJD1524 upf1Δ)
## hpgl0777 d95a ade2-1 can1-100 his3-11 leu2-3, 112 trp1-1 ura3-1 cbf5::TRP1 upf1::LEU2 + CBF5 D95A on pRS313 (yJD1525 upf1Δ)
## hpgl0778                                   wt ade2-1 can1-100 his3-11 leu2-3, 112 trp1-1 ura3-1 cbf5::TRP1 + CBF5 on pRS313
## hpgl0779                            d95a ade2-1 can1-100 his3-11 leu2-3, 112 trp1-1 ura3-1 cbf5::TRP1 + CBF5 D95A on pRS313
##          conc bttotalreads bttotalmapped btleftmapped btrightmapped bowtiefile
## hpgl0774   NA           NA            NA           NA            NA       <NA>
## hpgl0775   NA           NA            NA           NA            NA       <NA>
## hpgl0776   NA           NA            NA           NA            NA       <NA>
## hpgl0777   NA           NA            NA           NA            NA       <NA>
## hpgl0778   NA           NA            NA           NA            NA       <NA>
## hpgl0779   NA           NA            NA           NA            NA       <NA>
##                                                                                          bt2file
## hpgl0774 preprocessing/v2/hpgl0774/outputs/bowtie2_scerevisiae/hpgl0774_forward-trimmed.count.xz
## hpgl0775 preprocessing/v2/hpgl0775/outputs/bowtie2_scerevisiae/hpgl0775_forward-trimmed.count.xz
## hpgl0776 preprocessing/v2/hpgl0776/outputs/bowtie2_scerevisiae/hpgl0776_forward-trimmed.count.xz
## hpgl0777 preprocessing/v2/hpgl0777/outputs/bowtie2_scerevisiae/hpgl0777_forward-trimmed.count.xz
## hpgl0778 preprocessing/v2/hpgl0778/outputs/bowtie2_scerevisiae/hpgl0778_forward-trimmed.count.xz
## hpgl0779 preprocessing/v2/hpgl0779/outputs/bowtie2_scerevisiae/hpgl0779_forward-trimmed.count.xz
##                                                                      intronfile
## hpgl0774 preprocessing/v2/hpgl0774/outputs/bowtie2_scerevisiae/introns.count.xz
## hpgl0775 preprocessing/v2/hpgl0775/outputs/bowtie2_scerevisiae/introns.count.xz
## hpgl0776 preprocessing/v2/hpgl0776/outputs/bowtie2_scerevisiae/introns.count.xz
## hpgl0777 preprocessing/v2/hpgl0777/outputs/bowtie2_scerevisiae/introns.count.xz
## hpgl0778 preprocessing/v2/hpgl0778/outputs/bowtie2_scerevisiae/introns.count.xz
## hpgl0779 preprocessing/v2/hpgl0779/outputs/bowtie2_scerevisiae/introns.count.xz
##                                                                                          allfile
## hpgl0774 preprocessing/v2/hpgl0774/outputs/bowtie2_scerevisiae/hpgl0774_forward-trimmed.count.xz
## hpgl0775 preprocessing/v2/hpgl0775/outputs/bowtie2_scerevisiae/hpgl0775_forward-trimmed.count.xz
## hpgl0776 preprocessing/v2/hpgl0776/outputs/bowtie2_scerevisiae/hpgl0776_forward-trimmed.count.xz
## hpgl0777 preprocessing/v2/hpgl0777/outputs/bowtie2_scerevisiae/hpgl0777_forward-trimmed.count.xz
## hpgl0778 preprocessing/v2/hpgl0778/outputs/bowtie2_scerevisiae/hpgl0778_forward-trimmed.count.xz
## hpgl0779 preprocessing/v2/hpgl0779/outputs/bowtie2_scerevisiae/hpgl0779_forward-trimmed.count.xz
##          file
## hpgl0774 null
## hpgl0775 null
## hpgl0776 null
## hpgl0777 null
## hpgl0778 null
## hpgl0779 null

library("pander")
pander(sessionInfo())

R version 3.3.3 (2017-03-06)

**Platform:** x86_64-pc-linux-gnu (64-bit)

locale: LC_CTYPE=en_US.UTF-8, LC_NUMERIC=C, LC_TIME=en_US.UTF-8, LC_COLLATE=en_US.UTF-8, LC_MONETARY=en_US.UTF-8, LC_MESSAGES=en_US.UTF-8, LC_PAPER=en_US.UTF-8, LC_NAME=C, LC_ADDRESS=C, LC_TELEPHONE=C, LC_MEASUREMENT=en_US.UTF-8 and LC_IDENTIFICATION=C

attached base packages: stats4, parallel, stats, graphics, grDevices, utils, datasets, methods and base

other attached packages: pander(v.0.6.0), TxDb.Scerevisiae.UCSC.sacCer3.sgdGene(v.3.2.2), GenomicFeatures(v.1.26.4), GenomicRanges(v.1.26.4), GenomeInfoDb(v.1.10.3), AnnotationDbi(v.1.36.2), IRanges(v.2.8.2), S4Vectors(v.0.12.2), Biobase(v.2.34.0), AnnotationHub(v.2.6.5), BiocGenerics(v.0.20.0) and hpgltools(v.2017.01)

loaded via a namespace (and not attached): Rcpp(v.0.12.11), lattice(v.0.20-35), Rsamtools(v.1.26.2), Biostrings(v.2.42.1), rprojroot(v.1.2), digest(v.0.6.12), foreach(v.1.4.3), mime(v.0.5), R6(v.2.2.1), plyr(v.1.8.4), backports(v.1.0.5), RSQLite(v.1.1-2), evaluate(v.0.10), httr(v.1.2.1), ggplot2(v.2.2.1), BiocInstaller(v.1.24.0), zlibbioc(v.1.20.0), rlang(v.0.1.1), lazyeval(v.0.2.0), curl(v.2.6), data.table(v.1.10.4), Matrix(v.1.2-10), rmarkdown(v.1.5), devtools(v.1.13.1), BiocParallel(v.1.8.2), stringr(v.1.2.0), RCurl(v.1.95-4.8), biomaRt(v.2.30.0), munsell(v.0.4.3), shiny(v.1.0.3), compiler(v.3.3.3), httpuv(v.1.3.3), rtracklayer(v.1.34.2), base64enc(v.0.1-3), htmltools(v.0.3.6), SummarizedExperiment(v.1.4.0), tibble(v.1.3.1), interactiveDisplayBase(v.1.12.0), roxygen2(v.6.0.1), codetools(v.0.2-15), XML(v.3.98-1.7), crayon(v.1.3.2), withr(v.1.0.2), GenomicAlignments(v.1.10.1), bitops(v.1.0-6), commonmark(v.1.2), grid(v.3.3.3), xtable(v.1.8-2), gtable(v.0.2.0), DBI(v.0.6-1), magrittr(v.1.5), scales(v.0.4.1), stringi(v.1.1.5), XVector(v.0.14.1), testthat(v.1.0.2), xml2(v.1.1.1), openxlsx(v.4.0.17), RColorBrewer(v.1.1-2), iterators(v.1.0.8), tools(v.3.3.3), yaml(v.2.1.14), colorspace(v.1.3-2), memoise(v.1.1.0) and knitr(v.1.16)

LS0tCnRpdGxlOiAiQ29sbGVjdGluZyBTLiBjZXJldmlzaWFlIGFubm90YXRpb24gZGF0YS4iCmF1dGhvcjogImF0YiBhYmVsZXdAZ21haWwuY29tIgpkYXRlOiAiYHIgU3lzLkRhdGUoKWAiCm91dHB1dDoKIGh0bWxfZG9jdW1lbnQ6CiAgY29kZV9kb3dubG9hZDogdHJ1ZQogIGNvZGVfZm9sZGluZzogc2hvdwogIGZpZ19jYXB0aW9uOiB0cnVlCiAgZmlnX2hlaWdodDogNwogIGZpZ193aWR0aDogNwogIGhpZ2hsaWdodDogZGVmYXVsdAogIGtlZXBfbWQ6IGZhbHNlCiAgbW9kZTogc2VsZmNvbnRhaW5lZAogIG51bWJlcl9zZWN0aW9uczogdHJ1ZQogIHNlbGZfY29udGFpbmVkOiB0cnVlCiAgdGhlbWU6IHJlYWRhYmxlCiAgdG9jOiB0cnVlCiAgdG9jX2Zsb2F0OgogICAgY29sbGFwc2VkOiBmYWxzZQogICAgc21vb3RoX3Njcm9sbDogZmFsc2UKLS0tCgo8c3R5bGU+CiAgPCEtLSBEb2N1bWVudCBwcmVsdWRlIHJldmlzaW9uIDIwMTctMDIgLS0+CiAgYm9keSAubWFpbi1jb250YWluZXIgewogICAgbWF4LXdpZHRoOiAxNjAwcHg7Cn0KPC9zdHlsZT4KCmBgYHtyIG9wdGlvbnMsIGluY2x1ZGU9RkFMU0V9CiMjIFRoZXNlIGFyZSB0aGUgb3B0aW9ucyBJIHRlbmQgdG8gZmF2b3IKbGlicmFyeSgiaHBnbHRvb2xzIikKdHQgPC0gZGV2dG9vbHM6OmxvYWRfYWxsKCJ+L2hwZ2x0b29scyIpCmtuaXRyOjpvcHRzX2tuaXQkc2V0KAogICAgcHJvZ3Jlc3MgPSBUUlVFLAogICAgdmVyYm9zZSA9IFRSVUUsCiAgICB3aWR0aCA9IDkwLAogICAgZWNobyA9IFRSVUUpCmtuaXRyOjpvcHRzX2NodW5rJHNldCgKICAgIGVycm9yID0gVFJVRSwKICAgIGZpZy53aWR0aCA9IDgsCiAgICBmaWcuaGVpZ2h0ID0gOCwKICAgIGRwaSA9IDk2KQpvcHRpb25zKAogICAgZGlnaXRzID0gNCwKICAgIHN0cmluZ3NBc0ZhY3RvcnMgPSBGQUxTRSwKICAgIGtuaXRyLmR1cGxpY2F0ZS5sYWJlbCA9ICJhbGxvdyIpCmdncGxvdDI6OnRoZW1lX3NldChnZ3Bsb3QyOjp0aGVtZV9idyhiYXNlX3NpemU9MTApKQpzZXQuc2VlZCgxKQp2ZXIgPC0gIjIwMTcwNTE1IgpwcmV2aW91c19maWxlIDwtICJpbmRleC5SbWQiCmBgYAoKYGBge3IgbG9hZG1lLCBpbmNsdWRlPUZBTFNFfQp0bXAgPC0gdHJ5KHNtKGxvYWRtZShmaWxlbmFtZT1wYXN0ZTAoZ3N1YihwYXR0ZXJuPSJcXC5SbWQiLCByZXBsYWNlPSIiLCB4PXByZXZpb3VzX2ZpbGUpLCAiLXYiLCB2ZXIsICIucmRhLnh6IikpKSkKCnJtZF9maWxlIDwtICJhbm5vdGF0aW9uLlJtZCIKdGhpc19zYXZlIDwtIHBhc3RlMChnc3ViKHBhdHRlcm49IlxcLlJtZCIsIHJlcGxhY2U9IiIsIHg9cm1kX2ZpbGUpLCAiLXYiLCB2ZXIsICIucmRhLnh6IikKYGBgCgpgYGB7ciByZW5kZXIsIGV2YWw9RkFMU0UsIGluY2x1ZGU9RkFMU0V9CiMjIFRoaXMgYmxvY2sgaXMgdXNlZCB0byByZW5kZXIgYSBkb2N1bWVudCBmcm9tIHdpdGhpbiBpdC4Kcm1hcmtkb3duOjpyZW5kZXIocm1kX2ZpbGUpCgojIyBBbiBleHRyYSByZW5kZXJlciBmb3IgcGRmIG91dHB1dApybWFya2Rvd246OnJlbmRlcihybWRfZmlsZSwgb3V0cHV0X2Zvcm1hdD0icGRmX2RvY3VtZW50Iiwgb3V0cHV0X29wdGlvbnM9Yygic2tpcF9odG1sIikpCmBgYAoKUy4gY2VyZXZpc2lhZSBhbm5vdGF0aW9uIGRhdGEKPT09PT09PT09PT09PT09PT09PT09PT09PT09PT0KClRoZXJlIGFyZSBhIGZldyBtZXRob2RzIG9mIGltcG9ydGluZyBhbm5vdGF0aW9uIGRhdGEgaW50byBSLiAgSSB3aWxsIGF0dGVtcHQKc29tZSBvZiB0aGVtIGluIHByZXBhcmF0aW9uIGZvciBsb2FkaW5nIHRoZW0gaW50byB0aGUgUy5jZXJldmlzaWFlIFJOQVNlcSBkYXRhLgoKIyBBbm5vdGF0aW9uSHViOiBsb2FkaW5nIE9yZ0RiCgpBbm5vdGF0aW9uSHViIGlzIGEgbmV3ZXIgc2VydmljZSBhbmQgaGFzIHByb21pc2UgdG8gYmUgYW4gZXhjZWxsZW50IHRvcC1sZXZlbCByZXNvdXJjZSBmb3IgZ2F0aGVyaW5nCmFubm90YXRpb24gZGF0YS4KCmBgYHtyIGRhdGFfaW5wdXRfZ2Vub21lfQp0bXAgPC0gc20obGlicmFyeShBbm5vdGF0aW9uSHViKSkKYWggPSBzbShBbm5vdGF0aW9uSHViKCkpCm9yZ2RicyA8LSBzbShxdWVyeShhaCwgIk9yZ0RiIikpCnNjX29yZ2RiIDwtIHNtKHF1ZXJ5KGFoLCBjKCJPcmdEQiIsICJTYWNjaGFyb215Y2VzIikpKSAjIyAgIEFINDk1ODkgfCBvcmcuU2Muc2dkLmRiLnNxbGl0ZQpzY19vcmdkYiA8LSBhaFtbIkFINDk1ODkiXV0KCnNjX29yZ2RiCiMjIEhvbHkgY3JhcCBpdCB3b3JrZWQhCnNjX2Fubm90djEgPC0gbG9hZF9vcmdkYl9hbm5vdGF0aW9ucyhzY19vcmdkYiwKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIGZpZWxkcz1jKCJhbGlhcyIsICJkZXNjcmlwdGlvbiIsICJlbnRyZXppZCIsICJnZW5lbmFtZSIsICJzZ2QiKSkKc3VtbWFyeShzY19hbm5vdHYxKQpzY19hbm5vdHYxIDwtIHNjX2Fubm90djFbWyJnZW5lcyJdXQpoZWFkKHNjX2Fubm90djEpCmBgYAoKYGBge3Igc2NlcmV2aXNpYWVfdHhkYn0KcmVxdWlyZS5hdXRvKCJUeERiLlNjZXJldmlzaWFlLlVDU0Muc2FjQ2VyMy5zZ2RHZW5lIikKdG1wIDwtIHNtKGxpYnJhcnkoVHhEYi5TY2VyZXZpc2lhZS5VQ1NDLnNhY0NlcjMuc2dkR2VuZSkpCnNjX3R4ZGIgPC0gVHhEYi5TY2VyZXZpc2lhZS5VQ1NDLnNhY0NlcjMuc2dkR2VuZQpgYGAKCiMgTG9hZGluZyBhIGdlbm9tZQoKVGhlcmUgaXMgYSBub24temVybyBjaGFuY2Ugd2Ugd2lsbCB3YW50IHRvIHVzZSB0aGUgYWN0dWFsIGdlbm9tZSBzZXF1ZW5jZSBhbG9uZyB3aXRoIHRoZXNlCmFubm90YXRpb25zLiAgVGhlIEJTR2Vub21lIHBhY2thZ2VzIHByb3ZpZGUgdGhhdCBmdW5jdGlvbmFsaXR5LgoKYGBge3Igc2NlcmV2aXNpYWVfYnNnZW5vbWV9CnR0IDwtIHNtKHJlcXVpcmUuYXV0bygiQlNnZW5vbWUuU2NlcmV2aXNpYWUuVUNTQy5zYWNDZXIzIikpCmBgYAoKIyBMb2FkaW5nIGEgZ2Vub21lCgpUaGVyZSBpcyBhIG5vbi16ZXJvIGNoYW5jZSB3ZSB3aWxsIHdhbnQgdG8gdXNlIHRoZSBhY3R1YWwgZ2Vub21lIHNlcXVlbmNlIGFsb25nIHdpdGggdGhlc2UKYW5ub3RhdGlvbnMuICBUaGUgQlNHZW5vbWUgcGFja2FnZXMgcHJvdmlkZSB0aGF0IGZ1bmN0aW9uYWxpdHkuCgpgYGB7ciBzY2VyZXZpc2lhZV9ic2dlbm9tZX0KdHQgPC0gc20ocmVxdWlyZS5hdXRvKCJCU2dlbm9tZS5TY2VyZXZpc2lhZS5VQ1NDLnNhY0NlcjMiKSkKYGBgCgojIExvYWRpbmcgZnJvbSBiaW9tYXJ0CgpBIGNvbXBsZXRlbHkgc2VwYXJhdGUgYW5kIGNvbXBldGluZyBhbm5vdGF0aW9uIHNvdXJjZSBpcyBiaW9tYXJ0LgoKYGBge3Igc2NlcmV2aXNpYWVfYmlvbWFydH0Kc2NfYW5ub3R2MiA8LSBzbShnZXRfYmlvbWFydF9hbm5vdGF0aW9ucygic2NlcmV2aXNpYWUiKSkKaGVhZChzY19hbm5vdHYyKQpzY19vbnRvbG9neSA8LSBzbShnZXRfYmlvbWFydF9vbnRvbG9naWVzKCJzY2VyZXZpc2lhZSIpKQpgYGAKCiMgUmVhZCBhIGdmZiBmaWxlCgpJbiBjb250cmFzdCwgaXQgaXMgcG9zc2libGUgdG8gbG9hZCBtb3N0IGFubm90YXRpb25zIG9mIGludGVyZXN0IGRpcmVjdGx5IGZyb20gdGhlIGdmZiBmaWxlcyB1c2VkIGluCnRoZSBhbGlnbm1lbnRzLgoKYGBge3IgZ2Vub21lX2lucHV0fQojIyBUaGUgb2xkIHdheSBvZiBnZXR0aW5nIGdlbm9tZS9hbm5vdGF0aW9uIGRhdGEKc2NfZ2ZmIDwtICJyZWZlcmVuY2Uvc2NlcmV2aXNpYWUuZ2ZmLmd6IgpzY19nZmZfYW5ub3RhdGlvbnMgPC0gZ2ZmMmRmKHNjX2dmZiwgdHlwZT0iZ2VuZSIpCnJvd25hbWVzKHNjX2dmZl9hbm5vdGF0aW9ucykgPC0gbWFrZS5uYW1lcyhzY19nZmZfYW5ub3RhdGlvbnMkdHJhbnNjcmlwdF9uYW1lLCB1bmlxdWU9VFJVRSkKaGVhZChzY19nZmZfYW5ub3RhdGlvbnMpCmBgYAoKIyBQdXR0aW5nIHRoZSBwaWVjZXMgdG9nZXRoZXIKCkluIHRoZSBmb2xsb3dpbmcgYmxvY2sgd2UgY3JlYXRlIGFuIGV4cHJlc3Npb25zZXQgdXNpbmcgdGhlIHNhbXBsZSBzaGVldCBhbmQgdGhlCmFubm90YXRpb25zLgoKQW5ub3lpbmdseSwgdGhlIGdmZiBhbm5vdGF0aW9ucyBhcmUga2V5ZWQgaW4gYSBwZWN1bGlhciBmYXNoaW9uLiAgVGhlcmVmb3JlIEkKbmVlZCB0byBkbyBhIGxpdHRsZSB3b3JrIHRvIG1lcmdlIHRoZW0uCgpgYGB7ciBjcmVhdGVfZXhwdH0KIyMgU3RhcnQgYnkgbWFraW5nIGxvY2F0aW9ucyBmb3IgdGhlIGJpb21hcnQgZGF0YQpzY19hbm5vdHYyW1siZndkX2xvY2F0aW9uIl1dIDwtIHBhc3RlMChzY19hbm5vdHYyW1siY2hyb21vc29tZSJdXSwgIl8iLCBzY19hbm5vdHYyW1sic3RhcnQiXV0pCnNjX2Fubm90djJbWyJyZXZfbG9jYXRpb24iXV0gPC0gcGFzdGUwKHNjX2Fubm90djJbWyJjaHJvbW9zb21lIl1dLCAiXyIsIHNjX2Fubm90djJbWyJlbmQiXV0pCiMjIERvIHRoZSBzYW1lIGZvciB0aGUgZ2ZmIGFubm90YXRpb25zCnNjX2dmZl9hbm5vdGF0aW9uc1tbImZ3ZF9sb2NhdGlvbiJdXSA8LSBwYXN0ZTAoc2NfZ2ZmX2Fubm90YXRpb25zW1sic2VxbmFtZXMiXV0sICJfIiwgc2NfZ2ZmX2Fubm90YXRpb25zW1sic3RhcnQiXV0pCnNjX2dmZl9hbm5vdGF0aW9uc1tbInJldl9sb2NhdGlvbiJdXSA8LSBwYXN0ZTAoc2NfZ2ZmX2Fubm90YXRpb25zW1sic2VxbmFtZXMiXV0sICJfIiwgc2NfZ2ZmX2Fubm90YXRpb25zW1siZW5kIl1dKQpzY19nZmZfYW5ub3RhdGlvbnNbWyJnZmZfcm93bmFtZSJdXSA8LSByb3duYW1lcyhzY19nZmZfYW5ub3RhdGlvbnMpCiMjIE5vdyBtZXJnZSB0aGVtLgpzY19md2RfYW5ub3RhdGlvbnMgPC0gbWVyZ2Uoc2NfYW5ub3R2Miwgc2NfZ2ZmX2Fubm90YXRpb25zLCBieT0iZndkX2xvY2F0aW9uIikKc2NfcmV2X2Fubm90YXRpb25zIDwtIG1lcmdlKHNjX2Fubm90djIsIHNjX2dmZl9hbm5vdGF0aW9ucywgYnk9InJldl9sb2NhdGlvbiIpCmNvbG5hbWVzKHNjX2Z3ZF9hbm5vdGF0aW9ucykgPC0gYygibG9jYXRpb24iLCJ0cmFuc2NyaXB0SUQiLCJnZW5lSUQiLCAiRGVzY3JpcHRpb24iLAogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIlR5cGUiLCAibGVuZ3RoIiwgImNocm9tb3NvbWUiLCAic3RyYW5kLngiLCAic3RhcnQueCIsCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAiZW5kLngiLCAibG9jYXRpb24ueCIsICJzZXFuYW1lcyIsCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAic3RhcnQueSIsICJlbmQueSIsICJ3aWR0aCIsICJzdHJhbmQueSIsICJzb3VyY2UiLCAidHlwZSIsCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAic2NvcmUiLCAicGhhc2UiLCAiZXhvbl9udW1iZXIiLCAiZ2VuZV9pZCIsICJJRCIsICJwX2lkIiwKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICJwcm90ZWluX2lkIiwgInRyYW5zY3JpcHRfaWQiLCAidHJhbnNjcmlwdF9uYW1lIiwgInRzc19pZCIsCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAic2VxZWRpdCIsICJsb2NhdGlvbi55IiwgImdmZl9yb3duYW1lIikKY29sbmFtZXMoc2NfcmV2X2Fubm90YXRpb25zKSA8LSBjb2xuYW1lcyhzY19md2RfYW5ub3RhdGlvbnMpCnNjX2FsbF9hbm5vdGF0aW9ucyA8LSByYmluZChzY19md2RfYW5ub3RhdGlvbnMsIHNjX3Jldl9hbm5vdGF0aW9ucykKcm93bmFtZXMoc2NfYWxsX2Fubm90YXRpb25zKSA8LSBtYWtlLm5hbWVzKHNjX2FsbF9hbm5vdGF0aW9uc1tbImdmZl9yb3duYW1lIl1dLCB1bmlxdWU9VFJVRSkKc2NfYWxsX2Fubm90YXRpb25zIDwtIHNjX2FsbF9hbm5vdGF0aW9uc1ssIGMoInRyYW5zY3JpcHRJRCIsICJnZW5lSUQiLCAiRGVzY3JpcHRpb24iLCAiVHlwZSIsCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICJsZW5ndGgiLCAiY2hyb21vc29tZSIsICJzdHJhbmQueCIsICJzdGFydC54IiwgImVuZC54IiwKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgInRzc19pZCIpXQpjb2xuYW1lcyhzY19hbGxfYW5ub3RhdGlvbnMpIDwtIGMoInRyYW5zY3JpcHRJRCIsICJnZW5lSUQiLCAiRGVzY3JpcHRpb24iLCAiVHlwZSIsICJsZW5ndGgiLAogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgImNocm9tb3NvbWUiLCAic3RyYW5kIiwgInN0YXJ0IiwgImVuZCIsICJ0c3NfaWQiKQpzY19hbGxfYW5ub3RhdGlvbnNbWyJsb2NhdGlvbiJdXSA8LSBwYXN0ZTAoc2NfYWxsX2Fubm90YXRpb25zW1siY2hyb21vc29tZSJdXSwgIl8iLCBzY19hbGxfYW5ub3RhdGlvbnNbWyJzdGFydCJdXSwgIl8iLCBzY19hbGxfYW5ub3RhdGlvbnNbWyJlbmQiXV0pCgpzYzJfZXhwdCA8LSBjcmVhdGVfZXhwdChtZXRhZGF0YT0ic2FtcGxlX3NoZWV0cy9hbGxfc2FtcGxlcy54bHN4IiwKICAgICAgICAgICAgICAgICAgICAgICAgZ2VuZV9pbmZvPXNjX2FsbF9hbm5vdGF0aW9ucywKICAgICAgICAgICAgICAgICAgICAgICAgZmlsZV9jb2x1bW49ImJ0MmZpbGUiKQpsaWJyYXJ5KEJpb2Jhc2UpCmhlYWQoZXhwcnMoc2MyX2V4cHQkZXhwcmVzc2lvbnNldCkpCmhlYWQoZkRhdGEoc2MyX2V4cHQkZXhwcmVzc2lvbnNldCkpCmhlYWQocERhdGEoc2MyX2V4cHQkZXhwcmVzc2lvbnNldCkpCmBgYAoKCmBgYHtyIHNhdmVtZSwgaW5jbHVkZT1GQUxTRX0KdG1wIDwtIHNtKHNhdmVtZShmaWxlbmFtZT10aGlzX3NhdmUpKQpgYGAKCmBgYHtyIHBhbmRlcn0KbGlicmFyeSgicGFuZGVyIikKcGFuZGVyKHNlc3Npb25JbmZvKCkpCmBgYAo=

Collecting S. cerevisiae annotation data.

atb abelew@gmail.com

2017-05-31