1 Annotation version: 20180402

2 Mus musculus annotation data

There are a few methods of importing annotation data into R. I will attempt some of them in preparation for loading them into the M.musculus RNASeq data.

3 AnnotationHub: loading OrgDb

AnnotationHub is a newer service and has promise to be an excellent top-level resource for gathering annotation data.

tmp <- sm(library(AnnotationHub))
ah = sm(AnnotationHub())
orgdbs <- sm(query(ah, "OrgDb"))
mm_orgdb <- sm(query(ah, c("OrgDB", "musculus")))
mm_orgdb <- mm_orgdb[[1]]

## loading from cache '/home/trey//.AnnotationHub/64720'

mm_orgdb

## OrgDb object:
## | DBSCHEMAVERSION: 2.1
## | Db type: OrgDb
## | Supporting package: AnnotationDbi
## | DBSCHEMA: MOUSE_DB
## | ORGANISM: Mus musculus
## | SPECIES: Mouse
## | EGSOURCEDATE: 2017-Nov6
## | EGSOURCENAME: Entrez Gene
## | EGSOURCEURL: ftp://ftp.ncbi.nlm.nih.gov/gene/DATA
## | CENTRALID: EG
## | TAXID: 10090
## | GOSOURCENAME: Gene Ontology
## | GOSOURCEURL: ftp://ftp.geneontology.org/pub/go/godatabase/archive/latest-lite/
## | GOSOURCEDATE: 2017-Nov01
## | GOEGSOURCEDATE: 2017-Nov6
## | GOEGSOURCENAME: Entrez Gene
## | GOEGSOURCEURL: ftp://ftp.ncbi.nlm.nih.gov/gene/DATA
## | KEGGSOURCENAME: KEGG GENOME
## | KEGGSOURCEURL: ftp://ftp.genome.jp/pub/kegg/genomes
## | KEGGSOURCEDATE: 2011-Mar15
## | GPSOURCENAME: UCSC Genome Bioinformatics (Mus musculus)
## | GPSOURCEURL: 
## | GPSOURCEDATE: 2017-Aug8
## | ENSOURCEDATE: 2017-Aug23
## | ENSOURCENAME: Ensembl
## | ENSOURCEURL: ftp://ftp.ensembl.org/pub/current_fasta
## | UPSOURCENAME: Uniprot
## | UPSOURCEURL: http://www.UniProt.org/
## | UPSOURCEDATE: Tue Nov  7 21:07:58 2017

## 
## Please see: help('select') for usage information

## Holy crap it worked!
mm_annotv1 <- load_orgdb_annotations(
  mm_orgdb,
  keytype="entrezid",
  fields=c("ensembl", "entrezid", "ensembltrans", "refseq", "genename", "symbol"))

## Unable to find TYPE in the db, removing it.

## Unable to find CHR in the db, removing it.

## Unable to find TXSTRAND in the db, removing it.

## Unable to find TXSTART in the db, removing it.

## Unable to find TXEND in the db, removing it.

## Extracted all gene ids.

## 'select()' returned 1:many mapping between keys and columns

mm_annotv1 <- mm_annotv1[["genes"]]

head(mm_annotv1)

##          entrezid                           genename            ensembl ensembltrans
## X11287      11287    PZP, alpha-2-macroglobulin like ENSMUSG00000030359         <NA>
## X11287.1    11287    PZP, alpha-2-macroglobulin like ENSMUSG00000030359         <NA>
## X11298      11298 arylalkylamine N-acetyltransferase ENSMUSG00000020804         <NA>
## X11298.1    11298 arylalkylamine N-acetyltransferase ENSMUSG00000020804         <NA>
## X11298.2    11298 arylalkylamine N-acetyltransferase ENSMUSG00000020804         <NA>
## X11298.3    11298 arylalkylamine N-acetyltransferase ENSMUSG00000020804         <NA>
##                refseq symbol
## X11287      NM_007376    Pzp
## X11287.1    NP_031402    Pzp
## X11298      NM_009591  Aanat
## X11298.1    NP_033721  Aanat
## X11298.2    NR_033223  Aanat
## X11298.3 XM_017314223  Aanat

4 Loading from biomart

A completely separate and competing annotation source is biomart.

mm_annotv2 <- sm(load_biomart_annotations(species="mmusculus"))$annotation
head(mm_annotv2)

##                          transcriptID             geneID
## ENSMUST00000000001 ENSMUST00000000001 ENSMUSG00000000001
## ENSMUST00000000003 ENSMUST00000000003 ENSMUSG00000000003
## ENSMUST00000000010 ENSMUST00000000010 ENSMUSG00000020875
## ENSMUST00000000028 ENSMUST00000000028 ENSMUSG00000000028
## ENSMUST00000000033 ENSMUST00000000033 ENSMUSG00000048583
## ENSMUST00000000049 ENSMUST00000000049 ENSMUSG00000000049
##                                                                                                             Description
## ENSMUST00000000001 guanine nucleotide binding protein (G protein), alpha inhibiting 3 [Source:MGI Symbol;Acc:MGI:95773]
## ENSMUST00000000003                                                         probasin [Source:MGI Symbol;Acc:MGI:1860484]
## ENSMUST00000000010                                                        homeobox B9 [Source:MGI Symbol;Acc:MGI:96190]
## ENSMUST00000000028                                           cell division cycle 45 [Source:MGI Symbol;Acc:MGI:1338073]
## ENSMUST00000000033                                       insulin-like growth factor 2 [Source:MGI Symbol;Acc:MGI:96434]
## ENSMUST00000000049                                                   apolipoprotein H [Source:MGI Symbol;Acc:MGI:88058]
##                              Type length chromosome strand     start       end
## ENSMUST00000000001 protein_coding   1065          3     -1 108107280 108146146
## ENSMUST00000000003 protein_coding    525          X     -1  77837901  77853623
## ENSMUST00000000010 protein_coding    753         11      1  96271457  96276595
## ENSMUST00000000028 protein_coding   1701         16     -1  18780447  18811987
## ENSMUST00000000033 protein_coding    543          7     -1 142650766 142666816
## ENSMUST00000000049 protein_coding   1038         11      1 108343354 108414396

mm_ontology <- load_biomart_go("mmusculus")$go

## The biomart annotations file already exists, loading from it.

5 Read a gff file

In contrast, it is possible to load most annotations of interest directly from the gff files used in the alignments.

## The old way of getting genome/annotation data
mm_gff <- "reference/mmusculus.gtf.gz"
mm_gff_annotations <- load_gff_annotations(mm_gff, id_col="transcript_id")

## Trying attempt: rtracklayer::import.gff3(gff, sequenceRegionsAsSeqinfo=TRUE)

## Trying attempt: rtracklayer::import.gff3(gff, sequenceRegionsAsSeqinfo=FALSE)

## Trying attempt: rtracklayer::import.gff2(gff, sequenceRegionsAsSeqinfo=TRUE)

## Had a successful gff import with rtracklayer::import.gff2(gff, sequenceRegionsAsSeqinfo=TRUE)

## Returning a df with 21 columns and 1405203 rows.

rownames(mm_gff_annotations) <- make.names(mm_gff_annotations$transcript_id, unique=TRUE)
head(mm_gff_annotations)

##                      seqnames   start     end width strand                 source
## NA.                      chr1 3054233 3054733   501      +             pseudogene
## ENSMUST00000160944       chr1 3054233 3054733   501      + unprocessed_pseudogene
## ENSMUST00000160944.1     chr1 3054233 3054733   501      + unprocessed_pseudogene
## NA..1                    chr1 3102016 3102125   110      +                  snRNA
## ENSMUST00000082908       chr1 3102016 3102125   110      +                  snRNA
## ENSMUST00000082908.1     chr1 3102016 3102125   110      +                  snRNA
##                            type score phase            gene_id gene_name gene_source
## NA.                        gene    NA    NA ENSMUSG00000090025   Gm16088      havana
## ENSMUST00000160944   transcript    NA    NA ENSMUSG00000090025   Gm16088      havana
## ENSMUST00000160944.1       exon    NA    NA ENSMUSG00000090025   Gm16088      havana
## NA..1                      gene    NA    NA ENSMUSG00000064842   Gm26206     ensembl
## ENSMUST00000082908   transcript    NA    NA ENSMUSG00000064842   Gm26206     ensembl
## ENSMUST00000082908.1       exon    NA    NA ENSMUSG00000064842   Gm26206     ensembl
##                      gene_biotype      transcript_id transcript_name transcript_source
## NA.                    pseudogene               <NA>            <NA>              <NA>
## ENSMUST00000160944     pseudogene ENSMUST00000160944     Gm16088-001            havana
## ENSMUST00000160944.1   pseudogene ENSMUST00000160944     Gm16088-001            havana
## NA..1                       snRNA               <NA>            <NA>              <NA>
## ENSMUST00000082908          snRNA ENSMUST00000082908     Gm26206-201           ensembl
## ENSMUST00000082908.1        snRNA ENSMUST00000082908     Gm26206-201           ensembl
##                                tag exon_number            exon_id ccds_id protein_id
## NA.                           <NA>        <NA>               <NA>    <NA>       <NA>
## ENSMUST00000160944   mRNA_start_NF        <NA>               <NA>    <NA>       <NA>
## ENSMUST00000160944.1 mRNA_start_NF           1 ENSMUSE00000848981    <NA>       <NA>
## NA..1                         <NA>        <NA>               <NA>    <NA>       <NA>
## ENSMUST00000082908            <NA>        <NA>               <NA>    <NA>       <NA>
## ENSMUST00000082908.1          <NA>           1 ENSMUSE00000522066    <NA>       <NA>

6 Putting the pieces together

In the following block we create an expressionset using the sample sheet and the annotations.

Annoyingly, the gff annotations are keyed in a peculiar fashion. Therefore I need to do a little work to merge them.

mm_annotations <- mm_annotv2
mm_expt <- create_expt(metadata="sample_sheets/all_samples.xlsx",
                       gene_info=mm_annotations,
                       ## file_column="mousefile")
                       file_column="mouse395")

## Reading the sample metadata.

## The sample definitions comprises: 24, 25 rows, columns.

## Reading count tables.

## Reading count tables with read.table().

## Warning in read_counts_expt(sample_ids, filenames, ...): NAs introduced by coercion

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0840/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0841/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0842/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0843/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0844/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0845/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0846/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0848/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0849/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0850/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0851/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0852/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0853/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0854/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0855/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0856/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0857/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0858/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0859/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0860/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0861/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0862/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## /cbcb/nelsayed-scratch/atb/rnaseq/lmajor_sacks_2017/preprocessing/run0395/hpgl0863/outputs/kallisto_mmusculus/abundance.count.gz contains 88198 rows and merges to 88198 rows.

## Finished reading count tables.

## Matched 87261 annotations and counts.

## Bringing together the count matrix and gene information.

## Some annotations were lost in merging, setting them to 'undefined'.

##                                                   inf12       inf14d       uninf12hr  uninf14d
##mm_expt <- set_expt_colors(expt=mm_expt, colors=c("lightgray", "darkred" , "pink", "darkblue"))
mm_expt <- set_expt_colors(expt=mm_expt, colors=c("darkred", "darkblue" , "pink", "blue"))

## Error in names(colors) <- levels(as.factor(expt[["conditions"]])): 'names' attribute [6] must be the same length as the vector [4]

library(Biobase)
head(exprs(mm_expt$expressionset))

##                    HPGL0840 HPGL0841 HPGL0842 HPGL0843 HPGL0844 HPGL0845 HPGL0846
## ENSMUST00000000001        0   21.000        0        0        5    9.000        9
## ENSMUST00000000003        0    0.000        0        0        0    0.000        0
## ENSMUST00000000010        0    0.000        0        0        0    0.000        0
## ENSMUST00000000028        0    0.000        0        0        0    0.000        0
## ENSMUST00000000033        0    1.299        0        0        0    1.296        0
## ENSMUST00000000049        0    1.000        0        0        0    0.000        0
##                    HPGL0848 HPGL0849 HPGL0850 HPGL0851 HPGL0852 HPGL0853 HPGL0854
## ENSMUST00000000001       23  69.0000        0        0   770.00   506.00        2
## ENSMUST00000000003        0   0.0000        0        0     0.00     0.00        0
## ENSMUST00000000010        0   0.0000        0        0     0.00     0.00        0
## ENSMUST00000000028        0   0.0000        0        0     0.00     0.00        0
## ENSMUST00000000033        0   0.3723        0        0    37.03    24.28        0
## ENSMUST00000000049        0   0.0000        0        0     0.00     0.00        0
##                    HPGL0855 HPGL0856 HPGL0857 HPGL0858 HPGL0859 HPGL0860 HPGL0861
## ENSMUST00000000001       16   77.000      116       30   87.000   451.00  118.000
## ENSMUST00000000003        0    0.000        0        0    0.000     0.00    0.000
## ENSMUST00000000010        0    0.000        0        0    0.000     0.00    0.000
## ENSMUST00000000028        0    0.000        0        0    0.000     0.00    0.000
## ENSMUST00000000033        0    2.586        0        0    0.745    11.63    7.819
## ENSMUST00000000049        0    0.000        0        0    0.000     0.00    0.000
##                    HPGL0862 HPGL0863
## ENSMUST00000000001  112.000      206
## ENSMUST00000000003    0.000        0
## ENSMUST00000000010    0.000        0
## ENSMUST00000000028    0.000        0
## ENSMUST00000000033    4.247        0
## ENSMUST00000000049    0.000        0

head(fData(mm_expt$expressionset))

##                          transcriptID             geneID
## ENSMUST00000000001 ENSMUST00000000001 ENSMUSG00000000001
## ENSMUST00000000003 ENSMUST00000000003 ENSMUSG00000000003
## ENSMUST00000000010 ENSMUST00000000010 ENSMUSG00000020875
## ENSMUST00000000028 ENSMUST00000000028 ENSMUSG00000000028
## ENSMUST00000000033 ENSMUST00000000033 ENSMUSG00000048583
## ENSMUST00000000049 ENSMUST00000000049 ENSMUSG00000000049
##                                                                                                             Description
## ENSMUST00000000001 guanine nucleotide binding protein (G protein), alpha inhibiting 3 [Source:MGI Symbol;Acc:MGI:95773]
## ENSMUST00000000003                                                         probasin [Source:MGI Symbol;Acc:MGI:1860484]
## ENSMUST00000000010                                                        homeobox B9 [Source:MGI Symbol;Acc:MGI:96190]
## ENSMUST00000000028                                           cell division cycle 45 [Source:MGI Symbol;Acc:MGI:1338073]
## ENSMUST00000000033                                       insulin-like growth factor 2 [Source:MGI Symbol;Acc:MGI:96434]
## ENSMUST00000000049                                                   apolipoprotein H [Source:MGI Symbol;Acc:MGI:88058]
##                              Type length chromosome strand     start       end
## ENSMUST00000000001 protein_coding   1065          3     -1 108107280 108146146
## ENSMUST00000000003 protein_coding    525          X     -1  77837901  77853623
## ENSMUST00000000010 protein_coding    753         11      1  96271457  96276595
## ENSMUST00000000028 protein_coding   1701         16     -1  18780447  18811987
## ENSMUST00000000033 protein_coding    543          7     -1 142650766 142666816
## ENSMUST00000000049 protein_coding   1038         11      1 108343354 108414396

head(pData(mm_expt$expressionset))

##          dnarnanumber projectid rmlid inst        organism               investigator
## HPGL0840     RNA10165    HS_157 10845   HS Mouse/Leshmania SangLee/David Sacks/A.Sher
## HPGL0841     RNA10166    HS_157 10851   HS Mouse/Leshmania SangLee/David Sacks/A.Sher
## HPGL0842     RNA10167    HS_157 10857   HS Mouse/Leshmania SangLee/David Sacks/A.Sher
## HPGL0843     RNA10168    HS_157 10863   HS Mouse/Leshmania SangLee/David Sacks/A.Sher
## HPGL0844     RNA10169    HS_157 10846   HS Mouse/Leshmania SangLee/David Sacks/A.Sher
## HPGL0845     RNA10170    HS_157 10852   HS Mouse/Leshmania SangLee/David Sacks/A.Sher
##          batch    condition sampleid investigatorsample librarystartdate preppedby
## HPGL0840     a promastigote HPGL0840      Promastigote1            42830       KB 
## HPGL0841     b promastigote HPGL0841      Promastigote2            42830       KB 
## HPGL0842     c promastigote HPGL0842      Promastigote3            42830       KB 
## HPGL0843     d promastigote HPGL0843      Promastigote4            42830       KB 
## HPGL0844     a   amastigote HPGL0844        Amastigote1            42830       KB 
## HPGL0845     b   amastigote HPGL0845        Amastigote2            42830       KB 
##                                                         librarytype averagesize
## HPGL0840 SMARTer Stranded Total RNA - Pico Mammalian_300pg-starting         340
## HPGL0841 SMARTer Stranded Total RNA - Pico Mammalian_300pg-starting         310
## HPGL0842 SMARTer Stranded Total RNA - Pico Mammalian_300pg-starting         340
## HPGL0843 SMARTer Stranded Total RNA - Pico Mammalian_300pg-starting         320
## HPGL0844 SMARTer Stranded Total RNA - Pico Mammalian_300pg-starting         310
## HPGL0845 SMARTer Stranded Total RNA - Pico Mammalian_300pg-starting         355
##          titrationamt sequencelength lane  indexmid        startrundate
## HPGL0840           10    100/8/8/100  1,2 D501-D701 4/7/2017; 4/11/2017
## HPGL0841           10    100/8/8/100  1,2 D501-D707 4/7/2017; 4/11/2017
## HPGL0842           10    100/8/8/100  1,2 D502-D701 4/7/2017; 4/11/2017
## HPGL0843           10    100/8/8/100  1,2 D502-D707 4/7/2017; 4/11/2017
## HPGL0844           10    100/8/8/100  1,2 D501-D702 4/7/2017; 4/11/2017
## HPGL0845           10    100/8/8/100  1,2 D501-D708 4/7/2017; 4/11/2017
##                                                             runname samplenumber
## HPGL0840 170407_SN406_0395_Ahjncnbcxy ;170411_SN406_0396_BHJNCCBCXY          840
## HPGL0841 170407_SN406_0395_Ahjncnbcxy ;170411_SN406_0396_BHJNCCBCXY          841
## HPGL0842 170407_SN406_0395_Ahjncnbcxy ;170411_SN406_0396_BHJNCCBCXY          842
## HPGL0843 170407_SN406_0395_Ahjncnbcxy ;170411_SN406_0396_BHJNCCBCXY          843
## HPGL0844 170407_SN406_0395_Ahjncnbcxy ;170411_SN406_0396_BHJNCCBCXY          844
## HPGL0845 170407_SN406_0395_Ahjncnbcxy ;170411_SN406_0396_BHJNCCBCXY          845
##          mousefile                                                            lmajorfile
## HPGL0840      <NA> preprocessing/hpgl0840/outputs/tophat_lmajor/accepted_paired.count.xz
## HPGL0841      <NA> preprocessing/hpgl0841/outputs/tophat_lmajor/accepted_paired.count.xz
## HPGL0842      <NA> preprocessing/hpgl0842/outputs/tophat_lmajor/accepted_paired.count.xz
## HPGL0843      <NA> preprocessing/hpgl0843/outputs/tophat_lmajor/accepted_paired.count.xz
## HPGL0844      <NA> preprocessing/hpgl0844/outputs/tophat_lmajor/accepted_paired.count.xz
## HPGL0845      <NA> preprocessing/hpgl0845/outputs/tophat_lmajor/accepted_paired.count.xz
##                                                                                lmajor395
## HPGL0840 preprocessing/run0395/hpgl0840/outputs/bowtie2_lmajor/hpgl0840-trimmed.count.xz
## HPGL0841                                                                            <NA>
## HPGL0842 preprocessing/run0395/hpgl0842/outputs/bowtie2_lmajor/hpgl0842-trimmed.count.xz
## HPGL0843 preprocessing/run0395/hpgl0843/outputs/bowtie2_lmajor/hpgl0843-trimmed.count.xz
## HPGL0844 preprocessing/run0395/hpgl0844/outputs/bowtie2_lmajor/hpgl0844-trimmed.count.xz
## HPGL0845 preprocessing/run0395/hpgl0845/outputs/bowtie2_lmajor/hpgl0845-trimmed.count.xz
##                                                                              mouse395
## HPGL0840 preprocessing/run0395/hpgl0840/outputs/kallisto_mmusculus/abundance.count.gz
## HPGL0841 preprocessing/run0395/hpgl0841/outputs/kallisto_mmusculus/abundance.count.gz
## HPGL0842 preprocessing/run0395/hpgl0842/outputs/kallisto_mmusculus/abundance.count.gz
## HPGL0843 preprocessing/run0395/hpgl0843/outputs/kallisto_mmusculus/abundance.count.gz
## HPGL0844 preprocessing/run0395/hpgl0844/outputs/kallisto_mmusculus/abundance.count.gz
## HPGL0845 preprocessing/run0395/hpgl0845/outputs/kallisto_mmusculus/abundance.count.gz
##          file
## HPGL0840 null
## HPGL0841 null
## HPGL0842 null
## HPGL0843 null
## HPGL0844 null
## HPGL0845 null

pander::pander(sessionInfo())

R version 3.4.4 (2018-03-15)

**Platform:** x86_64-pc-linux-gnu (64-bit)

locale: LC_CTYPE=en_US.utf8, LC_NUMERIC=C, LC_TIME=en_US.utf8, LC_COLLATE=en_US.utf8, LC_MONETARY=en_US.utf8, LC_MESSAGES=en_US.utf8, LC_PAPER=en_US.utf8, LC_NAME=C, LC_ADDRESS=C, LC_TELEPHONE=C, LC_MEASUREMENT=en_US.utf8 and LC_IDENTIFICATION=C

attached base packages: stats4, parallel, stats, graphics, grDevices, utils, datasets, methods and base

other attached packages: hpgltools(v.2018.03), org.Lmajor.Friedlin.v36.eg.db(v.2018.03), bindrcpp(v.0.2), AnnotationDbi(v.1.40.0), IRanges(v.2.12.0), S4Vectors(v.0.16.0), Biobase(v.2.38.0), AnnotationHub(v.2.10.1) and BiocGenerics(v.0.24.0)

loaded via a namespace (and not attached): httr(v.1.3.1), RMySQL(v.0.10.14), bit64(v.0.9-7), jsonlite(v.1.5), foreach(v.1.4.4), shiny(v.1.0.5), assertthat(v.0.2.0), interactiveDisplayBase(v.1.16.0), highr(v.0.6), pander(v.0.6.1), blob(v.1.1.0), GenomeInfoDbData(v.1.0.0), Rsamtools(v.1.30.0), yaml(v.2.1.18), progress(v.1.1.2), pillar(v.1.2.1), RSQLite(v.2.0), backports(v.1.1.2), lattice(v.0.20-35), glue(v.1.2.0), digest(v.0.6.15), RColorBrewer(v.1.1-2), GenomicRanges(v.1.30.3), XVector(v.0.18.0), colorspace(v.1.3-2), htmltools(v.0.3.6), httpuv(v.1.3.6.2), Matrix(v.1.2-12), plyr(v.1.8.4), XML(v.3.98-1.10), pkgconfig(v.2.0.1), devtools(v.1.13.5), biomaRt(v.2.34.2), zlibbioc(v.1.24.0), xtable(v.1.8-2), scales(v.0.5.0), openxlsx(v.4.0.17), BiocParallel(v.1.12.0), tibble(v.1.4.2), ggplot2(v.2.2.1), withr(v.2.1.2), SummarizedExperiment(v.1.8.1), GenomicFeatures(v.1.30.3), lazyeval(v.0.2.1), magrittr(v.1.5), mime(v.0.5), memoise(v.1.1.0), evaluate(v.0.10.1), xml2(v.1.2.0), BiocInstaller(v.1.28.0), tools(v.3.4.4), data.table(v.1.10.4-3), prettyunits(v.1.0.2), matrixStats(v.0.53.1), stringr(v.1.3.0), munsell(v.0.4.3), DelayedArray(v.0.4.1), Biostrings(v.2.46.0), compiler(v.3.4.4), GenomeInfoDb(v.1.14.0), rlang(v.0.2.0), grid(v.3.4.4), RCurl(v.1.95-4.10), tximport(v.1.6.0), iterators(v.1.0.9), bitops(v.1.0-6), base64enc(v.0.1-3), rmarkdown(v.1.9), gtable(v.0.2.0), codetools(v.0.2-15), DBI(v.0.8), roxygen2(v.6.0.1), curl(v.3.1), R6(v.2.2.2), GenomicAlignments(v.1.14.1), knitr(v.1.20), dplyr(v.0.7.4), rtracklayer(v.1.38.3), bit(v.1.1-12), bindr(v.0.1.1), commonmark(v.1.4), rprojroot(v.1.3-2), stringi(v.1.1.7) and Rcpp(v.0.12.16)

this_save <- paste0(gsub(pattern="\\.Rmd", replace="", x=rmd_file), "-v", ver, ".rda.xz")
message(paste0("Saving to ", this_save))

## Saving to 01_annotation_mmusculus-v20180402.rda.xz

tt <- sm(saveme(filename=this_save))

LS0tCnRpdGxlOiAiTC5tYWpvciAyMDE3OiBNLm11c2N1bHVzIGFubm90YXRpb24gZGF0YS4iCmF1dGhvcjogImF0YiBhYmVsZXdAZ21haWwuY29tIgpkYXRlOiAiYHIgU3lzLkRhdGUoKWAiCm91dHB1dDoKIGh0bWxfZG9jdW1lbnQ6CiAgY29kZV9kb3dubG9hZDogdHJ1ZQogIGNvZGVfZm9sZGluZzogc2hvdwogIGZpZ19jYXB0aW9uOiB0cnVlCiAgZmlnX2hlaWdodDogNwogIGZpZ193aWR0aDogNwogIGhpZ2hsaWdodDogZGVmYXVsdAogIGtlZXBfbWQ6IGZhbHNlCiAgbW9kZTogc2VsZmNvbnRhaW5lZAogIG51bWJlcl9zZWN0aW9uczogdHJ1ZQogIHNlbGZfY29udGFpbmVkOiB0cnVlCiAgdGhlbWU6IHJlYWRhYmxlCiAgdG9jOiB0cnVlCiAgdG9jX2Zsb2F0OgogICAgY29sbGFwc2VkOiBmYWxzZQogICAgc21vb3RoX3Njcm9sbDogZmFsc2UKLS0tCgo8c3R5bGU+CiAgYm9keSAubWFpbi1jb250YWluZXIgewogICAgbWF4LXdpZHRoOiAxNjAwcHg7CiAgfQo8L3N0eWxlPgoKYGBge3Igb3B0aW9ucywgaW5jbHVkZT1GQUxTRX0KaWYgKCFpc1RSVUUoZ2V0MCgic2tpcF9sb2FkIikpKSB7CiAgbGlicmFyeShocGdsdG9vbHMpCiAgdHQgPC0gZGV2dG9vbHM6OmxvYWRfYWxsKCJ+L2hwZ2x0b29scyIpCiAga25pdHI6Om9wdHNfa25pdCRzZXQocHJvZ3Jlc3M9VFJVRSwKICAgICAgICAgICAgICAgICAgICAgICB2ZXJib3NlPVRSVUUsCiAgICAgICAgICAgICAgICAgICAgICAgd2lkdGg9OTAsCiAgICAgICAgICAgICAgICAgICAgICAgZWNobz1UUlVFKQogIGtuaXRyOjpvcHRzX2NodW5rJHNldChlcnJvcj1UUlVFLAogICAgICAgICAgICAgICAgICAgICAgICBmaWcud2lkdGg9OCwKICAgICAgICAgICAgICAgICAgICAgICAgZmlnLmhlaWdodD04LAogICAgICAgICAgICAgICAgICAgICAgICBkcGk9OTYpCiAgb2xkX29wdGlvbnMgPC0gb3B0aW9ucyhkaWdpdHM9NCwKICAgICAgICAgICAgICAgICAgICAgICAgIHN0cmluZ3NBc0ZhY3RvcnM9RkFMU0UsCiAgICAgICAgICAgICAgICAgICAgICAgICBrbml0ci5kdXBsaWNhdGUubGFiZWw9ImFsbG93IikKICBnZ3Bsb3QyOjp0aGVtZV9zZXQoZ2dwbG90Mjo6dGhlbWVfYncoYmFzZV9zaXplPTEwKSkKICB2ZXIgPC0gIjIwMTgwNDAyIgogIHByZXZpb3VzX2ZpbGUgPC0gImluZGV4LlJtZCIKCiAgdG1wIDwtIHRyeShzbShsb2FkbWUoZmlsZW5hbWU9cGFzdGUwKGdzdWIocGF0dGVybj0iXFwuUm1kIiwgcmVwbGFjZT0iIiwgeD1wcmV2aW91c19maWxlKSwgIi12IiwgdmVyLCAiLnJkYS54eiIpKSkpCiAgcm1kX2ZpbGUgPC0gIjAxX2Fubm90YXRpb25fbW11c2N1bHVzLlJtZCIKfQpgYGAKCiMgQW5ub3RhdGlvbiB2ZXJzaW9uOiBgciB2ZXJgCgpNdXMgbXVzY3VsdXMgYW5ub3RhdGlvbiBkYXRhCj09PT09PT09PT09PT09PT09PT09PT09PT09PT0KClRoZXJlIGFyZSBhIGZldyBtZXRob2RzIG9mIGltcG9ydGluZyBhbm5vdGF0aW9uIGRhdGEgaW50byBSLiAgSSB3aWxsIGF0dGVtcHQKc29tZSBvZiB0aGVtIGluIHByZXBhcmF0aW9uIGZvciBsb2FkaW5nIHRoZW0gaW50byB0aGUgTS5tdXNjdWx1cyBSTkFTZXEgZGF0YS4KCiMgQW5ub3RhdGlvbkh1YjogbG9hZGluZyBPcmdEYgoKQW5ub3RhdGlvbkh1YiBpcyBhIG5ld2VyIHNlcnZpY2UgYW5kIGhhcyBwcm9taXNlIHRvIGJlIGFuIGV4Y2VsbGVudCB0b3AtbGV2ZWwgcmVzb3VyY2UgZm9yIGdhdGhlcmluZwphbm5vdGF0aW9uIGRhdGEuCgpgYGB7ciBkYXRhX2lucHV0X2dlbm9tZX0KdG1wIDwtIHNtKGxpYnJhcnkoQW5ub3RhdGlvbkh1YikpCmFoID0gc20oQW5ub3RhdGlvbkh1YigpKQpvcmdkYnMgPC0gc20ocXVlcnkoYWgsICJPcmdEYiIpKQptbV9vcmdkYiA8LSBzbShxdWVyeShhaCwgYygiT3JnREIiLCAibXVzY3VsdXMiKSkpCm1tX29yZ2RiIDwtIG1tX29yZ2RiW1sxXV0KCm1tX29yZ2RiCiMjIEhvbHkgY3JhcCBpdCB3b3JrZWQhCm1tX2Fubm90djEgPC0gbG9hZF9vcmdkYl9hbm5vdGF0aW9ucygKICBtbV9vcmdkYiwKICBrZXl0eXBlPSJlbnRyZXppZCIsCiAgZmllbGRzPWMoImVuc2VtYmwiLCAiZW50cmV6aWQiLCAiZW5zZW1ibHRyYW5zIiwgInJlZnNlcSIsICJnZW5lbmFtZSIsICJzeW1ib2wiKSkKbW1fYW5ub3R2MSA8LSBtbV9hbm5vdHYxW1siZ2VuZXMiXV0KCmhlYWQobW1fYW5ub3R2MSkKYGBgCgojIExvYWRpbmcgZnJvbSBiaW9tYXJ0CgpBIGNvbXBsZXRlbHkgc2VwYXJhdGUgYW5kIGNvbXBldGluZyBhbm5vdGF0aW9uIHNvdXJjZSBpcyBiaW9tYXJ0LgoKYGBge3IgbW11c2N1bHVzX2Jpb21hcnR9Cm1tX2Fubm90djIgPC0gc20obG9hZF9iaW9tYXJ0X2Fubm90YXRpb25zKHNwZWNpZXM9Im1tdXNjdWx1cyIpKSRhbm5vdGF0aW9uCmhlYWQobW1fYW5ub3R2MikKbW1fb250b2xvZ3kgPC0gbG9hZF9iaW9tYXJ0X2dvKCJtbXVzY3VsdXMiKSRnbwpgYGAKCiMgUmVhZCBhIGdmZiBmaWxlCgpJbiBjb250cmFzdCwgaXQgaXMgcG9zc2libGUgdG8gbG9hZCBtb3N0IGFubm90YXRpb25zIG9mIGludGVyZXN0IGRpcmVjdGx5IGZyb20gdGhlIGdmZiBmaWxlcyB1c2VkIGluCnRoZSBhbGlnbm1lbnRzLgoKYGBge3IgZ2Vub21lX2lucHV0fQojIyBUaGUgb2xkIHdheSBvZiBnZXR0aW5nIGdlbm9tZS9hbm5vdGF0aW9uIGRhdGEKbW1fZ2ZmIDwtICJyZWZlcmVuY2UvbW11c2N1bHVzLmd0Zi5neiIKbW1fZ2ZmX2Fubm90YXRpb25zIDwtIGxvYWRfZ2ZmX2Fubm90YXRpb25zKG1tX2dmZiwgaWRfY29sPSJ0cmFuc2NyaXB0X2lkIikKcm93bmFtZXMobW1fZ2ZmX2Fubm90YXRpb25zKSA8LSBtYWtlLm5hbWVzKG1tX2dmZl9hbm5vdGF0aW9ucyR0cmFuc2NyaXB0X2lkLCB1bmlxdWU9VFJVRSkKaGVhZChtbV9nZmZfYW5ub3RhdGlvbnMpCmBgYAoKIyBQdXR0aW5nIHRoZSBwaWVjZXMgdG9nZXRoZXIKCkluIHRoZSBmb2xsb3dpbmcgYmxvY2sgd2UgY3JlYXRlIGFuIGV4cHJlc3Npb25zZXQgdXNpbmcgdGhlIHNhbXBsZSBzaGVldCBhbmQgdGhlCmFubm90YXRpb25zLgoKQW5ub3lpbmdseSwgdGhlIGdmZiBhbm5vdGF0aW9ucyBhcmUga2V5ZWQgaW4gYSBwZWN1bGlhciBmYXNoaW9uLiAgVGhlcmVmb3JlIEkKbmVlZCB0byBkbyBhIGxpdHRsZSB3b3JrIHRvIG1lcmdlIHRoZW0uCgpgYGB7ciBjcmVhdGVfZXhwdH0KbW1fYW5ub3RhdGlvbnMgPC0gbW1fYW5ub3R2MgptbV9leHB0IDwtIGNyZWF0ZV9leHB0KG1ldGFkYXRhPSJzYW1wbGVfc2hlZXRzL2FsbF9zYW1wbGVzLnhsc3giLAogICAgICAgICAgICAgICAgICAgICAgIGdlbmVfaW5mbz1tbV9hbm5vdGF0aW9ucywKICAgICAgICAgICAgICAgICAgICAgICAjIyBmaWxlX2NvbHVtbj0ibW91c2VmaWxlIikKICAgICAgICAgICAgICAgICAgICAgICBmaWxlX2NvbHVtbj0ibW91c2UzOTUiKQoKIyMgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICBpbmYxMiAgICAgICBpbmYxNGQgICAgICAgdW5pbmYxMmhyICB1bmluZjE0ZAojI21tX2V4cHQgPC0gc2V0X2V4cHRfY29sb3JzKGV4cHQ9bW1fZXhwdCwgY29sb3JzPWMoImxpZ2h0Z3JheSIsICJkYXJrcmVkIiAsICJwaW5rIiwgImRhcmtibHVlIikpCm1tX2V4cHQgPC0gc2V0X2V4cHRfY29sb3JzKGV4cHQ9bW1fZXhwdCwgY29sb3JzPWMoImRhcmtyZWQiLCAiZGFya2JsdWUiICwgInBpbmsiLCAiYmx1ZSIpKQpsaWJyYXJ5KEJpb2Jhc2UpCmhlYWQoZXhwcnMobW1fZXhwdCRleHByZXNzaW9uc2V0KSkKaGVhZChmRGF0YShtbV9leHB0JGV4cHJlc3Npb25zZXQpKQpoZWFkKHBEYXRhKG1tX2V4cHQkZXhwcmVzc2lvbnNldCkpCmBgYAoKYGBge3Igc2F2ZW1lfQpwYW5kZXI6OnBhbmRlcihzZXNzaW9uSW5mbygpKQp0aGlzX3NhdmUgPC0gcGFzdGUwKGdzdWIocGF0dGVybj0iXFwuUm1kIiwgcmVwbGFjZT0iIiwgeD1ybWRfZmlsZSksICItdiIsIHZlciwgIi5yZGEueHoiKQptZXNzYWdlKHBhc3RlMCgiU2F2aW5nIHRvICIsIHRoaXNfc2F2ZSkpCnR0IDwtIHNtKHNhdmVtZShmaWxlbmFtZT10aGlzX3NhdmUpKQpgYGAK

L.major 2017: M.musculus annotation data.

atb abelew@gmail.com

2018-04-03