1 B glabrata shenanigans

I downloaded my transcriptome and gff annotations from vectorbase.

bgl_annotation <- load_gff_annotations("reference/Biomphalaria-glabrata-BB02_BASEFEATURES_BglaB1.6.gff3")

## Trying attempt: rtracklayer::import.gff3(gff, sequenceRegionsAsSeqinfo=TRUE)

## Had a successful gff import with rtracklayer::import.gff3(gff, sequenceRegionsAsSeqinfo=TRUE)

## Returning a df with 22 columns and 1123857 rows.

rownames(bgl_annotation) <- make.names(bgl_annotation[["ID"]], unique=TRUE)

1.1 Make some metadata

metadata <- data.frame(
  "sampleid" = c("HPGL0073", "HPGL0074"),
  "condition" = c("first", "second"),
  "batch" = c("a", "a"),
  "file" = c("preprocessing/HPGL0073/processed/outputs/salmon_bglabrata/quant.sf",
             "preprocessing/HPGL0074/processed/outputs/salmon_bglabrata/quant.sf"))

1.2 Create an expressionset

bgl_expt <- create_expt(metadata=metadata, gene_info=bgl_annotation)

## Reading the sample metadata.

## The sample definitions comprises: 2 rows(samples) and 4 columns(metadata fields).

## Reading count tables.

## Reading salmon data with tximport.

## Finished reading count tables.

## Matched 44008 annotations and counts.

## Bringing together the count matrix and gene information.

## Some annotations were lost in merging, setting them to 'undefined'.

plot_libsize(bgl_expt)

## $plot

## 
## $table
##          id      sum condition  colors
## 1: HPGL0073  8661120     first #1B9E77
## 2: HPGL0074 17125462    second #7570B3
## 
## $summary
##    condition      min      1st   median     mean      3rd      max
## 1:     first  8661120  8661120  8661120  8661120  8661120  8661120
## 2:    second 17125462 17125462 17125462 17125462 17125462 17125462

plot_nonzero(bgl_expt)

## $plot

## 
## $table
##                id nonzero_genes    cpm condition batch   color    label
## HPGL0073 HPGL0073         34112  8.661     first     a #1B9E77 HPGL0073
## HPGL0074 HPGL0074         37042 17.125    second     a #7570B3 HPGL0074

bgl_norm <- normalize_expt(bgl_expt, convert="cpm", transform="log2", norm="quant", filter=TRUE)

## This function will replace the expt$expressionset slot with:

## log2(cpm(quant(cbcb(data))))

## It backs up the current data into a slot named:
##  expt$backup_expressionset. It will also save copies of each step along the way
##  in expt$normalized with the corresponding libsizes. Keep the libsizes in mind
##  when invoking limma.  The appropriate libsize is the non-log(cpm(normalized)).
##  This is most likely kept at:
##  'new_expt$normalized$intermediate_counts$normalization$libsizes'
##  A copy of this may also be found at:
##  new_expt$best_libsize

## Not correcting the count-data for batch effects.  If batch is
##  included in EdgerR/limma's model, then this is probably wise; but in extreme
##  batch effects this is a good parameter to play with.

## Step 1: performing count filter with option: cbcb

## Removing 21569 low-count genes (22439 remaining).

## Step 2: normalizing the data with quant.

## Using normalize.quantiles.robust due to a thread error in preprocessCore.

## Step 3: converting the data with cpm.

## Step 4: transforming the data with log2.

## Step 5: not doing batch correction.

plot_corheat(bgl_norm)$data

##          HPGL0073 HPGL0074
## HPGL0073   1.0000   0.9329
## HPGL0074   0.9329   1.0000

diff_table <- as.data.frame(exprs(bgl_norm))
diff_table[["logfc"]] <- diff_table[[1]] - diff_table[[2]]

annotations <- fData(bgl_expt)
merged <- merge(annotations, diff_table, by="row.names")
merged <- merged[, -1]
cds_idx <- merged[["biotype"]] == "protein_coding"
merged <- merged[cds_idx, ]
dim(merged)

## [1] 20399    25

fc_plot <- plot_linear_scatter(merged[, c("HPGL0073", "HPGL0074")])

## Used Bon Ferroni corrected t test(s) between columns.

fc_plot$scatter

summary(merged)

##    seqnames             start              end              width       
##  Length:20399       Min.   :      1   Min.   :    222   Min.   :    73  
##  Class :character   1st Qu.:   7930   1st Qu.:  21678   1st Qu.:  5616  
##  Mode  :character   Median :  42930   Median :  60824   Median : 10638  
##                     Mean   : 129428   Mean   : 145260   Mean   : 15833  
##     strand             source              type          
##  Length:20399       Length:20399       Length:20399      
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character  
##                                                          
##     score              phase                ID           
##  Length:20399       Length:20399       Length:20399      
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character  
##                                                          
##     Alias             biotype            version         
##  Length:20399       Length:20399       Length:20399      
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character  
##                                                          
##     Parent             Dbxref              Name          
##  Length:20399       Length:20399       Length:20399      
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character  
##                                                          
##  constitutive           rank            protein_id       
##  Length:20399       Length:20399       Length:20399      
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character  
##                                                          
##  Ontology_term          Note           description           HPGL0073    
##  Length:20399       Length:20399       Length:20399       Min.   : 1.02  
##  Class :character   Class :character   Class :character   1st Qu.: 2.61  
##  Mode  :character   Mode  :character   Mode  :character   Median : 3.69  
##                                                           Mean   : 3.91  
##     HPGL0074         logfc       
##  Min.   : 1.02   Min.   :-4.757  
##  1st Qu.: 2.59   1st Qu.:-0.277  
##  Median : 3.67   Median : 0.030  
##  Mean   : 3.90   Mean   : 0.018  
##  [ reached getOption("max.print") -- omitted 2 rows ]

write.csv(x=diff_table, file="hpgl0074_vs_hpgl0073.csv")

pander::pander(sessionInfo())
message(paste0("This is hpgltools commit: ", get_git_commit()))
this_save <- paste0(gsub(pattern="\\.Rmd", replace="", x=rmd_file), "-v", ver, ".rda.xz")
message(paste0("Saving to ", this_save))
tmp <- sm(saveme(filename=this_save))

LS0tCnRpdGxlOiAiQi4gZ2xhYnJhdGEgUk5BU2VxIG9mIHR3byBzYW1wbGVzIgphdXRob3I6ICJhdGIgYWJlbGV3QGdtYWlsLmNvbSIKZGF0ZTogImByIFN5cy5EYXRlKClgIgpvdXRwdXQ6CiAgaHRtbF9kb2N1bWVudDoKICAgIGNvZGVfZG93bmxvYWQ6IHRydWUKICAgIGNvZGVfZm9sZGluZzogc2hvdwogICAgZmlnX2NhcHRpb246IHRydWUKICAgIGZpZ19oZWlnaHQ6IDcKICAgIGZpZ193aWR0aDogNwogICAgaGlnaGxpZ2h0OiB0YW5nbwogICAga2VlcF9tZDogZmFsc2UKICAgIG1vZGU6IHNlbGZjb250YWluZWQKICAgIG51bWJlcl9zZWN0aW9uczogdHJ1ZQogICAgc2VsZl9jb250YWluZWQ6IHRydWUKICAgIHRoZW1lOiByZWFkYWJsZQogICAgdG9jOiB0cnVlCiAgICB0b2NfZmxvYXQ6CiAgICAgIGNvbGxhcHNlZDogZmFsc2UKICAgICAgc21vb3RoX3Njcm9sbDogZmFsc2UKICBybWRmb3JtYXRzOjpyZWFkdGhlZG93bjoKICAgIGNvZGVfZG93bmxvYWQ6IHRydWUKICAgIGNvZGVfZm9sZGluZzogc2hvdwogICAgZGZfcHJpbnQ6IHBhZ2VkCiAgICBmaWdfY2FwdGlvbjogdHJ1ZQogICAgZmlnX2hlaWdodDogNwogICAgZmlnX3dpZHRoOiA3CiAgICBoaWdobGlnaHQ6IHRhbmdvCiAgICB3aWR0aDogMzAwCiAgICBrZWVwX21kOiBmYWxzZQogICAgbW9kZTogc2VsZmNvbnRhaW5lZAogICAgdG9jX2Zsb2F0OiB0cnVlCiAgQmlvY1N0eWxlOjpodG1sX2RvY3VtZW50OgogICAgY29kZV9kb3dubG9hZDogdHJ1ZQogICAgY29kZV9mb2xkaW5nOiBzaG93CiAgICBmaWdfY2FwdGlvbjogdHJ1ZQogICAgZmlnX2hlaWdodDogNwogICAgZmlnX3dpZHRoOiA3CiAgICBoaWdobGlnaHQ6IHRhbmdvCiAgICBrZWVwX21kOiBmYWxzZQogICAgbW9kZTogc2VsZmNvbnRhaW5lZAogICAgdG9jX2Zsb2F0OiB0cnVlCi0tLQoKPHN0eWxlIHR5cGU9InRleHQvY3NzIj4KYm9keSwgdGQgewogIGZvbnQtc2l6ZTogMTZweDsKfQpjb2RlLnJ7CiAgZm9udC1zaXplOiAxNnB4Owp9CnByZSB7CiBmb250LXNpemU6IDE2cHgKfQo8L3N0eWxlPgoKYGBge3Igb3B0aW9ucywgaW5jbHVkZT1GQUxTRX0KbGlicmFyeSgiaHBnbHRvb2xzIikKdHQgPC0gZGV2dG9vbHM6OmxvYWRfYWxsKCJ+L2hwZ2x0b29scyIpCmtuaXRyOjpvcHRzX2tuaXQkc2V0KHdpZHRoPTEyMCwKICAgICAgICAgICAgICAgICAgICAgcHJvZ3Jlc3M9VFJVRSwKICAgICAgICAgICAgICAgICAgICAgdmVyYm9zZT1UUlVFLAogICAgICAgICAgICAgICAgICAgICBlY2hvPVRSVUUpCmtuaXRyOjpvcHRzX2NodW5rJHNldChlcnJvcj1UUlVFLAogICAgICAgICAgICAgICAgICAgICAgZHBpPTk2KQpvbGRfb3B0aW9ucyA8LSBvcHRpb25zKGRpZ2l0cz00LAogICAgICAgICAgICAgICAgICAgICAgIG1heC5wcmludD0xMjAsCiAgICAgICAgICAgICAgICAgICAgICAgc3RyaW5nc0FzRmFjdG9ycz1GQUxTRSwKICAgICAgICAgICAgICAgICAgICAgICBrbml0ci5kdXBsaWNhdGUubGFiZWw9ImFsbG93IikKZ2dwbG90Mjo6dGhlbWVfc2V0KGdncGxvdDI6OnRoZW1lX2J3KGJhc2Vfc2l6ZT0xMCkpCnJ1bmRhdGUgPC0gZm9ybWF0KFN5cy5EYXRlKCksIGZvcm1hdD0iJVklbSVkIikKcHJldmlvdXNfZmlsZSA8LSAiMDJfZXN0aW1hdGlvbl9pbmZlY3Rpb25fMjAxODA4MjIuUm1kIgp2ZXIgPC0gIjIwMTgwODIyIgoKIyN0bXAgPC0gc20obG9hZG1lKGZpbGVuYW1lPXBhc3RlMChnc3ViKHBhdHRlcm49IlxcLlJtZCIsIHJlcGxhY2U9IiIsIHg9cHJldmlvdXNfZmlsZSksICItdiIsIHZlciwgIi5yZGEueHoiKSkpCiMjcm1kX2ZpbGUgPC0gIjAzX2V4cHJlc3Npb25faW5mZWN0aW9uXzIwMTgwODIyLlJtZCIKYGBgCgojIEIgZ2xhYnJhdGEgc2hlbmFuaWdhbnMKCkkgZG93bmxvYWRlZCBteSB0cmFuc2NyaXB0b21lIGFuZCBnZmYgYW5ub3RhdGlvbnMgZnJvbSB2ZWN0b3JiYXNlLgoKYGBge3IgbWVzc2FnZX0KYmdsX2Fubm90YXRpb24gPC0gbG9hZF9nZmZfYW5ub3RhdGlvbnMoInJlZmVyZW5jZS9CaW9tcGhhbGFyaWEtZ2xhYnJhdGEtQkIwMl9CQVNFRkVBVFVSRVNfQmdsYUIxLjYuZ2ZmMyIpCnJvd25hbWVzKGJnbF9hbm5vdGF0aW9uKSA8LSBtYWtlLm5hbWVzKGJnbF9hbm5vdGF0aW9uW1siSUQiXV0sIHVuaXF1ZT1UUlVFKQpgYGAKCiMjIE1ha2Ugc29tZSBtZXRhZGF0YQoKYGBge3IgbWV0YWRhdGF9Cm1ldGFkYXRhIDwtIGRhdGEuZnJhbWUoCiAgInNhbXBsZWlkIiA9IGMoIkhQR0wwMDczIiwgIkhQR0wwMDc0IiksCiAgImNvbmRpdGlvbiIgPSBjKCJmaXJzdCIsICJzZWNvbmQiKSwKICAiYmF0Y2giID0gYygiYSIsICJhIiksCiAgImZpbGUiID0gYygicHJlcHJvY2Vzc2luZy9IUEdMMDA3My9wcm9jZXNzZWQvb3V0cHV0cy9zYWxtb25fYmdsYWJyYXRhL3F1YW50LnNmIiwKICAgICAgICAgICAgICJwcmVwcm9jZXNzaW5nL0hQR0wwMDc0L3Byb2Nlc3NlZC9vdXRwdXRzL3NhbG1vbl9iZ2xhYnJhdGEvcXVhbnQuc2YiKSkKYGBgCgojIyBDcmVhdGUgYW4gZXhwcmVzc2lvbnNldAoKYGBge3IgZXhwdH0KYmdsX2V4cHQgPC0gY3JlYXRlX2V4cHQobWV0YWRhdGE9bWV0YWRhdGEsIGdlbmVfaW5mbz1iZ2xfYW5ub3RhdGlvbikKCnBsb3RfbGlic2l6ZShiZ2xfZXhwdCkKcGxvdF9ub256ZXJvKGJnbF9leHB0KQoKYmdsX25vcm0gPC0gbm9ybWFsaXplX2V4cHQoYmdsX2V4cHQsIGNvbnZlcnQ9ImNwbSIsIHRyYW5zZm9ybT0ibG9nMiIsIG5vcm09InF1YW50IiwgZmlsdGVyPVRSVUUpCnBsb3RfY29yaGVhdChiZ2xfbm9ybSkkZGF0YQoKZGlmZl90YWJsZSA8LSBhcy5kYXRhLmZyYW1lKGV4cHJzKGJnbF9ub3JtKSkKZGlmZl90YWJsZVtbImxvZ2ZjIl1dIDwtIGRpZmZfdGFibGVbWzFdXSAtIGRpZmZfdGFibGVbWzJdXQoKYW5ub3RhdGlvbnMgPC0gZkRhdGEoYmdsX2V4cHQpCm1lcmdlZCA8LSBtZXJnZShhbm5vdGF0aW9ucywgZGlmZl90YWJsZSwgYnk9InJvdy5uYW1lcyIpCm1lcmdlZCA8LSBtZXJnZWRbLCAtMV0KY2RzX2lkeCA8LSBtZXJnZWRbWyJiaW90eXBlIl1dID09ICJwcm90ZWluX2NvZGluZyIKbWVyZ2VkIDwtIG1lcmdlZFtjZHNfaWR4LCBdCmRpbShtZXJnZWQpCgpmY19wbG90IDwtIHBsb3RfbGluZWFyX3NjYXR0ZXIobWVyZ2VkWywgYygiSFBHTDAwNzMiLCAiSFBHTDAwNzQiKV0pCmZjX3Bsb3Qkc2NhdHRlcgoKc3VtbWFyeShtZXJnZWQpCndyaXRlLmNzdih4PWRpZmZfdGFibGUsIGZpbGU9ImhwZ2wwMDc0X3ZzX2hwZ2wwMDczLmNzdiIpCmBgYAoKYGBge3Igc2F2ZW1lLCBldmFsPUZBTFNFfQpwYW5kZXI6OnBhbmRlcihzZXNzaW9uSW5mbygpKQptZXNzYWdlKHBhc3RlMCgiVGhpcyBpcyBocGdsdG9vbHMgY29tbWl0OiAiLCBnZXRfZ2l0X2NvbW1pdCgpKSkKdGhpc19zYXZlIDwtIHBhc3RlMChnc3ViKHBhdHRlcm49IlxcLlJtZCIsIHJlcGxhY2U9IiIsIHg9cm1kX2ZpbGUpLCAiLXYiLCB2ZXIsICIucmRhLnh6IikKbWVzc2FnZShwYXN0ZTAoIlNhdmluZyB0byAiLCB0aGlzX3NhdmUpKQp0bXAgPC0gc20oc2F2ZW1lKGZpbGVuYW1lPXRoaXNfc2F2ZSkpCmBgYAo=

B. glabrata RNASeq of two samples

atb abelew@gmail.com

2019-04-17

1 B glabrata shenanigans

1.1 Make some metadata

1.2 Create an expressionset