1 Introduction

export HS_TYPE=gene
export HS_TAG=ID

1.1 Testing directory

I think for speed sake, I will run these through salmon.

I have been making some changes to my pipeline recently; so I will put 100k reads into a test directory.

cd preprocessing
mkdir test
cd test
less ../SRR/*R1* | head -n 400000 > r1.fastq
less ../SRR/*R2* | head -n 400000 > r2.fastq
gzip *.fastq
inputs=$(/bin/ls outputs/12fastp/*-fastp.fastq.xz | tr '\n' ':')
cyoa --method salmon --species hg38_111 --input $inputs --libtype CDS --jprefix 20

1.2 Trimming via fastp

I am going to use that tree to run everything first, notably I want my tools to collect more thorough statistics on runtime etc to improve my nascent heuristics to choose memory/time on the cluster.

start=$(pwd)
for i in $(/bin/ls -d SR*); do
    cd ${start}/${i}
    mkdir unprocessed
    mv *.fastq.gz unprocessed/
    cyoa --method fastp --input $(/bin/ls -d unprocessed/*.fastq.gz | tr '\n' ':')
done
cd $start

1.3 Salmon quantification

start=$(pwd)
for i in $(/bin/ls -d SR*); do
    cd ${start}/${i}
    inputs=$(/bin/ls outputs/12fastp/*-fastp.fastq.xz | tr '\n' ':')
    cyoa --method salmon --species hg38_111 --input $inputs --libtype CDS --jprefix 20
    cyoa --method kraken --libtype bacteria --input $inputs
done
cd $start

2 Load annotations

First let us load some reasonably current biomart annotations.

2.1 Biomart

hs_annot <- load_biomart_annotations(archive = FALSE)

## The biomart annotations file already exists, loading from it.

annot <- hs_annot[["gene_annotations"]]

2.2 Transcript vs gene annotations

My code is a little bit picky about ensuring that the various IDs match. Thus I will likely need to do a little work to make certain that the various version numbers match properly.

tx_annot <- hs_annot[["annotation"]]
rownames(tx_annot) <- paste0(tx_annot[["ensembl_transcript_id"]], ".",
                             tx_annot[["transcript_version"]])

3 Collect preprocessing information

meta <- gather_preprocessing_metadata("sample_sheets/PRJNA675090.xlsx")

## Did not find the condition column in the sample sheet.

## Filling it in as undefined.

## Did not find the batch column in the sample sheet.

## Filling it in as undefined.

## Checking the state of the condition column.

## Checking the state of the batch column.

## Checking the condition factor.

## Writing new metadata to: sample_sheets/PRJNA675090_modified.xlsx

## Deleting the file sample_sheets/PRJNA675090_modified.xlsx before writing the tables.

4 Create SE

I keep meaning to add a little function to strip off the tx_version suffix, given that tximport now has an argument to ignore it.

We usually do all of our quantification at the gene level, but it seems like this might be an occasion when transcript changes and/or splicing might be of interest. Thus I am going to generate a couple of summarized experiments, one for each. For the moment we will just use the gene level abundances.

tx_gene_map <- tx_annot[, c("ensembl_transcript_id", "ensembl_gene_id")]
rownames(tx_gene_map) <- make.names(gsub(x = rownames(tx_gene_map),
                                         pattern = "\\.\\d+$", replacement = ""), unique = TRUE)

hs_se_tx <- create_se(meta[["new_meta"]], gene_info = tx_annot, file_column = "salmon_count_table")

## Reading the sample metadata.

## Checking the state of the condition column.

## Checking the state of the batch column.

## Checking the condition factor.

## The sample definitions comprises: 41 rows(samples) and 22 columns(metadata fields).

## Warning in create_se(meta[["new_meta"]], gene_info = tx_annot, file_column =
## "salmon_count_table"): Some samples were removed when cross referencing the samples
## against the count data.

## Matched 85820 annotations and counts.

## Bringing together the count matrix and gene information.

## Some annotations were lost in merging, setting them to 'undefined'.

## Saving the summarized experiment to 'se.rda'.

## The final summarized experiment has 97117 rows and 22 columns.

hs_se_gene <- create_se(meta[["new_meta"]], gene_info = annot, file_column = "salmon_count_table",
                        tx_gene_map = tx_gene_map)

## Reading the sample metadata.

## Checking the state of the condition column.

## Checking the state of the batch column.

## Checking the condition factor.

## The sample definitions comprises: 41 rows(samples) and 22 columns(metadata fields).

## In some cases, (notably salmon) the format of the IDs used by this can be tricky.
## It is likely to require the transcript ID followed by a '.' and the ensembl column:
## 'transcript_version', which is explicitly different than the gene version column.
## If this is not correctly performed, very few genes will be observed

## reading in files with read_tsv

## 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 
## transcripts missing from tx2gene: 7591
## summarizing abundance
## summarizing counts
## summarizing length

## Warning in create_se(meta[["new_meta"]], gene_info = annot, file_column =
## "salmon_count_table", : Some samples were removed when cross referencing the samples
## against the count data.

## Matched 21356 annotations and counts.
## Bringing together the count matrix and gene information.
## Some annotations were lost in merging, setting them to 'undefined'.
## Saving the summarized experiment to 'se.rda'.
## The final summarized experiment has 21356 rows and 22 columns.

5 Set condition/batch

I have extracted two potentially interesting columns from the metadata, after that I will need to read more carefully in the paper to try to get a sense of what is what…

hs_se <- set_se_conditions(hs_se_gene, fact = "controlp") %>%
  set_se_batches(fact = "type")

## The numbers of samples by condition are:

## 
## control     HCM 
##       5      35

## The number of samples by batch are:

## 
##  exome rnaseq 
##     17     23

6 A couple plots

plot_legend(hs_se)

## The colors used in the expressionset are: #1B9E77, #7570B3.

plot_libsize(hs_se)

## Library sizes of 40 samples, 
## ranging from 2,677,665 to 7,112,244.

plot_nonzero(hs_se)

## Scale for colour is already present.
## Adding another scale for colour, which will replace the existing scale.

## Scale for fill is already present.
## Adding another scale for fill, which will replace the existing scale.
## A non-zero genes plot of 40 samples.
## These samples have an average 4.765 CPM coverage and 16851 genes observed, ranging from 13986 to
## 19653.

## Warning: ggrepel: 21 unlabeled data points (too many overlaps). Consider increasing
## max.overlaps

plot_meta_sankey(hs_se)

## A sankey plot describing the metadata of 40 samples,
## including 5 out of 0 nodes and traversing metadata factors:
## condition, batch.

Presumably we will need to separate the exome and rnaseq data; but for the moment I will leave them together to see what I can see.

hs_norm <- normalize(hs_se, transform = "log2", convert = "cpm", filter = TRUE, norm = "quant")

## Running normalize_se.

## Removing 1203 low-count genes (20153 remaining).

## transform_counts: Found 12213 values equal to 0, adding 1 to the matrix.

plot_pca(hs_norm)

## The result of performing a fast_svd dimension reduction.
## The x-axis is PC1 and the y-axis is PC2
## Colors are defined by control, HCM
## Shapes are defined by exome, rnaseq.

I suppose it should be no surprise that the two experiment types are very different. Let us therefore skip on the exome data for now.

hs_rna <- subset_se(hs_se, subset = "batch=='rnaseq'")
hs_rna_norm <- normalize(hs_rna, transform = "log2", convert = "cpm",
                         filter = TRUE, norm = "quant")

## Running normalize_se.

## Removing 8111 low-count genes (13245 remaining).

## transform_counts: Found 9325 values equal to 0, adding 1 to the matrix.

norm_pca <- plot_pca(hs_rna_norm)
pp(file = "images/norm_pca.pdf")
norm_pca

## The result of performing a fast_svd dimension reduction.
## The x-axis is PC1 and the y-axis is PC2
## Colors are defined by control, HCM
## Shapes are defined by rnaseq.

dev.off()

## png 
##   2

7 Exclude odd sample

In our initial PCA plot, SRR12999746 looks particularly strange.

hs_idx <- colnames(hs_rna) != "SRR12999746"
kept_ids <- colnames(hs_rna)[hs_idx]
hs_excluded <- subset_se(hs_rna, ids = kept_ids)
excluded_norm <- normalize(hs_excluded, filter = TRUE, convert = "cpm",
                           transform = "log2", norm = "quant")

## Running normalize_se.

## Removing 8234 low-count genes (13122 remaining).

## transform_counts: Found 8289 values equal to 0, adding 1 to the matrix.

plot_pca(excluded_norm)

## The result of performing a fast_svd dimension reduction.
## The x-axis is PC1 and the y-axis is PC2
## Colors are defined by control, HCM
## Shapes are defined by rnaseq.

excluded_nb <- normalize(hs_excluded, filter = TRUE, convert = "cpm",
                         transform = "log2", batch = "svaseq")

## Running normalize_se.

## Removing 8234 low-count genes (13122 remaining).

## transform_counts: Found 2514 values less than 0.

## Warning in transform_counts(count_table, method = transform, ...): NaNs produced

plot_pca(excluded_nb)

## The result of performing a fast_svd dimension reduction.
## The x-axis is PC1 and the y-axis is PC2
## Colors are defined by control, HCM
## Shapes are defined by rnaseq.

8 First try DE

hs_de <- all_pairwise(hs_excluded, filter = TRUE, model_svs = "svaseq",
                      model_fstring = "~ 0 + condition", force = TRUE)

## control     HCM 
##       5      17

## Running normalize_se.

## Removing 8234 low-count genes (13122 remaining).

## Basic step 0/3: Normalizing data.

## Basic step 0/3: Converting data.

## I think this is failing? SummarizedExperiment

## Basic step 0/3: Transforming data.

## Running normalize_se.

## Warning in choose_binom_dataset(input, force = force): This data was inappropriately
## forced into integers.

## This received a matrix of SVs.

## converting counts to integer mode

## gene-wise dispersion estimates

## mean-dispersion relationship

## final dispersion estimates

## Warning in choose_binom_dataset(input, force = force): This data was inappropriately
## forced into integers.

## Warning in createContrastL(objFlt$formula, objFlt$data, L): Contrasts with only a
## single non-zero term are already evaluated by default.

## Warning in choose_binom_dataset(input, force = force): This data was inappropriately
## forced into integers.
## Warning in choose_binom_dataset(input, force = force): This data was inappropriately
## forced into integers.

## conditions
## control     HCM 
##       5      17

## conditions
## control     HCM 
##       5      17

## Warning in choose_binom_dataset(input, force = force): This data was inappropriately
## forced into integers.

## conditions
## control     HCM 
##       5      17

hs_de

## A pairwise differential expression with results from: basic, deseq, ebseq, edger, limma, noiseq.

## This used a surrogate/batch estimate from: svaseq.

## The primary analysis performed 1 comparisons.

## The logFC agreement among the methods follows:

##                 HCM_vs_cnt
## basic_vs_deseq      0.5069
## basic_vs_dream      0.8682
## basic_vs_ebseq      0.7508
## basic_vs_edger      0.7705
## basic_vs_limma      0.8652
## basic_vs_noiseq     0.8735
## deseq_vs_dream      0.5136
## deseq_vs_ebseq      0.7515
## deseq_vs_edger      0.8013
## deseq_vs_limma      0.5004
## deseq_vs_noiseq     0.6683
## dream_vs_ebseq      0.7205
## dream_vs_edger      0.7613
## dream_vs_limma      0.9961
## dream_vs_noiseq     0.8213
## ebseq_vs_edger      0.8179
## ebseq_vs_limma      0.7083
## ebseq_vs_noiseq     0.9443
## edger_vs_limma      0.7511
## edger_vs_noiseq     0.8365
## limma_vs_noiseq     0.8138

hs_table <- combine_de_tables(hs_de, excel = "excel/control_vs_hcm.xlsx")

## Deleting the file excel/control_vs_hcm.xlsx before writing the tables.

hs_table

## A set of combined differential expression results.

##            table deseq_sigup deseq_sigdown edger_sigup edger_sigdown limma_sigup
## 1 HCM_vs_control         199           189         163           157          92
##   limma_sigdown
## 1           195

## `geom_line()`: Each group consists of only one observation.
## ℹ Do you need to adjust the group aesthetic?

## Plot describing unique/shared genes in a differential expression table.

hs_sig <- extract_significant_genes(hs_table, excel = "excel/control_vs_hcm-sig.xlsx")

## Deleting the file excel/control_vs_hcm-sig.xlsx before writing the tables.

hs_sig

## A set of genes deemed significant according to limma, edger, deseq, ebseq, basic.

## The parameters defining significant were:

## LFC cutoff: 1 adj P cutoff: 0.05

##                limma_up limma_down edger_up edger_down deseq_up deseq_down ebseq_up
## HCM_vs_control       92        195      163        157      199        189      135
##                ebseq_down basic_up basic_down
## HCM_vs_control        130      153        160

8.1 A couple of the metrics produced

hs_table[["plots"]][["HCM_vs_control"]][["deseq_ma_plots"]]

hs_table[["plots"]][["HCM_vs_control"]][["deseq_vol_plots"]]

hs_table[["plots"]][["HCM_vs_control"]][["deseq_adjp_plots"]]

9 Ontology shenanigans

9.1 Cluster Profiler with my default settings

The default settings for the various ontology/enrichment tools I have assume human data.

hs_cp <- all_cprofiler(hs_sig, hs_table)

## using 'fgsea' for GSEA analysis, please cite Korotkevich et al (2019).

## preparing geneSet collections...

## GSEA analysis...

## leading edge analysis...

## done...

## Reading KEGG annotation online: "https://rest.kegg.jp/link/hsa/pathway"...

## Reading KEGG annotation online: "https://rest.kegg.jp/list/pathway/hsa"...

## ReactomePA v1.50.0 Learn more at https://yulab-smu.top/contribution-knowledge-mining/
## 
## Please cite:
## 
## Guangchuang Yu, Qing-Yu He. ReactomePA: an R/Bioconductor package for
## reactome pathway analysis and visualization. Molecular BioSystems. 2016,
## 12(2):477-479

## Loading required package: org.Hs.eg.db

## Loading required package: AnnotationDbi

## Loading required package: stats4

## Loading required package: BiocGenerics

## 
## Attaching package: 'BiocGenerics'

## The following objects are masked from 'package:hpgltools':
## 
##     conditions<-, normalize, sd, var

## The following objects are masked from 'package:stats':
## 
##     IQR, mad, sd, var, xtabs

## The following objects are masked from 'package:base':
## 
##     anyDuplicated, aperm, append, as.data.frame, basename, cbind, colnames,
##     dirname, do.call, duplicated, eval, evalq, Filter, Find, get, grep,
##     grepl, intersect, is.unsorted, lapply, Map, mapply, match, mget, order,
##     paste, pmax, pmax.int, pmin, pmin.int, Position, rank, rbind, Reduce,
##     rownames, sapply, saveRDS, setdiff, table, tapply, union, unique,
##     unsplit, which.max, which.min

## Loading required package: Biobase

## Welcome to Bioconductor
## 
##     Vignettes contain introductory material; view with 'browseVignettes()'.
##     To cite Bioconductor, see 'citation("Biobase")', and for packages
##     'citation("pkgname")'.

## Loading required package: IRanges

## Loading required package: S4Vectors

## 
## Attaching package: 'S4Vectors'

## The following objects are masked from 'package:hpgltools':
## 
##     findMatches, first, second

## The following object is masked from 'package:utils':
## 
##     findMatches

## The following objects are masked from 'package:base':
## 
##     expand.grid, I, unname

## 
## Attaching package: 'IRanges'

## The following object is masked from 'package:hpgltools':
## 
##     shift

## Deleting the file excel/all_cp_HCM_vs_control_up.xlsx before writing the tables.

## Writing a sheet containing the legend.

## Writing the BP data.

## Writing the MF data.

## Writing the CC data.

## Writing the KEGG data.

## Finished writing excel file.

## using 'fgsea' for GSEA analysis, please cite Korotkevich et al (2019).

## preparing geneSet collections...

## GSEA analysis...

## leading edge analysis...

## done...

## Deleting the file excel/all_cp_HCM_vs_control_down.xlsx before writing the tables.

## Writing a sheet containing the legend.

## Writing the BP data.

## Writing the MF data.

## Writing the CC data.

## Writing the KEGG data.

## Finished writing excel file.

9.2 gProfiler2 with my defaults

I am just fooling around now.

hs_gp <- all_gprofiler(hs_sig)
fun_plots <- plot_enrichresult(hs_gp[["HCM_vs_control_up"]][["BP_enrich"]])

## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.
## ! # Invaild edge matrix for <phylo>. A <tbl_df> is returned.

fun_plots$bar

fun_plots$cnet

fun_plots$dot

fun_plots$go

## Warning: ggrepel: 15 unlabeled data points (too many overlaps). Consider increasing
## max.overlaps

fun_plots$map

fun_plots$tree

I am always amazed at how many genes are shared across groups.

10 Play around with the mSigDB

A few specific mSigDB categories: C8, C7, C5, C3, C2

This is actually C2 because I need to download a new copy of msigdb in the new format.

10.1 New copy of msigdb

I downloaded a fresh copy of the human mSigDB because my copy was in the old format and that no longer parses well.

10.2 Load msigdb

10.2.1 Load the meta mSigDB data

msigdb <- "reference/msigdb_v2024.1.Hs.db"
msig_meta <- load_msig_metadata(db = msigdb)

up_cp_c8 <- simple_clusterprofiler(input_up, de_table = table,
                                   msig_db = msigdb,
                                   do_msigdb = TRUE, msigdb_category = "C8",
                                   do_mesh = TRUE, do_dose = TRUE, orgdb_from = "ENSEMBL")

## Error in h(simpleError(msg, call)): error in evaluating the argument 'x' in selecting a method for function 'rownames': object 'input_up' not found

10.3 C2

c2 <- load_gmt_signatures(signatures = "reference/msigdb_v2024.1.Hs.db", signature_category = "c2",
                          id_type = "entrez")
c2_enricher <- simple_cp_enricher(sig_genes = input_up, de_table = table, db = c2)

## Error in h(simpleError(msg, call)): error in evaluating the argument 'sig_genes' in selecting a method for function 'simple_cp_enricher': object 'input_up' not found

c2_merged <- merge(as.data.frame(c2_enricher), msig_meta, by.x = "ID", by.y = "standard_name", all.x = TRUE)

## Error in h(simpleError(msg, call)): error in evaluating the argument 'x' in selecting a method for function 'merge': error in evaluating the argument 'x' in selecting a method for function 'as.data.frame': object 'c2_enricher' not found

written <- write_xlsx(data = c2_merged, excel = "excel/c2_result.xlsx")

## Error in h(simpleError(msg, call)): error in evaluating the argument 'data' in selecting a method for function 'write_xlsx': object 'c2_merged' not found

10.4 C3

c3 <- load_gmt_signatures(signatures = "reference/msigdb_v2024.1.Hs.db", signature_category = "c3",
                          id_type = "entrez")
c3_enricher <- simple_cp_enricher(sig_genes = input_up, de_table = table, db = c3)

## Error in h(simpleError(msg, call)): error in evaluating the argument 'sig_genes' in selecting a method for function 'simple_cp_enricher': object 'input_up' not found

c3_merged <- merge(as.data.frame(c3_enricher), msig_meta, by.x = "ID", by.y = "standard_name", all.x = TRUE)

## Error in h(simpleError(msg, call)): error in evaluating the argument 'x' in selecting a method for function 'merge': error in evaluating the argument 'x' in selecting a method for function 'as.data.frame': object 'c3_enricher' not found

written <- write_xlsx(data = as.data.frame(c3_merged), excel = "excel/c3_result.xlsx")

## Error in h(simpleError(msg, call)): error in evaluating the argument 'data' in selecting a method for function 'write_xlsx': error in evaluating the argument 'x' in selecting a method for function 'as.data.frame': object 'c3_merged' not found

10.5 C4

c4 <- load_gmt_signatures(signatures = "reference/msigdb_v2024.1.Hs.db", signature_category = "c4",
                          id_type = "entrez")
c4_enricher <- simple_cp_enricher(sig_genes = input_up, de_table = table, db = c4)

## Error in h(simpleError(msg, call)): error in evaluating the argument 'sig_genes' in selecting a method for function 'simple_cp_enricher': object 'input_up' not found

c4_merged <- merge(as.data.frame(c4_enricher), msig_meta, by.x = "ID", by.y = "standard_name", all.x = TRUE)

## Error in h(simpleError(msg, call)): error in evaluating the argument 'x' in selecting a method for function 'merge': error in evaluating the argument 'x' in selecting a method for function 'as.data.frame': object 'c4_enricher' not found

written <- write_xlsx(data = as.data.frame(c4_merged), excel = "excel/c4_result.xlsx")

## Error in h(simpleError(msg, call)): error in evaluating the argument 'data' in selecting a method for function 'write_xlsx': error in evaluating the argument 'x' in selecting a method for function 'as.data.frame': object 'c4_merged' not found

10.6 C5

c5 <- load_gmt_signatures(signatures = "reference/msigdb_v2024.1.Hs.db", signature_category = "c5",
                          id_type = "entrez")
c5_enricher <- simple_cp_enricher(sig_genes = input_up, de_table = table, db = c5)

## Error in h(simpleError(msg, call)): error in evaluating the argument 'sig_genes' in selecting a method for function 'simple_cp_enricher': object 'input_up' not found

c5_merged <- merge(as.data.frame(c5_enricher), msig_meta, by.x = "ID", by.y = "standard_name", all.x = TRUE)

## Error in h(simpleError(msg, call)): error in evaluating the argument 'x' in selecting a method for function 'merge': error in evaluating the argument 'x' in selecting a method for function 'as.data.frame': object 'c5_enricher' not found

written <- write_xlsx(data = as.data.frame(c5_merged), excel = "excel/c5_result.xlsx")

## Error in h(simpleError(msg, call)): error in evaluating the argument 'data' in selecting a method for function 'write_xlsx': error in evaluating the argument 'x' in selecting a method for function 'as.data.frame': object 'c5_merged' not found

10.7 C6

C6 returns no hits.

c6 <- load_gmt_signatures(signatures = "reference/msigdb_v2024.1.Hs.db", signature_category = "c6",
                          id_type = "entrez")
c6_enricher <- simple_cp_enricher(sig_genes = input_up, de_table = table, db = c6)
written <- write_xlsx(data = as.data.frame(c6_enricher), excel = "excel/c6_result.xlsx")

10.8 C7

c7 <- load_gmt_signatures(signatures = "reference/msigdb_v2024.1.Hs.db", signature_category = "c7",
                          id_type = "entrez")
c7_enricher <- simple_cp_enricher(sig_genes = input_up, de_table = table, db = c7)

## Error in h(simpleError(msg, call)): error in evaluating the argument 'sig_genes' in selecting a method for function 'simple_cp_enricher': object 'input_up' not found

c7_merged <- merge(as.data.frame(c7_enricher), msig_meta, by.x = "ID", by.y = "standard_name", all.x = TRUE)

## Error in h(simpleError(msg, call)): error in evaluating the argument 'x' in selecting a method for function 'merge': error in evaluating the argument 'x' in selecting a method for function 'as.data.frame': object 'c7_enricher' not found

written <- write_xlsx(data = as.data.frame(c7_merged), excel = "excel/c7_result.xlsx")

## Error in h(simpleError(msg, call)): error in evaluating the argument 'data' in selecting a method for function 'write_xlsx': error in evaluating the argument 'x' in selecting a method for function 'as.data.frame': object 'c7_merged' not found

10.9 C8

c8 <- load_gmt_signatures(signatures = "reference/msigdb_v2024.1.Hs.db", signature_category = "c8",
                          id_type = "entrez")
c8_enricher <- simple_cp_enricher(sig_genes = input_up, de_table = table, db = c8)

## Error in h(simpleError(msg, call)): error in evaluating the argument 'sig_genes' in selecting a method for function 'simple_cp_enricher': object 'input_up' not found

c8_merged <- merge(as.data.frame(c8_enricher), msig_meta, by.x = "ID", by.y = "standard_name", all.x = TRUE)

## Error in h(simpleError(msg, call)): error in evaluating the argument 'x' in selecting a method for function 'merge': error in evaluating the argument 'x' in selecting a method for function 'as.data.frame': object 'c8_enricher' not found

written <- write_xlsx(data = as.data.frame(c8_merged), excel = "excel/c8_result.xlsx")

## Error in h(simpleError(msg, call)): error in evaluating the argument 'data' in selecting a method for function 'write_xlsx': error in evaluating the argument 'x' in selecting a method for function 'as.data.frame': object 'c8_merged' not found

input_up <- as.data.frame(hs_sig[["deseq"]][["ups"]][[1]])
input_down <- as.data.frame(hs_sig[["deseq"]][["downs"]][[1]])
table <- hs_table[["data"]][[1]]

up_gp <- simple_gprofiler(input_up)

up_cp_c8 <- simple_clusterprofiler(input_up, de_table = table,
                                   do_msigdb = TRUE, msigdb_category = "C8",
                                   do_mesh = TRUE, do_dose = TRUE, orgdb_from = "ENSEMBL")

## using 'fgsea' for GSEA analysis, please cite Korotkevich et al (2019).

## preparing geneSet collections...

## GSEA analysis...

## leading edge analysis...

## done...

## Warning in simple_clusterprofiler(input_up, de_table = table, do_msigdb = TRUE, : I do
## not know this DOSE organism, leaving it as human.

## snapshotDate(): 2024-10-28

## Warning in simple_clusterprofiler(input_up, de_table = table, do_msigdb = TRUE, : I do
## not know this mesh organism, leaving it as human.

## loading from cache

## snapshotDate(): 2024-10-28

## loading from cache

write_xlsx(data = as.data.frame(up_cp_c8[["msigdb_data"]]), excel = "excel/c2_increased.xlsx")

## Deleting the file excel/c2_increased.xlsx before writing the tables.

## write_xlsx() wrote excel/c2_increased.xlsx.
## The cursor is on sheet first, row: 129 column: 14.

LS0tCnRpdGxlOiAiUHJlcHJvY2Vzc2luZyBzb21lIGh1bWFuIHNhbXBsZXMuIgphdXRob3I6ICJhdGIgYWJlbGV3QGdtYWlsLmNvbSIKZGF0ZTogImByIFN5cy5EYXRlKClgIgpvdXRwdXQ6CiAgaHRtbF9kb2N1bWVudDoKICAgIGNvZGVfZG93bmxvYWQ6IHRydWUKICAgIGNvZGVfZm9sZGluZzogc2hvdwogICAgZmlnX2NhcHRpb246IHRydWUKICAgIGZpZ19oZWlnaHQ6IDcKICAgIGZpZ193aWR0aDogNwogICAgaGlnaGxpZ2h0OiB6ZW5idXJuCiAgICBrZWVwX21kOiBmYWxzZQogICAgbW9kZTogc2VsZmNvbnRhaW5lZAogICAgbnVtYmVyX3NlY3Rpb25zOiB0cnVlCiAgICBzZWxmX2NvbnRhaW5lZDogdHJ1ZQogICAgdGhlbWU6IHJlYWRhYmxlCiAgICB0b2M6IHRydWUKICAgIHRvY19mbG9hdDoKICAgICAgY29sbGFwc2VkOiBmYWxzZQogICAgICBzbW9vdGhfc2Nyb2xsOiBmYWxzZQogIHJtZGZvcm1hdHM6OnJlYWR0aGVkb3duOgogICAgY29kZV9kb3dubG9hZDogdHJ1ZQogICAgY29kZV9mb2xkaW5nOiBzaG93CiAgICBkZl9wcmludDogcGFnZWQKICAgIGZpZ19jYXB0aW9uOiB0cnVlCiAgICBmaWdfaGVpZ2h0OiA3CiAgICBmaWdfd2lkdGg6IDcKICAgIGhpZ2hsaWdodDogemVuYnVybgogICAgd2lkdGg6IDMwMAogICAga2VlcF9tZDogZmFsc2UKICAgIG1vZGU6IHNlbGZjb250YWluZWQKICAgIHRvY19mbG9hdDogdHJ1ZQogIEJpb2NTdHlsZTo6aHRtbF9kb2N1bWVudDoKICAgIGNvZGVfZG93bmxvYWQ6IHRydWUKICAgIGNvZGVfZm9sZGluZzogc2hvdwogICAgZmlnX2NhcHRpb246IHRydWUKICAgIGZpZ19oZWlnaHQ6IDcKICAgIGZpZ193aWR0aDogNwogICAgaGlnaGxpZ2h0OiB6ZW5idXJuCiAgICBrZWVwX21kOiBmYWxzZQogICAgbW9kZTogc2VsZmNvbnRhaW5lZAogICAgdG9jX2Zsb2F0OiB0cnVlCi0tLQoKPHN0eWxlIHR5cGU9InRleHQvY3NzIj4KYm9keSwgdGQgewogIGZvbnQtc2l6ZTogMTZweDsKfQpjb2RlLnJ7CiAgZm9udC1zaXplOiAxNnB4Owp9CnByZSB7CiAgZm9udC1zaXplOiAxNnB4Cn0KYm9keSAubWFpbi1jb250YWluZXIgewogICBtYXgtd2lkdGg6IDE2MDBweDsKfQo8L3N0eWxlPgoKYGBge3Igb3B0aW9ucywgaW5jbHVkZT1GQUxTRX0KbGlicmFyeShyZXRpY3VsYXRlKQp0dCA8LSB0cnkoZGV2dG9vbHM6OmxvYWRfYWxsKCJ+L2hwZ2x0b29scyIpKQprbml0cjo6b3B0c19rbml0JHNldCgKICBwcm9ncmVzcyA9IFRSVUUsIHZlcmJvc2UgPSBUUlVFLCB3aWR0aCA9IDkwLCBlY2hvID0gVFJVRSkKa25pdHI6Om9wdHNfY2h1bmskc2V0KAogIGVycm9yID0gVFJVRSwgZmlnLndpZHRoID0gOCwgZmlnLmhlaWdodCA9IDgsIGZpZy5yZXRpbmEgPSAyLAogIG91dC53aWR0aCA9ICIxMDAlIiwgZGV2ID0gInBuZyIsCiAgZGV2LmFyZ3MgPSBsaXN0KHBuZyA9IGxpc3QodHlwZSA9ICJjYWlyby1wbmciKSkpCm9sZF9vcHRpb25zIDwtIG9wdGlvbnMoZGlnaXRzID0gNCwgc3RyaW5nc0FzRmFjdG9ycyA9IEZBTFNFLCBrbml0ci5kdXBsaWNhdGUubGFiZWwgPSAiYWxsb3ciKQpnZ3Bsb3QyOjp0aGVtZV9zZXQoZ2dwbG90Mjo6dGhlbWVfYncoYmFzZV9zaXplID0gMTIpKQp2ZXIgPC0gIjIwMjMwNSIKcHJldmlvdXNfZmlsZSA8LSAiIgp2ZXIgPC0gZm9ybWF0KFN5cy5EYXRlKCksICIlWSVtJWQiKQoKIyN0bXAgPC0gc20obG9hZG1lKGZpbGVuYW1lPXBhc3RlMChnc3ViKHBhdHRlcm49IlxcLlJtZCIsIHJlcGxhY2U9IiIsIHg9cHJldmlvdXNfZmlsZSksICItdiIsIHZlciwgIi5yZGEueHoiKSkpCnJtZF9maWxlIDwtICJwcmVwcm9jZXNzLlJtZCIKYGBgCgojIEludHJvZHVjdGlvbgoKYGBge2Jhc2gsIGV2YWw9RkFMU0V9CmV4cG9ydCBIU19UWVBFPWdlbmUKZXhwb3J0IEhTX1RBRz1JRApgYGAKCiMjIFRlc3RpbmcgZGlyZWN0b3J5CgpJIHRoaW5rIGZvciBzcGVlZCBzYWtlLCBJIHdpbGwgcnVuIHRoZXNlIHRocm91Z2ggc2FsbW9uLgoKSSBoYXZlIGJlZW4gbWFraW5nIHNvbWUgY2hhbmdlcyB0byBteSBwaXBlbGluZSByZWNlbnRseTsgc28gSSB3aWxsIHB1dAoxMDBrIHJlYWRzIGludG8gYSB0ZXN0IGRpcmVjdG9yeS4KCmBgYHtiYXNoLCBldmFsPUZBTFNFfQpjZCBwcmVwcm9jZXNzaW5nCm1rZGlyIHRlc3QKY2QgdGVzdApsZXNzIC4uL1NSUi8qUjEqIHwgaGVhZCAtbiA0MDAwMDAgPiByMS5mYXN0cQpsZXNzIC4uL1NSUi8qUjIqIHwgaGVhZCAtbiA0MDAwMDAgPiByMi5mYXN0cQpnemlwICouZmFzdHEKaW5wdXRzPSQoL2Jpbi9scyBvdXRwdXRzLzEyZmFzdHAvKi1mYXN0cC5mYXN0cS54eiB8IHRyICdcbicgJzonKQpjeW9hIC0tbWV0aG9kIHNhbG1vbiAtLXNwZWNpZXMgaGczOF8xMTEgLS1pbnB1dCAkaW5wdXRzIC0tbGlidHlwZSBDRFMgLS1qcHJlZml4IDIwCmBgYAoKIyMgVHJpbW1pbmcgdmlhIGZhc3RwCgpJIGFtIGdvaW5nIHRvIHVzZSB0aGF0IHRyZWUgdG8gcnVuIGV2ZXJ5dGhpbmcgZmlyc3QsIG5vdGFibHkgSSB3YW50IG15CnRvb2xzIHRvIGNvbGxlY3QgbW9yZSB0aG9yb3VnaCBzdGF0aXN0aWNzIG9uIHJ1bnRpbWUgZXRjIHRvIGltcHJvdmUgbXkKbmFzY2VudCBoZXVyaXN0aWNzIHRvIGNob29zZSBtZW1vcnkvdGltZSBvbiB0aGUgY2x1c3Rlci4KCmBgYHtiYXNoLCBldmFsPUZBTFNFfQpzdGFydD0kKHB3ZCkKZm9yIGkgaW4gJCgvYmluL2xzIC1kIFNSKik7IGRvCiAgICBjZCAke3N0YXJ0fS8ke2l9CiAgICBta2RpciB1bnByb2Nlc3NlZAogICAgbXYgKi5mYXN0cS5neiB1bnByb2Nlc3NlZC8KICAgIGN5b2EgLS1tZXRob2QgZmFzdHAgLS1pbnB1dCAkKC9iaW4vbHMgLWQgdW5wcm9jZXNzZWQvKi5mYXN0cS5neiB8IHRyICdcbicgJzonKQpkb25lCmNkICRzdGFydApgYGAKCiMjIFNhbG1vbiBxdWFudGlmaWNhdGlvbgoKYGBge2Jhc2gsIGV2YWw9RkFMU0V9CnN0YXJ0PSQocHdkKQpmb3IgaSBpbiAkKC9iaW4vbHMgLWQgU1IqKTsgZG8KICAgIGNkICR7c3RhcnR9LyR7aX0KICAgIGlucHV0cz0kKC9iaW4vbHMgb3V0cHV0cy8xMmZhc3RwLyotZmFzdHAuZmFzdHEueHogfCB0ciAnXG4nICc6JykKICAgIGN5b2EgLS1tZXRob2Qgc2FsbW9uIC0tc3BlY2llcyBoZzM4XzExMSAtLWlucHV0ICRpbnB1dHMgLS1saWJ0eXBlIENEUyAtLWpwcmVmaXggMjAKICAgIGN5b2EgLS1tZXRob2Qga3Jha2VuIC0tbGlidHlwZSBiYWN0ZXJpYSAtLWlucHV0ICRpbnB1dHMKZG9uZQpjZCAkc3RhcnQKYGBgCgojIExvYWQgYW5ub3RhdGlvbnMKCkZpcnN0IGxldCB1cyBsb2FkIHNvbWUgcmVhc29uYWJseSBjdXJyZW50IGJpb21hcnQgYW5ub3RhdGlvbnMuCgojIyBCaW9tYXJ0CgpgYGB7cn0KaHNfYW5ub3QgPC0gbG9hZF9iaW9tYXJ0X2Fubm90YXRpb25zKGFyY2hpdmUgPSBGQUxTRSkKYW5ub3QgPC0gaHNfYW5ub3RbWyJnZW5lX2Fubm90YXRpb25zIl1dCmBgYAoKIyMgVHJhbnNjcmlwdCB2cyBnZW5lIGFubm90YXRpb25zCgpNeSBjb2RlIGlzIGEgbGl0dGxlIGJpdCBwaWNreSBhYm91dCBlbnN1cmluZyB0aGF0IHRoZSB2YXJpb3VzIElEcwptYXRjaC4gIFRodXMgSSB3aWxsIGxpa2VseSBuZWVkIHRvIGRvIGEgbGl0dGxlIHdvcmsgdG8gbWFrZSBjZXJ0YWluCnRoYXQgdGhlIHZhcmlvdXMgdmVyc2lvbiBudW1iZXJzIG1hdGNoIHByb3Blcmx5LgoKYGBge3J9CnR4X2Fubm90IDwtIGhzX2Fubm90W1siYW5ub3RhdGlvbiJdXQpyb3duYW1lcyh0eF9hbm5vdCkgPC0gcGFzdGUwKHR4X2Fubm90W1siZW5zZW1ibF90cmFuc2NyaXB0X2lkIl1dLCAiLiIsCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgdHhfYW5ub3RbWyJ0cmFuc2NyaXB0X3ZlcnNpb24iXV0pCmBgYAoKIyBDb2xsZWN0IHByZXByb2Nlc3NpbmcgaW5mb3JtYXRpb24KCmBgYHtyfQptZXRhIDwtIGdhdGhlcl9wcmVwcm9jZXNzaW5nX21ldGFkYXRhKCJzYW1wbGVfc2hlZXRzL1BSSk5BNjc1MDkwLnhsc3giKQpgYGAKCiMgQ3JlYXRlIFNFCgpJIGtlZXAgbWVhbmluZyB0byBhZGQgYSBsaXR0bGUgZnVuY3Rpb24gdG8gc3RyaXAgb2ZmIHRoZSB0eF92ZXJzaW9uCnN1ZmZpeCwgZ2l2ZW4gdGhhdCB0eGltcG9ydCBub3cgaGFzIGFuIGFyZ3VtZW50IHRvIGlnbm9yZSBpdC4KCldlIHVzdWFsbHkgZG8gYWxsIG9mIG91ciBxdWFudGlmaWNhdGlvbiBhdCB0aGUgZ2VuZSBsZXZlbCwgYnV0IGl0CnNlZW1zIGxpa2UgdGhpcyBtaWdodCBiZSBhbiBvY2Nhc2lvbiB3aGVuIHRyYW5zY3JpcHQgY2hhbmdlcyBhbmQvb3IKc3BsaWNpbmcgbWlnaHQgYmUgb2YgaW50ZXJlc3QuICBUaHVzIEkgYW0gZ29pbmcgdG8gZ2VuZXJhdGUgYSBjb3VwbGUKb2Ygc3VtbWFyaXplZCBleHBlcmltZW50cywgb25lIGZvciBlYWNoLiAgRm9yIHRoZSBtb21lbnQgd2Ugd2lsbCBqdXN0CnVzZSB0aGUgZ2VuZSBsZXZlbCBhYnVuZGFuY2VzLgoKYGBge3J9CnR4X2dlbmVfbWFwIDwtIHR4X2Fubm90WywgYygiZW5zZW1ibF90cmFuc2NyaXB0X2lkIiwgImVuc2VtYmxfZ2VuZV9pZCIpXQpyb3duYW1lcyh0eF9nZW5lX21hcCkgPC0gbWFrZS5uYW1lcyhnc3ViKHggPSByb3duYW1lcyh0eF9nZW5lX21hcCksCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgcGF0dGVybiA9ICJcXC5cXGQrJCIsIHJlcGxhY2VtZW50ID0gIiIpLCB1bmlxdWUgPSBUUlVFKQoKaHNfc2VfdHggPC0gY3JlYXRlX3NlKG1ldGFbWyJuZXdfbWV0YSJdXSwgZ2VuZV9pbmZvID0gdHhfYW5ub3QsIGZpbGVfY29sdW1uID0gInNhbG1vbl9jb3VudF90YWJsZSIpCmhzX3NlX2dlbmUgPC0gY3JlYXRlX3NlKG1ldGFbWyJuZXdfbWV0YSJdXSwgZ2VuZV9pbmZvID0gYW5ub3QsIGZpbGVfY29sdW1uID0gInNhbG1vbl9jb3VudF90YWJsZSIsCiAgICAgICAgICAgICAgICAgICAgICAgIHR4X2dlbmVfbWFwID0gdHhfZ2VuZV9tYXApCmBgYAoKIyBTZXQgY29uZGl0aW9uL2JhdGNoCgpJIGhhdmUgZXh0cmFjdGVkIHR3byBwb3RlbnRpYWxseSBpbnRlcmVzdGluZyBjb2x1bW5zIGZyb20gdGhlCm1ldGFkYXRhLCBhZnRlciB0aGF0IEkgd2lsbCBuZWVkIHRvIHJlYWQgbW9yZSBjYXJlZnVsbHkgaW4gdGhlIHBhcGVyCnRvIHRyeSB0byBnZXQgYSBzZW5zZSBvZiB3aGF0IGlzIHdoYXQuLi4KCmBgYHtyfQpoc19zZSA8LSBzZXRfc2VfY29uZGl0aW9ucyhoc19zZV9nZW5lLCBmYWN0ID0gImNvbnRyb2xwIikgJT4lCiAgc2V0X3NlX2JhdGNoZXMoZmFjdCA9ICJ0eXBlIikKYGBgCgojIEEgY291cGxlIHBsb3RzCgpgYGB7cn0KcGxvdF9sZWdlbmQoaHNfc2UpCnBsb3RfbGlic2l6ZShoc19zZSkKcGxvdF9ub256ZXJvKGhzX3NlKQpwbG90X21ldGFfc2Fua2V5KGhzX3NlKQpgYGAKClByZXN1bWFibHkgd2Ugd2lsbCBuZWVkIHRvIHNlcGFyYXRlIHRoZSBleG9tZSBhbmQgcm5hc2VxIGRhdGE7IGJ1dCBmb3IKdGhlIG1vbWVudCBJIHdpbGwgbGVhdmUgdGhlbSB0b2dldGhlciB0byBzZWUgd2hhdCBJIGNhbiBzZWUuCgpgYGB7cn0KaHNfbm9ybSA8LSBub3JtYWxpemUoaHNfc2UsIHRyYW5zZm9ybSA9ICJsb2cyIiwgY29udmVydCA9ICJjcG0iLCBmaWx0ZXIgPSBUUlVFLCBub3JtID0gInF1YW50IikKcGxvdF9wY2EoaHNfbm9ybSkKYGBgCgpJIHN1cHBvc2UgaXQgc2hvdWxkIGJlIG5vIHN1cnByaXNlIHRoYXQgdGhlIHR3byBleHBlcmltZW50IHR5cGVzIGFyZQp2ZXJ5IGRpZmZlcmVudC4gIExldCB1cyB0aGVyZWZvcmUgc2tpcCBvbiB0aGUgZXhvbWUgZGF0YSBmb3Igbm93LgoKYGBge3J9CmhzX3JuYSA8LSBzdWJzZXRfc2UoaHNfc2UsIHN1YnNldCA9ICJiYXRjaD09J3JuYXNlcSciKQpoc19ybmFfbm9ybSA8LSBub3JtYWxpemUoaHNfcm5hLCB0cmFuc2Zvcm0gPSAibG9nMiIsIGNvbnZlcnQgPSAiY3BtIiwKICAgICAgICAgICAgICAgICAgICAgICAgIGZpbHRlciA9IFRSVUUsIG5vcm0gPSAicXVhbnQiKQpub3JtX3BjYSA8LSBwbG90X3BjYShoc19ybmFfbm9ybSkKcHAoZmlsZSA9ICJpbWFnZXMvbm9ybV9wY2EucGRmIikKbm9ybV9wY2EKZGV2Lm9mZigpCmBgYAoKIyBFeGNsdWRlIG9kZCBzYW1wbGUKCkluIG91ciBpbml0aWFsIFBDQSBwbG90LCBTUlIxMjk5OTc0NiBsb29rcyBwYXJ0aWN1bGFybHkgc3RyYW5nZS4KCmBgYHtyfQpoc19pZHggPC0gY29sbmFtZXMoaHNfcm5hKSAhPSAiU1JSMTI5OTk3NDYiCmtlcHRfaWRzIDwtIGNvbG5hbWVzKGhzX3JuYSlbaHNfaWR4XQpoc19leGNsdWRlZCA8LSBzdWJzZXRfc2UoaHNfcm5hLCBpZHMgPSBrZXB0X2lkcykKZXhjbHVkZWRfbm9ybSA8LSBub3JtYWxpemUoaHNfZXhjbHVkZWQsIGZpbHRlciA9IFRSVUUsIGNvbnZlcnQgPSAiY3BtIiwKICAgICAgICAgICAgICAgICAgICAgICAgICAgdHJhbnNmb3JtID0gImxvZzIiLCBub3JtID0gInF1YW50IikKcGxvdF9wY2EoZXhjbHVkZWRfbm9ybSkKZXhjbHVkZWRfbmIgPC0gbm9ybWFsaXplKGhzX2V4Y2x1ZGVkLCBmaWx0ZXIgPSBUUlVFLCBjb252ZXJ0ID0gImNwbSIsCiAgICAgICAgICAgICAgICAgICAgICAgICB0cmFuc2Zvcm0gPSAibG9nMiIsIGJhdGNoID0gInN2YXNlcSIpCnBsb3RfcGNhKGV4Y2x1ZGVkX25iKQpgYGAKCiMgRmlyc3QgdHJ5IERFCgpgYGB7cn0KaHNfZGUgPC0gYWxsX3BhaXJ3aXNlKGhzX2V4Y2x1ZGVkLCBmaWx0ZXIgPSBUUlVFLCBtb2RlbF9zdnMgPSAic3Zhc2VxIiwKICAgICAgICAgICAgICAgICAgICAgIG1vZGVsX2ZzdHJpbmcgPSAifiAwICsgY29uZGl0aW9uIiwgZm9yY2UgPSBUUlVFKQpoc19kZQpoc190YWJsZSA8LSBjb21iaW5lX2RlX3RhYmxlcyhoc19kZSwgZXhjZWwgPSAiZXhjZWwvY29udHJvbF92c19oY20ueGxzeCIpCmhzX3RhYmxlCmhzX3NpZyA8LSBleHRyYWN0X3NpZ25pZmljYW50X2dlbmVzKGhzX3RhYmxlLCBleGNlbCA9ICJleGNlbC9jb250cm9sX3ZzX2hjbS1zaWcueGxzeCIpCmhzX3NpZwpgYGAKCiMjIEEgY291cGxlIG9mIHRoZSBtZXRyaWNzIHByb2R1Y2VkCgpgYGB7cn0KaHNfdGFibGVbWyJwbG90cyJdXVtbIkhDTV92c19jb250cm9sIl1dW1siZGVzZXFfbWFfcGxvdHMiXV0KaHNfdGFibGVbWyJwbG90cyJdXVtbIkhDTV92c19jb250cm9sIl1dW1siZGVzZXFfdm9sX3Bsb3RzIl1dCmhzX3RhYmxlW1sicGxvdHMiXV1bWyJIQ01fdnNfY29udHJvbCJdXVtbImRlc2VxX2FkanBfcGxvdHMiXV0KYGBgCgojIE9udG9sb2d5IHNoZW5hbmlnYW5zCgojIyBDbHVzdGVyIFByb2ZpbGVyIHdpdGggbXkgZGVmYXVsdCBzZXR0aW5ncwoKVGhlIGRlZmF1bHQgc2V0dGluZ3MgZm9yIHRoZSB2YXJpb3VzIG9udG9sb2d5L2VucmljaG1lbnQgdG9vbHMgSSBoYXZlCmFzc3VtZSBodW1hbiBkYXRhLgoKYGBge3J9CmhzX2NwIDwtIGFsbF9jcHJvZmlsZXIoaHNfc2lnLCBoc190YWJsZSkKYGBgCgojIyBnUHJvZmlsZXIyIHdpdGggbXkgZGVmYXVsdHMKCkkgYW0ganVzdCBmb29saW5nIGFyb3VuZCBub3cuCgpgYGB7cn0KaHNfZ3AgPC0gYWxsX2dwcm9maWxlcihoc19zaWcpCmZ1bl9wbG90cyA8LSBwbG90X2VucmljaHJlc3VsdChoc19ncFtbIkhDTV92c19jb250cm9sX3VwIl1dW1siQlBfZW5yaWNoIl1dKQpmdW5fcGxvdHMkYmFyCmZ1bl9wbG90cyRjbmV0CmZ1bl9wbG90cyRkb3QKZnVuX3Bsb3RzJGdvCmZ1bl9wbG90cyRtYXAKZnVuX3Bsb3RzJHRyZWUKYGBgCgpJIGFtIGFsd2F5cyBhbWF6ZWQgYXQgaG93IG1hbnkgZ2VuZXMgYXJlIHNoYXJlZCBhY3Jvc3MgZ3JvdXBzLgoKIyBQbGF5IGFyb3VuZCB3aXRoIHRoZSBtU2lnREIKCkEgZmV3IHNwZWNpZmljIG1TaWdEQiBjYXRlZ29yaWVzOiBDOCwgQzcsIEM1LCBDMywgQzIKClRoaXMgaXMgYWN0dWFsbHkgQzIgYmVjYXVzZSBJIG5lZWQgdG8gZG93bmxvYWQgYSBuZXcgY29weSBvZiBtc2lnZGIgaW4gdGhlIG5ldyBmb3JtYXQuCgojIyBOZXcgY29weSBvZiBtc2lnZGIKCkkgZG93bmxvYWRlZCBhIGZyZXNoIGNvcHkgb2YgdGhlIGh1bWFuIG1TaWdEQiBiZWNhdXNlIG15IGNvcHkgd2FzIGluCnRoZSBvbGQgZm9ybWF0IGFuZCB0aGF0IG5vIGxvbmdlciBwYXJzZXMgd2VsbC4KCiMjIExvYWQgbXNpZ2RiCgojIyMgTG9hZCB0aGUgbWV0YSBtU2lnREIgZGF0YQoKYGBge3J9Cm1zaWdkYiA8LSAicmVmZXJlbmNlL21zaWdkYl92MjAyNC4xLkhzLmRiIgptc2lnX21ldGEgPC0gbG9hZF9tc2lnX21ldGFkYXRhKGRiID0gbXNpZ2RiKQpgYGAKCmBgYHtyfQp1cF9jcF9jOCA8LSBzaW1wbGVfY2x1c3RlcnByb2ZpbGVyKGlucHV0X3VwLCBkZV90YWJsZSA9IHRhYmxlLAogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIG1zaWdfZGIgPSBtc2lnZGIsCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgZG9fbXNpZ2RiID0gVFJVRSwgbXNpZ2RiX2NhdGVnb3J5ID0gIkM4IiwKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICBkb19tZXNoID0gVFJVRSwgZG9fZG9zZSA9IFRSVUUsIG9yZ2RiX2Zyb20gPSAiRU5TRU1CTCIpCmBgYAoKIyMgQzIKCmBgYHtyfQpjMiA8LSBsb2FkX2dtdF9zaWduYXR1cmVzKHNpZ25hdHVyZXMgPSAicmVmZXJlbmNlL21zaWdkYl92MjAyNC4xLkhzLmRiIiwgc2lnbmF0dXJlX2NhdGVnb3J5ID0gImMyIiwKICAgICAgICAgICAgICAgICAgICAgICAgICBpZF90eXBlID0gImVudHJleiIpCmMyX2VucmljaGVyIDwtIHNpbXBsZV9jcF9lbnJpY2hlcihzaWdfZ2VuZXMgPSBpbnB1dF91cCwgZGVfdGFibGUgPSB0YWJsZSwgZGIgPSBjMikKYzJfbWVyZ2VkIDwtIG1lcmdlKGFzLmRhdGEuZnJhbWUoYzJfZW5yaWNoZXIpLCBtc2lnX21ldGEsIGJ5LnggPSAiSUQiLCBieS55ID0gInN0YW5kYXJkX25hbWUiLCBhbGwueCA9IFRSVUUpCndyaXR0ZW4gPC0gd3JpdGVfeGxzeChkYXRhID0gYzJfbWVyZ2VkLCBleGNlbCA9ICJleGNlbC9jMl9yZXN1bHQueGxzeCIpCmBgYAoKIyMgQzMKCmBgYHtyfQpjMyA8LSBsb2FkX2dtdF9zaWduYXR1cmVzKHNpZ25hdHVyZXMgPSAicmVmZXJlbmNlL21zaWdkYl92MjAyNC4xLkhzLmRiIiwgc2lnbmF0dXJlX2NhdGVnb3J5ID0gImMzIiwKICAgICAgICAgICAgICAgICAgICAgICAgICBpZF90eXBlID0gImVudHJleiIpCmMzX2VucmljaGVyIDwtIHNpbXBsZV9jcF9lbnJpY2hlcihzaWdfZ2VuZXMgPSBpbnB1dF91cCwgZGVfdGFibGUgPSB0YWJsZSwgZGIgPSBjMykKYzNfbWVyZ2VkIDwtIG1lcmdlKGFzLmRhdGEuZnJhbWUoYzNfZW5yaWNoZXIpLCBtc2lnX21ldGEsIGJ5LnggPSAiSUQiLCBieS55ID0gInN0YW5kYXJkX25hbWUiLCBhbGwueCA9IFRSVUUpCndyaXR0ZW4gPC0gd3JpdGVfeGxzeChkYXRhID0gYXMuZGF0YS5mcmFtZShjM19tZXJnZWQpLCBleGNlbCA9ICJleGNlbC9jM19yZXN1bHQueGxzeCIpCmBgYAoKIyMgQzQKCmBgYHtyfQpjNCA8LSBsb2FkX2dtdF9zaWduYXR1cmVzKHNpZ25hdHVyZXMgPSAicmVmZXJlbmNlL21zaWdkYl92MjAyNC4xLkhzLmRiIiwgc2lnbmF0dXJlX2NhdGVnb3J5ID0gImM0IiwKICAgICAgICAgICAgICAgICAgICAgICAgICBpZF90eXBlID0gImVudHJleiIpCmM0X2VucmljaGVyIDwtIHNpbXBsZV9jcF9lbnJpY2hlcihzaWdfZ2VuZXMgPSBpbnB1dF91cCwgZGVfdGFibGUgPSB0YWJsZSwgZGIgPSBjNCkKYzRfbWVyZ2VkIDwtIG1lcmdlKGFzLmRhdGEuZnJhbWUoYzRfZW5yaWNoZXIpLCBtc2lnX21ldGEsIGJ5LnggPSAiSUQiLCBieS55ID0gInN0YW5kYXJkX25hbWUiLCBhbGwueCA9IFRSVUUpCndyaXR0ZW4gPC0gd3JpdGVfeGxzeChkYXRhID0gYXMuZGF0YS5mcmFtZShjNF9tZXJnZWQpLCBleGNlbCA9ICJleGNlbC9jNF9yZXN1bHQueGxzeCIpCmBgYAoKIyMgQzUKCmBgYHtyfQpjNSA8LSBsb2FkX2dtdF9zaWduYXR1cmVzKHNpZ25hdHVyZXMgPSAicmVmZXJlbmNlL21zaWdkYl92MjAyNC4xLkhzLmRiIiwgc2lnbmF0dXJlX2NhdGVnb3J5ID0gImM1IiwKICAgICAgICAgICAgICAgICAgICAgICAgICBpZF90eXBlID0gImVudHJleiIpCmM1X2VucmljaGVyIDwtIHNpbXBsZV9jcF9lbnJpY2hlcihzaWdfZ2VuZXMgPSBpbnB1dF91cCwgZGVfdGFibGUgPSB0YWJsZSwgZGIgPSBjNSkKYzVfbWVyZ2VkIDwtIG1lcmdlKGFzLmRhdGEuZnJhbWUoYzVfZW5yaWNoZXIpLCBtc2lnX21ldGEsIGJ5LnggPSAiSUQiLCBieS55ID0gInN0YW5kYXJkX25hbWUiLCBhbGwueCA9IFRSVUUpCndyaXR0ZW4gPC0gd3JpdGVfeGxzeChkYXRhID0gYXMuZGF0YS5mcmFtZShjNV9tZXJnZWQpLCBleGNlbCA9ICJleGNlbC9jNV9yZXN1bHQueGxzeCIpCmBgYAoKIyMgQzYKCkM2IHJldHVybnMgbm8gaGl0cy4KCmBgYHtyLCBldmFsPUZBTFNFfQpjNiA8LSBsb2FkX2dtdF9zaWduYXR1cmVzKHNpZ25hdHVyZXMgPSAicmVmZXJlbmNlL21zaWdkYl92MjAyNC4xLkhzLmRiIiwgc2lnbmF0dXJlX2NhdGVnb3J5ID0gImM2IiwKICAgICAgICAgICAgICAgICAgICAgICAgICBpZF90eXBlID0gImVudHJleiIpCmM2X2VucmljaGVyIDwtIHNpbXBsZV9jcF9lbnJpY2hlcihzaWdfZ2VuZXMgPSBpbnB1dF91cCwgZGVfdGFibGUgPSB0YWJsZSwgZGIgPSBjNikKd3JpdHRlbiA8LSB3cml0ZV94bHN4KGRhdGEgPSBhcy5kYXRhLmZyYW1lKGM2X2VucmljaGVyKSwgZXhjZWwgPSAiZXhjZWwvYzZfcmVzdWx0Lnhsc3giKQpgYGAKCiMjIEM3CgpgYGB7cn0KYzcgPC0gbG9hZF9nbXRfc2lnbmF0dXJlcyhzaWduYXR1cmVzID0gInJlZmVyZW5jZS9tc2lnZGJfdjIwMjQuMS5Icy5kYiIsIHNpZ25hdHVyZV9jYXRlZ29yeSA9ICJjNyIsCiAgICAgICAgICAgICAgICAgICAgICAgICAgaWRfdHlwZSA9ICJlbnRyZXoiKQpjN19lbnJpY2hlciA8LSBzaW1wbGVfY3BfZW5yaWNoZXIoc2lnX2dlbmVzID0gaW5wdXRfdXAsIGRlX3RhYmxlID0gdGFibGUsIGRiID0gYzcpCmM3X21lcmdlZCA8LSBtZXJnZShhcy5kYXRhLmZyYW1lKGM3X2VucmljaGVyKSwgbXNpZ19tZXRhLCBieS54ID0gIklEIiwgYnkueSA9ICJzdGFuZGFyZF9uYW1lIiwgYWxsLnggPSBUUlVFKQp3cml0dGVuIDwtIHdyaXRlX3hsc3goZGF0YSA9IGFzLmRhdGEuZnJhbWUoYzdfbWVyZ2VkKSwgZXhjZWwgPSAiZXhjZWwvYzdfcmVzdWx0Lnhsc3giKQpgYGAKCiMjIEM4CgpgYGB7cn0KYzggPC0gbG9hZF9nbXRfc2lnbmF0dXJlcyhzaWduYXR1cmVzID0gInJlZmVyZW5jZS9tc2lnZGJfdjIwMjQuMS5Icy5kYiIsIHNpZ25hdHVyZV9jYXRlZ29yeSA9ICJjOCIsCiAgICAgICAgICAgICAgICAgICAgICAgICAgaWRfdHlwZSA9ICJlbnRyZXoiKQpjOF9lbnJpY2hlciA8LSBzaW1wbGVfY3BfZW5yaWNoZXIoc2lnX2dlbmVzID0gaW5wdXRfdXAsIGRlX3RhYmxlID0gdGFibGUsIGRiID0gYzgpCmM4X21lcmdlZCA8LSBtZXJnZShhcy5kYXRhLmZyYW1lKGM4X2VucmljaGVyKSwgbXNpZ19tZXRhLCBieS54ID0gIklEIiwgYnkueSA9ICJzdGFuZGFyZF9uYW1lIiwgYWxsLnggPSBUUlVFKQp3cml0dGVuIDwtIHdyaXRlX3hsc3goZGF0YSA9IGFzLmRhdGEuZnJhbWUoYzhfbWVyZ2VkKSwgZXhjZWwgPSAiZXhjZWwvYzhfcmVzdWx0Lnhsc3giKQpgYGAKCmBgYHtyfQppbnB1dF91cCA8LSBhcy5kYXRhLmZyYW1lKGhzX3NpZ1tbImRlc2VxIl1dW1sidXBzIl1dW1sxXV0pCmlucHV0X2Rvd24gPC0gYXMuZGF0YS5mcmFtZShoc19zaWdbWyJkZXNlcSJdXVtbImRvd25zIl1dW1sxXV0pCnRhYmxlIDwtIGhzX3RhYmxlW1siZGF0YSJdXVtbMV1dCgp1cF9ncCA8LSBzaW1wbGVfZ3Byb2ZpbGVyKGlucHV0X3VwKQoKdXBfY3BfYzggPC0gc2ltcGxlX2NsdXN0ZXJwcm9maWxlcihpbnB1dF91cCwgZGVfdGFibGUgPSB0YWJsZSwKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICBkb19tc2lnZGIgPSBUUlVFLCBtc2lnZGJfY2F0ZWdvcnkgPSAiQzgiLAogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIGRvX21lc2ggPSBUUlVFLCBkb19kb3NlID0gVFJVRSwgb3JnZGJfZnJvbSA9ICJFTlNFTUJMIikKd3JpdGVfeGxzeChkYXRhID0gYXMuZGF0YS5mcmFtZSh1cF9jcF9jOFtbIm1zaWdkYl9kYXRhIl1dKSwgZXhjZWwgPSAiZXhjZWwvYzJfaW5jcmVhc2VkLnhsc3giKQpgYGAK

Preprocessing some human samples.

atb abelew@gmail.com

2025-05-21