1 TODO

1.1 202603

Remove the problematic replicate and compare ko/wt: we can likely ignore AB
Check for plasmid reads (sequence incoming), perhaps modify genome to put CAS9 in its appropriate location.
Check for C-terminal SAPA sequence reads, expected that they will not be found in the ko samples.

1.2 202512

Define a set of consistent colors. I think have darker shades for the human, but the same colors for both.
Define a dataset which includes our previous CL-Brener/CL-14 data.
We should receive some metadata including infection numbers (particularly for experiment #3), make use of this.
Define a consistent naming scheme. (condition_batch perhaps)
Define some expected numbers of expressed genes for different human/mammalian cell types. This experiment is HeLa, but I think it would be a nice bit of context to explicitly see how it compares to other organisms/cell types.
Add an outlier gene labeler for boxplots and/or print a table of outliers in plot_boxplot().
Figure out some good metrics to see if the number of not-observed genes is relevant to the other results. (plot_prepost is one possibility)
Plot coefficient of variance vs. batch/condition/etc.
Run variance partition
Note: 16 specific genes were knocked out via the addition of PTCs, make use of our freebayes/etc tools to find/quantify them.
Once we have the combined experiment, check batch #3 for how it looks with respect to other timepoints.
Make sure the Cas samples are gone after early plot(s).
Perform DE with BiM/sva/combat, compare the results.
Check/clean multigene families.
Consider with/out batch #3
On the way to that, perform comparisons of batch 3 vs. batch 1/2; perhaps the results will tell us about the batch.
Use kraken to see if there are reads which explain the difference between batch 3 and 1/2. E.g. is there any contamination? We can mostly assume there is not because of the change in human reads.
To that end, provide an explicit ratio of reads/readsmapped/etc for hs/tc or tc/hs

2 Introduction

Let us check out some new cruzi infections following the deletion of a specific gene.

I thought I also did the interrogation of the CLBrener transcriptome, but that appears untrue. I think I may have forgotten to copy the genome in place…

3 Notes about the introduction of CAS9

a pROCK plasmid containing CAS9 followed by GFP and GAPDH waws linearized in order to integrate the CAS9 into a specific location in the cruzi genome. Tc tubulin is flanking a NotI RE site, so I would assume the integration is at one of the tubulin loci. This plasmid has both M13 fwd and M13 rev; M13 rev is pointing toward the GAPDH and m13 forward is pointing to the bacterial origin of replication and AmpR. (This is a streptococcus CAS9)

4 Trans-sialidase genes which were modified

We received an email flagging the following genes as CRISPR/Cas9 targets for the knockouts. I therefore would like to have screenshots of each of these regions to show what differences are observable between the three strains. Note that the lower coverage of the last few samples may mean that we need to stick to the first group.

TcCLB.508173.120 Has putative GPI signal (TcChr27-P:822,539..823,681(+))
TcCLB.509495.30 Has putative GPI and SAPA repeat (TcChr32-P:789,835..790,509(-))
TcCLB.510055.20 GPI (TcChr17-S:526,427..527,035(+))
TcCLB.506961.25 GPI ‘repeats but might not be sapa’ (TcChr18-S:3,813..6,947(-))
TcCLB.510787.10 GPI ‘sapa repeats’ (TcChr33-P:265,769..269,383(+))
TcCLB.511667.30 gpi (TcChr30-P:805,953..806,291(+))
TcCLB.507085.30 gpi, highlighted green tyrosine, ‘sapa repeats’ (TcChr33-P:334,656..337,334(+))
TcCLB.507427.10 gpi (Tcruzi_7332:137..2,623(+))
TcCLB.508913.25 gpi (TcChr17-P:528,683..529,294(-))
TcCLB.508857.30 gpi (TcChr11-P:120,891..123,047(-))
TcCLB.503993.10 gpi (TcChr30-P:68,612..70,687(-))
TcCLB.511323.10 gpi ‘sapa repeats’ (TcChr17-P:560,036..562,504(+))
TcCLB.508089.10 gpi (TcChr11-S:239,192..241,345(+))
TcCLB.508717.60 gpi (TcChr37-S:483,214..485,571(+))
TcCLB.506975.80 gpi (TcChr16-P:552,945..555,065(+))
TcCLB.505931.30 gpi (TcChr30-S:68,468..70,552(-))
TcCLB.507979.30 gpi (TcChr17-S:559,901..562,405(+))
TcCLB.509817.50 gpi (TcChr16-S:553,397..555,544(+))
TcCLB.506841.20 gpi (TcChr37-P:483,214..485,571(+))

expected_lower <- c("TcCLB.508173.120", "TcCLB.509495.30", "TcCLB.510055.20", "TcCLB.506961.25",
                    "TcCLB.510787.10", "TcCLB.511667.30", "TcCLB.507085.30",
                    "TcCLB.507427.10", "TcCLB.508913.25", "TcCLB.508857.30",
                    "TcCLB.503993.10", "TcCLB.511323.10", "TcCLB.508089.10",
                    "TcCLB.508717.60", "TcCLB.506975.80", "TcCLB.505931.30",
                    "TcCLB.507979.30", "TcCLB.509817.50", "TcCLB.506841.20")

4.1 Observations in IGV

Note: I am remapping these samples with slightly different parameters which may make this more sensitive for multi gene families, but I do not think it will change anything.

TcCLB.508173.120: No differences observed in samples 06(ko), 36(wt), 23(ab)
TcCLB.509495.30: NDO (no difference observed)
TcCLB.510055.20: Found ko-specific mutations at the very 3’ end of the gene, seems unlikely to induce a change in function nor NMD
TcCLB.506961.25: Insignificant coverage in the wt. Good coverage in ko/ab; 65% G->A in ko to make synoymous codon
TcCLB.510787.10: Inconsistent coverage in all samples, NDO.
TcCLB.511667.30: Low coverage in all samples: NDO
TcCLB.507427.10: Low coverage in wt, T->C 5’ of ko
TcCLB.508913.25: Low coverage in all, NDO
TcCLB.508857.30: Low coverage in wt, NDO
TcCLB.503993.10: NDO
TcCLB.511323.10: NDO, took screenshot
TcCLB.508089.10: NDO
TcCLB.508717.60: NDO low coverage in wt
TcCLB.506975.80: low coverage in all samples.
TcCLB.505931.30: low coverage, NDO, next gene has tremendous coverage
TcCLB.507979.30: NDO
TcCLB.509817.50: low coverage
TcCLB.506841.20: nice coverage, NDO

I therefore opened up the freebayes output sorted by CDS and looked for nonsense mutations introduced in one ko and one AB sample.

I found 43 in the KO and 79 in the AB.

5 Human annotation information

I have a pretty new genome downloaded (202509), so I will (for now) just let my annotation function grab whatever it thinks is reasonable. It chose the 202410 set. Seems good to me.

hs_annot <- load_biomart_annotations()

## The biomart annotations file already exists, loading from it.

tc_annot <- load_gff_annotations("~/libraries/genome/gff/tcruzi_all.gff",
                                 type = "mRNA", id_col = "Parent")

## Returning a df with 24 columns and 23305 rows.

rownames(tc_annot) <- gsub(x = make.names(tc_annot[["Name"]], unique = TRUE),
                           pattern = "\\.\\d+$", replacement = "")
esmer_db <- "org.Tcruzi.CL.Brener.Esmeraldo.like.v68.eg.db"
library(esmer_db, character.only = TRUE)

## Loading required package: AnnotationDbi

## Loading required package: stats4

## Loading required package: BiocGenerics

## Loading required package: generics

## 
## Attaching package: 'generics'

## The following object is masked from 'package:dplyr':
## 
##     explain

## The following objects are masked from 'package:base':
## 
##     as.difftime, as.factor, as.ordered, intersect, is.element, setdiff,
##     setequal, union

## 
## Attaching package: 'BiocGenerics'

## The following objects are masked from 'package:hpgltools':
## 
##     annotation<-, conditions, conditions<-, IQR, mad, sd, var, xtabs

## The following object is masked from 'package:dplyr':
## 
##     combine

## The following objects are masked from 'package:stats':
## 
##     IQR, mad, sd, var, xtabs

## The following objects are masked from 'package:base':
## 
##     anyDuplicated, aperm, append, as.data.frame, basename, cbind, colnames,
##     dirname, do.call, duplicated, eval, evalq, Filter, Find, get, grep,
##     grepl, is.unsorted, lapply, Map, mapply, match, mget, order, paste,
##     pmax, pmax.int, pmin, pmin.int, Position, rank, rbind, Reduce,
##     rownames, sapply, saveRDS, table, tapply, unique, unsplit, which.max,
##     which.min

## Loading required package: Biobase

## Welcome to Bioconductor
## 
##     Vignettes contain introductory material; view with 'browseVignettes()'.
##     To cite Bioconductor, see 'citation("Biobase")', and for packages
##     'citation("pkgname")'.

## 
## Attaching package: 'Biobase'

## The following object is masked from 'package:hpgltools':
## 
##     notes

## Loading required package: IRanges

## Loading required package: S4Vectors

## 
## Attaching package: 'S4Vectors'

## The following object is masked from 'package:tidyr':
## 
##     expand

## The following objects are masked from 'package:dplyr':
## 
##     first, rename

## The following object is masked from 'package:utils':
## 
##     findMatches

## The following objects are masked from 'package:base':
## 
##     expand.grid, I, unname

## 
## Attaching package: 'IRanges'

## The following object is masked from 'package:hpgltools':
## 
##     trim

## The following object is masked from 'package:glue':
## 
##     trim

## The following objects are masked from 'package:dplyr':
## 
##     collapse, desc, slice

## 
## Attaching package: 'AnnotationDbi'

## The following object is masked from 'package:dplyr':
## 
##     select

##

esmer_db <- get0(esmer_db)
all_keytypes <- keytypes(esmer_db)
wanted_idx <- grepl(x = all_keytypes, pattern = "^ANNOT_")
wanted_fields <- all_keytypes[wanted_idx]
nonesmer_db <- "org.Tcruzi.CL.Brener.Non.Esmeraldo.like.v68.eg.db"
unas_db <- "org.Tcruzi.CL.Brener.v68.eg.db"

tc_esmer <- load_orgdb_annotations(esmer_db, keytype = "gid", fields = wanted_fields)

## Unable to find CDSNAME, setting it to ANNOT_EXTERNAL_DB_NAME.

## Unable to find CDSCHROM in the db, removing it.

## Unable to find CDSSTRAND in the db, removing it.

## Unable to find CDSSTART in the db, removing it.

## Unable to find CDSEND in the db, removing it.

## Extracted all gene ids.

## Attempting to select: ANNOT_EXTERNAL_DB_NAME, GENE_TYPE, ANNOT_AA_SEQUENCE_ID, ANNOT_ANNOTATED_GO_COMPONENT, ANNOT_ANNOTATED_GO_FUNCTION, ANNOT_ANNOTATED_GO_ID_COMPONENT, ANNOT_ANNOTATED_GO_ID_FUNCTION, ANNOT_ANNOTATED_GO_ID_PROCESS, ANNOT_ANNOTATED_GO_PROCESS, ANNOT_ANTICODON, ANNOT_APOLLO_LINK_OUT, ANNOT_APOLLO_TRANSCRIPT_DESCRIPTION, ANNOT_CDS, ANNOT_CDS_LENGTH, ANNOT_CHROMOSOME, ANNOT_CODING_END, ANNOT_CODING_START, ANNOT_EC_NUMBERS, ANNOT_EC_NUMBERS_DERIVED, ANNOT_END_MAX, ANNOT_EXON_COUNT, ANNOT_EXTERNAL_DB_NAME, ANNOT_EXTERNAL_DB_VERSION, ANNOT_FIVE_PRIME_UTR_LENGTH, ANNOT_GENE_CONTEXT_END, ANNOT_GENE_CONTEXT_START, ANNOT_GENE_END_MAX, ANNOT_GENE_END_MAX_TEXT, ANNOT_GENE_ENTREZ_ID, ANNOT_GENE_ENTREZ_LINK_DISPLAYTEXT, ANNOT_GENE_ENTREZ_LINK_URL, ANNOT_GENE_EXON_COUNT, ANNOT_GENE_HTS_NONCODING_SNPS, ANNOT_GENE_HTS_NONSYN_SYN_RATIO, ANNOT_GENE_HTS_NONSYNONYMOUS_SNPS, ANNOT_GENE_HTS_STOP_CODON_SNPS, ANNOT_GENE_HTS_SYNONYMOUS_SNPS, ANNOT_GENE_LOCATION_TEXT, ANNOT_GENE_NAME, ANNOT_GENE_ORTHOLOG_NUMBER, ANNOT_GENE_ORTHOMCL_NAME, ANNOT_GENE_PARALOG_NUMBER, ANNOT_GENE_PREVIOUS_IDS, ANNOT_GENE_PRODUCT, ANNOT_GENE_START_MIN, ANNOT_GENE_START_MIN_TEXT, ANNOT_GENE_TOTAL_HTS_SNPS, ANNOT_GENE_TRANSCRIPT_COUNT, ANNOT_GENE_TYPE, ANNOT_GENOMIC_SEQUENCE_LENGTH, ANNOT_GENUS_SPECIES, ANNOT_HAS_MISSING_TRANSCRIPTS, ANNOT_INTERPRO_DESCRIPTION, ANNOT_INTERPRO_ID, ANNOT_IS_DEPRECATED, ANNOT_IS_PSEUDO, ANNOT_ISOELECTRIC_POINT, ANNOT_LOCATION_TEXT, ANNOT_MAP_LOCATION, ANNOT_MCMC_LOCATION, ANNOT_MOLECULAR_WEIGHT, ANNOT_NCBI_TAX_ID, ANNOT_ORTHOMCL_LINK, ANNOT_OVERVIEW, ANNOT_PFAM_DESCRIPTION, ANNOT_PFAM_ID, ANNOT_PIRSF_DESCRIPTION, ANNOT_PIRSF_ID, ANNOT_PREDICTED_GO_COMPONENT, ANNOT_PREDICTED_GO_FUNCTION, ANNOT_PREDICTED_GO_ID_COMPONENT, ANNOT_PREDICTED_GO_ID_FUNCTION, ANNOT_PREDICTED_GO_ID_PROCESS, ANNOT_PREDICTED_GO_PROCESS, ANNOT_PRIMARY_KEY, ANNOT_PROB_MAP, ANNOT_PROB_MCMC, ANNOT_PROSITEPROFILES_DESCRIPTION, ANNOT_PROSITEPROFILES_ID, ANNOT_PROTEIN_LENGTH, ANNOT_PROTEIN_SEQUENCE, ANNOT_PROTEIN_SOURCE_ID, ANNOT_PSEUDO_STRING, ANNOT_SEQUENCE_DATABASE_NAME, ANNOT_SEQUENCE_ID, ANNOT_SIGNALP_PEPTIDE, ANNOT_SMART_DESCRIPTION, ANNOT_SMART_ID, ANNOT_SNPOVERVIEW, ANNOT_SO_ID, ANNOT_SO_TERM_DEFINITION, ANNOT_SO_TERM_NAME, ANNOT_SO_VERSION, ANNOT_START_MIN, ANNOT_STRAND, ANNOT_STRAND_PLUS_MINUS, ANNOT_SUPERFAMILY_DESCRIPTION, ANNOT_SUPERFAMILY_ID, ANNOT_THREE_PRIME_UTR_LENGTH, ANNOT_TIGRFAM_DESCRIPTION, ANNOT_TIGRFAM_ID, ANNOT_TM_COUNT, ANNOT_TRANS_FOUND_PER_GENE_INTERNAL, ANNOT_TRANSCRIPT_INDEX_PER_GENE, ANNOT_TRANSCRIPT_LENGTH, ANNOT_TRANSCRIPT_LINK, ANNOT_TRANSCRIPT_PRODUCT, ANNOT_TRANSCRIPT_SEQUENCE, ANNOT_TRANSCRIPTS_FOUND_PER_GENE, ANNOT_UNIPROT_IDS, ANNOT_UNIPROT_LINKS

## 'select()' returned 1:1 mapping between keys and columns

tc_nonesmer <- load_orgdb_annotations(nonesmer_db, keytype = "gid", fields = wanted_fields)

##

## Unable to find CDSNAME, setting it to ANNOT_EXTERNAL_DB_NAME.

## Unable to find CDSCHROM in the db, removing it.

## Unable to find CDSSTRAND in the db, removing it.

## Unable to find CDSSTART in the db, removing it.

## Unable to find CDSEND in the db, removing it.

## Extracted all gene ids.

## Attempting to select: ANNOT_EXTERNAL_DB_NAME, GENE_TYPE, ANNOT_AA_SEQUENCE_ID, ANNOT_ANNOTATED_GO_COMPONENT, ANNOT_ANNOTATED_GO_FUNCTION, ANNOT_ANNOTATED_GO_ID_COMPONENT, ANNOT_ANNOTATED_GO_ID_FUNCTION, ANNOT_ANNOTATED_GO_ID_PROCESS, ANNOT_ANNOTATED_GO_PROCESS, ANNOT_ANTICODON, ANNOT_APOLLO_LINK_OUT, ANNOT_APOLLO_TRANSCRIPT_DESCRIPTION, ANNOT_CDS, ANNOT_CDS_LENGTH, ANNOT_CHROMOSOME, ANNOT_CODING_END, ANNOT_CODING_START, ANNOT_EC_NUMBERS, ANNOT_EC_NUMBERS_DERIVED, ANNOT_END_MAX, ANNOT_EXON_COUNT, ANNOT_EXTERNAL_DB_NAME, ANNOT_EXTERNAL_DB_VERSION, ANNOT_FIVE_PRIME_UTR_LENGTH, ANNOT_GENE_CONTEXT_END, ANNOT_GENE_CONTEXT_START, ANNOT_GENE_END_MAX, ANNOT_GENE_END_MAX_TEXT, ANNOT_GENE_ENTREZ_ID, ANNOT_GENE_ENTREZ_LINK_DISPLAYTEXT, ANNOT_GENE_ENTREZ_LINK_URL, ANNOT_GENE_EXON_COUNT, ANNOT_GENE_HTS_NONCODING_SNPS, ANNOT_GENE_HTS_NONSYN_SYN_RATIO, ANNOT_GENE_HTS_NONSYNONYMOUS_SNPS, ANNOT_GENE_HTS_STOP_CODON_SNPS, ANNOT_GENE_HTS_SYNONYMOUS_SNPS, ANNOT_GENE_LOCATION_TEXT, ANNOT_GENE_NAME, ANNOT_GENE_ORTHOLOG_NUMBER, ANNOT_GENE_ORTHOMCL_NAME, ANNOT_GENE_PARALOG_NUMBER, ANNOT_GENE_PREVIOUS_IDS, ANNOT_GENE_PRODUCT, ANNOT_GENE_START_MIN, ANNOT_GENE_START_MIN_TEXT, ANNOT_GENE_TOTAL_HTS_SNPS, ANNOT_GENE_TRANSCRIPT_COUNT, ANNOT_GENE_TYPE, ANNOT_GENOMIC_SEQUENCE_LENGTH, ANNOT_GENUS_SPECIES, ANNOT_HAS_MISSING_TRANSCRIPTS, ANNOT_INTERPRO_DESCRIPTION, ANNOT_INTERPRO_ID, ANNOT_IS_DEPRECATED, ANNOT_IS_PSEUDO, ANNOT_ISOELECTRIC_POINT, ANNOT_LOCATION_TEXT, ANNOT_MAP_LOCATION, ANNOT_MCMC_LOCATION, ANNOT_MOLECULAR_WEIGHT, ANNOT_NCBI_TAX_ID, ANNOT_ORTHOMCL_LINK, ANNOT_OVERVIEW, ANNOT_PFAM_DESCRIPTION, ANNOT_PFAM_ID, ANNOT_PIRSF_DESCRIPTION, ANNOT_PIRSF_ID, ANNOT_PREDICTED_GO_COMPONENT, ANNOT_PREDICTED_GO_FUNCTION, ANNOT_PREDICTED_GO_ID_COMPONENT, ANNOT_PREDICTED_GO_ID_FUNCTION, ANNOT_PREDICTED_GO_ID_PROCESS, ANNOT_PREDICTED_GO_PROCESS, ANNOT_PRIMARY_KEY, ANNOT_PROB_MAP, ANNOT_PROB_MCMC, ANNOT_PROSITEPROFILES_DESCRIPTION, ANNOT_PROSITEPROFILES_ID, ANNOT_PROTEIN_LENGTH, ANNOT_PROTEIN_SEQUENCE, ANNOT_PROTEIN_SOURCE_ID, ANNOT_PSEUDO_STRING, ANNOT_SEQUENCE_DATABASE_NAME, ANNOT_SEQUENCE_ID, ANNOT_SIGNALP_PEPTIDE, ANNOT_SMART_DESCRIPTION, ANNOT_SMART_ID, ANNOT_SNPOVERVIEW, ANNOT_SO_ID, ANNOT_SO_TERM_DEFINITION, ANNOT_SO_TERM_NAME, ANNOT_SO_VERSION, ANNOT_START_MIN, ANNOT_STRAND, ANNOT_STRAND_PLUS_MINUS, ANNOT_SUPERFAMILY_DESCRIPTION, ANNOT_SUPERFAMILY_ID, ANNOT_THREE_PRIME_UTR_LENGTH, ANNOT_TIGRFAM_DESCRIPTION, ANNOT_TIGRFAM_ID, ANNOT_TM_COUNT, ANNOT_TRANS_FOUND_PER_GENE_INTERNAL, ANNOT_TRANSCRIPT_INDEX_PER_GENE, ANNOT_TRANSCRIPT_LENGTH, ANNOT_TRANSCRIPT_LINK, ANNOT_TRANSCRIPT_PRODUCT, ANNOT_TRANSCRIPT_SEQUENCE, ANNOT_TRANSCRIPTS_FOUND_PER_GENE, ANNOT_UNIPROT_IDS, ANNOT_UNIPROT_LINKS

## 'select()' returned 1:1 mapping between keys and columns

tc_unas <- load_orgdb_annotations(unas_db, keytype = "gid", fields = wanted_fields)

##

## Unable to find CDSNAME, setting it to ANNOT_EXTERNAL_DB_NAME.

## Unable to find CDSCHROM in the db, removing it.

## Unable to find CDSSTRAND in the db, removing it.

## Unable to find CDSSTART in the db, removing it.

## Unable to find CDSEND in the db, removing it.

## Extracted all gene ids.

## Attempting to select: ANNOT_EXTERNAL_DB_NAME, GENE_TYPE, ANNOT_AA_SEQUENCE_ID, ANNOT_ANNOTATED_GO_COMPONENT, ANNOT_ANNOTATED_GO_FUNCTION, ANNOT_ANNOTATED_GO_ID_COMPONENT, ANNOT_ANNOTATED_GO_ID_FUNCTION, ANNOT_ANNOTATED_GO_ID_PROCESS, ANNOT_ANNOTATED_GO_PROCESS, ANNOT_ANTICODON, ANNOT_APOLLO_LINK_OUT, ANNOT_APOLLO_TRANSCRIPT_DESCRIPTION, ANNOT_CDS, ANNOT_CDS_LENGTH, ANNOT_CHROMOSOME, ANNOT_CODING_END, ANNOT_CODING_START, ANNOT_EC_NUMBERS, ANNOT_EC_NUMBERS_DERIVED, ANNOT_END_MAX, ANNOT_EXON_COUNT, ANNOT_EXTERNAL_DB_NAME, ANNOT_EXTERNAL_DB_VERSION, ANNOT_FIVE_PRIME_UTR_LENGTH, ANNOT_GENE_CONTEXT_END, ANNOT_GENE_CONTEXT_START, ANNOT_GENE_END_MAX, ANNOT_GENE_END_MAX_TEXT, ANNOT_GENE_ENTREZ_ID, ANNOT_GENE_ENTREZ_LINK_DISPLAYTEXT, ANNOT_GENE_ENTREZ_LINK_URL, ANNOT_GENE_EXON_COUNT, ANNOT_GENE_HTS_NONCODING_SNPS, ANNOT_GENE_HTS_NONSYN_SYN_RATIO, ANNOT_GENE_HTS_NONSYNONYMOUS_SNPS, ANNOT_GENE_HTS_STOP_CODON_SNPS, ANNOT_GENE_HTS_SYNONYMOUS_SNPS, ANNOT_GENE_LOCATION_TEXT, ANNOT_GENE_NAME, ANNOT_GENE_ORTHOLOG_NUMBER, ANNOT_GENE_ORTHOMCL_NAME, ANNOT_GENE_PARALOG_NUMBER, ANNOT_GENE_PREVIOUS_IDS, ANNOT_GENE_PRODUCT, ANNOT_GENE_START_MIN, ANNOT_GENE_START_MIN_TEXT, ANNOT_GENE_TOTAL_HTS_SNPS, ANNOT_GENE_TRANSCRIPT_COUNT, ANNOT_GENE_TYPE, ANNOT_GENOMIC_SEQUENCE_LENGTH, ANNOT_GENUS_SPECIES, ANNOT_HAS_MISSING_TRANSCRIPTS, ANNOT_INTERPRO_DESCRIPTION, ANNOT_INTERPRO_ID, ANNOT_IS_DEPRECATED, ANNOT_IS_PSEUDO, ANNOT_ISOELECTRIC_POINT, ANNOT_LOCATION_TEXT, ANNOT_MAP_LOCATION, ANNOT_MCMC_LOCATION, ANNOT_MOLECULAR_WEIGHT, ANNOT_NCBI_TAX_ID, ANNOT_ORTHOMCL_LINK, ANNOT_OVERVIEW, ANNOT_PFAM_DESCRIPTION, ANNOT_PFAM_ID, ANNOT_PIRSF_DESCRIPTION, ANNOT_PIRSF_ID, ANNOT_PREDICTED_GO_COMPONENT, ANNOT_PREDICTED_GO_FUNCTION, ANNOT_PREDICTED_GO_ID_COMPONENT, ANNOT_PREDICTED_GO_ID_FUNCTION, ANNOT_PREDICTED_GO_ID_PROCESS, ANNOT_PREDICTED_GO_PROCESS, ANNOT_PRIMARY_KEY, ANNOT_PROB_MAP, ANNOT_PROB_MCMC, ANNOT_PROSITEPROFILES_DESCRIPTION, ANNOT_PROSITEPROFILES_ID, ANNOT_PROTEIN_LENGTH, ANNOT_PROTEIN_SEQUENCE, ANNOT_PROTEIN_SOURCE_ID, ANNOT_PSEUDO_STRING, ANNOT_SEQUENCE_DATABASE_NAME, ANNOT_SEQUENCE_ID, ANNOT_SIGNALP_PEPTIDE, ANNOT_SMART_DESCRIPTION, ANNOT_SMART_ID, ANNOT_SNPOVERVIEW, ANNOT_SO_ID, ANNOT_SO_TERM_DEFINITION, ANNOT_SO_TERM_NAME, ANNOT_SO_VERSION, ANNOT_START_MIN, ANNOT_STRAND, ANNOT_STRAND_PLUS_MINUS, ANNOT_SUPERFAMILY_DESCRIPTION, ANNOT_SUPERFAMILY_ID, ANNOT_THREE_PRIME_UTR_LENGTH, ANNOT_TIGRFAM_DESCRIPTION, ANNOT_TIGRFAM_ID, ANNOT_TM_COUNT, ANNOT_TRANS_FOUND_PER_GENE_INTERNAL, ANNOT_TRANSCRIPT_INDEX_PER_GENE, ANNOT_TRANSCRIPT_LENGTH, ANNOT_TRANSCRIPT_LINK, ANNOT_TRANSCRIPT_PRODUCT, ANNOT_TRANSCRIPT_SEQUENCE, ANNOT_TRANSCRIPTS_FOUND_PER_GENE, ANNOT_UNIPROT_IDS, ANNOT_UNIPROT_LINKS

## 'select()' returned 1:1 mapping between keys and columns

tc_more <- rbind(tc_esmer$genes, tc_nonesmer$genes, tc_unas$genes)
tc_annot <- merge(tc_annot, tc_more, by = "row.names")
rownames(tc_annot) <- tc_annot[["gid"]]
tc_annot[["gid"]] <- NULL
dim(tc_annot)

## [1] 23304   135

5.1 Load cruzi GO data similarly

tc_esmer_go <- load_orgdb_go(esmer_db, keytype = "GID")

## This is an orgdb, good.

## 'select()' returned 1:many mapping between keys and columns
## 'select()' returned 1:many mapping between keys and columns

tc_nonesmer_go <- load_orgdb_go(nonesmer_db, keytype = "GID")

## This is an orgdb, good.
## 'select()' returned 1:many mapping between keys and columns
## 'select()' returned 1:many mapping between keys and columns

tc_unas_go <- load_orgdb_go(unas_db, keytype = "GID")

## This is an orgdb, good.
## 'select()' returned 1:many mapping between keys and columns
## 'select()' returned 1:many mapping between keys and columns

tc_go <- rbind(tc_esmer_go, tc_nonesmer_go, tc_unas_go)
tc_go <- tc_go[, c("GO", "GID")]
colnames(tc_go) <- c("GO", "ID")

tc_length <- tc_annot[, c("Parent", "annot_transcript_length")]
colnames(tc_length) <- c("ID", "length")

6 Sample sheet

I asked for one from Najib/Amalie but unless I am mistaken it has not arrived. That is not a problem, given two helpful things: April provides one, I also named the directories so that the sample IDs are built in; so I will just make a fake one for now and then merge in whatever I get from them…

sample_sheet <- "sample_sheets/all_samples.xlsx"

meta_sankey <- plot_meta_sankey(as.data.frame(extract_metadata(sample_sheet)),
                                factors = c("background", "exp_number"))

## Did not find the condition column in the sample sheet.

## Filling it in as undefined.

## Did not find the batch column in the sample sheet.

## Filling it in as undefined.

## Checking the state of the condition column.

## Checking the state of the batch column.

## Checking the condition factor.

## Warning: attributes are not identical across measure variables; they will be dropped

## Warning: The `size` argument of `element_rect()` is deprecated as of ggplot2 3.4.0.
## ℹ Please use the `linewidth` argument instead.
## ℹ The deprecated feature was likely used in the ggsankey package.
##   Please report the issue at <https://github.com/davidsjoberg/ggsankey/issues>.
## This warning is displayed once per session.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was generated.

pp(file = "images/meta_sankey.png", image = meta_sankey[["plot"]])

meta_sankey[["plot"]]

7 Adding some metadata

Let us see how well my preprocess gatherer does…

new_meta <- gather_preprocessing_metadata(sample_sheet, species = c("hg38_115", "tcruzi_all"))

## Did not find the condition column in the sample sheet.

## Filling it in as undefined.

## Did not find the batch column in the sample sheet.

## Filling it in as undefined.

## Checking the state of the condition column.

## Checking the state of the batch column.

## Checking the condition factor.

## Warning in dispatch_regex_search(meta, search, replace, input_file_spec, : NAs
## introduced by coercion
## Warning in dispatch_regex_search(meta, search, replace, input_file_spec, : NAs
## introduced by coercion

## Writing new metadata to: sample_sheets/all_samples_modified.xlsx

## Deleting the file sample_sheets/all_samples_modified.xlsx before writing the tables.

head(new_meta[["new_meta"]])

##                                 sampleid samplenumber celltype background  hpi
## X02_HeLa_control_60h 02_HeLa_control_60h            2     HeLa    control t60h
## X04_HeLa_WT_60hpi       04_HeLa_WT_60hpi            4     HeLa         wt t60h
## X06_HeLa_KO7_60hpi     06_HeLa_KO7_60hpi            6     HeLa        ko7 t60h
## X08_HeLa_Cas_60hpi     08_HeLa_Cas_60hpi            8     HeLa        cas t60h
## X18_HeLa_control_60h 18_HeLa_control_60h           18     HeLa    control t60h
## X20_HeLa_WT_60hpi       20_HeLa_WT_60hpi           20     HeLa         wt t60h
##                      exp_number round amount_in_10ul amount_fact
## X02_HeLa_control_60h         e1    r1            183         low
## X04_HeLa_WT_60hpi            e1    r1            304         mid
## X06_HeLa_KO7_60hpi           e1    r1            298         mid
## X08_HeLa_Cas_60hpi           e1    r1            284         mid
## X18_HeLa_control_60h         e2    r2             62         low
## X20_HeLa_WT_60hpi            e2    r2            228         mid
##                                                                                                                                 freebayes_table
## X02_HeLa_control_60h preprocessing/02_HeLa_control_60h/outputs/20251031freebayes_tcruzi_all/all_tags_q-10_c-2_m0.5_M-1.0_ctag-DP_mtag-AB.txt.xz
## X04_HeLa_WT_60hpi       preprocessing/04_HeLa_WT_60hpi/outputs/20251031freebayes_tcruzi_all/all_tags_q-10_c-2_m0.5_M-1.0_ctag-DP_mtag-AB.txt.xz
## X06_HeLa_KO7_60hpi     preprocessing/06_HeLa_KO7_60hpi/outputs/20251031freebayes_tcruzi_all/all_tags_q-10_c-2_m0.5_M-1.0_ctag-DP_mtag-AB.txt.xz
## X08_HeLa_Cas_60hpi     preprocessing/08_HeLa_Cas_60hpi/outputs/20251031freebayes_tcruzi_all/all_tags_q-10_c-2_m0.5_M-1.0_ctag-DP_mtag-AB.txt.xz
## X18_HeLa_control_60h preprocessing/18_HeLa_control_60h/outputs/20251031freebayes_tcruzi_all/all_tags_q-10_c-2_m0.5_M-1.0_ctag-DP_mtag-AB.txt.xz
## X20_HeLa_WT_60hpi       preprocessing/20_HeLa_WT_60hpi/outputs/20251031freebayes_tcruzi_all/all_tags_q-10_c-2_m0.5_M-1.0_ctag-DP_mtag-AB.txt.xz
##                      condition     batch     sampleid_backup trimomatic_input
## X02_HeLa_control_60h undefined undefined 02_HeLa_control_60h         34421670
## X04_HeLa_WT_60hpi    undefined undefined    04_HeLa_WT_60hpi         33338315
## X06_HeLa_KO7_60hpi   undefined undefined   06_HeLa_KO7_60hpi         36904955
## X08_HeLa_Cas_60hpi   undefined undefined   08_HeLa_Cas_60hpi         34230672
## X18_HeLa_control_60h undefined undefined 18_HeLa_control_60h         31154298
## X20_HeLa_WT_60hpi    undefined undefined    20_HeLa_WT_60hpi         35726918
##                      trimomatic_output trimomatic_percent fastqc_pct_gc
## X02_HeLa_control_60h          31723102              0.922            52
## X04_HeLa_WT_60hpi             30831462              0.925            50
## X06_HeLa_KO7_60hpi            34168992              0.926            50
## X08_HeLa_Cas_60hpi            30953413              0.904            50
## X18_HeLa_control_60h          28104898              0.902            51
## X20_HeLa_WT_60hpi             32916331              0.921            50
##                      kraken_bacterial_classified kraken_bacterial_unclassified
## X02_HeLa_control_60h                      147699                        418871
## X04_HeLa_WT_60hpi                         285754                       6263711
## X06_HeLa_KO7_60hpi                        414463                       8109109
## X08_HeLa_Cas_60hpi                        309973                       7277804
## X18_HeLa_control_60h                      147359                        374703
## X20_HeLa_WT_60hpi                         323491                       8424975
##                      kraken_first_bacterial_species
## X02_HeLa_control_60h        Porphyrobacter sp. GA68
## X04_HeLa_WT_60hpi           Mycoplasmopsis arginini
## X06_HeLa_KO7_60hpi          Mycoplasmopsis arginini
## X08_HeLa_Cas_60hpi          Mycoplasmopsis arginini
## X18_HeLa_control_60h        Porphyrobacter sp. GA68
## X20_HeLa_WT_60hpi             Klebsiella pneumoniae
##                      kraken_first_bacterial_species_reads
## X02_HeLa_control_60h                                34515
## X04_HeLa_WT_60hpi                                   20649
## X06_HeLa_KO7_60hpi                                  95574
## X08_HeLa_Cas_60hpi                                  22086
## X18_HeLa_control_60h                                22324
## X20_HeLa_WT_60hpi                                    4599
##                                                                                         kraken_matrix_bacterial
## X02_HeLa_control_60h preprocessing/02_HeLa_control_60h/outputs/20251031kraken_bacteria/kraken_report_matrix.tsv
## X04_HeLa_WT_60hpi       preprocessing/04_HeLa_WT_60hpi/outputs/20251031kraken_bacteria/kraken_report_matrix.tsv
## X06_HeLa_KO7_60hpi     preprocessing/06_HeLa_KO7_60hpi/outputs/20251031kraken_bacteria/kraken_report_matrix.tsv
## X08_HeLa_Cas_60hpi     preprocessing/08_HeLa_Cas_60hpi/outputs/20251031kraken_bacteria/kraken_report_matrix.tsv
## X18_HeLa_control_60h preprocessing/18_HeLa_control_60h/outputs/20251031kraken_bacteria/kraken_report_matrix.tsv
## X20_HeLa_WT_60hpi       preprocessing/20_HeLa_WT_60hpi/outputs/20251031kraken_bacteria/kraken_report_matrix.tsv
##                      hisat_genome_input_reads_hg38_115
## X02_HeLa_control_60h                          31723102
## X04_HeLa_WT_60hpi                             30831462
## X06_HeLa_KO7_60hpi                                  NA
## X08_HeLa_Cas_60hpi                            30953413
## X18_HeLa_control_60h                          28104898
## X20_HeLa_WT_60hpi                             32916331
##                      hisat_genome_input_reads_tcruzi_all
## X02_HeLa_control_60h                            31723102
## X04_HeLa_WT_60hpi                               30831462
## X06_HeLa_KO7_60hpi                                    NA
## X08_HeLa_Cas_60hpi                              30953413
## X18_HeLa_control_60h                            28104898
## X20_HeLa_WT_60hpi                               32916331
##                      hisat_genome_single_concordant_hg38_115
## X02_HeLa_control_60h                                27374698
## X04_HeLa_WT_60hpi                                   21550886
## X06_HeLa_KO7_60hpi                                        NA
## X08_HeLa_Cas_60hpi                                  20831115
## X18_HeLa_control_60h                                24646849
## X20_HeLa_WT_60hpi                                   21560373
##                      hisat_genome_single_concordant_tcruzi_all
## X02_HeLa_control_60h                                      5363
## X04_HeLa_WT_60hpi                                      3984432
## X06_HeLa_KO7_60hpi                                          NA
## X08_HeLa_Cas_60hpi                                     4602984
## X18_HeLa_control_60h                                      9351
## X20_HeLa_WT_60hpi                                      5394425
##                      hisat_genome_multi_concordant_hg38_115
## X02_HeLa_control_60h                                3781834
## X04_HeLa_WT_60hpi                                   2731111
## X06_HeLa_KO7_60hpi                                       NA
## X08_HeLa_Cas_60hpi                                  2534521
## X18_HeLa_control_60h                                2935987
## X20_HeLa_WT_60hpi                                   2607492
##                      hisat_genome_multi_concordant_tcruzi_all
## X02_HeLa_control_60h                                     3176
## X04_HeLa_WT_60hpi                                     1739149
## X06_HeLa_KO7_60hpi                                         NA
## X08_HeLa_Cas_60hpi                                    2063574
## X18_HeLa_control_60h                                     6690
## X20_HeLa_WT_60hpi                                     2363417
##                      hisat_genome_single_all_hg38_115
## X02_HeLa_control_60h                           393579
## X04_HeLa_WT_60hpi                              386791
## X06_HeLa_KO7_60hpi                                 NA
## X08_HeLa_Cas_60hpi                             370232
## X18_HeLa_control_60h                           371885
## X20_HeLa_WT_60hpi                              394781
##                      hisat_genome_single_all_tcruzi_all
## X02_HeLa_control_60h                              66941
## X04_HeLa_WT_60hpi                                223361
## X06_HeLa_KO7_60hpi                                   NA
## X08_HeLa_Cas_60hpi                               232208
## X18_HeLa_control_60h                              77290
## X20_HeLa_WT_60hpi                                288620
##                      hisat_genome_multi_all_hg38_115
## X02_HeLa_control_60h                          147888
## X04_HeLa_WT_60hpi                             125185
## X06_HeLa_KO7_60hpi                                NA
## X08_HeLa_Cas_60hpi                            118754
## X18_HeLa_control_60h                          118560
## X20_HeLa_WT_60hpi                             124747
##                      hisat_genome_multi_all_tcruzi_all hisat_unmapped_hg38_115
## X02_HeLa_control_60h                             41174                  485321
## X04_HeLa_WT_60hpi                               110555                12501300
## X06_HeLa_KO7_60hpi                                  NA                      NA
## X08_HeLa_Cas_60hpi                              116543                14599664
## X18_HeLa_control_60h                             38204                  474391
## X20_HeLa_WT_60hpi                               132039                16893802
##                      hisat_unmapped_tcruzi_all hisat_genome_percent_log_hg38_115
## X02_HeLa_control_60h                  63320953                             99.24
## X04_HeLa_WT_60hpi                     49859944                             79.73
## X06_HeLa_KO7_60hpi                          NA                                NA
## X08_HeLa_Cas_60hpi                    48200809                             76.42
## X18_HeLa_control_60h                  56062102                             99.16
## X20_HeLa_WT_60hpi                     49864471                             74.34
##                      hisat_genome_percent_log_tcruzi_all
## X02_HeLa_control_60h                                0.20
## X04_HeLa_WT_60hpi                                  19.14
## X06_HeLa_KO7_60hpi                                    NA
## X08_HeLa_Cas_60hpi                                 22.14
## X18_HeLa_control_60h                                0.26
## X20_HeLa_WT_60hpi                                  24.26
##                                                                                  hisat_alignment_hg38_115
## X02_HeLa_control_60h preprocessing/02_HeLa_control_60h/outputs/20251031hisat_hg38_115/hg38_115_genome.bam
## X04_HeLa_WT_60hpi       preprocessing/04_HeLa_WT_60hpi/outputs/20251031hisat_hg38_115/hg38_115_genome.bam
## X06_HeLa_KO7_60hpi     preprocessing/06_HeLa_KO7_60hpi/outputs/20251031hisat_hg38_115/hg38_115_genome.bam
## X08_HeLa_Cas_60hpi     preprocessing/08_HeLa_Cas_60hpi/outputs/20251031hisat_hg38_115/hg38_115_genome.bam
## X18_HeLa_control_60h preprocessing/18_HeLa_control_60h/outputs/20251031hisat_hg38_115/hg38_115_genome.bam
## X20_HeLa_WT_60hpi       preprocessing/20_HeLa_WT_60hpi/outputs/20251031hisat_hg38_115/hg38_115_genome.bam
##                                                                                    hisat_alignment_tcruzi_all
## X02_HeLa_control_60h preprocessing/02_HeLa_control_60h/outputs/20251031hisat_tcruzi_all/tcruzi_all_genome.bam
## X04_HeLa_WT_60hpi       preprocessing/04_HeLa_WT_60hpi/outputs/20251031hisat_tcruzi_all/tcruzi_all_genome.bam
## X06_HeLa_KO7_60hpi     preprocessing/06_HeLa_KO7_60hpi/outputs/20251031hisat_tcruzi_all/tcruzi_all_genome.bam
## X08_HeLa_Cas_60hpi     preprocessing/08_HeLa_Cas_60hpi/outputs/20251031hisat_tcruzi_all/tcruzi_all_genome.bam
## X18_HeLa_control_60h preprocessing/18_HeLa_control_60h/outputs/20251031hisat_tcruzi_all/tcruzi_all_genome.bam
## X20_HeLa_WT_60hpi       preprocessing/20_HeLa_WT_60hpi/outputs/20251031hisat_tcruzi_all/tcruzi_all_genome.bam
##                      salmon_percent_hg38_115 salmon_percent_tcruzi_all
## X02_HeLa_control_60h                   45.40                  0.008861
## X04_HeLa_WT_60hpi                      35.05                  9.584910
## X06_HeLa_KO7_60hpi                     33.15                 11.219200
## X08_HeLa_Cas_60hpi                     33.47                 10.873800
## X18_HeLa_control_60h                   43.10                  0.009966
## X20_HeLa_WT_60hpi                      34.33                 12.117900
##                      salmon_observed_genes_hg38_115 salmon_observed_genes_tcruzi_all
## X02_HeLa_control_60h                          47839                              121
## X04_HeLa_WT_60hpi                             46509                            19145
## X06_HeLa_KO7_60hpi                            48117                            19177
## X08_HeLa_Cas_60hpi                            46351                            19153
## X18_HeLa_control_60h                          47978                              654
## X20_HeLa_WT_60hpi                             47985                            19270
##                                                                  input_r1
## X02_HeLa_control_60h unprocessed/02_HeLa_control_60h_2_S1_R1_001.fastq.gz
## X04_HeLa_WT_60hpi       unprocessed/04_HeLa_WT_60hpi_2_S2_R1_001.fastq.gz
## X06_HeLa_KO7_60hpi     unprocessed/06_HeLa_KO7_60hpi_2_S3_R1_001.fastq.gz
## X08_HeLa_Cas_60hpi     unprocessed/08_HeLa_Cas_60hpi_2_S4_R1_001.fastq.gz
## X18_HeLa_control_60h unprocessed/18_HeLa_control_60h_2_S5_R1_001.fastq.gz
## X20_HeLa_WT_60hpi       unprocessed/20_HeLa_WT_60hpi_2_S6_R1_001.fastq.gz
##                                                                  input_r2
## X02_HeLa_control_60h unprocessed/02_HeLa_control_60h_2_S1_R2_001.fastq.gz
## X04_HeLa_WT_60hpi       unprocessed/04_HeLa_WT_60hpi_2_S2_R2_001.fastq.gz
## X06_HeLa_KO7_60hpi     unprocessed/06_HeLa_KO7_60hpi_2_S3_R2_001.fastq.gz
## X08_HeLa_Cas_60hpi     unprocessed/08_HeLa_Cas_60hpi_2_S4_R2_001.fastq.gz
## X18_HeLa_control_60h unprocessed/18_HeLa_control_60h_2_S5_R2_001.fastq.gz
## X20_HeLa_WT_60hpi       unprocessed/20_HeLa_WT_60hpi_2_S6_R2_001.fastq.gz
##                                                                                                             hisat_count_table_hg38_115
## X02_HeLa_control_60h preprocessing/02_HeLa_control_60h/outputs/20251031hisat_hg38_115/hg38_115_genome-paired_s2_gene_ID_fcounts.csv.xz
## X04_HeLa_WT_60hpi       preprocessing/04_HeLa_WT_60hpi/outputs/20251031hisat_hg38_115/hg38_115_genome-paired_s2_gene_ID_fcounts.csv.xz
## X06_HeLa_KO7_60hpi     preprocessing/06_HeLa_KO7_60hpi/outputs/20251031hisat_hg38_115/hg38_115_genome-paired_s2_gene_ID_fcounts.csv.xz
## X08_HeLa_Cas_60hpi     preprocessing/08_HeLa_Cas_60hpi/outputs/20251031hisat_hg38_115/hg38_115_genome-paired_s2_gene_ID_fcounts.csv.xz
## X18_HeLa_control_60h preprocessing/18_HeLa_control_60h/outputs/20251031hisat_hg38_115/hg38_115_genome-paired_s2_gene_ID_fcounts.csv.xz
## X20_HeLa_WT_60hpi       preprocessing/20_HeLa_WT_60hpi/outputs/20251031hisat_hg38_115/hg38_115_genome-paired_s2_gene_ID_fcounts.csv.xz
##                                                                                                               hisat_count_table_tcruzi_all
## X02_HeLa_control_60h preprocessing/02_HeLa_control_60h/outputs/20251031hisat_tcruzi_all/tcruzi_all_genome-paired_s2_gene_ID_fcounts.csv.xz
## X04_HeLa_WT_60hpi       preprocessing/04_HeLa_WT_60hpi/outputs/20251031hisat_tcruzi_all/tcruzi_all_genome-paired_s2_gene_ID_fcounts.csv.xz
## X06_HeLa_KO7_60hpi     preprocessing/06_HeLa_KO7_60hpi/outputs/20251031hisat_tcruzi_all/tcruzi_all_genome-paired_s2_gene_ID_fcounts.csv.xz
## X08_HeLa_Cas_60hpi     preprocessing/08_HeLa_Cas_60hpi/outputs/20251031hisat_tcruzi_all/tcruzi_all_genome-paired_s2_gene_ID_fcounts.csv.xz
## X18_HeLa_control_60h preprocessing/18_HeLa_control_60h/outputs/20251031hisat_tcruzi_all/tcruzi_all_genome-paired_s2_gene_ID_fcounts.csv.xz
## X20_HeLa_WT_60hpi       preprocessing/20_HeLa_WT_60hpi/outputs/20251031hisat_tcruzi_all/tcruzi_all_genome-paired_s2_gene_ID_fcounts.csv.xz
##                                                                         salmon_count_table_hg38_115
## X02_HeLa_control_60h preprocessing/02_HeLa_control_60h/outputs/20251031salmon_hg38_115_CDS/quant.sf
## X04_HeLa_WT_60hpi       preprocessing/04_HeLa_WT_60hpi/outputs/20251031salmon_hg38_115_CDS/quant.sf
## X06_HeLa_KO7_60hpi     preprocessing/06_HeLa_KO7_60hpi/outputs/20251031salmon_hg38_115_CDS/quant.sf
## X08_HeLa_Cas_60hpi     preprocessing/08_HeLa_Cas_60hpi/outputs/20251031salmon_hg38_115_CDS/quant.sf
## X18_HeLa_control_60h preprocessing/18_HeLa_control_60h/outputs/20251031salmon_hg38_115_CDS/quant.sf
## X20_HeLa_WT_60hpi       preprocessing/20_HeLa_WT_60hpi/outputs/20251031salmon_hg38_115_CDS/quant.sf
##                                                                         salmon_count_table_tcruzi_all
## X02_HeLa_control_60h preprocessing/02_HeLa_control_60h/outputs/20251031salmon_tcruzi_all_CDS/quant.sf
## X04_HeLa_WT_60hpi       preprocessing/04_HeLa_WT_60hpi/outputs/20251031salmon_tcruzi_all_CDS/quant.sf
## X06_HeLa_KO7_60hpi     preprocessing/06_HeLa_KO7_60hpi/outputs/20251031salmon_tcruzi_all_CDS/quant.sf
## X08_HeLa_Cas_60hpi     preprocessing/08_HeLa_Cas_60hpi/outputs/20251031salmon_tcruzi_all_CDS/quant.sf
## X18_HeLa_control_60h preprocessing/18_HeLa_control_60h/outputs/20251031salmon_tcruzi_all_CDS/quant.sf
## X20_HeLa_WT_60hpi       preprocessing/20_HeLa_WT_60hpi/outputs/20251031salmon_tcruzi_all_CDS/quant.sf

Strangely, this did not pick up the freebayes outputs. I will add them manually to the original sheet. Possibly because I ran it twice with different parameters, my code gets confused when multiple files match the same rule.

8 Define colors

color_choices <- list(
  "hs" = list(
    "AB10" = "#086448",
    "cas" = "#702601",
    "control" = "#454178",
    "ko7" = "#870649",
    "positive" = "#46060E",
    "wt" = "#785C01"),
  "tc" = list(
    "AB10" = "#0DA877",
    "cas" = "#BA3F01",
    "control" = "#7771D1",
    "ko7" = "#BF086A",
    "positive" = "#8F0C1E",
    "wt" = "#AF8401"))

These colors are bad, the human are too dark and lose their contrast with respect to each other. I should get Najib/April/Amalie to help define better.

9 The primary data structure

hs_se <- create_se(new_meta[["new_meta"]], gene_info = hs_annot[["gene_annotations"]],
                   file_column = "hisat_count_table_hg38_115") %>%
  set_conditions(fact = "background") %>%
  set_batches(fact = "exp_number") %>%
  set_colors(color_choices[["hs"]])

## Reading the sample metadata.

## Checking the state of the condition column.

## Checking the state of the batch column.

## Checking the condition factor.

## The sample definitions comprises: 14 rows(samples) and 48 columns(metadata fields).

## Matched 21562 annotations and counts.

## Some annotations were lost in merging, setting them to 'undefined'.

## Saving the summarized experiment to 'se.rda'.

## The final summarized experiment has 21571 rows and 48 columns.

## The numbers of samples by condition are:

## 
##     AB10      cas  control      ko7 positive       wt 
##        3        1        3        3        1        3

## The number of samples by batch are:

## 
##    e1    e2    e3 undef 
##     4     4     5     1

hs_written <- write_se(hs_se, excel = "excel/hs_expression_data.xlsx")

## Deleting the file excel/hs_expression_data.xlsx before writing the tables.

## Writing the first sheet, containing a legend and some summary data.

## Warning in .local(x, row.names, optional, ...): arguments in '...' ignored

## Scale for colour is already present.
## Adding another scale for colour, which will replace the existing scale.

## Scale for fill is already present.
## Adding another scale for fill, which will replace the existing scale.

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## ℹ The deprecated feature was likely used in the hpgltools package.
##   Please report the issue to the authors.
## This warning is displayed once per session.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was generated.

## 85373 entries are 0.  We are on a log scale, adding 1 to the data.

## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## ℹ The deprecated feature was likely used in the directlabels package.
##   Please report the issue at <https://github.com/tdhock/directlabels/issues>.
## This warning is displayed once per session.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was generated.

## Naively calculating coefficient of variation/dispersion with respect to condition.
## Finished calculating dispersion estimates.
## Plot describing the gene distribution from a dataset.
## `geom_smooth()` using formula = 'y ~ x'This dataset does not support lmer with condition+batch
## Removing 9704 low-count genes (11867 remaining).
## transform_counts: Found 100 values equal to 0, adding 1 to the matrix.
## Plot describing the gene distribution from a dataset.
## `geom_smooth()` using formula = 'y ~ x'The factor AB10 has 3 rows.
## The factor cas has only 1 row.
## The factor control has 3 rows.
## The factor ko7 has 3 rows.
## The factor positive has only 1 row.
## The factor wt has 3 rows.

tc_se <- create_se(new_meta[["new_meta"]], gene_info = tc_annot,
                   file_column = "hisat_count_table_tcruzi_all") %>%
  set_conditions(fact = "background") %>%
  set_batches(fact = "exp_number") %>%
  set_colors(color_choices[["tc"]])

## Reading the sample metadata.
## Checking the state of the condition column.
## Checking the state of the batch column.
## Checking the condition factor.
## The sample definitions comprises: 14 rows(samples) and 48 columns(metadata fields).
## Matched 23304 annotations and counts.
## Some annotations were lost in merging, setting them to 'undefined'.
## Saving the summarized experiment to 'se.rda'.
## The final summarized experiment has 25100 rows and 48 columns.
## The numbers of samples by condition are:

## 
##     AB10      cas  control      ko7 positive       wt 
##        3        1        3        3        1        3

## The number of samples by batch are:

## 
##    e1    e2    e3 undef 
##     4     4     5     1

tc_written <- write_se(tc_se, excel = "excel/tc_expression_data.xlsx")

## Deleting the file excel/tc_expression_data.xlsx before writing the tables.
## Writing the first sheet, containing a legend and some summary data.

## Warning in .local(x, row.names, optional, ...): arguments in '...' ignored

## The following samples have less than 16315 genes.

## [1] "02_HL_c_60" "18_HL_c_60" "34_HL_c_60" "pos_ctrl"

## Scale for colour is already present.
## Adding another scale for colour, which will replace the existing scale.
## Scale for fill is already present.
## Adding another scale for fill, which will replace the existing scale.
## 132845 entries are 0.  We are on a log scale, adding 1 to the data.
## 
## Naively calculating coefficient of variation/dispersion with respect to condition.
## 
## Finished calculating dispersion estimates.

## Error in (function (side, at = NULL, labels = TRUE, tick = TRUE, line = NA,  : 
##   no locations are finite

## Hey, you merged the annotation data and did not reset the column names!
## Plot describing the gene distribution from a dataset.
## `geom_smooth()` using formula = 'y ~ x'This dataset does not support lmer with condition+batch
## Removing 0 low-count genes (25100 remaining).
## transform_counts: Found 132845 values equal to 0, adding 1 to the matrix.
## Plot describing the gene distribution from a dataset.
## `geom_smooth()` using formula = 'y ~ x'The factor AB10 has 3 rows.
## The factor cas has only 1 row.
## The factor control has 3 rows.
## The factor ko7 has 3 rows.
## The factor positive has only 1 row.
## The factor wt has 3 rows.

One of my concerns surrounds the fate of the various trans-sialidase genes and the ability to discern the efficaciousness of adding stop codons to them. I therefore quantified the samples with salmon which I think is more sensitive to multi gene families.

salmon_annot <- tc_annot
rownames(salmon_annot) <- paste0(rownames(salmon_annot), ":mRNA")
tc_salmon <- create_se(new_meta[["new_meta"]], gene_info = salmon_annot,
                       file_column = "salmon_count_table_tcruzi_all") %>%
  set_conditions(fact = "background") %>%
  set_batches(fact = "exp_number") %>%
  set_colors(color_choices[["tc"]])

## Reading the sample metadata.

## Checking the state of the condition column.

## Checking the state of the batch column.

## Checking the condition factor.

## The sample definitions comprises: 14 rows(samples) and 48 columns(metadata fields).

## Matched 19476 annotations and counts.

## Some annotations were lost in merging, setting them to 'undefined'.

## Saving the summarized experiment to 'se.rda'.

## The final summarized experiment has 19533 rows and 48 columns.

## The numbers of samples by condition are:

## 
##     AB10      cas  control      ko7 positive       wt 
##        3        1        3        3        1        3

## The number of samples by batch are:

## 
##    e1    e2    e3 undef 
##     4     4     5     1

10 Check metadata vs mapping statistics

hs_mapped <- plot_metadata_factors(hs_se, column = "hisat_genome_percent_log_hg38_115")
pp(file = "images/hs_hisat_mapping_percent.png", image = hs_mapped)

## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_ydensity()`).

## Warning: Groups with fewer than two datapoints have been dropped.
## ℹ Set `drop = FALSE` to consider such groups for position adjustment purposes.
## Groups with fewer than two datapoints have been dropped.
## ℹ Set `drop = FALSE` to consider such groups for position adjustment purposes.

## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_boxplot()`).

## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_point()`).

## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_ydensity()`).

## Warning: Groups with fewer than two datapoints have been dropped.
## ℹ Set `drop = FALSE` to consider such groups for position adjustment purposes.
## Groups with fewer than two datapoints have been dropped.
## ℹ Set `drop = FALSE` to consider such groups for position adjustment purposes.

## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_boxplot()`).

## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_point()`).

hs_genes <- plot_metadata_factors(hs_se, column = "salmon_observed_genes_hg38_115")
hs_genes

## Warning: Groups with fewer than two datapoints have been dropped.
## ℹ Set `drop = FALSE` to consider such groups for position adjustment purposes.

## Warning: Groups with fewer than two datapoints have been dropped.
## ℹ Set `drop = FALSE` to consider such groups for position adjustment purposes.

tc_mapped <- plot_metadata_factors(tc_se, column = "hisat_genome_percent_log_tcruzi_all")
pp(file = "images/tc_hisat_mapping_percent.png", image = tc_mapped)

## Warning: Removed 1 row containing non-finite outside the scale range (`stat_ydensity()`).
## Groups with fewer than two datapoints have been dropped.
## ℹ Set `drop = FALSE` to consider such groups for position adjustment purposes.
## Groups with fewer than two datapoints have been dropped.
## ℹ Set `drop = FALSE` to consider such groups for position adjustment purposes.

## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_boxplot()`).

## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_point()`).

## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_ydensity()`).

## Warning: Groups with fewer than two datapoints have been dropped.
## ℹ Set `drop = FALSE` to consider such groups for position adjustment purposes.
## Groups with fewer than two datapoints have been dropped.
## ℹ Set `drop = FALSE` to consider such groups for position adjustment purposes.

## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_boxplot()`).

## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_point()`).

11 A Few initial plots

I picked off another TODO in here, I changed plot_nonzero to more intelligently set the text annotation.

tc_nz <- plot_nonzero(tc_se)

## The following samples have less than 16315 genes.

## [1] "02_HL_c_60" "18_HL_c_60" "34_HL_c_60" "pos_ctrl"

## Scale for colour is already present.
## Adding another scale for colour, which will replace the existing scale.

## Scale for fill is already present.
## Adding another scale for fill, which will replace the existing scale.

pp(file = "images/tc_nonzero.png", image = tc_nz)

tc_se <- subset_se(tc_se, nonzero = 5000)

## The samples (and read coverage) removed when filtering 5000 non-zero genes are:

## 02_HeLa_control_60h 18_HeLa_control_60h 34_HeLa_control_60h            pos_ctrl 
##                1615                1957                1661                 301 
## 02_HeLa_control_60h 18_HeLa_control_60h 34_HeLa_control_60h            pos_ctrl 
##                  80                 529                  96                  18

## Samples removed: 80, 529, 96, 18

tc_filt_nz <- plot_nonzero(tc_se, y_intercept = 0.9)

## Scale for colour is already present.
## Adding another scale for colour, which will replace the existing scale.
## Scale for fill is already present.
## Adding another scale for fill, which will replace the existing scale.

pp(file = "images/tc_nonzero_filtered.png", image = tc_filt_nz)

hs_libsize <- plot_libsize(hs_se)
pp(file = "images/hs_libsize.png", image = hs_libsize)

hs_nz <- plot_nonzero(hs_se)

## Scale for colour is already present.
## Adding another scale for colour, which will replace the existing scale.
## Scale for fill is already present.
## Adding another scale for fill, which will replace the existing scale.

pp(file = "images/hs_nz.png", image = hs_nz)

plot_boxplot(hs_se)

## 85373 entries are 0.  We are on a log scale, adding 1 to the data.
## Plot describing the gene distribution from a dataset.

tc_libsize <- plot_libsize(tc_se)
pp(file = "images/tc_libsize.png", image = tc_libsize)

hs_replicated <- subset_se(hs_se, min_replicates = 3, fact = "condition")

## Removing samples with less than 3 replicates.
## Removed: 08_HeLa_Cas_60hpi, pos_ctrl.

tc_replicated <- subset_se(tc_se, min_replicates = 3, fact = "condition") %>%
  subset_se(nonzero = 10000)

## Removing samples with less than 3 replicates.
## Removed: 08_HeLa_Cas_60hpi.
## No samples have fewer than 10000 observed genes.

tcsal_replicated <- subset_se(tc_salmon, min_replicates = 3, fact = "condition") %>%
  subset_se(nonzero = 10000)

## Removing samples with less than 3 replicates.
## Removed: 08_HeLa_Cas_60hpi, pos_ctrl.
## The samples (and read coverage) removed when filtering 10000 non-zero genes are:

## 02_HeLa_control_60h 18_HeLa_control_60h 34_HeLa_control_60h 
##                2811                2801                2201 
## 02_HeLa_control_60h 18_HeLa_control_60h 34_HeLa_control_60h 
##                 120                 653                 143

## Samples removed: 120, 653, 143

11.1 Poke at the variants briefly

tc_variants <- count_snps(tc_replicated, annot_column = "freebayes_table", snp_column = "PAIRED")

## Using the snp column: PAIRED from the sample annotations.

Reminder to self: count_snps reads the freebayes table, pass that to get_snp_sets() to cross reference against the experimental design, then pass that to snps_intersections() and snps_vs_genes(). I should change that to be able to directly take the output from count_snps()

var_norm <- normalize(tc_variants, convert = "cpm", norm = "quant",
                      filter = TRUE, transform = "log2")

## Removing 0 low-count genes (51349 remaining).

## transform_counts: Found 298249 values equal to 0, adding 1 to the matrix.

tc_variant_pca <- plot_pca(var_norm)
pp(file = "images/tc_variant_pca.png", image = tc_variant_pca[["plot"]])

tc_sets <- get_snp_sets(tc_variants, factor = "condition", proportion = 0.75)

## The samples represent the following categories:

## 
## AB10  ko7   wt 
##    3    3    3

## Using a proportion of observed variants, converting the data to binary observations.

## The factor AB10 has 3 rows.

## The factor ko7 has 3 rows.

## The factor wt has 3 rows.

## Finished iterating over the chromosomes.

tc_sets

## A set of variants observed when cross referencing all variants against
## the samples associated with each metadata factor: condition.  3
## categories and 51349 variants were observed with 7
## combinations among them.  1796 chromosomes/scaffolds were observed with a
## density of variants ranging from 2.25022502250225e-05 to 0.1.

snp_intersections <- snps_intersections(tc_se, tc_sets, start_column = "start",
                                        end_column = "end", chr_column = "annot_sequence_id")
snp_intersections

## The combinations of variants, chromosomes, and genes which are unique to every factor
## and combination of factors in the data.

snps_vs_genes <- snps_vs_genes(tc_se, tc_sets, start_column = "start",
                               end_column = "end", chr_column = "seqnames")

## The snp grange data has 51349 elements.

## The first few snp chromosomes are: TcChr10_P, TcChr10_S, TcChr11_P, TcChr11_S, TcChr12_P, TcChr12_S

## The first few exp chromosomes are: TcChr1-P, TcChr1-S, TcChr10-P, TcChr10-S, TcChr11-P, TcChr11-S

## There are 543 overlapping variants and genes.

snps_vs_genes

## When the variants observed were cross referenced against annotated genes,
## 239 genes were observed with at least 1 variant.
## TcCLB.402863.9 had the most variants, with 48.

12 Variance Partition

Here are a couple of variance partition invocations. Once we have other metadata, this will be more useful. Note, this will only work once the non-replicated conditions are removed (control and cas).

hs_varpart <- simple_varpart(hs_replicated)

## The model of ~ condition + batch has 6 levels and rank 6

pp(file = "images/hs_varpart_violin.png", image = hs_varpart[["partition_plot"]])

pp(file = "images/hs_varpart_percent.png", image = hs_varpart[["percent_plot"]])

tc_varpart <- simple_varpart(tc_replicated)

## The model of ~ condition + batch has 5 levels and rank 5

## Warning in .fitExtractVarPartModel(exprObj, formula, data, REML = REML, : Model failed for 9 responses.
##   See errors with attr(., 'errors')

pp(file = "images/tc_varpart_violin.png", image = tc_varpart[["partition_plot"]])

pp(file = "images/tc_varpart_percent.png", image = tc_varpart[["percent_plot"]])

I think we probably should not be surprised at the amount of variance attributed to the batch due to the very large difference in coverage between experiment #3 and 1/2.

13 Sample clustering

13.1 Human

Perform our default PCA plot along with a combat version.

hs_norm <- normalize(hs_replicated, transform = "log2", convert = "cpm",
                     norm = "quant", filter = TRUE)

## Removing 9809 low-count genes (11762 remaining).

## Setting 1672 entries to zero.

hs_disheat <- plot_disheat(hs_norm)
pp(file = "images/hs_distance_heatmap.png", image = hs_disheat2)

## Error:
## ! object 'hs_disheat2' not found

hs_corheat <- plot_corheat(hs_norm)
pp(file = "images/hs_correlation_heatmap.png", image = hs_corheat[["plot"]])

hs_norm_pca <- plot_pca(hs_norm, plot_labels = TRUE)
pp(file = "images/hs_norm_pca.png", image = hs_norm_pca[["plot"]])

hs_nb <- normalize(hs_replicated, transform = "log2", convert = "cpm",
                   filter = TRUE, batch = "svaseq")

## Removing 9809 low-count genes (11762 remaining).

## transform_counts: Found 25 values less than 0.

## transform_counts: Found 25 values equal to 0, adding 1 to the matrix.

hs_nb_pca <- plot_pca(hs_nb)
pp(file = "images/hs_norm_sva_pca.png", image = hs_nb_pca[["plot"]])

hs_cb <- normalize(hs_replicated, transform = "log2", convert = "cpm",
                   filter = TRUE, batch = "combat")

## Removing 9809 low-count genes (11762 remaining).

## transform_counts: Found 84 values less than 0.

## transform_counts: Found 89 values equal to 0, adding 1 to the matrix.

hs_combat_pca <- plot_pca(hs_cb)
pp(file = "images/hs_norm_combat_pca.png", image = hs_combat_pca[["plot"]])

13.2 Parasite

tc_norm <- normalize(tc_se, transform = "log2", convert = "cpm",
                     norm = "quant", filter = TRUE)

## Removing 3731 low-count genes (21369 remaining).

## transform_counts: Found 48 values equal to 0, adding 1 to the matrix.

tc_disheat <- plot_disheat(tc_norm)
pp(file = "images/tc_distance_heatmap.png", image = tc_disheat)

tc_corheat <- plot_corheat(tc_norm)
pp(file = "images/tc_correlation_heatmap.png", image = tc_corheat)

A little bit of fun, extract the genes which are high-outliers in each sample and print what they are.

norm_boxplot <- plot_boxplot(tc_norm)
norm_boxplot[["plot"]]

high_genes <- unique(as.character(unlist(norm_boxplot[["high_outlier_genes"]])))
unique(rowData(tc_se)[high_genes, ][["annot_transcript_product"]])

##  [1] "alpha tubulin, putative"                                        
##  [2] "undefined"                                                      
##  [3] "Voltage-dependent calcium channel subunit, putative"            
##  [4] "zinc finger CCCH domain containing protein 11"                  
##  [5] "60S ribosomal protein L6, putative"                             
##  [6] "clathrin heavy chain, putative"                                 
##  [7] "ribosomal protein l35a, putative"                               
##  [8] "cyclophilin a, putative"                                        
##  [9] "hypothetical protein, conserved"                                
## [10] "ABC transporter, putative"                                      
## [11] "dynein heavy chain, putative"                                   
## [12] "mitochondrial RNA binding complex 1 subunit, putative"          
## [13] "hypothetical protein"                                           
## [14] "cell division cycle protein 20, putative"                       
## [15] "conserved protein"                                              
## [16] "metallo-peptidase, Clan MF, Family M17"                         
## [17] "ubiquitin-protein ligase-like, putative"                        
## [18] "60S ribosomal protein L23a, putative"                           
## [19] "RNA-binding protein 42 (RNA-binding motif protein 42), putative"
## [20] "60S ribosomal protein L10a, putative"                           
## [21] "40S ribosomal protein S6, putative"                             
## [22] "trans-sialidase, Group II, putative"                            
## [23] "enolase"                                                        
## [24] "polyadenylate-binding protein, putative"                        
## [25] "CCR4-NOT transcription complex subunit 1"

tc_norm_pca <- plot_pca(tc_norm, plot_labels = TRUE)
pp(file = "images/tc_norm_pca.png", image = tc_norm_pca)

tc_rnorm <- normalize(tc_replicated, transform = "log2", convert = "cpm",
                     norm = "quant", filter = TRUE)

## Removing 3797 low-count genes (21303 remaining).

## transform_counts: Found 44 values equal to 0, adding 1 to the matrix.

tc_rnorm_disheat <- plot_disheat(tc_rnorm)
pp(file = "images/tc_rnorm_disheat.png", image = tc_rnorm_disheat)

tc_rnorm_pca <- plot_pca(tc_rnorm)
pp(file = "images/tc_rnorm_pca.png", image = tc_rnorm_pca)

tc_rbnorm <- normalize(tc_replicated, transform = "log2", convert = "cpm",
                       filter = TRUE, batch = "svaseq")

## Removing 3797 low-count genes (21303 remaining).

## transform_counts: Found 1419 values less than 0.

## transform_counts: Found 1419 values equal to 0, adding 1 to the matrix.

tc_sva_pca <- plot_pca(tc_rbnorm)
pp(file = "images/tc_sva_pca.png", image = tc_sva_pca)

tc_cbnorm <- normalize(tc_replicated, transform = "log2", convert = "cpm",
                       filter = TRUE, batch = "combat")

## Removing 3797 low-count genes (21303 remaining).

## transform_counts: Found 1671 values less than 0.

## transform_counts: Found 1812 values equal to 0, adding 1 to the matrix.

tc_combat_pca <- plot_pca(tc_cbnorm)
pp(file = "images/tc_combat_pca.png", image = tc_combat_pca)

14 Differential Expression

I am not thinking we will see many genes of interest.

hs_keepers <- list(
  "ab_vs_control" = c("AB10", "control"),
  "ko_vs_control" = c("ko7", "control"),
  "ko_vs_wt" = c("ko7", "wt"),
  "ab_vs_wt" = c("AB10", "wt"),
  "ab_vs_ko" = c("AB10", "ko7"))
hs_de <- all_pairwise(hs_replicated, filter = TRUE, model_fstring = "~ 0 + condition",
                      model_svs = "svaseq")

##    AB10 control     ko7      wt 
##       3       3       3       3

## Removing 9809 low-count genes (11762 remaining).

## Basic step 0/3: Normalizing data.

## Basic step 0/3: Converting data.

## I think this is failing? SummarizedExperiment

## Basic step 0/3: Transforming data.

## Setting 1603 entries to zero.

## This received a matrix of SVs.

## converting counts to integer mode

## gene-wise dispersion estimates

## mean-dispersion relationship

## final dispersion estimates

## conditions
##    AB10 control     ko7      wt 
##       3       3       3       3

## conditions
##    AB10 control     ko7      wt 
##       3       3       3       3

## conditions
##    AB10 control     ko7      wt 
##       3       3       3       3

hs_de

## A pairwise differential expression with results from: basic, deseq, ebseq, edger, limma, noiseq.

## This used a surrogate/batch estimate from: svaseq.

## The primary analysis performed 6 comparisons.

hs_tables <- combine_de_tables(hs_de, keepers = hs_keepers, excel = "excel/hs_tables.xlsx")

## Deleting the file excel/hs_tables.xlsx before writing the tables.

## Looking for subscript invalid names, start of extract_keepers.

## Looking for subscript invalid names, end of extract_keepers.

hs_tables

## A set of combined differential expression results.

##                      table deseq_sigup deseq_sigdown edger_sigup edger_sigdown
## 1 control_vs_AB10-inverted          16            29          25            43
## 2           ko7_vs_control          82            20         104            28
## 3       wt_vs_ko7-inverted           0             3           0             4
## 4      wt_vs_AB10-inverted           0             1           0             1
## 5     ko7_vs_AB10-inverted           0             9           0            16
##   limma_sigup limma_sigdown
## 1           2             1
## 2           4             0
## 3           0             0
## 4           0             0
## 5           0             0

## Warning: The `size` argument of `element_line()` is deprecated as of ggplot2 3.4.0.
## ℹ Please use the `linewidth` argument instead.
## ℹ The deprecated feature was likely used in the UpSetR package.
##   Please report the issue to the authors.
## This warning is displayed once per session.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was generated.

## Plot describing unique/shared genes in a differential expression table.

hs_sig <- extract_significant_genes(hs_tables, excel = "excel/hs_sig.xlsx")

## Deleting the file excel/hs_sig.xlsx before writing the tables.

hs_sig

## A set of genes deemed significant according to limma, edger, deseq, ebseq, basic.

## The parameters defining significant were:

## LFC cutoff: 1 adj P cutoff: 0.05

##               limma_up limma_down edger_up edger_down deseq_up deseq_down ebseq_up
## ab_vs_control        2          1       25         43       16         29       12
## ko_vs_control        4          0      104         28       82         20       31
## ko_vs_wt             0          0        0          4        0          3        0
## ab_vs_wt             0          0        0          1        0          1        0
## ab_vs_ko             0          0        0         16        0          9        0
##               ebseq_down basic_up basic_down
## ab_vs_control          0        0          0
## ko_vs_control          1        0          0
## ko_vs_wt               1        0          0
## ab_vs_wt               0        0          0
## ab_vs_ko               0        0          0

While it is true there are not a tremendous number of genes, at least some of the groups are interesting.

hs_gp <- all_gprofiler(hs_sig)
hs_gp

##                    BP CC CORUM HP HPA KEGG MIRNA MF REAC TF WP
## ab_vs_control_up    0  5     0  0   0    0     1  1    1  0  0
## ab_vs_control_down  4  1     0  0   0    0     0  4    0  0  0
## ko_vs_control_up   64  2     0  0   0    2     1 15    5 21  4
## ko_vs_control_down 12  5     1  0   0    1     1  8    2  0  0

conditions(tc_replicated)

## Error:
## ! unable to find an inherited method for function 'conditions' for signature 'object = "SummarizedExperiment"'

tc_keepers <- list(
  "ab_vs_wt" = c("AB10", "wt"),
  "ko_vs_wt" = c("ko7", "wt"),
  "ab_vs_ko" = c("AB10", "ko7"))
tc_de <- all_pairwise(tc_replicated, filter = TRUE, model_fstring = "~ 0 + condition",
                      model_svs = "svaseq")

## AB10  ko7   wt 
##    3    3    3

## Removing 3797 low-count genes (21303 remaining).

## Basic step 0/3: Normalizing data.

## Basic step 0/3: Converting data.

## I think this is failing? SummarizedExperiment

## Basic step 0/3: Transforming data.

## Setting 7241 entries to zero.

## This received a matrix of SVs.

## converting counts to integer mode

## gene-wise dispersion estimates

## mean-dispersion relationship

## final dispersion estimates

## conditions
## AB10  ko7   wt 
##    3    3    3

## conditions
## AB10  ko7   wt 
##    3    3    3

## conditions
## AB10  ko7   wt 
##    3    3    3

tc_de

## A pairwise differential expression with results from: basic, deseq, ebseq, edger, limma, noiseq.

## This used a surrogate/batch estimate from: svaseq.

## The primary analysis performed 3 comparisons.

tc_tables <- combine_de_tables(tc_de, keepers = tc_keepers, excel = "excel/tc_tables.xlsx")

## Deleting the file excel/tc_tables.xlsx before writing the tables.

## Looking for subscript invalid names, start of extract_keepers.

## Looking for subscript invalid names, end of extract_keepers.

tc_tables

## A set of combined differential expression results.

##                  table deseq_sigup deseq_sigdown edger_sigup edger_sigdown
## 1  wt_vs_AB10-inverted          32           377          99           621
## 2   wt_vs_ko7-inverted          42            49         103           165
## 3 ko7_vs_AB10-inverted          11           286          38           465
##   limma_sigup limma_sigdown
## 1          74           341
## 2          70            67
## 3          20           245

## Plot describing unique/shared genes in a differential expression table.

tc_sig <- extract_significant_genes(tc_tables, excel = "excel/tc_sig.xlsx")

## Deleting the file excel/tc_sig.xlsx before writing the tables.

tc_sig

## A set of genes deemed significant according to limma, edger, deseq, ebseq, basic.

## The parameters defining significant were:

## LFC cutoff: 1 adj P cutoff: 0.05

##          limma_up limma_down edger_up edger_down deseq_up deseq_down ebseq_up
## ab_vs_wt       74        341       99        621       32        377       62
## ko_vs_wt       70         67      103        165       42         49      117
## ab_vs_ko       20        245       38        465       11        286       10
##          ebseq_down basic_up basic_down
## ab_vs_wt        247        0          0
## ko_vs_wt         47        0          0
## ab_vs_ko        194        0          0

14.1 Extract trans-sialidase and look

I ought to be able to use my semantic filter to extract anything with sialidase and/or trans-sialidase group I and look directly at the expression of these genes. My hypothesis is that if the CRISPR experiment worked as intended, these genes should all have decreased expression.

all_ts <- semantic_filter(tc_replicated, invert = TRUE, semantic = c("trans-sialidase"),
                          semantic_column = "annot_transcript_product")

## Hit 1523 genes for term trans-sialidase.

## semantic_filter(): kept, 23577 genes.

all_ts_norm <- normalize(all_ts, transform = "log2", convert = "cpm")

## transform_counts: Found 1833 values equal to 0, adding 1 to the matrix.

all_ts_norm_heat <- plot_sample_heatmap(all_ts_norm)
pp(file = "images/all_ts_norm_hisat_heatmap.png")
all_ts_norm_heat
dev.off()

## png 
##   2

all_ts_norm_heat

all_ts_sal <- semantic_filter(tcsal_replicated, invert = TRUE, semantic = c("trans-sialidase"),
                          semantic_column = "annot_transcript_product")

## Hit 730 genes for term trans-sialidase.

## semantic_filter(): kept, 18803 genes.

all_ts_sal_norm <- normalize(all_ts_sal, transform = "log2", convert = "cpm")

## transform_counts: Found 451 values equal to 0, adding 1 to the matrix.

all_ts_sal_norm_heat <- plot_sample_heatmap(all_ts_sal_norm)
pp(file = "images/all_ts_norm_salmon_heatmap.png")
all_ts_sal_norm_heat
dev.off()

## png 
##   2

all_ts_sal_norm_heat

The group-I TS genes are not obvious in this group, let us yank them out explicitly and see.

Note, the following is a little bit wrong in thinking because searching for ‘Group I’ will pick up all genes from Group I, II, III, and IV. The next stanza will extract just the IDs of interest.

g1_ts <- semantic_filter(all_ts, invert = TRUE, semantic = c("Group I"),
                         semantic_column = "annot_transcript_product")

## Hit 175 genes for term Group I.

## semantic_filter(): kept, 1348 genes.

g1_ts_sal <- semantic_filter(all_ts_sal, invert = TRUE, semantic = c("Group I"),
                             semantic_column = "annot_transcript_product")

## Hit 171 genes for term Group I.

## semantic_filter(): kept, 559 genes.

There is a pretty significant increase in a few AB samples, perhaps those are in the list of 19 specific genes? Let us find out.

expected_ts <- subset_genes(g1_ts, ids = expected_lower, method = "keep")

## subset_genes(), before removal, there were 175 genes, now there are 18.

## There are 9 samples which kept less than 90 percent counts.

##   04_HeLa_WT_60hpi  06_HeLa_KO7_60hpi   20_HeLa_WT_60hpi  22_HeLa_KO7_60hpi 
##             16.731             10.844             21.933              9.256 
## 23_HeLa_AB10_60hpi   36_HeLa_WT_60hpi  38_HeLa_KO7_60hpi 39_HeLa_AB10_60hpi 
##             11.236             10.072              7.398              6.906 
## 40_HeLa_AB10_60hpi 
##              7.433

expected_norm <- normalize(expected_ts, transform = "log2", convert = "cpm")

## transform_counts: Found 14 values equal to 0, adding 1 to the matrix.

g1_ts_hisat_norm_heat <- plot_sample_heatmap(expected_norm)
pp(file = "images/g1_ts_hisat_norm_heat.png")
g1_ts_hisat_norm_heat
dev.off()

## png 
##   2

g1_ts_hisat_norm_heat

sal_expected <- paste0(expected_lower, ":mRNA")
expected_ts_sal <- subset_genes(g1_ts_sal, ids = sal_expected, method = "keep")

## subset_genes(), before removal, there were 171 genes, now there are 18.
## There are 9 samples which kept less than 90 percent counts.

##   04_HeLa_WT_60hpi  06_HeLa_KO7_60hpi   20_HeLa_WT_60hpi  22_HeLa_KO7_60hpi 
##             16.868             10.714             22.443              9.488 
## 23_HeLa_AB10_60hpi   36_HeLa_WT_60hpi  38_HeLa_KO7_60hpi 39_HeLa_AB10_60hpi 
##             10.798             11.991              8.080              7.421 
## 40_HeLa_AB10_60hpi 
##              7.671

expected_sal_norm <- normalize(expected_ts_sal, transform = "log2", convert = "cpm")

## transform_counts: Found 2 values equal to 0, adding 1 to the matrix.

g1_ts_salmon_norm_heat <- plot_sample_heatmap(expected_sal_norm)
pp(file = "images/g1_ts_salmon_norm_heat.png")
g1_ts_salmon_norm_heat
dev.off()

## png 
##   2

g1_ts_salmon_norm_heat

15 Try some ontology searching via clusterProfiler

We cannot use gProfiler2 with the parasite because it is not a reference species; but other ontology methods are not constrained thus. In the case of clusterProfiler, there is another constraint, I do not have a single orgDB object which comprises Esmer/NonEsmer/Unassigned; as a result I must attempt the ontology search on the haplotypes separately.

ko_wt_up <- tc_sig[["deseq"]][["ups"]][["ko_vs_wt"]]
ko_wt_down <- tc_sig[["deseq"]][["downs"]][["ko_vs_wt"]]
ko_wt_all <- tc_tables[["data"]][["ko_vs_wt"]]
ab_ko_up <- tc_sig[["deseq"]][["ups"]][["ab_vs_ko"]]
ab_ko_down <- tc_sig[["deseq"]][["downs"]][["ab_vs_ko"]]
ab_ko_all <- tc_tables[["data"]][["ab_vs_ko"]]

tc_esmer_up_cp <- simple_clusterprofiler(
  ko_wt_up, de_table = ko_wt_all, orgdb = esmer_db, orgdb_to = "GID",
  organism = "tcruzi", excel = "excel/ko_wt_up_cp_esmer.xlsx")

## Error in `cp_msigdb_loaded()`:
## ! object 'signature_df' not found

tc_nonesmer_up_cp <- simple_clusterprofiler(
  ko_wt_up, de_table = ko_wt_all, orgdb = nonesmer_db, orgdb_to = "GID",
  organism = "tcruzi", excel = "excel/ko_wt_up_cp_nonesmer.xlsx")

## Error in `cp_msigdb_loaded()`:
## ! object 'signature_df' not found

tc_unas_up_cp <- simple_clusterprofiler(
  ko_wt_up, de_table = ko_wt_all, orgdb = unas_db, orgdb_to = "GID",
  organism = "tcruzi")

## Error in `cp_msigdb_loaded()`:
## ! object 'signature_df' not found

tc_esmer_up_cp

## Error:
## ! object 'tc_esmer_up_cp' not found

tc_esmer_down_cp <- simple_clusterprofiler(
  ko_wt_down, de_table = ko_wt_all, orgdb = esmer_db, orgdb_to = "GID",
  organism = "tcruzi", excel = "excel/ko_wt_down_cp_esmer.xlsx")

## Error in `cp_msigdb_loaded()`:
## ! object 'signature_df' not found

tc_nonesmer_down_cp <- simple_clusterprofiler(
  ko_wt_down, de_table = ko_wt_all, orgdb = nonesmer_db, orgdb_to = "GID",
  organism = "tcruzi", excel = "excel/ko_wt_down_cp_nonesmer.xlsx")

## Error in `cp_msigdb_loaded()`:
## ! object 'signature_df' not found

tc_unas_down_cp <- simple_clusterprofiler(
  ko_wt_down, de_table = ko_wt_all, orgdb = unas_db, orgdb_to = "GID",
  organism = "tcruzi")

## Error in `cp_msigdb_loaded()`:
## ! object 'signature_df' not found

tc_esmer_down_cp

## Error:
## ! object 'tc_esmer_down_cp' not found

length_db <- as.data.frame(rowData(tc_se))
length_db[["gid"]] <- rownames(length_db)
length_db <- length_db[, c("gid", "width")]
tc_up_gs <- simple_goseq(ko_wt_up, go_db = tc_go, length_db = length_db, min_xref = 10)

## Found 27 go_db genes and 42 length_db genes out of 42.

## Testing that go categories are defined.

## Removing undefined categories.

## Gathering synonyms.

## Gathering category definitions.

mf_enr <- tc_up_gs[["mf_enrich"]]
mf_plots <- plot_enrichresult(mf_enr)

## Warning in (function (model, data, ...) : Arguments in `...` must be used.
## ✖ Problematic argument:
## • by = "Count"
## ℹ Did you misspell an argument name?

mf_plots[["tree"]]

pp(file = "images/higher_ko_goseq_mf.png", image = mf_plots[["tree"]])

bp_enr <- tc_up_gs[["bp_enrich"]]
bp_plots <- plot_enrichresult(bp_enr)

## Warning in (function (model, data, ...) : Arguments in `...` must be used.
## ✖ Problematic argument:
## • by = "Count"
## ℹ Did you misspell an argument name?

## dimensionality reduction failed with provided drfun; falling back to stats::cmdscale.

bp_plots[["dot"]]

Now check the position of the expected lower expression genes in the context of all genes compared to wt.

message("Pull the ko_wt_all table and see where expected_lower compares.")

## Pull the ko_wt_all table and see where expected_lower compares.

16 Try without round 3

hs_duplicate <- subset_se(hs_replicated, subset = "round!='r3'")
tc_duplicate <- subset_se(tc_replicated, subset = "round!='r3'")

hs_dup_de <- all_pairwise(hs_duplicate, filter = TRUE,
                          model_fstring = "~ 0 + condition + batch", model_svs = FALSE)

##    AB10 control     ko7      wt 
##       2       2       2       2 
## e1 e2 e3 
##  3  4  1

## Removing 9950 low-count genes (11621 remaining).

## Basic step 0/3: Normalizing data.

## Basic step 0/3: Converting data.

## I think this is failing? SummarizedExperiment

## Basic step 0/3: Transforming data.

## Setting 495 entries to zero.

## converting counts to integer mode

## gene-wise dispersion estimates

## mean-dispersion relationship

## final dispersion estimates

## conditions
##    AB10 control     ko7      wt 
##       2       2       2       2

## conditions
##    AB10 control     ko7      wt 
##       2       2       2       2

## conditions
##    AB10 control     ko7      wt 
##       2       2       2       2

hs_dup_de

## A pairwise differential expression with results from: basic, deseq, ebseq, edger, limma, noiseq.

## This used a surrogate/batch estimate from: Existing surrogate matrix.

## The primary analysis performed 6 comparisons.

hs_dup_table <- combine_de_tables(hs_dup_de, excel = glue("excel/hs_dup_de_table-v{ver}.xlsx"))

## Deleting the file excel/hs_dup_de_table-v202604.xlsx before writing the tables.

## Looking for subscript invalid names, start of extract_keepers.

## Looking for subscript invalid names, end of extract_keepers.

hs_dup_sig <- extract_significant_genes(hs_dup_table, excel = glue("excel/hs_dup_de_sig-v{ver}.xlsx"))

## Deleting the file excel/hs_dup_de_sig-v202604.xlsx before writing the tables.

hs_dup_sig

## A set of genes deemed significant according to limma, edger, deseq, ebseq, basic.

## The parameters defining significant were:

## LFC cutoff: 1 adj P cutoff: 0.05

##                 limma_up limma_down edger_up edger_down deseq_up deseq_down ebseq_up
## control_vs_AB10        0          0        3         38        2         11       11
## ko7_vs_AB10            0          0        0          1        0          0       43
## wt_vs_AB10             0          0        1          2        0          0       17
## ko7_vs_control         0          0      323         83      206         44      316
## wt_vs_control          0          0      297         75      172         37      176
## wt_vs_ko7              0          0        3          1        3          0        7
##                 ebseq_down basic_up basic_down
## control_vs_AB10         53        0          0
## ko7_vs_AB10             12        0          0
## wt_vs_AB10               8        0          0
## ko7_vs_control          56        0          0
## wt_vs_control           28        0          0
## wt_vs_ko7                1        0          0

tc_dup_de <- all_pairwise(tc_duplicate, filter = TRUE,
                          model_fstring = "~ 0 + condition", model_svs = "svaseq")

## AB10  ko7   wt 
##    2    2    2

## Removing 4457 low-count genes (20643 remaining).

## Basic step 0/3: Normalizing data.

## Basic step 0/3: Converting data.

## I think this is failing? SummarizedExperiment

## Basic step 0/3: Transforming data.

## Setting 2091 entries to zero.

## This received a matrix of SVs.

## converting counts to integer mode

## gene-wise dispersion estimates

## mean-dispersion relationship

## final dispersion estimates

## conditions
## AB10  ko7   wt 
##    2    2    2

## conditions
## AB10  ko7   wt 
##    2    2    2

## conditions
## AB10  ko7   wt 
##    2    2    2

tc_dup_de

## A pairwise differential expression with results from: basic, deseq, ebseq, edger, limma, noiseq.

## This used a surrogate/batch estimate from: svaseq.

## The primary analysis performed 3 comparisons.

tc_dup_table <- combine_de_tables(tc_dup_de, excel = glue("excel/tc_dup_de_table-v{ver}.xlsx"))

## Deleting the file excel/tc_dup_de_table-v202604.xlsx before writing the tables.

## Looking for subscript invalid names, start of extract_keepers.

## Looking for subscript invalid names, end of extract_keepers.

tc_dup_table

## A set of combined differential expression results.

##         table deseq_sigup deseq_sigdown edger_sigup edger_sigdown limma_sigup
## 1 ko7_vs_AB10         125            10         239            60         118
## 2  wt_vs_AB10         123            28         358           306         129
## 3   wt_vs_ko7          22            56         238           253         119
##   limma_sigdown
## 1            20
## 2            39
## 3            89

## Plot describing unique/shared genes in a differential expression table.

tc_dup_sig <- extract_significant_genes(tc_dup_table, excel = glue("excel/tc_dup_de_sig-v{ver}.xlsx"))

## Deleting the file excel/tc_dup_de_sig-v202604.xlsx before writing the tables.

tc_dup_sig

## A set of genes deemed significant according to limma, edger, deseq, ebseq, basic.

## The parameters defining significant were:

## LFC cutoff: 1 adj P cutoff: 0.05

##             limma_up limma_down edger_up edger_down deseq_up deseq_down ebseq_up
## ko7_vs_AB10      118         20      239         60      125         10      171
## wt_vs_AB10       129         39      358        306      123         28      205
## wt_vs_ko7        119         89      238        253       22         56       63
##             ebseq_down basic_up basic_down
## ko7_vs_AB10         24        0          0
## wt_vs_AB10         465        0          0
## wt_vs_ko7          194        0          0

Invoke goseq/clusterprofiler on these genes.

tc_goseq <- all_goseq(tc_dup_sig, go_db = tc_go, length_db = tc_length)

## Found 95 go_db genes and 125 length_db genes out of 125.

## Testing that go categories are defined.

## Removing undefined categories.

## Gathering synonyms.

## Gathering category definitions.

## Found 5 go_db genes and 10 length_db genes out of 10.

## Found 98 go_db genes and 123 length_db genes out of 123.

## Testing that go categories are defined.

## Removing undefined categories.

## Gathering synonyms.

## Gathering category definitions.

## Found 18 go_db genes and 28 length_db genes out of 28.

## Found 17 go_db genes and 22 length_db genes out of 22.

## Found 41 go_db genes and 56 length_db genes out of 56.

## Testing that go categories are defined.

## Removing undefined categories.

## Gathering synonyms.

## Gathering category definitions.

Check expression of genes expected to be lower

expected_se <- subset_se(tc_se, ids = expected_lower)

17 M13 was used to mark the CRISPR PTCs

A nice detail came out today, the PTCs introduced by CRISPR included M13; I unfortunately did not think to ask which primer, but I should be able to figure that out trivially:

M13 forward -20: GTAAAACGACGGCCAGTG
M13 forward -41: GGTTTTCCCAGTCACGAC
M13 reverse -27: GGAAACAGCTATGACCATG
M13 reverse -48: AGCGGATAACAATTTCACAC

Start by checking an arbitrary ko sample, I should see a bunch of reads with at least one of the above.

cd preprocessing/06_HeLa_KO7_60hpi
xzgrep GTAAAACGACGGCCAGTG outputs/20251031trimomatic/06_HeLa_KO7_60hpi_2_S3_R1_001-trimmed.fastq.xz | wc
## M13 forward -20 vs. R1: 0 hits
xzgrep CACTGGCCGTCGTTTTAC outputs/20251031trimomatic/06_HeLa_KO7_60hpi_2_S3_R1_001-trimmed.fastq.xz | wc
## M13 forward -20 RC vs. R1: 20 hits

xzgrep GTAAAACGACGGCCAGTG outputs/20251031trimomatic/06_HeLa_KO7_60hpi_2_S3_R2_001-trimmed.fastq.xz | wc
## M13 forward -20 vs R2: 75 hits
xzgrep CACTGGCCGTCGTTTTAC outputs/20251031trimomatic/06_HeLa_KO7_60hpi_2_S3_R2_001-trimmed.fastq.xz | wc
## M13 forward -20 RC vs R2: 0 hits



xzgrep GGTTTTCCCAGTCACGAC outputs/20251031trimomatic/06_HeLa_KO7_60hpi_2_S3_R1_001-trimmed.fastq.xz | wc
## M13 forward -41 vs R1: 11 hits
xzgrep GTCGTGACTGGGAAAACC outputs/20251031trimomatic/06_HeLa_KO7_60hpi_2_S3_R1_001-trimmed.fastq.xz | wc
## M13 forward RC -41 vs R1:

xzgrep GGTTTTCCCAGTCACGAC outputs/20251031trimomatic/06_HeLa_KO7_60hpi_2_S3_R2_001-trimmed.fastq.xz | wc
## M13 forward -41 vs R2: 12
xzgrep GTCGTGACTGGGAAAACC outputs/20251031trimomatic/06_HeLa_KO7_60hpi_2_S3_R2_001-trimmed.fastq.xz | wc
## M13 forward -41 RC vs R2: 8



xzgrep GGAAACAGCTATGACCATG outputs/20251031trimomatic/06_HeLa_KO7_60hpi_2_S3_R1_001-trimmed.fastq.xz | wc
##  M13 reverse -27 vs R1: 54
xzgrep CATGGTCATAGCTGTTTCC outputs/20251031trimomatic/06_HeLa_KO7_60hpi_2_S3_R1_001-trimmed.fastq.xz | wc
## M13 reverse -27 RC vs R1: 0

xzgrep GGAAACAGCTATGACCATG outputs/20251031trimomatic/06_HeLa_KO7_60hpi_2_S3_R2_001-trimmed.fastq.xz | wc
##  M13 reverse -27 vs R1: 0
xzgrep CATGGTCATAGCTGTTTCC outputs/20251031trimomatic/06_HeLa_KO7_60hpi_2_S3_R2_001-trimmed.fastq.xz | wc
## M13 reverse -27 RC vs R1: 104



xzgrep AGCGGATAACAATTTCACAC  outputs/20251031trimomatic/06_HeLa_KO7_60hpi_2_S3_R1_001-trimmed.fastq.xz | wc
## M13 reverse -48 vs R1: 286
xzgrep GTGTGAAATTGTTATCCGCT  outputs/20251031trimomatic/06_HeLa_KO7_60hpi_2_S3_R1_001-trimmed.fastq.xz | wc
## M13 reverse -48 RC vs R1: 0

xzgrep AGCGGATAACAATTTCACAC  outputs/20251031trimomatic/06_HeLa_KO7_60hpi_2_S3_R2_001-trimmed.fastq.xz | wc
## M13 reverse -48 vs R2: 0
xzgrep GTGTGAAATTGTTATCCGCT  outputs/20251031trimomatic/06_HeLa_KO7_60hpi_2_S3_R2_001-trimmed.fastq.xz | wc
## M13 reverse -48 RC vs R2: 90 hits

Codify the above: I wrote a quick target in cyoa to seek out these sequences and extract the other read, e.g. if R1 has one of these sequences, it will pull out R2 and write it to a separate fastq file.

sequences="GTAAAACGACGGCCAGTG:GGTTTTCCCAGTCACGAC:GGAAACAGCTATGACCATG:AGCGGATAACAATTTCACAC"
samples=$(/bin/ls -d [0-9]*)
for s in ${samples}; do
    pushd $s
    input=$(/bin/ls outputs/*trimomatic/*_R1*-trimmed.fastq.xz)
    library=$(/bin/ls outputs/*trimomatic/*_R2*-trimmed.fastq.xz)
    cyoa --method getother --input $input --library $library --query $sequences
    popd
done

I ran the above and was pleased to see that only the KO and AB samples contain any M13 sequence. I then did a little arbitrary BLASTing of the other reads. Weirdly, most of the hits were to GAPDH, but the second read I pulled aligned to Tc00.1047053509065.50, which is a synonym for TcCLB.509065.50 (~ 800,000 on TcChr32-P)

I then started searching through the set of reads extracted to see if I can find where the M13 sequences live. I have a screenshot from IGV suggesting that many/most/all of them are adjacent to GAPDH on chromosome 32P.

18 Multi gene families

I decided to check and see the degree to which these genes should(not) be expected to map cleanly due to being members of a sprawling multi-gene family. I therefore extracted all genes annotated with ‘sialidase’ and from them extracted the group I members. In images/groupI_sialidase_phyML_tree.svg resides the resulting tree. They are not so similar as I feared.

Let us take a moment and look at a kmer tree of the 1524 groupx trans-sialidase genes.

ts_kmers <- CDS_kmer_dist(directory = "kmer")

## Reading kmer/sialidase.fasta

pander::pander(sessionInfo())
message(paste0("This is hpgltools commit: ", get_git_commit()))
message(paste0("Saving to ", savefile))
tmp <- sm(saveme(filename = savefile))

tmp <- loadme(filename = savefile)

LS0tCnRpdGxlOiAiRXhhbWluaW5nIHNvbWUgY3J1emkgaW5mZWN0ZWQgSGVMYSBjZWxscy4iCmF1dGhvcjogImF0YiBhYmVsZXdAZ21haWwuY29tIgojIyBiaWJsaW9ncmFwaHk6IC9ob21lL3RyZXkvRG9jdW1lbnRzL2JpYnRleC9hdGIuYmliCmRhdGU6ICJgciBTeXMuRGF0ZSgpYCIKb3V0cHV0OgogIGh0bWxfZG9jdW1lbnQ6CiAgICBjb2RlX2Rvd25sb2FkOiB0cnVlCiAgICBjb2RlX2ZvbGRpbmc6IHNob3cKICAgIGZpZ19jYXB0aW9uOiB0cnVlCiAgICBmaWdfaGVpZ2h0OiA3CiAgICBmaWdfd2lkdGg6IDcKICAgIGhpZ2hsaWdodDogemVuYnVybgogICAga2VlcF9tZDogZmFsc2UKICAgIG1vZGU6IHNlbGZjb250YWluZWQKICAgIG51bWJlcl9zZWN0aW9uczogdHJ1ZQogICAgc2VsZl9jb250YWluZWQ6IHRydWUKICAgIHRoZW1lOiByZWFkYWJsZQogICAgdG9jOiB0cnVlCiAgICB0b2NfZmxvYXQ6CiAgICAgIGNvbGxhcHNlZDogZmFsc2UKICAgICAgc21vb3RoX3Njcm9sbDogZmFsc2UKLS0tCgpgYGB7ciBvcHRpb25zLCBpbmNsdWRlID0gRkFMU0V9CmxpYnJhcnkoZHBseXIpCmxpYnJhcnkoZm9yY2F0cykKbGlicmFyeShnbHVlKQpsaWJyYXJ5KGhwZ2x0b29scykKbGlicmFyeSh0aWR5cikKCmRldnRvb2xzOjpsb2FkX2FsbCgifi9ocGdsdG9vbHMiKQprbml0cjo6b3B0c19rbml0JHNldChwcm9ncmVzcyA9IFRSVUUsIHZlcmJvc2UgPSBUUlVFLCB3aWR0aCA9IDkwLCBlY2hvID0gVFJVRSkKa25pdHI6Om9wdHNfY2h1bmskc2V0KAogIGVycm9yID0gVFJVRSwgZmlnLndpZHRoID0gOCwgZmlnLmhlaWdodCA9IDgsIGZpZy5yZXRpbmEgPSAyLAogIG91dC53aWR0aCA9ICIxMDAlIiwgZGV2ID0gInBuZyIsCiAgZGV2LmFyZ3MgPSBsaXN0KHBuZyA9IGxpc3QodHlwZSA9ICJjYWlyby1wbmciKSkpCm9sZF9vcHRpb25zIDwtIG9wdGlvbnMoZGlnaXRzID0gNCwgc3RyaW5nc0FzRmFjdG9ycyA9IEZBTFNFLCBrbml0ci5kdXBsaWNhdGUubGFiZWwgPSAiYWxsb3ciKQpnZ3Bsb3QyOjp0aGVtZV9zZXQoZ2dwbG90Mjo6dGhlbWVfYncoYmFzZV9zaXplID0gMTIpKQogdmVyIDwtIFN5cy5nZXRlbnYoIlZFUlNJT04iKQpydW5kYXRlIDwtIGZvcm1hdChTeXMuRGF0ZSgpLCBmb3JtYXQgPSAiJVklbSVkIikKCnJtZF9maWxlIDwtICJpbmRleC5SbWQiCnNhdmVmaWxlIDwtIGdzdWIocGF0dGVybiA9ICJcXC5SbWQiLCByZXBsYWNlID0gIlxcLnJkYVxcLnh6IiwgeCA9IHJtZF9maWxlKQpgYGAKCiMgVE9ETwoKIyMgMjAyNjAzCgoxLiAgUmVtb3ZlIHRoZSBwcm9ibGVtYXRpYyByZXBsaWNhdGUgYW5kIGNvbXBhcmUga28vd3Q6IHdlIGNhbiBsaWtlbHkgaWdub3JlIEFCCjIuICBDaGVjayBmb3IgcGxhc21pZCByZWFkcyAoc2VxdWVuY2UgaW5jb21pbmcpLCBwZXJoYXBzIG1vZGlmeSBnZW5vbWUKICAgIHRvIHB1dCBDQVM5IGluIGl0cyBhcHByb3ByaWF0ZSBsb2NhdGlvbi4KMy4gIENoZWNrIGZvciBDLXRlcm1pbmFsIFNBUEEgc2VxdWVuY2UgcmVhZHMsIGV4cGVjdGVkIHRoYXQgdGhleSB3aWxsCiAgICBub3QgYmUgZm91bmQgaW4gdGhlIGtvIHNhbXBsZXMuCgoKIyMgMjAyNTEyCgoxLiAgRGVmaW5lIGEgc2V0IG9mIGNvbnNpc3RlbnQgY29sb3JzLiAgSSB0aGluayBoYXZlIGRhcmtlciBzaGFkZXMgZm9yCiAgICB0aGUgaHVtYW4sIGJ1dCB0aGUgc2FtZSBjb2xvcnMgZm9yIGJvdGguCjIuICBEZWZpbmUgYSBkYXRhc2V0IHdoaWNoIGluY2x1ZGVzIG91ciBwcmV2aW91cyBDTC1CcmVuZXIvQ0wtMTQgZGF0YS4KMy4gIFdlIHNob3VsZCByZWNlaXZlIHNvbWUgbWV0YWRhdGEgaW5jbHVkaW5nIGluZmVjdGlvbiBudW1iZXJzCiAgICAocGFydGljdWxhcmx5IGZvciBleHBlcmltZW50ICMzKSwgbWFrZSB1c2Ugb2YgdGhpcy4KNC4gIERlZmluZSBhIGNvbnNpc3RlbnQgbmFtaW5nIHNjaGVtZS4gKGNvbmRpdGlvbl9iYXRjaCBwZXJoYXBzKQo1LiAgRGVmaW5lIHNvbWUgZXhwZWN0ZWQgbnVtYmVycyBvZiBleHByZXNzZWQgZ2VuZXMgZm9yIGRpZmZlcmVudAogICAgaHVtYW4vbWFtbWFsaWFuIGNlbGwgdHlwZXMuICBUaGlzIGV4cGVyaW1lbnQgaXMgSGVMYSwgYnV0IEkgdGhpbmsKICAgIGl0IHdvdWxkIGJlIGEgbmljZSBiaXQgb2YgY29udGV4dCB0byBleHBsaWNpdGx5IHNlZSBob3cgaXQKICAgIGNvbXBhcmVzIHRvIG90aGVyIG9yZ2FuaXNtcy9jZWxsIHR5cGVzLgo2LiAgQWRkIGFuIG91dGxpZXIgZ2VuZSBsYWJlbGVyIGZvciBib3hwbG90cyBhbmQvb3IgcHJpbnQgYSB0YWJsZSBvZgogICAgb3V0bGllcnMgaW4gcGxvdF9ib3hwbG90KCkuCjcuICBGaWd1cmUgb3V0IHNvbWUgZ29vZCBtZXRyaWNzIHRvIHNlZSBpZiB0aGUgbnVtYmVyIG9mIG5vdC1vYnNlcnZlZAogICAgZ2VuZXMgaXMgcmVsZXZhbnQgdG8gdGhlIG90aGVyIHJlc3VsdHMuIChwbG90X3ByZXBvc3QgaXMgb25lCiAgICBwb3NzaWJpbGl0eSkKOC4gIFBsb3QgY29lZmZpY2llbnQgb2YgdmFyaWFuY2UgdnMuIGJhdGNoL2NvbmRpdGlvbi9ldGMuCjkuICBSdW4gdmFyaWFuY2UgcGFydGl0aW9uCjEwLiBOb3RlOiAxNiBzcGVjaWZpYyBnZW5lcyB3ZXJlIGtub2NrZWQgb3V0IHZpYSB0aGUgYWRkaXRpb24gb2YgUFRDcywKICAgIG1ha2UgdXNlIG9mIG91ciBmcmVlYmF5ZXMvZXRjIHRvb2xzIHRvIGZpbmQvcXVhbnRpZnkgdGhlbS4KMTEuIE9uY2Ugd2UgaGF2ZSB0aGUgY29tYmluZWQgZXhwZXJpbWVudCwgY2hlY2sgYmF0Y2ggIzMgZm9yIGhvdyBpdAogICAgbG9va3Mgd2l0aCByZXNwZWN0IHRvIG90aGVyIHRpbWVwb2ludHMuCjEyLiBNYWtlIHN1cmUgdGhlIENhcyBzYW1wbGVzIGFyZSBnb25lIGFmdGVyIGVhcmx5IHBsb3QocykuCjEzLiBQZXJmb3JtIERFIHdpdGggQmlNL3N2YS9jb21iYXQsIGNvbXBhcmUgdGhlIHJlc3VsdHMuCjE0LiBDaGVjay9jbGVhbiBtdWx0aWdlbmUgZmFtaWxpZXMuCjE1LiBDb25zaWRlciB3aXRoL291dCBiYXRjaCAjMwoxNi4gT24gdGhlIHdheSB0byB0aGF0LCBwZXJmb3JtIGNvbXBhcmlzb25zIG9mIGJhdGNoIDMgdnMuIGJhdGNoIDEvMjsKICAgIHBlcmhhcHMgdGhlIHJlc3VsdHMgd2lsbCB0ZWxsIHVzIGFib3V0IHRoZSBiYXRjaC4KMTcuIFVzZSBrcmFrZW4gdG8gc2VlIGlmIHRoZXJlIGFyZSByZWFkcyB3aGljaCBleHBsYWluIHRoZSBkaWZmZXJlbmNlCiAgICBiZXR3ZWVuIGJhdGNoIDMgYW5kIDEvMi4gIEUuZy4gaXMgdGhlcmUgYW55IGNvbnRhbWluYXRpb24/ICBXZSBjYW4KICAgIG1vc3RseSBhc3N1bWUgdGhlcmUgaXMgbm90IGJlY2F1c2Ugb2YgdGhlIGNoYW5nZSBpbiBodW1hbiByZWFkcy4KMTguIFRvIHRoYXQgZW5kLCBwcm92aWRlIGFuIGV4cGxpY2l0IHJhdGlvIG9mIHJlYWRzL3JlYWRzbWFwcGVkL2V0YwogICAgZm9yIGhzL3RjIG9yIHRjL2hzCgojIEludHJvZHVjdGlvbgoKTGV0IHVzIGNoZWNrIG91dCBzb21lIG5ldyBjcnV6aSBpbmZlY3Rpb25zIGZvbGxvd2luZyB0aGUgZGVsZXRpb24gb2YgYSBzcGVjaWZpYyBnZW5lLgoKSSB0aG91Z2h0IEkgYWxzbyBkaWQgdGhlIGludGVycm9nYXRpb24gb2YgdGhlIENMQnJlbmVyIHRyYW5zY3JpcHRvbWUsCmJ1dCB0aGF0IGFwcGVhcnMgdW50cnVlLiAgSSB0aGluayBJIG1heSBoYXZlIGZvcmdvdHRlbiB0byBjb3B5IHRoZQpnZW5vbWUgaW4gcGxhY2UuLi4KCiMgTm90ZXMgYWJvdXQgdGhlIGludHJvZHVjdGlvbiBvZiBDQVM5CgphIHBST0NLIHBsYXNtaWQgY29udGFpbmluZyBDQVM5IGZvbGxvd2VkIGJ5IEdGUCBhbmQgR0FQREggd2F3cwpsaW5lYXJpemVkIGluIG9yZGVyIHRvIGludGVncmF0ZSB0aGUgQ0FTOSBpbnRvIGEgc3BlY2lmaWMgbG9jYXRpb24gaW4KdGhlIGNydXppIGdlbm9tZS4gIFRjIHR1YnVsaW4gaXMgZmxhbmtpbmcgYSBOb3RJIFJFIHNpdGUsIHNvIEkgd291bGQKYXNzdW1lIHRoZSBpbnRlZ3JhdGlvbiBpcyBhdCBvbmUgb2YgdGhlIHR1YnVsaW4gbG9jaS4gIFRoaXMgcGxhc21pZApoYXMgYm90aCBNMTMgZndkIGFuZCBNMTMgcmV2OyBNMTMgcmV2IGlzIHBvaW50aW5nIHRvd2FyZCB0aGUgR0FQREggYW5kCm0xMyBmb3J3YXJkIGlzIHBvaW50aW5nIHRvIHRoZSBiYWN0ZXJpYWwgb3JpZ2luIG9mIHJlcGxpY2F0aW9uIGFuZApBbXBSLiAgKFRoaXMgaXMgYSBzdHJlcHRvY29jY3VzIENBUzkpCgojIFRyYW5zLXNpYWxpZGFzZSBnZW5lcyB3aGljaCB3ZXJlIG1vZGlmaWVkCgpXZSByZWNlaXZlZCBhbiBlbWFpbCBmbGFnZ2luZyB0aGUgZm9sbG93aW5nIGdlbmVzIGFzIENSSVNQUi9DYXM5CnRhcmdldHMgZm9yIHRoZSBrbm9ja291dHMuICBJIHRoZXJlZm9yZSB3b3VsZCBsaWtlIHRvIGhhdmUgc2NyZWVuc2hvdHMKb2YgZWFjaCBvZiB0aGVzZSByZWdpb25zIHRvIHNob3cgd2hhdCBkaWZmZXJlbmNlcyBhcmUgb2JzZXJ2YWJsZQpiZXR3ZWVuIHRoZSB0aHJlZSBzdHJhaW5zLiAgTm90ZSB0aGF0IHRoZSBsb3dlciBjb3ZlcmFnZSBvZiB0aGUgbGFzdApmZXcgc2FtcGxlcyBtYXkgbWVhbiB0aGF0IHdlIG5lZWQgdG8gc3RpY2sgdG8gdGhlIGZpcnN0IGdyb3VwLgoKKiBUY0NMQi41MDgxNzMuMTIwICAgSGFzIHB1dGF0aXZlIEdQSSBzaWduYWwgKFRjQ2hyMjctUDo4MjIsNTM5Li44MjMsNjgxKCspKQoqIFRjQ0xCLjUwOTQ5NS4zMCAgICBIYXMgcHV0YXRpdmUgR1BJIGFuZCBTQVBBIHJlcGVhdCAoVGNDaHIzMi1QOjc4OSw4MzUuLjc5MCw1MDkoLSkpCiogVGNDTEIuNTEwMDU1LjIwICAgIEdQSSAgKFRjQ2hyMTctUzo1MjYsNDI3Li41MjcsMDM1KCspKQoqIFRjQ0xCLjUwNjk2MS4yNSAgICBHUEkgJ3JlcGVhdHMgYnV0IG1pZ2h0IG5vdCBiZSBzYXBhJyAoVGNDaHIxOC1TOjMsODEzLi42LDk0NygtKSkKKiBUY0NMQi41MTA3ODcuMTAgICAgR1BJICdzYXBhIHJlcGVhdHMnIChUY0NocjMzLVA6MjY1LDc2OS4uMjY5LDM4MygrKSkKKiBUY0NMQi41MTE2NjcuMzAgICAgZ3BpIChUY0NocjMwLVA6ODA1LDk1My4uODA2LDI5MSgrKSkKKiBUY0NMQi41MDcwODUuMzAgICAgZ3BpLCBoaWdobGlnaHRlZCBncmVlbiB0eXJvc2luZSwgJ3NhcGEgcmVwZWF0cycgKFRjQ2hyMzMtUDozMzQsNjU2Li4zMzcsMzM0KCspKQoqIFRjQ0xCLjUwNzQyNy4xMCAgICBncGkgKFRjcnV6aV83MzMyOjEzNy4uMiw2MjMoKykpCiogVGNDTEIuNTA4OTEzLjI1ICAgIGdwaSAoVGNDaHIxNy1QOjUyOCw2ODMuLjUyOSwyOTQoLSkpCiogVGNDTEIuNTA4ODU3LjMwICAgIGdwaSAoVGNDaHIxMS1QOjEyMCw4OTEuLjEyMywwNDcoLSkpCiogVGNDTEIuNTAzOTkzLjEwICAgIGdwaSAoVGNDaHIzMC1QOjY4LDYxMi4uNzAsNjg3KC0pKQoqIFRjQ0xCLjUxMTMyMy4xMCAgICBncGkgJ3NhcGEgcmVwZWF0cycgKFRjQ2hyMTctUDo1NjAsMDM2Li41NjIsNTA0KCspKQoqIFRjQ0xCLjUwODA4OS4xMCAgICBncGkgKFRjQ2hyMTEtUzoyMzksMTkyLi4yNDEsMzQ1KCspKQoqIFRjQ0xCLjUwODcxNy42MCAgICBncGkgKFRjQ2hyMzctUzo0ODMsMjE0Li40ODUsNTcxKCspKQoqIFRjQ0xCLjUwNjk3NS44MCAgICBncGkgKFRjQ2hyMTYtUDo1NTIsOTQ1Li41NTUsMDY1KCspKQoqIFRjQ0xCLjUwNTkzMS4zMCAgICBncGkgKFRjQ2hyMzAtUzo2OCw0NjguLjcwLDU1MigtKSkKKiBUY0NMQi41MDc5NzkuMzAgICAgZ3BpIChUY0NocjE3LVM6NTU5LDkwMS4uNTYyLDQwNSgrKSkKKiBUY0NMQi41MDk4MTcuNTAgICAgZ3BpIChUY0NocjE2LVM6NTUzLDM5Ny4uNTU1LDU0NCgrKSkKKiBUY0NMQi41MDY4NDEuMjAgICAgZ3BpIChUY0NocjM3LVA6NDgzLDIxNC4uNDg1LDU3MSgrKSkKCmBgYHtyfQpleHBlY3RlZF9sb3dlciA8LSBjKCJUY0NMQi41MDgxNzMuMTIwIiwgIlRjQ0xCLjUwOTQ5NS4zMCIsICJUY0NMQi41MTAwNTUuMjAiLCAiVGNDTEIuNTA2OTYxLjI1IiwKICAgICAgICAgICAgICAgICAgICAiVGNDTEIuNTEwNzg3LjEwIiwgIlRjQ0xCLjUxMTY2Ny4zMCIsICJUY0NMQi41MDcwODUuMzAiLAogICAgICAgICAgICAgICAgICAgICJUY0NMQi41MDc0MjcuMTAiLCAiVGNDTEIuNTA4OTEzLjI1IiwgIlRjQ0xCLjUwODg1Ny4zMCIsCiAgICAgICAgICAgICAgICAgICAgIlRjQ0xCLjUwMzk5My4xMCIsICJUY0NMQi41MTEzMjMuMTAiLCAiVGNDTEIuNTA4MDg5LjEwIiwKICAgICAgICAgICAgICAgICAgICAiVGNDTEIuNTA4NzE3LjYwIiwgIlRjQ0xCLjUwNjk3NS44MCIsICJUY0NMQi41MDU5MzEuMzAiLAogICAgICAgICAgICAgICAgICAgICJUY0NMQi41MDc5NzkuMzAiLCAiVGNDTEIuNTA5ODE3LjUwIiwgIlRjQ0xCLjUwNjg0MS4yMCIpCmBgYAoKIyMgT2JzZXJ2YXRpb25zIGluIElHVgoKTm90ZTogSSBhbSByZW1hcHBpbmcgdGhlc2Ugc2FtcGxlcyB3aXRoIHNsaWdodGx5IGRpZmZlcmVudCBwYXJhbWV0ZXJzCndoaWNoIG1heSBtYWtlIHRoaXMgbW9yZSBzZW5zaXRpdmUgZm9yIG11bHRpIGdlbmUgZmFtaWxpZXMsIGJ1dCBJIGRvCm5vdCB0aGluayBpdCB3aWxsIGNoYW5nZSBhbnl0aGluZy4KCjEuICBUY0NMQi41MDgxNzMuMTIwOiBObyBkaWZmZXJlbmNlcyBvYnNlcnZlZCBpbiBzYW1wbGVzIDA2KGtvKSwKICAgIDM2KHd0KSwgMjMoYWIpCjIuICBUY0NMQi41MDk0OTUuMzA6IE5ETyAobm8gZGlmZmVyZW5jZSBvYnNlcnZlZCkKMy4gIFRjQ0xCLjUxMDA1NS4yMDogRm91bmQga28tc3BlY2lmaWMgbXV0YXRpb25zIGF0IHRoZSB2ZXJ5IDMnIGVuZCBvZgogICAgdGhlIGdlbmUsIHNlZW1zIHVubGlrZWx5IHRvIGluZHVjZSBhIGNoYW5nZSBpbiBmdW5jdGlvbiBub3IgTk1ECjQuICBUY0NMQi41MDY5NjEuMjU6IEluc2lnbmlmaWNhbnQgY292ZXJhZ2UgaW4gdGhlIHd0LiAgR29vZCBjb3ZlcmFnZQogICAgaW4ga28vYWI7IDY1JSBHLT5BIGluIGtvIHRvIG1ha2Ugc3lub3ltb3VzIGNvZG9uCjUuICBUY0NMQi41MTA3ODcuMTA6IEluY29uc2lzdGVudCBjb3ZlcmFnZSBpbiBhbGwgc2FtcGxlcywgTkRPLgo2LiAgVGNDTEIuNTExNjY3LjMwOiBMb3cgY292ZXJhZ2UgaW4gYWxsIHNhbXBsZXM6IE5ETwo3LiAgVGNDTEIuNTA3NDI3LjEwOiBMb3cgY292ZXJhZ2UgaW4gd3QsIFQtPkMgNScgb2Yga28KOC4gIFRjQ0xCLjUwODkxMy4yNTogTG93IGNvdmVyYWdlIGluIGFsbCwgTkRPCjkuICBUY0NMQi41MDg4NTcuMzA6IExvdyBjb3ZlcmFnZSBpbiB3dCwgTkRPCjEwLiBUY0NMQi41MDM5OTMuMTA6IE5ETwoxMS4gVGNDTEIuNTExMzIzLjEwOiBORE8sIHRvb2sgc2NyZWVuc2hvdAoxMi4gVGNDTEIuNTA4MDg5LjEwOiBORE8KMTMuIFRjQ0xCLjUwODcxNy42MDogTkRPIGxvdyBjb3ZlcmFnZSBpbiB3dAoxNC4gVGNDTEIuNTA2OTc1LjgwOiBsb3cgY292ZXJhZ2UgaW4gYWxsIHNhbXBsZXMuCjE1LiBUY0NMQi41MDU5MzEuMzA6IGxvdyBjb3ZlcmFnZSwgTkRPLCBuZXh0IGdlbmUgaGFzIHRyZW1lbmRvdXMgY292ZXJhZ2UKMTYuIFRjQ0xCLjUwNzk3OS4zMDogTkRPCjE3LiBUY0NMQi41MDk4MTcuNTA6IGxvdyBjb3ZlcmFnZQoxOC4gVGNDTEIuNTA2ODQxLjIwOiBuaWNlIGNvdmVyYWdlLCBORE8KCkkgdGhlcmVmb3JlIG9wZW5lZCB1cCB0aGUgZnJlZWJheWVzIG91dHB1dCBzb3J0ZWQgYnkgQ0RTIGFuZCBsb29rZWQKZm9yIG5vbnNlbnNlIG11dGF0aW9ucyBpbnRyb2R1Y2VkIGluIG9uZSBrbyBhbmQgb25lIEFCIHNhbXBsZS4KCkkgZm91bmQgNDMgaW4gdGhlIEtPIGFuZCA3OSBpbiB0aGUgQUIuCgojIEh1bWFuIGFubm90YXRpb24gaW5mb3JtYXRpb24KCkkgaGF2ZSBhIHByZXR0eSBuZXcgZ2Vub21lIGRvd25sb2FkZWQgKDIwMjUwOSksIHNvIEkgd2lsbCAoZm9yIG5vdykKanVzdCBsZXQgbXkgYW5ub3RhdGlvbiBmdW5jdGlvbiBncmFiIHdoYXRldmVyIGl0IHRoaW5rcyBpcyByZWFzb25hYmxlLgpJdCBjaG9zZSB0aGUgMjAyNDEwIHNldC4gIFNlZW1zIGdvb2QgdG8gbWUuCgpgYGB7cn0KaHNfYW5ub3QgPC0gbG9hZF9iaW9tYXJ0X2Fubm90YXRpb25zKCkKCnRjX2Fubm90IDwtIGxvYWRfZ2ZmX2Fubm90YXRpb25zKCJ+L2xpYnJhcmllcy9nZW5vbWUvZ2ZmL3RjcnV6aV9hbGwuZ2ZmIiwKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgdHlwZSA9ICJtUk5BIiwgaWRfY29sID0gIlBhcmVudCIpCnJvd25hbWVzKHRjX2Fubm90KSA8LSBnc3ViKHggPSBtYWtlLm5hbWVzKHRjX2Fubm90W1siTmFtZSJdXSwgdW5pcXVlID0gVFJVRSksCiAgICAgICAgICAgICAgICAgICAgICAgICAgIHBhdHRlcm4gPSAiXFwuXFxkKyQiLCByZXBsYWNlbWVudCA9ICIiKQplc21lcl9kYiA8LSAib3JnLlRjcnV6aS5DTC5CcmVuZXIuRXNtZXJhbGRvLmxpa2UudjY4LmVnLmRiIgpsaWJyYXJ5KGVzbWVyX2RiLCBjaGFyYWN0ZXIub25seSA9IFRSVUUpCmVzbWVyX2RiIDwtIGdldDAoZXNtZXJfZGIpCmFsbF9rZXl0eXBlcyA8LSBrZXl0eXBlcyhlc21lcl9kYikKd2FudGVkX2lkeCA8LSBncmVwbCh4ID0gYWxsX2tleXR5cGVzLCBwYXR0ZXJuID0gIl5BTk5PVF8iKQp3YW50ZWRfZmllbGRzIDwtIGFsbF9rZXl0eXBlc1t3YW50ZWRfaWR4XQpub25lc21lcl9kYiA8LSAib3JnLlRjcnV6aS5DTC5CcmVuZXIuTm9uLkVzbWVyYWxkby5saWtlLnY2OC5lZy5kYiIKdW5hc19kYiA8LSAib3JnLlRjcnV6aS5DTC5CcmVuZXIudjY4LmVnLmRiIgoKdGNfZXNtZXIgPC0gbG9hZF9vcmdkYl9hbm5vdGF0aW9ucyhlc21lcl9kYiwga2V5dHlwZSA9ICJnaWQiLCBmaWVsZHMgPSB3YW50ZWRfZmllbGRzKQp0Y19ub25lc21lciA8LSBsb2FkX29yZ2RiX2Fubm90YXRpb25zKG5vbmVzbWVyX2RiLCBrZXl0eXBlID0gImdpZCIsIGZpZWxkcyA9IHdhbnRlZF9maWVsZHMpCnRjX3VuYXMgPC0gbG9hZF9vcmdkYl9hbm5vdGF0aW9ucyh1bmFzX2RiLCBrZXl0eXBlID0gImdpZCIsIGZpZWxkcyA9IHdhbnRlZF9maWVsZHMpCnRjX21vcmUgPC0gcmJpbmQodGNfZXNtZXIkZ2VuZXMsIHRjX25vbmVzbWVyJGdlbmVzLCB0Y191bmFzJGdlbmVzKQp0Y19hbm5vdCA8LSBtZXJnZSh0Y19hbm5vdCwgdGNfbW9yZSwgYnkgPSAicm93Lm5hbWVzIikKcm93bmFtZXModGNfYW5ub3QpIDwtIHRjX2Fubm90W1siZ2lkIl1dCnRjX2Fubm90W1siZ2lkIl1dIDwtIE5VTEwKZGltKHRjX2Fubm90KQpgYGAKCiMjIExvYWQgY3J1emkgR08gZGF0YSBzaW1pbGFybHkKCmBgYHtyfQp0Y19lc21lcl9nbyA8LSBsb2FkX29yZ2RiX2dvKGVzbWVyX2RiLCBrZXl0eXBlID0gIkdJRCIpCnRjX25vbmVzbWVyX2dvIDwtIGxvYWRfb3JnZGJfZ28obm9uZXNtZXJfZGIsIGtleXR5cGUgPSAiR0lEIikKdGNfdW5hc19nbyA8LSBsb2FkX29yZ2RiX2dvKHVuYXNfZGIsIGtleXR5cGUgPSAiR0lEIikKCnRjX2dvIDwtIHJiaW5kKHRjX2VzbWVyX2dvLCB0Y19ub25lc21lcl9nbywgdGNfdW5hc19nbykKdGNfZ28gPC0gdGNfZ29bLCBjKCJHTyIsICJHSUQiKV0KY29sbmFtZXModGNfZ28pIDwtIGMoIkdPIiwgIklEIikKCnRjX2xlbmd0aCA8LSB0Y19hbm5vdFssIGMoIlBhcmVudCIsICJhbm5vdF90cmFuc2NyaXB0X2xlbmd0aCIpXQpjb2xuYW1lcyh0Y19sZW5ndGgpIDwtIGMoIklEIiwgImxlbmd0aCIpCmBgYAoKIyBTYW1wbGUgc2hlZXQKCkkgYXNrZWQgZm9yIG9uZSBmcm9tIE5hamliL0FtYWxpZSBidXQgdW5sZXNzIEkgYW0gbWlzdGFrZW4gaXQgaGFzIG5vdAphcnJpdmVkLiAgVGhhdCBpcyBub3QgYSBwcm9ibGVtLCBnaXZlbiB0d28gaGVscGZ1bCB0aGluZ3M6IEFwcmlsCnByb3ZpZGVzIG9uZSwgSSBhbHNvIG5hbWVkIHRoZSBkaXJlY3RvcmllcyBzbyB0aGF0IHRoZSBzYW1wbGUgSURzIGFyZQpidWlsdCBpbjsgc28gSSB3aWxsIGp1c3QgbWFrZSBhIGZha2Ugb25lIGZvciBub3cgYW5kIHRoZW4gbWVyZ2UgaW4Kd2hhdGV2ZXIgSSBnZXQgZnJvbSB0aGVtLi4uCgpgYGB7cn0Kc2FtcGxlX3NoZWV0IDwtICJzYW1wbGVfc2hlZXRzL2FsbF9zYW1wbGVzLnhsc3giCgptZXRhX3NhbmtleSA8LSBwbG90X21ldGFfc2Fua2V5KGFzLmRhdGEuZnJhbWUoZXh0cmFjdF9tZXRhZGF0YShzYW1wbGVfc2hlZXQpKSwKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICBmYWN0b3JzID0gYygiYmFja2dyb3VuZCIsICJleHBfbnVtYmVyIikpCnBwKGZpbGUgPSAiaW1hZ2VzL21ldGFfc2Fua2V5LnBuZyIsIGltYWdlID0gbWV0YV9zYW5rZXlbWyJwbG90Il1dKQptZXRhX3NhbmtleVtbInBsb3QiXV0KYGBgCgojIEFkZGluZyBzb21lIG1ldGFkYXRhCgpMZXQgdXMgc2VlIGhvdyB3ZWxsIG15IHByZXByb2Nlc3MgZ2F0aGVyZXIgZG9lcy4uLgoKYGBge3J9Cm5ld19tZXRhIDwtIGdhdGhlcl9wcmVwcm9jZXNzaW5nX21ldGFkYXRhKHNhbXBsZV9zaGVldCwgc3BlY2llcyA9IGMoImhnMzhfMTE1IiwgInRjcnV6aV9hbGwiKSkKaGVhZChuZXdfbWV0YVtbIm5ld19tZXRhIl1dKQpgYGAKClN0cmFuZ2VseSwgdGhpcyBkaWQgbm90IHBpY2sgdXAgdGhlIGZyZWViYXllcyBvdXRwdXRzLiAgSSB3aWxsIGFkZAp0aGVtIG1hbnVhbGx5IHRvIHRoZSBvcmlnaW5hbCBzaGVldC4gIFBvc3NpYmx5IGJlY2F1c2UgSSByYW4gaXQgdHdpY2UKd2l0aCBkaWZmZXJlbnQgcGFyYW1ldGVycywgbXkgY29kZSBnZXRzIGNvbmZ1c2VkIHdoZW4gbXVsdGlwbGUgZmlsZXMKbWF0Y2ggdGhlIHNhbWUgcnVsZS4KCiMgRGVmaW5lIGNvbG9ycwoKYGBge3J9CmNvbG9yX2Nob2ljZXMgPC0gbGlzdCgKICAiaHMiID0gbGlzdCgKICAgICJBQjEwIiA9ICIjMDg2NDQ4IiwKICAgICJjYXMiID0gIiM3MDI2MDEiLAogICAgImNvbnRyb2wiID0gIiM0NTQxNzgiLAogICAgImtvNyIgPSAiIzg3MDY0OSIsCiAgICAicG9zaXRpdmUiID0gIiM0NjA2MEUiLAogICAgInd0IiA9ICIjNzg1QzAxIiksCiAgInRjIiA9IGxpc3QoCiAgICAiQUIxMCIgPSAiIzBEQTg3NyIsCiAgICAiY2FzIiA9ICIjQkEzRjAxIiwKICAgICJjb250cm9sIiA9ICIjNzc3MUQxIiwKICAgICJrbzciID0gIiNCRjA4NkEiLAogICAgInBvc2l0aXZlIiA9ICIjOEYwQzFFIiwKICAgICJ3dCIgPSAiI0FGODQwMSIpKQpgYGAKClRoZXNlIGNvbG9ycyBhcmUgYmFkLCB0aGUgaHVtYW4gYXJlIHRvbyBkYXJrIGFuZCBsb3NlIHRoZWlyIGNvbnRyYXN0CndpdGggcmVzcGVjdCB0byBlYWNoIG90aGVyLiAgSSBzaG91bGQgZ2V0IE5hamliL0FwcmlsL0FtYWxpZSB0byBoZWxwCmRlZmluZSBiZXR0ZXIuCgojIFRoZSBwcmltYXJ5IGRhdGEgc3RydWN0dXJlCgpgYGB7cn0KaHNfc2UgPC0gY3JlYXRlX3NlKG5ld19tZXRhW1sibmV3X21ldGEiXV0sIGdlbmVfaW5mbyA9IGhzX2Fubm90W1siZ2VuZV9hbm5vdGF0aW9ucyJdXSwKICAgICAgICAgICAgICAgICAgIGZpbGVfY29sdW1uID0gImhpc2F0X2NvdW50X3RhYmxlX2hnMzhfMTE1IikgJT4lCiAgc2V0X2NvbmRpdGlvbnMoZmFjdCA9ICJiYWNrZ3JvdW5kIikgJT4lCiAgc2V0X2JhdGNoZXMoZmFjdCA9ICJleHBfbnVtYmVyIikgJT4lCiAgc2V0X2NvbG9ycyhjb2xvcl9jaG9pY2VzW1siaHMiXV0pCmhzX3dyaXR0ZW4gPC0gd3JpdGVfc2UoaHNfc2UsIGV4Y2VsID0gImV4Y2VsL2hzX2V4cHJlc3Npb25fZGF0YS54bHN4IikKCnRjX3NlIDwtIGNyZWF0ZV9zZShuZXdfbWV0YVtbIm5ld19tZXRhIl1dLCBnZW5lX2luZm8gPSB0Y19hbm5vdCwKICAgICAgICAgICAgICAgICAgIGZpbGVfY29sdW1uID0gImhpc2F0X2NvdW50X3RhYmxlX3RjcnV6aV9hbGwiKSAlPiUKICBzZXRfY29uZGl0aW9ucyhmYWN0ID0gImJhY2tncm91bmQiKSAlPiUKICBzZXRfYmF0Y2hlcyhmYWN0ID0gImV4cF9udW1iZXIiKSAlPiUKICBzZXRfY29sb3JzKGNvbG9yX2Nob2ljZXNbWyJ0YyJdXSkKdGNfd3JpdHRlbiA8LSB3cml0ZV9zZSh0Y19zZSwgZXhjZWwgPSAiZXhjZWwvdGNfZXhwcmVzc2lvbl9kYXRhLnhsc3giKQpgYGAKCk9uZSBvZiBteSBjb25jZXJucyBzdXJyb3VuZHMgdGhlIGZhdGUgb2YgdGhlIHZhcmlvdXMgdHJhbnMtc2lhbGlkYXNlCmdlbmVzIGFuZCB0aGUgYWJpbGl0eSB0byBkaXNjZXJuIHRoZSBlZmZpY2FjaW91c25lc3Mgb2YgYWRkaW5nIHN0b3AKY29kb25zIHRvIHRoZW0uICBJIHRoZXJlZm9yZSBxdWFudGlmaWVkIHRoZSBzYW1wbGVzIHdpdGggc2FsbW9uIHdoaWNoCkkgdGhpbmsgaXMgbW9yZSBzZW5zaXRpdmUgdG8gbXVsdGkgZ2VuZSBmYW1pbGllcy4KCmBgYHtyfQpzYWxtb25fYW5ub3QgPC0gdGNfYW5ub3QKcm93bmFtZXMoc2FsbW9uX2Fubm90KSA8LSBwYXN0ZTAocm93bmFtZXMoc2FsbW9uX2Fubm90KSwgIjptUk5BIikKdGNfc2FsbW9uIDwtIGNyZWF0ZV9zZShuZXdfbWV0YVtbIm5ld19tZXRhIl1dLCBnZW5lX2luZm8gPSBzYWxtb25fYW5ub3QsCiAgICAgICAgICAgICAgICAgICAgICAgZmlsZV9jb2x1bW4gPSAic2FsbW9uX2NvdW50X3RhYmxlX3RjcnV6aV9hbGwiKSAlPiUKICBzZXRfY29uZGl0aW9ucyhmYWN0ID0gImJhY2tncm91bmQiKSAlPiUKICBzZXRfYmF0Y2hlcyhmYWN0ID0gImV4cF9udW1iZXIiKSAlPiUKICBzZXRfY29sb3JzKGNvbG9yX2Nob2ljZXNbWyJ0YyJdXSkKYGBgCgojIENoZWNrIG1ldGFkYXRhIHZzIG1hcHBpbmcgc3RhdGlzdGljcwoKYGBge3J9CmhzX21hcHBlZCA8LSBwbG90X21ldGFkYXRhX2ZhY3RvcnMoaHNfc2UsIGNvbHVtbiA9ICJoaXNhdF9nZW5vbWVfcGVyY2VudF9sb2dfaGczOF8xMTUiKQpwcChmaWxlID0gImltYWdlcy9oc19oaXNhdF9tYXBwaW5nX3BlcmNlbnQucG5nIiwgaW1hZ2UgPSBoc19tYXBwZWQpCgpoc19nZW5lcyA8LSBwbG90X21ldGFkYXRhX2ZhY3RvcnMoaHNfc2UsIGNvbHVtbiA9ICJzYWxtb25fb2JzZXJ2ZWRfZ2VuZXNfaGczOF8xMTUiKQpoc19nZW5lcwoKdGNfbWFwcGVkIDwtIHBsb3RfbWV0YWRhdGFfZmFjdG9ycyh0Y19zZSwgY29sdW1uID0gImhpc2F0X2dlbm9tZV9wZXJjZW50X2xvZ190Y3J1emlfYWxsIikKcHAoZmlsZSA9ICJpbWFnZXMvdGNfaGlzYXRfbWFwcGluZ19wZXJjZW50LnBuZyIsIGltYWdlID0gdGNfbWFwcGVkKQpgYGAKCiMgQSBGZXcgaW5pdGlhbCBwbG90cwoKSSBwaWNrZWQgb2ZmIGFub3RoZXIgVE9ETyBpbiBoZXJlLCBJIGNoYW5nZWQgcGxvdF9ub256ZXJvIHRvIG1vcmUKaW50ZWxsaWdlbnRseSBzZXQgdGhlIHRleHQgYW5ub3RhdGlvbi4KCmBgYHtyfQp0Y19ueiA8LSBwbG90X25vbnplcm8odGNfc2UpCnBwKGZpbGUgPSAiaW1hZ2VzL3RjX25vbnplcm8ucG5nIiwgaW1hZ2UgPSB0Y19ueikKCnRjX3NlIDwtIHN1YnNldF9zZSh0Y19zZSwgbm9uemVybyA9IDUwMDApCnRjX2ZpbHRfbnogPC0gcGxvdF9ub256ZXJvKHRjX3NlLCB5X2ludGVyY2VwdCA9IDAuOSkKcHAoZmlsZSA9ICJpbWFnZXMvdGNfbm9uemVyb19maWx0ZXJlZC5wbmciLCBpbWFnZSA9IHRjX2ZpbHRfbnopCgpoc19saWJzaXplIDwtIHBsb3RfbGlic2l6ZShoc19zZSkKcHAoZmlsZSA9ICJpbWFnZXMvaHNfbGlic2l6ZS5wbmciLCBpbWFnZSA9IGhzX2xpYnNpemUpCmhzX256IDwtIHBsb3Rfbm9uemVybyhoc19zZSkKcHAoZmlsZSA9ICJpbWFnZXMvaHNfbnoucG5nIiwgaW1hZ2UgPSBoc19ueikKcGxvdF9ib3hwbG90KGhzX3NlKQoKdGNfbGlic2l6ZSA8LSBwbG90X2xpYnNpemUodGNfc2UpCnBwKGZpbGUgPSAiaW1hZ2VzL3RjX2xpYnNpemUucG5nIiwgaW1hZ2UgPSB0Y19saWJzaXplKQoKaHNfcmVwbGljYXRlZCA8LSBzdWJzZXRfc2UoaHNfc2UsIG1pbl9yZXBsaWNhdGVzID0gMywgZmFjdCA9ICJjb25kaXRpb24iKQp0Y19yZXBsaWNhdGVkIDwtIHN1YnNldF9zZSh0Y19zZSwgbWluX3JlcGxpY2F0ZXMgPSAzLCBmYWN0ID0gImNvbmRpdGlvbiIpICU+JQogIHN1YnNldF9zZShub256ZXJvID0gMTAwMDApCnRjc2FsX3JlcGxpY2F0ZWQgPC0gc3Vic2V0X3NlKHRjX3NhbG1vbiwgbWluX3JlcGxpY2F0ZXMgPSAzLCBmYWN0ID0gImNvbmRpdGlvbiIpICU+JQogIHN1YnNldF9zZShub256ZXJvID0gMTAwMDApCmBgYAoKIyMgUG9rZSBhdCB0aGUgdmFyaWFudHMgYnJpZWZseQoKYGBge3J9CnRjX3ZhcmlhbnRzIDwtIGNvdW50X3NucHModGNfcmVwbGljYXRlZCwgYW5ub3RfY29sdW1uID0gImZyZWViYXllc190YWJsZSIsIHNucF9jb2x1bW4gPSAiUEFJUkVEIikKYGBgCgpSZW1pbmRlciB0byBzZWxmOiAgY291bnRfc25wcyByZWFkcyB0aGUgZnJlZWJheWVzIHRhYmxlLCBwYXNzIHRoYXQgdG8KZ2V0X3NucF9zZXRzKCkgdG8gY3Jvc3MgcmVmZXJlbmNlIGFnYWluc3QgdGhlIGV4cGVyaW1lbnRhbCBkZXNpZ24sCnRoZW4gcGFzcyB0aGF0IHRvIHNucHNfaW50ZXJzZWN0aW9ucygpIGFuZCBzbnBzX3ZzX2dlbmVzKCkuICBJIHNob3VsZApjaGFuZ2UgdGhhdCB0byBiZSBhYmxlIHRvIGRpcmVjdGx5IHRha2UgdGhlIG91dHB1dCBmcm9tIGNvdW50X3NucHMoKQoKYGBge3J9CnZhcl9ub3JtIDwtIG5vcm1hbGl6ZSh0Y192YXJpYW50cywgY29udmVydCA9ICJjcG0iLCBub3JtID0gInF1YW50IiwKICAgICAgICAgICAgICAgICAgICAgIGZpbHRlciA9IFRSVUUsIHRyYW5zZm9ybSA9ICJsb2cyIikKdGNfdmFyaWFudF9wY2EgPC0gcGxvdF9wY2EodmFyX25vcm0pCnBwKGZpbGUgPSAiaW1hZ2VzL3RjX3ZhcmlhbnRfcGNhLnBuZyIsIGltYWdlID0gdGNfdmFyaWFudF9wY2FbWyJwbG90Il1dKQoKdGNfc2V0cyA8LSBnZXRfc25wX3NldHModGNfdmFyaWFudHMsIGZhY3RvciA9ICJjb25kaXRpb24iLCBwcm9wb3J0aW9uID0gMC43NSkKdGNfc2V0cwoKc25wX2ludGVyc2VjdGlvbnMgPC0gc25wc19pbnRlcnNlY3Rpb25zKHRjX3NlLCB0Y19zZXRzLCBzdGFydF9jb2x1bW4gPSAic3RhcnQiLAogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgZW5kX2NvbHVtbiA9ICJlbmQiLCBjaHJfY29sdW1uID0gImFubm90X3NlcXVlbmNlX2lkIikKc25wX2ludGVyc2VjdGlvbnMKCnNucHNfdnNfZ2VuZXMgPC0gc25wc192c19nZW5lcyh0Y19zZSwgdGNfc2V0cywgc3RhcnRfY29sdW1uID0gInN0YXJ0IiwKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIGVuZF9jb2x1bW4gPSAiZW5kIiwgY2hyX2NvbHVtbiA9ICJzZXFuYW1lcyIpCnNucHNfdnNfZ2VuZXMKYGBgCgojIFZhcmlhbmNlIFBhcnRpdGlvbgoKSGVyZSBhcmUgYSBjb3VwbGUgb2YgdmFyaWFuY2UgcGFydGl0aW9uIGludm9jYXRpb25zLiAgT25jZSB3ZSBoYXZlCm90aGVyIG1ldGFkYXRhLCB0aGlzIHdpbGwgYmUgbW9yZSB1c2VmdWwuICBOb3RlLCB0aGlzIHdpbGwgb25seSB3b3JrCm9uY2UgdGhlIG5vbi1yZXBsaWNhdGVkIGNvbmRpdGlvbnMgYXJlIHJlbW92ZWQgKGNvbnRyb2wgYW5kIGNhcykuCgpgYGB7cn0KaHNfdmFycGFydCA8LSBzaW1wbGVfdmFycGFydChoc19yZXBsaWNhdGVkKQpwcChmaWxlID0gImltYWdlcy9oc192YXJwYXJ0X3Zpb2xpbi5wbmciLCBpbWFnZSA9IGhzX3ZhcnBhcnRbWyJwYXJ0aXRpb25fcGxvdCJdXSkKcHAoZmlsZSA9ICJpbWFnZXMvaHNfdmFycGFydF9wZXJjZW50LnBuZyIsIGltYWdlID0gaHNfdmFycGFydFtbInBlcmNlbnRfcGxvdCJdXSkKCnRjX3ZhcnBhcnQgPC0gc2ltcGxlX3ZhcnBhcnQodGNfcmVwbGljYXRlZCkKcHAoZmlsZSA9ICJpbWFnZXMvdGNfdmFycGFydF92aW9saW4ucG5nIiwgaW1hZ2UgPSB0Y192YXJwYXJ0W1sicGFydGl0aW9uX3Bsb3QiXV0pCnBwKGZpbGUgPSAiaW1hZ2VzL3RjX3ZhcnBhcnRfcGVyY2VudC5wbmciLCBpbWFnZSA9IHRjX3ZhcnBhcnRbWyJwZXJjZW50X3Bsb3QiXV0pCmBgYAoKSSB0aGluayB3ZSBwcm9iYWJseSBzaG91bGQgbm90IGJlIHN1cnByaXNlZCBhdCB0aGUgYW1vdW50IG9mIHZhcmlhbmNlCmF0dHJpYnV0ZWQgdG8gdGhlIGJhdGNoIGR1ZSB0byB0aGUgdmVyeSBsYXJnZSBkaWZmZXJlbmNlIGluIGNvdmVyYWdlCmJldHdlZW4gZXhwZXJpbWVudCAjMyBhbmQgMS8yLgoKIyBTYW1wbGUgY2x1c3RlcmluZwoKIyMgSHVtYW4KClBlcmZvcm0gb3VyIGRlZmF1bHQgUENBIHBsb3QgYWxvbmcgd2l0aCBhIGNvbWJhdCB2ZXJzaW9uLgoKYGBge3J9CmhzX25vcm0gPC0gbm9ybWFsaXplKGhzX3JlcGxpY2F0ZWQsIHRyYW5zZm9ybSA9ICJsb2cyIiwgY29udmVydCA9ICJjcG0iLAogICAgICAgICAgICAgICAgICAgICBub3JtID0gInF1YW50IiwgZmlsdGVyID0gVFJVRSkKaHNfZGlzaGVhdCA8LSBwbG90X2Rpc2hlYXQoaHNfbm9ybSkKcHAoZmlsZSA9ICJpbWFnZXMvaHNfZGlzdGFuY2VfaGVhdG1hcC5wbmciLCBpbWFnZSA9IGhzX2Rpc2hlYXQyKQoKaHNfY29yaGVhdCA8LSBwbG90X2NvcmhlYXQoaHNfbm9ybSkKcHAoZmlsZSA9ICJpbWFnZXMvaHNfY29ycmVsYXRpb25faGVhdG1hcC5wbmciLCBpbWFnZSA9IGhzX2NvcmhlYXRbWyJwbG90Il1dKQpoc19ub3JtX3BjYSA8LSBwbG90X3BjYShoc19ub3JtLCBwbG90X2xhYmVscyA9IFRSVUUpCnBwKGZpbGUgPSAiaW1hZ2VzL2hzX25vcm1fcGNhLnBuZyIsIGltYWdlID0gaHNfbm9ybV9wY2FbWyJwbG90Il1dKQoKaHNfbmIgPC0gbm9ybWFsaXplKGhzX3JlcGxpY2F0ZWQsIHRyYW5zZm9ybSA9ICJsb2cyIiwgY29udmVydCA9ICJjcG0iLAogICAgICAgICAgICAgICAgICAgZmlsdGVyID0gVFJVRSwgYmF0Y2ggPSAic3Zhc2VxIikKaHNfbmJfcGNhIDwtIHBsb3RfcGNhKGhzX25iKQpwcChmaWxlID0gImltYWdlcy9oc19ub3JtX3N2YV9wY2EucG5nIiwgaW1hZ2UgPSBoc19uYl9wY2FbWyJwbG90Il1dKQoKCmhzX2NiIDwtIG5vcm1hbGl6ZShoc19yZXBsaWNhdGVkLCB0cmFuc2Zvcm0gPSAibG9nMiIsIGNvbnZlcnQgPSAiY3BtIiwKICAgICAgICAgICAgICAgICAgIGZpbHRlciA9IFRSVUUsIGJhdGNoID0gImNvbWJhdCIpCmhzX2NvbWJhdF9wY2EgPC0gcGxvdF9wY2EoaHNfY2IpCnBwKGZpbGUgPSAiaW1hZ2VzL2hzX25vcm1fY29tYmF0X3BjYS5wbmciLCBpbWFnZSA9IGhzX2NvbWJhdF9wY2FbWyJwbG90Il1dKQpgYGAKCiMjIFBhcmFzaXRlCgpgYGB7cn0KdGNfbm9ybSA8LSBub3JtYWxpemUodGNfc2UsIHRyYW5zZm9ybSA9ICJsb2cyIiwgY29udmVydCA9ICJjcG0iLAogICAgICAgICAgICAgICAgICAgICBub3JtID0gInF1YW50IiwgZmlsdGVyID0gVFJVRSkKdGNfZGlzaGVhdCA8LSBwbG90X2Rpc2hlYXQodGNfbm9ybSkKcHAoZmlsZSA9ICJpbWFnZXMvdGNfZGlzdGFuY2VfaGVhdG1hcC5wbmciLCBpbWFnZSA9IHRjX2Rpc2hlYXQpCgp0Y19jb3JoZWF0IDwtIHBsb3RfY29yaGVhdCh0Y19ub3JtKQpwcChmaWxlID0gImltYWdlcy90Y19jb3JyZWxhdGlvbl9oZWF0bWFwLnBuZyIsIGltYWdlID0gdGNfY29yaGVhdCkKYGBgCgpBIGxpdHRsZSBiaXQgb2YgZnVuLCBleHRyYWN0IHRoZSBnZW5lcyB3aGljaCBhcmUgaGlnaC1vdXRsaWVycyBpbiBlYWNoCnNhbXBsZSBhbmQgcHJpbnQgd2hhdCB0aGV5IGFyZS4KCmBgYHtyfQpub3JtX2JveHBsb3QgPC0gcGxvdF9ib3hwbG90KHRjX25vcm0pCm5vcm1fYm94cGxvdFtbInBsb3QiXV0KaGlnaF9nZW5lcyA8LSB1bmlxdWUoYXMuY2hhcmFjdGVyKHVubGlzdChub3JtX2JveHBsb3RbWyJoaWdoX291dGxpZXJfZ2VuZXMiXV0pKSkKdW5pcXVlKHJvd0RhdGEodGNfc2UpW2hpZ2hfZ2VuZXMsIF1bWyJhbm5vdF90cmFuc2NyaXB0X3Byb2R1Y3QiXV0pCmBgYAoKYGBge3J9CnRjX25vcm1fcGNhIDwtIHBsb3RfcGNhKHRjX25vcm0sIHBsb3RfbGFiZWxzID0gVFJVRSkKcHAoZmlsZSA9ICJpbWFnZXMvdGNfbm9ybV9wY2EucG5nIiwgaW1hZ2UgPSB0Y19ub3JtX3BjYSkKCnRjX3Jub3JtIDwtIG5vcm1hbGl6ZSh0Y19yZXBsaWNhdGVkLCB0cmFuc2Zvcm0gPSAibG9nMiIsIGNvbnZlcnQgPSAiY3BtIiwKICAgICAgICAgICAgICAgICAgICAgbm9ybSA9ICJxdWFudCIsIGZpbHRlciA9IFRSVUUpCnRjX3Jub3JtX2Rpc2hlYXQgPC0gcGxvdF9kaXNoZWF0KHRjX3Jub3JtKQpwcChmaWxlID0gImltYWdlcy90Y19ybm9ybV9kaXNoZWF0LnBuZyIsIGltYWdlID0gdGNfcm5vcm1fZGlzaGVhdCkKdGNfcm5vcm1fcGNhIDwtIHBsb3RfcGNhKHRjX3Jub3JtKQpwcChmaWxlID0gImltYWdlcy90Y19ybm9ybV9wY2EucG5nIiwgaW1hZ2UgPSB0Y19ybm9ybV9wY2EpCgp0Y19yYm5vcm0gPC0gbm9ybWFsaXplKHRjX3JlcGxpY2F0ZWQsIHRyYW5zZm9ybSA9ICJsb2cyIiwgY29udmVydCA9ICJjcG0iLAogICAgICAgICAgICAgICAgICAgICAgIGZpbHRlciA9IFRSVUUsIGJhdGNoID0gInN2YXNlcSIpCnRjX3N2YV9wY2EgPC0gcGxvdF9wY2EodGNfcmJub3JtKQpwcChmaWxlID0gImltYWdlcy90Y19zdmFfcGNhLnBuZyIsIGltYWdlID0gdGNfc3ZhX3BjYSkKCnRjX2Nibm9ybSA8LSBub3JtYWxpemUodGNfcmVwbGljYXRlZCwgdHJhbnNmb3JtID0gImxvZzIiLCBjb252ZXJ0ID0gImNwbSIsCiAgICAgICAgICAgICAgICAgICAgICAgZmlsdGVyID0gVFJVRSwgYmF0Y2ggPSAiY29tYmF0IikKdGNfY29tYmF0X3BjYSA8LSBwbG90X3BjYSh0Y19jYm5vcm0pCnBwKGZpbGUgPSAiaW1hZ2VzL3RjX2NvbWJhdF9wY2EucG5nIiwgaW1hZ2UgPSB0Y19jb21iYXRfcGNhKQpgYGAKCiMgRGlmZmVyZW50aWFsIEV4cHJlc3Npb24KCkkgYW0gbm90IHRoaW5raW5nIHdlIHdpbGwgc2VlIG1hbnkgZ2VuZXMgb2YgaW50ZXJlc3QuCgpgYGB7cn0KaHNfa2VlcGVycyA8LSBsaXN0KAogICJhYl92c19jb250cm9sIiA9IGMoIkFCMTAiLCAiY29udHJvbCIpLAogICJrb192c19jb250cm9sIiA9IGMoImtvNyIsICJjb250cm9sIiksCiAgImtvX3ZzX3d0IiA9IGMoImtvNyIsICJ3dCIpLAogICJhYl92c193dCIgPSBjKCJBQjEwIiwgInd0IiksCiAgImFiX3ZzX2tvIiA9IGMoIkFCMTAiLCAia283IikpCmhzX2RlIDwtIGFsbF9wYWlyd2lzZShoc19yZXBsaWNhdGVkLCBmaWx0ZXIgPSBUUlVFLCBtb2RlbF9mc3RyaW5nID0gIn4gMCArIGNvbmRpdGlvbiIsCiAgICAgICAgICAgICAgICAgICAgICBtb2RlbF9zdnMgPSAic3Zhc2VxIikKaHNfZGUKCmhzX3RhYmxlcyA8LSBjb21iaW5lX2RlX3RhYmxlcyhoc19kZSwga2VlcGVycyA9IGhzX2tlZXBlcnMsIGV4Y2VsID0gImV4Y2VsL2hzX3RhYmxlcy54bHN4IikKaHNfdGFibGVzCgpoc19zaWcgPC0gZXh0cmFjdF9zaWduaWZpY2FudF9nZW5lcyhoc190YWJsZXMsIGV4Y2VsID0gImV4Y2VsL2hzX3NpZy54bHN4IikKaHNfc2lnCmBgYAoKV2hpbGUgaXQgaXMgdHJ1ZSB0aGVyZSBhcmUgbm90IGEgdHJlbWVuZG91cyBudW1iZXIgb2YgZ2VuZXMsIGF0IGxlYXN0CnNvbWUgb2YgdGhlIGdyb3VwcyBhcmUgaW50ZXJlc3RpbmcuCgpgYGB7cn0KaHNfZ3AgPC0gYWxsX2dwcm9maWxlcihoc19zaWcpCmhzX2dwCmBgYAoKYGBge3J9CmNvbmRpdGlvbnModGNfcmVwbGljYXRlZCkKdGNfa2VlcGVycyA8LSBsaXN0KAogICJhYl92c193dCIgPSBjKCJBQjEwIiwgInd0IiksCiAgImtvX3ZzX3d0IiA9IGMoImtvNyIsICJ3dCIpLAogICJhYl92c19rbyIgPSBjKCJBQjEwIiwgImtvNyIpKQp0Y19kZSA8LSBhbGxfcGFpcndpc2UodGNfcmVwbGljYXRlZCwgZmlsdGVyID0gVFJVRSwgbW9kZWxfZnN0cmluZyA9ICJ+IDAgKyBjb25kaXRpb24iLAogICAgICAgICAgICAgICAgICAgICAgbW9kZWxfc3ZzID0gInN2YXNlcSIpCnRjX2RlCnRjX3RhYmxlcyA8LSBjb21iaW5lX2RlX3RhYmxlcyh0Y19kZSwga2VlcGVycyA9IHRjX2tlZXBlcnMsIGV4Y2VsID0gImV4Y2VsL3RjX3RhYmxlcy54bHN4IikKdGNfdGFibGVzCnRjX3NpZyA8LSBleHRyYWN0X3NpZ25pZmljYW50X2dlbmVzKHRjX3RhYmxlcywgZXhjZWwgPSAiZXhjZWwvdGNfc2lnLnhsc3giKQp0Y19zaWcKYGBgCgojIyBFeHRyYWN0IHRyYW5zLXNpYWxpZGFzZSBhbmQgbG9vawoKSSBvdWdodCB0byBiZSBhYmxlIHRvIHVzZSBteSBzZW1hbnRpYyBmaWx0ZXIgdG8gZXh0cmFjdCBhbnl0aGluZyB3aXRoCnNpYWxpZGFzZSBhbmQvb3IgdHJhbnMtc2lhbGlkYXNlIGdyb3VwIEkgYW5kIGxvb2sgZGlyZWN0bHkgYXQgdGhlCmV4cHJlc3Npb24gb2YgdGhlc2UgZ2VuZXMuICBNeSBoeXBvdGhlc2lzIGlzIHRoYXQgaWYgdGhlIENSSVNQUgpleHBlcmltZW50IHdvcmtlZCBhcyBpbnRlbmRlZCwgdGhlc2UgZ2VuZXMgc2hvdWxkIGFsbCBoYXZlIGRlY3JlYXNlZApleHByZXNzaW9uLgoKYGBge3J9CmFsbF90cyA8LSBzZW1hbnRpY19maWx0ZXIodGNfcmVwbGljYXRlZCwgaW52ZXJ0ID0gVFJVRSwgc2VtYW50aWMgPSBjKCJ0cmFucy1zaWFsaWRhc2UiKSwKICAgICAgICAgICAgICAgICAgICAgICAgICBzZW1hbnRpY19jb2x1bW4gPSAiYW5ub3RfdHJhbnNjcmlwdF9wcm9kdWN0IikKYWxsX3RzX25vcm0gPC0gbm9ybWFsaXplKGFsbF90cywgdHJhbnNmb3JtID0gImxvZzIiLCBjb252ZXJ0ID0gImNwbSIpCmFsbF90c19ub3JtX2hlYXQgPC0gcGxvdF9zYW1wbGVfaGVhdG1hcChhbGxfdHNfbm9ybSkKcHAoZmlsZSA9ICJpbWFnZXMvYWxsX3RzX25vcm1faGlzYXRfaGVhdG1hcC5wbmciKQphbGxfdHNfbm9ybV9oZWF0CmRldi5vZmYoKQphbGxfdHNfbm9ybV9oZWF0CgphbGxfdHNfc2FsIDwtIHNlbWFudGljX2ZpbHRlcih0Y3NhbF9yZXBsaWNhdGVkLCBpbnZlcnQgPSBUUlVFLCBzZW1hbnRpYyA9IGMoInRyYW5zLXNpYWxpZGFzZSIpLAogICAgICAgICAgICAgICAgICAgICAgICAgIHNlbWFudGljX2NvbHVtbiA9ICJhbm5vdF90cmFuc2NyaXB0X3Byb2R1Y3QiKQphbGxfdHNfc2FsX25vcm0gPC0gbm9ybWFsaXplKGFsbF90c19zYWwsIHRyYW5zZm9ybSA9ICJsb2cyIiwgY29udmVydCA9ICJjcG0iKQphbGxfdHNfc2FsX25vcm1faGVhdCA8LSBwbG90X3NhbXBsZV9oZWF0bWFwKGFsbF90c19zYWxfbm9ybSkKcHAoZmlsZSA9ICJpbWFnZXMvYWxsX3RzX25vcm1fc2FsbW9uX2hlYXRtYXAucG5nIikKYWxsX3RzX3NhbF9ub3JtX2hlYXQKZGV2Lm9mZigpCmFsbF90c19zYWxfbm9ybV9oZWF0CmBgYAoKVGhlIGdyb3VwLUkgVFMgZ2VuZXMgYXJlIG5vdCBvYnZpb3VzIGluIHRoaXMgZ3JvdXAsIGxldCB1cyB5YW5rIHRoZW0Kb3V0IGV4cGxpY2l0bHkgYW5kIHNlZS4KCk5vdGUsIHRoZSBmb2xsb3dpbmcgaXMgYSBsaXR0bGUgYml0IHdyb25nIGluIHRoaW5raW5nIGJlY2F1c2UKc2VhcmNoaW5nIGZvciAnR3JvdXAgSScgd2lsbCBwaWNrIHVwIGFsbCBnZW5lcyBmcm9tIEdyb3VwIEksIElJLCBJSUksCmFuZCBJVi4gIFRoZSBuZXh0IHN0YW56YSB3aWxsIGV4dHJhY3QganVzdCB0aGUgSURzIG9mIGludGVyZXN0LgoKYGBge3J9CmcxX3RzIDwtIHNlbWFudGljX2ZpbHRlcihhbGxfdHMsIGludmVydCA9IFRSVUUsIHNlbWFudGljID0gYygiR3JvdXAgSSIpLAogICAgICAgICAgICAgICAgICAgICAgICAgc2VtYW50aWNfY29sdW1uID0gImFubm90X3RyYW5zY3JpcHRfcHJvZHVjdCIpCmcxX3RzX3NhbCA8LSBzZW1hbnRpY19maWx0ZXIoYWxsX3RzX3NhbCwgaW52ZXJ0ID0gVFJVRSwgc2VtYW50aWMgPSBjKCJHcm91cCBJIiksCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgc2VtYW50aWNfY29sdW1uID0gImFubm90X3RyYW5zY3JpcHRfcHJvZHVjdCIpCmBgYAoKVGhlcmUgaXMgYSBwcmV0dHkgc2lnbmlmaWNhbnQgaW5jcmVhc2UgaW4gYSBmZXcgQUIgc2FtcGxlcywgcGVyaGFwcwp0aG9zZSBhcmUgaW4gdGhlIGxpc3Qgb2YgMTkgc3BlY2lmaWMgZ2VuZXM/ICBMZXQgdXMgZmluZCBvdXQuCgpgYGB7cn0KZXhwZWN0ZWRfdHMgPC0gc3Vic2V0X2dlbmVzKGcxX3RzLCBpZHMgPSBleHBlY3RlZF9sb3dlciwgbWV0aG9kID0gImtlZXAiKQpleHBlY3RlZF9ub3JtIDwtIG5vcm1hbGl6ZShleHBlY3RlZF90cywgdHJhbnNmb3JtID0gImxvZzIiLCBjb252ZXJ0ID0gImNwbSIpCmcxX3RzX2hpc2F0X25vcm1faGVhdCA8LSBwbG90X3NhbXBsZV9oZWF0bWFwKGV4cGVjdGVkX25vcm0pCnBwKGZpbGUgPSAiaW1hZ2VzL2cxX3RzX2hpc2F0X25vcm1faGVhdC5wbmciKQpnMV90c19oaXNhdF9ub3JtX2hlYXQKZGV2Lm9mZigpCmcxX3RzX2hpc2F0X25vcm1faGVhdAoKc2FsX2V4cGVjdGVkIDwtIHBhc3RlMChleHBlY3RlZF9sb3dlciwgIjptUk5BIikKZXhwZWN0ZWRfdHNfc2FsIDwtIHN1YnNldF9nZW5lcyhnMV90c19zYWwsIGlkcyA9IHNhbF9leHBlY3RlZCwgbWV0aG9kID0gImtlZXAiKQpleHBlY3RlZF9zYWxfbm9ybSA8LSBub3JtYWxpemUoZXhwZWN0ZWRfdHNfc2FsLCB0cmFuc2Zvcm0gPSAibG9nMiIsIGNvbnZlcnQgPSAiY3BtIikKZzFfdHNfc2FsbW9uX25vcm1faGVhdCA8LSBwbG90X3NhbXBsZV9oZWF0bWFwKGV4cGVjdGVkX3NhbF9ub3JtKQpwcChmaWxlID0gImltYWdlcy9nMV90c19zYWxtb25fbm9ybV9oZWF0LnBuZyIpCmcxX3RzX3NhbG1vbl9ub3JtX2hlYXQKZGV2Lm9mZigpCmcxX3RzX3NhbG1vbl9ub3JtX2hlYXQKYGBgCgojIFRyeSBzb21lIG9udG9sb2d5IHNlYXJjaGluZyB2aWEgY2x1c3RlclByb2ZpbGVyCgpXZSBjYW5ub3QgdXNlIGdQcm9maWxlcjIgd2l0aCB0aGUgcGFyYXNpdGUgYmVjYXVzZSBpdCBpcyBub3QgYQpyZWZlcmVuY2Ugc3BlY2llczsgYnV0IG90aGVyIG9udG9sb2d5IG1ldGhvZHMgYXJlIG5vdCBjb25zdHJhaW5lZAp0aHVzLiAgSW4gdGhlIGNhc2Ugb2YgY2x1c3RlclByb2ZpbGVyLCB0aGVyZSBpcyBhbm90aGVyIGNvbnN0cmFpbnQsIEkKZG8gbm90IGhhdmUgYSBzaW5nbGUgb3JnREIgb2JqZWN0IHdoaWNoIGNvbXByaXNlcwpFc21lci9Ob25Fc21lci9VbmFzc2lnbmVkOyBhcyBhIHJlc3VsdCBJIG11c3QgYXR0ZW1wdCB0aGUgb250b2xvZ3kKc2VhcmNoIG9uIHRoZSBoYXBsb3R5cGVzIHNlcGFyYXRlbHkuCgpgYGB7cn0Ka29fd3RfdXAgPC0gdGNfc2lnW1siZGVzZXEiXV1bWyJ1cHMiXV1bWyJrb192c193dCJdXQprb193dF9kb3duIDwtIHRjX3NpZ1tbImRlc2VxIl1dW1siZG93bnMiXV1bWyJrb192c193dCJdXQprb193dF9hbGwgPC0gdGNfdGFibGVzW1siZGF0YSJdXVtbImtvX3ZzX3d0Il1dCmFiX2tvX3VwIDwtIHRjX3NpZ1tbImRlc2VxIl1dW1sidXBzIl1dW1siYWJfdnNfa28iXV0KYWJfa29fZG93biA8LSB0Y19zaWdbWyJkZXNlcSJdXVtbImRvd25zIl1dW1siYWJfdnNfa28iXV0KYWJfa29fYWxsIDwtIHRjX3RhYmxlc1tbImRhdGEiXV1bWyJhYl92c19rbyJdXQoKdGNfZXNtZXJfdXBfY3AgPC0gc2ltcGxlX2NsdXN0ZXJwcm9maWxlcigKICBrb193dF91cCwgZGVfdGFibGUgPSBrb193dF9hbGwsIG9yZ2RiID0gZXNtZXJfZGIsIG9yZ2RiX3RvID0gIkdJRCIsCiAgb3JnYW5pc20gPSAidGNydXppIiwgZXhjZWwgPSAiZXhjZWwva29fd3RfdXBfY3BfZXNtZXIueGxzeCIpCnRjX25vbmVzbWVyX3VwX2NwIDwtIHNpbXBsZV9jbHVzdGVycHJvZmlsZXIoCiAga29fd3RfdXAsIGRlX3RhYmxlID0ga29fd3RfYWxsLCBvcmdkYiA9IG5vbmVzbWVyX2RiLCBvcmdkYl90byA9ICJHSUQiLAogIG9yZ2FuaXNtID0gInRjcnV6aSIsIGV4Y2VsID0gImV4Y2VsL2tvX3d0X3VwX2NwX25vbmVzbWVyLnhsc3giKQp0Y191bmFzX3VwX2NwIDwtIHNpbXBsZV9jbHVzdGVycHJvZmlsZXIoCiAga29fd3RfdXAsIGRlX3RhYmxlID0ga29fd3RfYWxsLCBvcmdkYiA9IHVuYXNfZGIsIG9yZ2RiX3RvID0gIkdJRCIsCiAgb3JnYW5pc20gPSAidGNydXppIikKdGNfZXNtZXJfdXBfY3AKCgp0Y19lc21lcl9kb3duX2NwIDwtIHNpbXBsZV9jbHVzdGVycHJvZmlsZXIoCiAga29fd3RfZG93biwgZGVfdGFibGUgPSBrb193dF9hbGwsIG9yZ2RiID0gZXNtZXJfZGIsIG9yZ2RiX3RvID0gIkdJRCIsCiAgb3JnYW5pc20gPSAidGNydXppIiwgZXhjZWwgPSAiZXhjZWwva29fd3RfZG93bl9jcF9lc21lci54bHN4IikKdGNfbm9uZXNtZXJfZG93bl9jcCA8LSBzaW1wbGVfY2x1c3RlcnByb2ZpbGVyKAogIGtvX3d0X2Rvd24sIGRlX3RhYmxlID0ga29fd3RfYWxsLCBvcmdkYiA9IG5vbmVzbWVyX2RiLCBvcmdkYl90byA9ICJHSUQiLAogIG9yZ2FuaXNtID0gInRjcnV6aSIsIGV4Y2VsID0gImV4Y2VsL2tvX3d0X2Rvd25fY3Bfbm9uZXNtZXIueGxzeCIpCnRjX3VuYXNfZG93bl9jcCA8LSBzaW1wbGVfY2x1c3RlcnByb2ZpbGVyKAogIGtvX3d0X2Rvd24sIGRlX3RhYmxlID0ga29fd3RfYWxsLCBvcmdkYiA9IHVuYXNfZGIsIG9yZ2RiX3RvID0gIkdJRCIsCiAgb3JnYW5pc20gPSAidGNydXppIikKdGNfZXNtZXJfZG93bl9jcAoKbGVuZ3RoX2RiIDwtIGFzLmRhdGEuZnJhbWUocm93RGF0YSh0Y19zZSkpCmxlbmd0aF9kYltbImdpZCJdXSA8LSByb3duYW1lcyhsZW5ndGhfZGIpCmxlbmd0aF9kYiA8LSBsZW5ndGhfZGJbLCBjKCJnaWQiLCAid2lkdGgiKV0KdGNfdXBfZ3MgPC0gc2ltcGxlX2dvc2VxKGtvX3d0X3VwLCBnb19kYiA9IHRjX2dvLCBsZW5ndGhfZGIgPSBsZW5ndGhfZGIsIG1pbl94cmVmID0gMTApCm1mX2VuciA8LSB0Y191cF9nc1tbIm1mX2VucmljaCJdXQptZl9wbG90cyA8LSBwbG90X2VucmljaHJlc3VsdChtZl9lbnIpCm1mX3Bsb3RzW1sidHJlZSJdXQpwcChmaWxlID0gImltYWdlcy9oaWdoZXJfa29fZ29zZXFfbWYucG5nIiwgaW1hZ2UgPSBtZl9wbG90c1tbInRyZWUiXV0pCmJwX2VuciA8LSB0Y191cF9nc1tbImJwX2VucmljaCJdXQpicF9wbG90cyA8LSBwbG90X2VucmljaHJlc3VsdChicF9lbnIpCmJwX3Bsb3RzW1siZG90Il1dCmBgYAoKTm93IGNoZWNrIHRoZSBwb3NpdGlvbiBvZiB0aGUgZXhwZWN0ZWQgbG93ZXIgZXhwcmVzc2lvbiBnZW5lcyBpbiB0aGUKY29udGV4dCBvZiBhbGwgZ2VuZXMgY29tcGFyZWQgdG8gd3QuCgpgYGB7cn0KbWVzc2FnZSgiUHVsbCB0aGUga29fd3RfYWxsIHRhYmxlIGFuZCBzZWUgd2hlcmUgZXhwZWN0ZWRfbG93ZXIgY29tcGFyZXMuIikKYGBgCgojIFRyeSB3aXRob3V0IHJvdW5kIDMKCmBgYHtyfQpoc19kdXBsaWNhdGUgPC0gc3Vic2V0X3NlKGhzX3JlcGxpY2F0ZWQsIHN1YnNldCA9ICJyb3VuZCE9J3IzJyIpCnRjX2R1cGxpY2F0ZSA8LSBzdWJzZXRfc2UodGNfcmVwbGljYXRlZCwgc3Vic2V0ID0gInJvdW5kIT0ncjMnIikKCmhzX2R1cF9kZSA8LSBhbGxfcGFpcndpc2UoaHNfZHVwbGljYXRlLCBmaWx0ZXIgPSBUUlVFLAogICAgICAgICAgICAgICAgICAgICAgICAgIG1vZGVsX2ZzdHJpbmcgPSAifiAwICsgY29uZGl0aW9uICsgYmF0Y2giLCBtb2RlbF9zdnMgPSBGQUxTRSkKaHNfZHVwX2RlCmhzX2R1cF90YWJsZSA8LSBjb21iaW5lX2RlX3RhYmxlcyhoc19kdXBfZGUsIGV4Y2VsID0gZ2x1ZSgiZXhjZWwvaHNfZHVwX2RlX3RhYmxlLXZ7dmVyfS54bHN4IikpCmhzX2R1cF9zaWcgPC0gZXh0cmFjdF9zaWduaWZpY2FudF9nZW5lcyhoc19kdXBfdGFibGUsIGV4Y2VsID0gZ2x1ZSgiZXhjZWwvaHNfZHVwX2RlX3NpZy12e3Zlcn0ueGxzeCIpKQpoc19kdXBfc2lnCgp0Y19kdXBfZGUgPC0gYWxsX3BhaXJ3aXNlKHRjX2R1cGxpY2F0ZSwgZmlsdGVyID0gVFJVRSwKICAgICAgICAgICAgICAgICAgICAgICAgICBtb2RlbF9mc3RyaW5nID0gIn4gMCArIGNvbmRpdGlvbiIsIG1vZGVsX3N2cyA9ICJzdmFzZXEiKQp0Y19kdXBfZGUKdGNfZHVwX3RhYmxlIDwtIGNvbWJpbmVfZGVfdGFibGVzKHRjX2R1cF9kZSwgZXhjZWwgPSBnbHVlKCJleGNlbC90Y19kdXBfZGVfdGFibGUtdnt2ZXJ9Lnhsc3giKSkKdGNfZHVwX3RhYmxlCnRjX2R1cF9zaWcgPC0gZXh0cmFjdF9zaWduaWZpY2FudF9nZW5lcyh0Y19kdXBfdGFibGUsIGV4Y2VsID0gZ2x1ZSgiZXhjZWwvdGNfZHVwX2RlX3NpZy12e3Zlcn0ueGxzeCIpKQp0Y19kdXBfc2lnCmBgYAoKSW52b2tlIGdvc2VxL2NsdXN0ZXJwcm9maWxlciBvbiB0aGVzZSBnZW5lcy4KCmBgYHtyfQp0Y19nb3NlcSA8LSBhbGxfZ29zZXEodGNfZHVwX3NpZywgZ29fZGIgPSB0Y19nbywgbGVuZ3RoX2RiID0gdGNfbGVuZ3RoKQpgYGAKCkNoZWNrIGV4cHJlc3Npb24gb2YgZ2VuZXMgZXhwZWN0ZWQgdG8gYmUgbG93ZXIKCmBgYHtyfQpleHBlY3RlZF9zZSA8LSBzdWJzZXRfc2UodGNfc2UsIGlkcyA9IGV4cGVjdGVkX2xvd2VyKQpgYGAKCiMgTTEzIHdhcyB1c2VkIHRvIG1hcmsgdGhlIENSSVNQUiBQVENzCgpBIG5pY2UgZGV0YWlsIGNhbWUgb3V0IHRvZGF5LCB0aGUgUFRDcyBpbnRyb2R1Y2VkIGJ5IENSSVNQUiBpbmNsdWRlZApNMTM7IEkgdW5mb3J0dW5hdGVseSBkaWQgbm90IHRoaW5rIHRvIGFzayB3aGljaCBwcmltZXIsIGJ1dCBJIHNob3VsZApiZSBhYmxlIHRvIGZpZ3VyZSB0aGF0IG91dCB0cml2aWFsbHk6CgoqIE0xMyBmb3J3YXJkIC0yMDogR1RBQUFBQ0dBQ0dHQ0NBR1RHCiogTTEzIGZvcndhcmQgLTQxOiBHR1RUVFRDQ0NBR1RDQUNHQUMKKiBNMTMgcmV2ZXJzZSAtMjc6IEdHQUFBQ0FHQ1RBVEdBQ0NBVEcKKiBNMTMgcmV2ZXJzZSAtNDg6IEFHQ0dHQVRBQUNBQVRUVENBQ0FDCgpTdGFydCBieSBjaGVja2luZyBhbiBhcmJpdHJhcnkga28gc2FtcGxlLCBJIHNob3VsZCBzZWUgYSBidW5jaCBvZgpyZWFkcyB3aXRoIGF0IGxlYXN0IG9uZSBvZiB0aGUgYWJvdmUuCgpgYGB7YmFzaCwgZXZhbD1GQUxTRX0KY2QgcHJlcHJvY2Vzc2luZy8wNl9IZUxhX0tPN182MGhwaQp4emdyZXAgR1RBQUFBQ0dBQ0dHQ0NBR1RHIG91dHB1dHMvMjAyNTEwMzF0cmltb21hdGljLzA2X0hlTGFfS083XzYwaHBpXzJfUzNfUjFfMDAxLXRyaW1tZWQuZmFzdHEueHogfCB3YwojIyBNMTMgZm9yd2FyZCAtMjAgdnMuIFIxOiAwIGhpdHMKeHpncmVwIENBQ1RHR0NDR1RDR1RUVFRBQyBvdXRwdXRzLzIwMjUxMDMxdHJpbW9tYXRpYy8wNl9IZUxhX0tPN182MGhwaV8yX1MzX1IxXzAwMS10cmltbWVkLmZhc3RxLnh6IHwgd2MKIyMgTTEzIGZvcndhcmQgLTIwIFJDIHZzLiBSMTogMjAgaGl0cwoKeHpncmVwIEdUQUFBQUNHQUNHR0NDQUdURyBvdXRwdXRzLzIwMjUxMDMxdHJpbW9tYXRpYy8wNl9IZUxhX0tPN182MGhwaV8yX1MzX1IyXzAwMS10cmltbWVkLmZhc3RxLnh6IHwgd2MKIyMgTTEzIGZvcndhcmQgLTIwIHZzIFIyOiA3NSBoaXRzCnh6Z3JlcCBDQUNUR0dDQ0dUQ0dUVFRUQUMgb3V0cHV0cy8yMDI1MTAzMXRyaW1vbWF0aWMvMDZfSGVMYV9LTzdfNjBocGlfMl9TM19SMl8wMDEtdHJpbW1lZC5mYXN0cS54eiB8IHdjCiMjIE0xMyBmb3J3YXJkIC0yMCBSQyB2cyBSMjogMCBoaXRzCgoKCnh6Z3JlcCBHR1RUVFRDQ0NBR1RDQUNHQUMgb3V0cHV0cy8yMDI1MTAzMXRyaW1vbWF0aWMvMDZfSGVMYV9LTzdfNjBocGlfMl9TM19SMV8wMDEtdHJpbW1lZC5mYXN0cS54eiB8IHdjCiMjIE0xMyBmb3J3YXJkIC00MSB2cyBSMTogMTEgaGl0cwp4emdyZXAgR1RDR1RHQUNUR0dHQUFBQUNDIG91dHB1dHMvMjAyNTEwMzF0cmltb21hdGljLzA2X0hlTGFfS083XzYwaHBpXzJfUzNfUjFfMDAxLXRyaW1tZWQuZmFzdHEueHogfCB3YwojIyBNMTMgZm9yd2FyZCBSQyAtNDEgdnMgUjE6Cgp4emdyZXAgR0dUVFRUQ0NDQUdUQ0FDR0FDIG91dHB1dHMvMjAyNTEwMzF0cmltb21hdGljLzA2X0hlTGFfS083XzYwaHBpXzJfUzNfUjJfMDAxLXRyaW1tZWQuZmFzdHEueHogfCB3YwojIyBNMTMgZm9yd2FyZCAtNDEgdnMgUjI6IDEyCnh6Z3JlcCBHVENHVEdBQ1RHR0dBQUFBQ0Mgb3V0cHV0cy8yMDI1MTAzMXRyaW1vbWF0aWMvMDZfSGVMYV9LTzdfNjBocGlfMl9TM19SMl8wMDEtdHJpbW1lZC5mYXN0cS54eiB8IHdjCiMjIE0xMyBmb3J3YXJkIC00MSBSQyB2cyBSMjogOAoKCgp4emdyZXAgR0dBQUFDQUdDVEFUR0FDQ0FURyBvdXRwdXRzLzIwMjUxMDMxdHJpbW9tYXRpYy8wNl9IZUxhX0tPN182MGhwaV8yX1MzX1IxXzAwMS10cmltbWVkLmZhc3RxLnh6IHwgd2MKIyMgIE0xMyByZXZlcnNlIC0yNyB2cyBSMTogNTQKeHpncmVwIENBVEdHVENBVEFHQ1RHVFRUQ0Mgb3V0cHV0cy8yMDI1MTAzMXRyaW1vbWF0aWMvMDZfSGVMYV9LTzdfNjBocGlfMl9TM19SMV8wMDEtdHJpbW1lZC5mYXN0cS54eiB8IHdjCiMjIE0xMyByZXZlcnNlIC0yNyBSQyB2cyBSMTogMAoKeHpncmVwIEdHQUFBQ0FHQ1RBVEdBQ0NBVEcgb3V0cHV0cy8yMDI1MTAzMXRyaW1vbWF0aWMvMDZfSGVMYV9LTzdfNjBocGlfMl9TM19SMl8wMDEtdHJpbW1lZC5mYXN0cS54eiB8IHdjCiMjICBNMTMgcmV2ZXJzZSAtMjcgdnMgUjE6IDAKeHpncmVwIENBVEdHVENBVEFHQ1RHVFRUQ0Mgb3V0cHV0cy8yMDI1MTAzMXRyaW1vbWF0aWMvMDZfSGVMYV9LTzdfNjBocGlfMl9TM19SMl8wMDEtdHJpbW1lZC5mYXN0cS54eiB8IHdjCiMjIE0xMyByZXZlcnNlIC0yNyBSQyB2cyBSMTogMTA0CgoKCnh6Z3JlcCBBR0NHR0FUQUFDQUFUVFRDQUNBQyAgb3V0cHV0cy8yMDI1MTAzMXRyaW1vbWF0aWMvMDZfSGVMYV9LTzdfNjBocGlfMl9TM19SMV8wMDEtdHJpbW1lZC5mYXN0cS54eiB8IHdjCiMjIE0xMyByZXZlcnNlIC00OCB2cyBSMTogMjg2Cnh6Z3JlcCBHVEdUR0FBQVRUR1RUQVRDQ0dDVCAgb3V0cHV0cy8yMDI1MTAzMXRyaW1vbWF0aWMvMDZfSGVMYV9LTzdfNjBocGlfMl9TM19SMV8wMDEtdHJpbW1lZC5mYXN0cS54eiB8IHdjCiMjIE0xMyByZXZlcnNlIC00OCBSQyB2cyBSMTogMAoKeHpncmVwIEFHQ0dHQVRBQUNBQVRUVENBQ0FDICBvdXRwdXRzLzIwMjUxMDMxdHJpbW9tYXRpYy8wNl9IZUxhX0tPN182MGhwaV8yX1MzX1IyXzAwMS10cmltbWVkLmZhc3RxLnh6IHwgd2MKIyMgTTEzIHJldmVyc2UgLTQ4IHZzIFIyOiAwCnh6Z3JlcCBHVEdUR0FBQVRUR1RUQVRDQ0dDVCAgb3V0cHV0cy8yMDI1MTAzMXRyaW1vbWF0aWMvMDZfSGVMYV9LTzdfNjBocGlfMl9TM19SMl8wMDEtdHJpbW1lZC5mYXN0cS54eiB8IHdjCiMjIE0xMyByZXZlcnNlIC00OCBSQyB2cyBSMjogOTAgaGl0cwpgYGAKCkNvZGlmeSB0aGUgYWJvdmU6IEkgd3JvdGUgYSBxdWljayB0YXJnZXQgaW4gY3lvYSB0byBzZWVrIG91dCB0aGVzZQpzZXF1ZW5jZXMgYW5kIGV4dHJhY3QgdGhlIG90aGVyIHJlYWQsIGUuZy4gaWYgUjEgaGFzIG9uZSBvZiB0aGVzZQpzZXF1ZW5jZXMsIGl0IHdpbGwgcHVsbCBvdXQgUjIgYW5kIHdyaXRlIGl0IHRvIGEgc2VwYXJhdGUgZmFzdHEgZmlsZS4KCmBgYHtiYXNoLCBldmFsPUZBTFNFfQpzZXF1ZW5jZXM9IkdUQUFBQUNHQUNHR0NDQUdURzpHR1RUVFRDQ0NBR1RDQUNHQUM6R0dBQUFDQUdDVEFUR0FDQ0FURzpBR0NHR0FUQUFDQUFUVFRDQUNBQyIKc2FtcGxlcz0kKC9iaW4vbHMgLWQgWzAtOV0qKQpmb3IgcyBpbiAke3NhbXBsZXN9OyBkbwogICAgcHVzaGQgJHMKICAgIGlucHV0PSQoL2Jpbi9scyBvdXRwdXRzLyp0cmltb21hdGljLypfUjEqLXRyaW1tZWQuZmFzdHEueHopCiAgICBsaWJyYXJ5PSQoL2Jpbi9scyBvdXRwdXRzLyp0cmltb21hdGljLypfUjIqLXRyaW1tZWQuZmFzdHEueHopCiAgICBjeW9hIC0tbWV0aG9kIGdldG90aGVyIC0taW5wdXQgJGlucHV0IC0tbGlicmFyeSAkbGlicmFyeSAtLXF1ZXJ5ICRzZXF1ZW5jZXMKICAgIHBvcGQKZG9uZQpgYGAKCkkgcmFuIHRoZSBhYm92ZSBhbmQgd2FzIHBsZWFzZWQgdG8gc2VlIHRoYXQgb25seSB0aGUgS08gYW5kIEFCIHNhbXBsZXMKY29udGFpbiBhbnkgTTEzIHNlcXVlbmNlLiAgSSB0aGVuIGRpZCBhIGxpdHRsZSBhcmJpdHJhcnkgQkxBU1Rpbmcgb2YKdGhlIG90aGVyIHJlYWRzLiAgV2VpcmRseSwgbW9zdCBvZiB0aGUgaGl0cyB3ZXJlIHRvIEdBUERILCBidXQgdGhlCnNlY29uZCByZWFkIEkgcHVsbGVkIGFsaWduZWQgdG8gVGMwMC4xMDQ3MDUzNTA5MDY1LjUwLCB3aGljaCBpcyBhCnN5bm9ueW0gZm9yIFRjQ0xCLjUwOTA2NS41MCAofiA4MDAsMDAwIG9uIFRjQ2hyMzItUCkKCkkgdGhlbiBzdGFydGVkIHNlYXJjaGluZyB0aHJvdWdoIHRoZSBzZXQgb2YgcmVhZHMgZXh0cmFjdGVkIHRvIHNlZSBpZgpJIGNhbiBmaW5kIHdoZXJlIHRoZSBNMTMgc2VxdWVuY2VzIGxpdmUuICBJIGhhdmUgYSBzY3JlZW5zaG90IGZyb20gSUdWCnN1Z2dlc3RpbmcgdGhhdCBtYW55L21vc3QvYWxsIG9mIHRoZW0gYXJlIGFkamFjZW50IHRvIEdBUERIIG9uCmNocm9tb3NvbWUgMzJQLgoKIyBNdWx0aSBnZW5lIGZhbWlsaWVzCgpJIGRlY2lkZWQgdG8gY2hlY2sgYW5kIHNlZSB0aGUgZGVncmVlIHRvIHdoaWNoIHRoZXNlIGdlbmVzIHNob3VsZChub3QpCmJlIGV4cGVjdGVkIHRvIG1hcCBjbGVhbmx5IGR1ZSB0byBiZWluZyBtZW1iZXJzIG9mIGEgc3ByYXdsaW5nCm11bHRpLWdlbmUgZmFtaWx5LiAgSSB0aGVyZWZvcmUgZXh0cmFjdGVkIGFsbCBnZW5lcyBhbm5vdGF0ZWQgd2l0aAonc2lhbGlkYXNlJyBhbmQgZnJvbSB0aGVtIGV4dHJhY3RlZCB0aGUgZ3JvdXAgSSBtZW1iZXJzLiAgSW4KaW1hZ2VzL2dyb3VwSV9zaWFsaWRhc2VfcGh5TUxfdHJlZS5zdmcgcmVzaWRlcyB0aGUgcmVzdWx0aW5nIHRyZWUuClRoZXkgYXJlIG5vdCBzbyBzaW1pbGFyIGFzIEkgZmVhcmVkLgoKTGV0IHVzIHRha2UgYSBtb21lbnQgYW5kIGxvb2sgYXQgYSBrbWVyIHRyZWUgb2YgdGhlIDE1MjQgZ3JvdXB4CnRyYW5zLXNpYWxpZGFzZSBnZW5lcy4KCmBgYHtyfQp0c19rbWVycyA8LSBDRFNfa21lcl9kaXN0KGRpcmVjdG9yeSA9ICJrbWVyIikKYGBgCgoKYGBge3Igc2F2ZW1lLCBldmFsPUZBTFNFfQpwYW5kZXI6OnBhbmRlcihzZXNzaW9uSW5mbygpKQptZXNzYWdlKHBhc3RlMCgiVGhpcyBpcyBocGdsdG9vbHMgY29tbWl0OiAiLCBnZXRfZ2l0X2NvbW1pdCgpKSkKbWVzc2FnZShwYXN0ZTAoIlNhdmluZyB0byAiLCBzYXZlZmlsZSkpCnRtcCA8LSBzbShzYXZlbWUoZmlsZW5hbWUgPSBzYXZlZmlsZSkpCmBgYAoKYGBge3IgbG9hZG1lX2FmdGVyLCBldmFsPUZBTFNFfQp0bXAgPC0gbG9hZG1lKGZpbGVuYW1lID0gc2F2ZWZpbGUpCmBgYAo=

Examining some cruzi infected HeLa cells.

atb abelew@gmail.com

2026-04-16