from k1lib.imports import *


cat("covid.gb") | headOut()

LOCUS       NC_045512              29903 bp ss-RNA     linear   VRL 18-JUL-2020
DEFINITION  Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1,
            complete genome.
ACCESSION   NC_045512
VERSION     NC_045512.2
DBLINK      BioProject: PRJNA485481
KEYWORDS    RefSeq.
SOURCE      Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2)
  ORGANISM  Severe acute respiratory syndrome coronavirus 2
            Viruses; Riboviria; Orthornavirae; Pisuviricota; Pisoniviricetes;


cat("covid.gb") | rows()[-10:] | headOut()

    29341 tattgacgca tacaaaacat tcccaccaac agagcctaaa aaggacaaaa agaagaaggc
    29401 tgatgaaact caagccttac cgcagagaca gaagaaacag caaactgtga ctcttcttcc
    29461 tgctgcagat ttggatgatt tctccaaaca attgcaacaa tccatgagca gtgctgactc
    29521 aactcaggcc taaactcatg cagaccacac aaggcagatg ggctatataa acgttttcgc
    29581 ttttccgttt acgatatata gtctactctt gtgcagaatg aattctcgta actacatagc
    29641 acaagtagat gtagttaact ttaatctcac atagcaatct ttaatcagtg tgtaacatta
    29701 gggaggactt gaaagagcca ccacattttc accgaggcca cgcggagtac gatcgagtgt
    29761 acagtgaaca atgctaggga gagctgccta tatggaagag ccctaatgtg taaaattaat
    29821 tttagtagtg ctatccccat gtgattttaa tagcttctta ggagaatgac aaaaaaaaaa
    29881 aaaaaaaaaa aaaaaaaaaa aaa


cat("covid.gb") | grep("ORIGIN", after=1e9) | headOut(3)

ORIGIN      
        1 attaaaggtt tataccttcc caggtaacaa accaaccaac tttcgatctc ttgtagatct
       61 gttctctaaa cgaactttaa aatctgtgtg gctgtcactc ggctgcatgc ttagtgcact


cat("covid.gb") | grep("ORIGIN", after=1e9) | ~head(1) | op().strip().all() | op().split(" ").all() | cut()[1:] | join("").all() | join("") | op()[:100]

'attaaaggtttataccttcccaggtaacaaaccaaccaactttcgatctcttgtagatctgttctctaaacgaactttaaaatctgtgtggctgtcactc'


# hide behind a wrapper cause I get annoyed at Jupyter Lab's contextual help displaying the huge text
nt = k1lib.Wrapper(cat("covid.gb") | gb.origin())
nt()[:100]

'attaaaggtttataccttcccaggtaacaaaccaaccaactttcgatctcttgtagatctgttctctaaacgaactttaaaatctgtgtggctgtcactc'


cat("covid.gb") | grep("FEATURES", after=1e9) | headOut(20)

FEATURES             Location/Qualifiers
     source          1..29903
                     /organism="Severe acute respiratory syndrome coronavirus
                     2"
                     /mol_type="genomic RNA"
                     /isolate="Wuhan-Hu-1"
                     /host="Homo sapiens"
                     /db_xref="taxon:2697049"
                     /country="China"
                     /collection_date="Dec-2019"
     5'UTR           1..265
     gene            266..21555
                     /gene="ORF1ab"
                     /locus_tag="GU280_gp01"
                     /db_xref="GeneID:43740578"
     CDS             join(266..13468,13468..21555)
                     /gene="ORF1ab"
                     /locus_tag="GU280_gp01"
                     /ribosomal_slippage
                     /note="pp1ab; translated by -1 ribosomal frameshift"


feats = cat("covid.gb") | gb.feats() | deref()
feats | rows()[:3] | deref()

[['     source          1..29903',
  '                     /organism="Severe acute respiratory syndrome coronavirus',
  '                     2"',
  '                     /mol_type="genomic RNA"',
  '                     /isolate="Wuhan-Hu-1"',
  '                     /host="Homo sapiens"',
  '                     /db_xref="taxon:2697049"',
  '                     /country="China"',
  '                     /collection_date="Dec-2019"'],
 ["     5'UTR           1..265"],
 ['     gene            266..21555',
  '                     /gene="ORF1ab"',
  '                     /locus_tag="GU280_gp01"',
  '                     /db_xref="GeneID:43740578"']]


feats | gb.feats.filt("frameshift", "CDS") | item() | headOut()

     CDS             join(266..13468,13468..21555)
                     /gene="ORF1ab"
                     /locus_tag="GU280_gp01"
                     /ribosomal_slippage
                     /note="pp1ab; translated by -1 ribosomal frameshift"
                     /codon_start=1
                     /product="ORF1ab polyprotein"
                     /protein_id="YP_009724389.1"
                     /db_xref="GeneID:43740578"
                     /translation="MESLVPGFNEKTHVQLSLPVLQVRDVLVRGFGDSVEEVLSEARQ


orf1ab = feats | gb.feats.filt("frameshift", "CDS") | item() | gb.feats.tags("translation") | op()[0][1].replace(" ", "")
len(orf1ab), len(orf1ab)*3 / len(nt()) * 100

(7096, 71.19018158713173)


nt()[13465:][:20]

'aacgggtttgcggtgtaagt'


"AACCGG" | translate() | item()

'NR'


orf1ab[(13468-266+1)//3-1:][:20]

'NRVCGVSAARLTPCGTGTST'


s = feats | gb.feats.filt("spike", "CDS") | item() | gb.feats.tags("translation") | op()[0][1].replace(" ", "")


s[613:][:10], "DG" | longAa() | item()

('DVNCTEVPVA', 'AsparticAcid Glycine')


orf3a = feats | gb.feats.filt("ORF3a", "CDS") | item() | gb.feats.tags("translation") | op()[0][1].replace(" ", "")


orf3a[274:], "LF" | longAa() | item()

('L', 'Leucine Phenylalanine')


genes = ["ORF1ab", "S", "ORF3a", "E", "M", "ORF6", "ORF7a", "ORF7b", "ORF8", "N", "ORF10"]


proteinLengths = feats | oneToMany(*(gb.feats.filt(f"/gene=\"{g}\"") for g in genes))\
| (gb.feats.filt(" CDS ") | item() | gb.feats.tags("translation") | op()[0][1].replace(" ", "")).all()\
| shape(0).all() | deref()


proteinLengths | wrapList() | transpose() | insertColumn(genes) | ~sort(1) | display(None)

ORF1ab   7096   
S        1273   
N        419    
ORF3a    275    
M        222    
ORF7a    121    
ORF8     121    
E        75     
ORF6     61     
ORF7b    43     
ORF10    38


sum(proteinLengths) * 3 / len(nt()) * 100

97.75607798548641


feats | gb.feats.filt("UTR") | item().all() | deref()

["     5'UTR           1..265",
 '     stem_loop       29609..29644',
 '     stem_loop       29629..29657',
 "     3'UTR           29675..29903"]


utr = feats | gb.feats.filt("UTR") | item().all() | rows(0, 3) | op().split("R")[1].all()\
| (op().split("..") | toInt() | toList() | ~aS(lambda x, y: y - x)).all() | toSum()


(sum(proteinLengths) * 3 + utr) / len(nt()) * 100

99.40139785305823

Analyzing covid's genome¶

Overview¶

Origin¶

Features¶

Spike¶

ORF3a¶

All proteins¶

UTR¶