Uvod u sekvenciranje antibiotika

Proces sekvenciranja antibiotika je fundamentalan u razumevanju kako su ovi molekuli proizvedeni od strane bakterija i kako se oni mogu sintetizovati ili modifikovani za primene u medicini. Antibiotici su često peptidi - kratki proteini odnosno kratak niz aminokiselina, ali mnogo antibiotika, uglavnom neribozomalni peptidi (non-ribosomal peptides - NRPs), ne prati standardna pravila za sintezu proteina čime se otežava njihovo sekvenciranje [1].

DNK sadrži recept za kreiranje proteina. Odnosno, sastoji se od gena koji mogu biti uključeni i tada će se na osnovu njih kreirati proteini ili isključeni kada se oni neće koristiti za kreiranje proteina. Isključenost ili uključenost nekog gena zavisi od toga da li je potrebno da se kreira neki protein ili nije potrebno (npr. fotosinteza kod biljaka koja se obavlja samo preko dana).

Tradicionalno, proteini prate Centralnu Dogmu Molekularne biologije, koja kaže da se DNK prvo prepisuje u RNK - Slika 1, a zatim se RNK prevodi u protein. Na Slici 1 se može se primetiti da se DNK sastoji od 2 lanca koja su komplementarna. Enzim RNK polimeraza se kači na početak gena i kreće kroz gene gde razdvaja lanac i stvara prostor za prepisivanje DNK u RNK čime se dobija RNK.

Prilikom prevođenja RNK u protein potrebno je na osnovu nukleitoda odrediti koja je aminokiselina u pitanju. Organela ribozom je zadužena da odradi ovaj posao i pošto je potrebno na osnovu nukleotidne sekvence uniformno odrediti koja je aminokiselina u pitanju uzima se sekvenca od 3 nukleotida takođe poznata kao kodon. Pošto je uzeta sekvenca od 3 nukleotida ovo nam daje 64 različita kodona koja treba da se prevedu u 20 aminokiselina, da smo uzeli sekvencu od 2 nukleotida dobili bismo 16 različitih kombinacija čime ne bismo mogli da dobijemo sve aminokiseline. Na Slici 2 može se videti kako se kodoni prevode u odgovarajuće aminokiseline. Postoje start i stop kodoni koji određuju početak odnosno kraj sekvence koja se prevodi u protein.

Slika 2: RNK kodonski točak prikazuje kako se sekvence od tri nukleotida (kodoni) prevode u aminokiseline. Svaki kodon se čita od centra ka spolja, a zeleni trougao označava start kodon (AUG) koji kodira metionin, dok crveni kvadrati označavaju stop kodone (UAA, UAG, UGA) koji određuju kraj sekvence koja se prevodi u protein. Preuzeto sa [8].Kliknite na sliku za uvećani prikaz

Slika 1: Transkripcija DNK u RNK. Enzim RNK polimeraza (nije prikazan) čita DNK lanac i sintetiše komplementarni RNK lanac.Kliknite na sliku za uvećani prikaz

Odstupanje od centralne dogme

Tirocidin B1 je cikličan peptid dužine 10 (Slika 3), što znači da su prva i poslednja aminokiselina povezane i da samim tim postoji 10 njegovih različitih linearnih reprezentacija (Tabela 1). Prateći centralnu dogmu i zaključka da se 1 kodon prevodi u 1 aminokiselinu, naučnici su probali da pronađu 10 kodona odnosno 30 nukleotida u genomu bakterije Bacillus brevis od koje nastaje ovaj antibiotik. Ovaj postupak je veoma dugotrajan obzirom da mora da se proveri više hiljada 30-grama koji mogu da počnu bilo gde u genomu. Analiziranjem genoma utvrđeno je da ne postoji 30-gram koji se kodira u neki od 10 različitih reprenzatacija traženog antibiotika.

Dokazano je da Tirocidin B1 ne prati centralnu dogmu molekularne biologije i da postoje posebni enzimi koji su zaduženi za njihovo sintentisanje. Ovi enzimi se zovu NRP sintetaza. Ovi enzimi sadrže komplikovane module, koji govore koje aminokiseline učetvuju u sastavu proteina. U slučaju Tirocidina B1, enzim sadrži 10 modula i svaki od module kodira 1 aminokiselinu čime je određena struktura antibiotika.
Samim tim, pošto struktura proteina nije određena na osnovu genoma bakterije, metode za sekvencioniranje DNK ovde nisu od pomoći i potrebno je sekvencirati direktno sam peptid.

Slika 3: Struktura tirocidina B1, cikličnog peptida sastavljenog od 10 aminokiselina.Kliknite na sliku za uvećani prikaz

#Linearna sekvenca
1LysLeuPheProTrpPheAsnGlnTyrVal
2LeuPheProTrpPheAsnGlnTyrValLys
3PheProTrpPheAsnGlnTyrValLysLeu
4ProTrpPheAsnGlnTyrValLysLeuPhe
5TrpPheAsnGlnTyrValLysLeuPhePro
6PheAsnGlnTyrValLysLeuPheProTrp
7AsnGlnTyrValLysLeuPheProTrpPhe
8GlnTyrValLysLeuPheProTrpPheAsn
9TyrValLysLeuPheProTrpPheAsnGln
10ValLysLeuPheProTrpPheAsnGlnTyr

Tabela 1: Deset različitih linearnih reprezentacija tirocidina B1.

Maseni spektrometar

Maseni spektrometar [7] je moćan alat pomoću koga mogu da se odrede mase molekula, uključujući mase peptida i proteina. Omogućava naučnicima da odrede nepoznate komponente, saznaju strukturu molekula i analiziraju kompleksne uzorke. Maseni spektrometar radi tako što mu se da više uzoraka istog peptida a on napravi sve moguće potpeptide datog peptida i odredi njihove mase. U realnosti uzorak se pretvara u naelektrisane jone da bi na njih mogli da utiču električno i magnetno polje. Potom se joni dele na osnovu odnosa njihove mase i naelektrisanja i kao takvi se mere njihove vrednosti.

Masa se meri u daltonima (Da), pri čemu je 1 Da približno jednak masi protona/neutrona. Samim tim masa molekula je jednaka sumi masa protona/neutrona koji čine taj molekul. Mase aminokiselina su poznate i prikazane su na Slici 4. Može se primetiti da neke aminokiseline imaju istu masu, tako da 20 različitih aminokiselina ima 18 različitih masa.

Masa tirocidina je:

V K L F P W F N Q Y
99 + 128 + 113 + 147 + 97 + 186 + 147 + 114 + 128 + 163 = 1322

Slika 4: Tabela masa aminokiselina izraženih u daltonima (Da).Kliknite na sliku za uvećani prikaz

Teorijski spektar peptida

Teorijski spektar peptida predstavlja mase svih mogućih potpeptida, uključujući 0 i masu celog peptida. Na osnovu peptida možemo lako da odredimo teorijski spektar ali na osnovu spektra ne možemo lako da odredimo koji je peptid u pitanju.

Problem sekvenciranja ciklopeptida samim tim se svodi na problem kako rekonstruisati ciklični peptid na osnovu njegovog teorijskog spektra. U nastavku će biti prikazani nekoliko različitih algoritma koje možete videti u sekciji Dostupni algoritmi.

Kao ulaz u svaki od ovih algoritama očekuje se eksperimentalni spektar, odnosno spektar koji je dobijen uz pomoć masenog spektrometra za neki peptid. Na Slici 5 su prikazane mase svih potpeptida peptida NQEL koje se dobijaju uz pomoć masenog spektrometra, kao i masa praznog peptida i celog peptida, takođe je prikazan i teorijski spektar.

Slika 5: Teorijski spektar peptida NQEL koji prikazuje sve moguće potpeptide, njihove mase i njegov teorijski spektar.Kliknite na sliku za uvećani prikaz

Lažne i nedostajuće mase

Teorijski spektar predstavlja spektar bez šumova i koja uvek ima sve tačne podatke. U realnosti eksperimentalni spektri često sadrže lažne ili nedostajuće mase. Lažna masa predstavlja masu koja se nalazi u eksperimentalnom spektru ali zapravo ne postoji u teorijskom spektru peptida. Nedostajuća masa predstavlja masu koja se ne nalazi u eksperimentalnom spektru ali postoji u teorijskom spektru peptida.

U Tabeli 2 može da se vidi primer teorijskog i eksperimentalnog spektra za peptid NEQ sa nedostajućim i lažnim masama.

eksperimentalni0114128133200243371
teorijski0114128129242243257371

Tabela 2: Prikaz nedostajućih masa (obojene zelenom bojom) i lažnih masa (obojene plavom bojom) koje mogu da se jave u eksperimentlanom spektru za peptid NEQ.

Dostupni algoritmi

Pristup grubom silom

Direktan pristup gde se isprobavaju sve moguće kombinacije da bi se našlo optimalno rešenje.

Istraži

Branch & Bound

Optimizovan algoritam koji će odbacivati kandidate čim prestanu da budu potencijalno rešenje.

Istraži

Leaderboard Algoritam

Algoritam koji održava listu N najboljih kandidata za rešenje i na osnovu njih smanjuje broj potencijalnih kandidata.

Istraži

Spektralna konvolucija

Određivanje amino-kiselina koje mogu da učestvuju u peptidu na osnovu eksperimentalnog spektra.

Istraži

DeepNovo sekvenciranje

Metoda zasnovana na dubokom učenju koja omogućava sekvenciranje peptida bez oslanjanja na baze podataka.

Istraži