Metoda za De Novo Sekvenciranje Peptida Zasnovana na Dubokom Učenju

Pristup sekvenciranju peptida koji koristi duboko učenje za identifikaciju sekvenci aminokiselina bez oslanjanja na baze podataka

Postojeće tehnike

Trenutne tehnike za sekvenciranje peptida (poput pretraživanja baze podataka, de novo sekvenciranja, kao i raznih algoritamskih pristupa) mogu imati poteškoća u radu sa novim, složenim ili nepotpunim podacima. Pristup pretraživanja baze podataka oslanja se na poređenje eksperimentalnih podataka sa bazom podataka poznatih proteinskih sekvenci, ali neki od problema u ovom pristupu su sledeći:

Nepoznati proteini

Novi proteini koji nikada ranije nisu viđeni neće se podudarati ni sa čim u bazi podataka, što dovodi do nemogućnosti identifikacije.

Nedostajući podaci

Podaci generisani iz eksperimenata masene spektrometrije mogu biti pogrešni i nepotpuni, što otežava pouzdano poređenje.

Pristup de novo sekvenciranja pokušava izgraditi sekvencu peptida iz početka, bez oslanjanja na bazu podataka i koristeći samo podatke koji su dobijeni masenom spektrometrijom. U okviru ovog pristupa koriste se i različiti algoritmi, kao što su pristup grubom silom, Branch and Bound, Leaderboard algoritam, kao i spektralna konvolucija, koji pokušavaju da generišu sekvence peptida i da porede njihove teo- rijske spektre sa eksperimentalnim. Međutim, iako koristan za identifikaciju novih peptida, de novo pristup je često manje precizan i računski zahtevan.DeepNovo kombinuje prednosti oba pristupa koristeći duboko učenje za poboljšanje tačnosti de novo sekvenciranja.

Računska složenost

De novo sekvenciranje, koje pokušava rekonstruisati sekvencu peptida bez oslanjanja na bazu podataka, suočava se sa značajnim računskim izazovima:

  • Eksponencijalni rast prostora pretrage sa povećanjem dužine peptida
  • Potreba za složenim algoritmima za interpretaciju spektralnih podataka
  • Teškoće u razlikovanju izobaričnih aminokiselina (aminokiseline sa istom ili vrlo sličnom masom)

Tehnike zasnova na De Novo sekvenciranju

Pored DeepNovo tehnike koja će biti opisana u ovom radu, postoje i još neke tehnike zasnovane na De Novo principu:

  • PEAKS [4] - koristi direktne aciklične grafove
  • Novor [5] - koristi klasifikatore mašinskog učenja da odredi sekvencu aminokiselina sa najvećom verovatnoćom
  • PepNovo [6] - koristi modelovanje verovatnoća pomoću grafova

DeepNovo je dizajniran da prevazilazi računske izazove koristeći moć dubokog učenja za direktno predviđanje sekvenci aminokiselina iz podataka dobijenih masenom spektrometrijom, bez potrebe za bazom podataka referentnih sekvenci, a rezultati će pokazati da je bolji i od drugih metoda koje su zasnovane na de novo principu.