Indeksy Powtarzalności Danych DAIRI & IDAIRI
Autorskie wielkości do oceny unikalności i podobieństwa baz danych peptydów
Optymalizacja dla Rzeczywistych Wyników
Początkowe formuły indeksów DAIRI i IDAIRI, opisane w oryginalnej publikacji, opierały się na całkowitej liczbie porównań generowanych przez narzędzie diamond. Metoda ta, choć nowatorska, okazała silnie zależna od wielkości porównywanych baz danych, co utrudniało obiektywną ocenę.
W odpowiedzi na te wyzwania, formuły indeksów zostały gruntownie zoptymalizowane. Nowe podejście porzuca analizę liczby porównań diamond (przez co zostało usunięte końcowe „d” z nazw indeksów) na rzecz bezpośredniej oceny składu sekwencji w bazach. Zgodnie z założeniem określania powtarzalności absolutnej identyczności, zoptymalizowane formuły opierają się na zliczaniu idealnych duplikatów (100% identyczności) oraz unikalnych sekwencji wspólnych dla porównywanych baz co pozwala uzyskać znacznie bardziej miarodajne i użyteczne wyniki.
Indeks DAIRI
Database Absolute-Identity Repeatability Index
Absolutna Powtarzalność Wewnętrzna to indeks określający, jaki udział w bazie danych stanowią idealne duplikaty.
Nduplikatów – liczba duplikatów (w 100% powtarzalnych sekwencji) w tej samej bazie.
Ncałkowita – całkowita liczba sekwencji w analizowanej bazie.
Wysoka Wartość DAIRI (np. 0.800)
Oznacza wysoką powtarzalność. Aż 80% sekwencji w bazie to idealne duplikaty innych wpisów. Z perspektywy poszukiwania unikalnych peptydów jest to wynik niepożądany.
Niska Wartość DAIRI (np. 0.100)
Oznacza niską powtarzalność i dużą unikalność. Tylko 10% sekwencji stanowią duplikaty. Jest to wynik pożądany, świadczący o dużej różnorodności bazy.
Indeks IDAIRI
Inter-Database Absolute-Identity Repeatability Index
Absolutna Powtarzalność Między Bazami to indeks określający, w jakim stopniu te bazy danych pokrywają się pod względem idealnych duplikatów.
Aunikalne i Bunikalne – zbiory unikalnych sekwencji z baz A i B.
NA_unikalne ∩ B_unikalne – liczba unikalnych sekwencji, które są wspólne dla obu baz.
|Aunikalne| – całkowita liczba unikalnych sekwencji w bazie zapytania A.
Wysoka Wartość IDAIRI (np. 0.950)
Oznacza wysokie pokrycie. Aż 95% unikalnych peptydów z bazy A ma swoje idealne odpowiedniki w bazie B. Baza A wnosi niewiele nowości. Jest to wynik niepożądany.
Niska Wartość IDAIRI (np. 0.050)
Oznacza niskie pokrycie. Baza A zawiera głównie unikalne peptydy, których nie ma w bazie B. Jest to wynik pożądany, wskazujący na dużą nowość i wartość informacyjną bazy A.
Bibliografia
Marczak, B., Bocian, A., & Łyskowski, A. (2025). Antimicrobial Peptide Databases as the Guiding Resource in New Antimicrobial Agent Identification via Computational Methods. Molecules, 30, 1318. https://doi.org/10.3390/molecules30061318