Indeksy Powtarzalności Danych DAIRI & IDAIRI

Autorskie wielkości do oceny unikalności i podobieństwa baz danych peptydów

Optymalizacja dla Rzeczywistych Wyników

Początkowe formuły indeksów DAIRI i IDAIRI, opisane w oryginalnej publikacji, opierały się na całkowitej liczbie porównań generowanych przez narzędzie diamond. Metoda ta, choć nowatorska, okazała silnie zależna od wielkości porównywanych baz danych, co utrudniało obiektywną ocenę.

W odpowiedzi na te wyzwania, formuły indeksów zostały gruntownie zoptymalizowane. Nowe podejście porzuca analizę liczby porównań diamond (przez co zostało usunięte końcowe „d” z nazw indeksów) na rzecz bezpośredniej oceny składu sekwencji w bazach. Zgodnie z założeniem określania powtarzalności absolutnej identyczności, zoptymalizowane formuły opierają się na zliczaniu idealnych duplikatów (100% identyczności) oraz unikalnych sekwencji wspólnych dla porównywanych baz co pozwala uzyskać znacznie bardziej miarodajne i użyteczne wyniki.

Indeks DAIRI

Database Absolute-Identity Repeatability Index

Absolutna Powtarzalność Wewnętrzna to indeks określający, jaki udział w bazie danych stanowią idealne duplikaty.

DAIRI = N_duplikatów / N_całkowita - 1

N_duplikatów – liczba duplikatów (w 100% powtarzalnych sekwencji) w tej samej bazie.

N_całkowita – całkowita liczba sekwencji w analizowanej bazie.

Wysoka Wartość DAIRI (np. 0.800)

Oznacza wysoką powtarzalność. Aż 80% sekwencji w bazie to idealne duplikaty innych wpisów. Z perspektywy poszukiwania unikalnych peptydów jest to wynik niepożądany.

Niska Wartość DAIRI (np. 0.100)

Oznacza niską powtarzalność i dużą unikalność. Tylko 10% sekwencji stanowią duplikaty. Jest to wynik pożądany, świadczący o dużej różnorodności bazy.

Indeks IDAIRI

Inter-Database Absolute-Identity Repeatability Index

Absolutna Powtarzalność Między Bazami to indeks określający, w jakim stopniu te bazy danych pokrywają się pod względem idealnych duplikatów.

IDAIRI(A → B) = N_{A_unikalne ∩ B_unikalne} / |A_unikalne|

A_unikalne i B_unikalne – zbiory unikalnych sekwencji z baz A i B.

N_{A_unikalne ∩ B_unikalne} – liczba unikalnych sekwencji, które są wspólne dla obu baz.

|A_unikalne| – całkowita liczba unikalnych sekwencji w bazie zapytania A.

Wysoka Wartość IDAIRI (np. 0.950)

Oznacza wysokie pokrycie. Aż 95% unikalnych peptydów z bazy A ma swoje idealne odpowiedniki w bazie B. Baza A wnosi niewiele nowości. Jest to wynik niepożądany.

Niska Wartość IDAIRI (np. 0.050)

Oznacza niskie pokrycie. Baza A zawiera głównie unikalne peptydy, których nie ma w bazie B. Jest to wynik pożądany, wskazujący na dużą nowość i wartość informacyjną bazy A.

Bibliografia

Marczak, B., Bocian, A., & Łyskowski, A. (2025). Antimicrobial Peptide Databases as the Guiding Resource in New Antimicrobial Agent Identification via Computational Methods. Molecules, 30, 1318. https://doi.org/10.3390/molecules30061318