Оценка точности методов контроля частоты ложных срабатываний при аннотации спектра de novo
https://doi.org/10.21869/2223-1536-2025-15-3-122-141
Аннотация
Цель – сравнение подходов на основе машинного обучения (deep learning) и классических методов по качеству аннотации масс-спектров в условиях больших данных, а также выявление оптимального сценария их интеграции.
Методы. Исследование базируется на использовании набора данных PXD004452, содержащего 2,5 млн уникальных пептидов.
Разработана схема взаимодействия на основе Python/TensorFlow/PyTorch, который обеспечивает параллельную обработку пептидных спектров на GPU-кластере. Использованы следующие этапы: фильтрация топ‑150 пиков по интенсивности; генерация теоретических B-/Y-ионов с учетом модификаций; предсказание пептидов (PepNet – сверточная+рекуррентная сеть; Tide-search – индексная перехеширующая стратегия). Метрики: количества совпадений, дельта-масса, расстояние Левенштейна, ROC‑кривые, распределение ошибок.
Результаты. PepNet требует значительных вычислительных ресурсов, при этом качество предсказаний уступает Tide-search, особенно на длинных пептидах и модификациях (~среднее совпадение: 4,2 пика vs 9,7; p < 0,001). Однако PepNet лучше показывает себя при тех спектрах, где в database search отсутствуют релевантные последовательности, демонстрируя важную способность выявлять novel‑пептиды. Распределение расстояния Левенштейна: ~30% – полное совпадение (0); ~52% – небольшое отклонение (1–5); остальное – значительные расхождения (>5).
Заключение. Метод deep learning (PepNet) демонстрирует перспективы, но без интеграции с database search уступает по точности.
Предлагается гибридная архитектура: pep‑tagging через PepNet, затем уточнение и верификация через database search. Такой конвейер на больших данных позволит сочетать открытие новых пептидов (de novo) и высокую достоверность идентификации (database search).
Об авторе
М. М. ТевяшовРоссия
Тевяшов Михаил Михайлович, младший научный сотрудник
наб. канала Грибоедова, д. 30-32, г. Санкт-Петербург 191023
Список литературы
1. De novo: определение, применение, значение. URL: https://www.cd-genomics.com/blog/de-novo-definition-applications-meaning/ (дата обращения: 15.06.2025).
2. Acquaye F. L., Kertesz-Farkas A., Noble W. S. Эффективное индексирование пептидов для поиска в базе данных с использованием Tide // Journal of Proteome Research. 2023. Vol. 22, N 2. P. 577–584.
3. Секвенирование белков de novo: приложения, проблемы и достижения. URL: https://www.creative-proteomics.com/resource/protein-de-novo-sequencing-applicationschallenges-advances.htm (дата обращения: 11.06.2025).
4. Ng C. C. A., Zhou Y., Yao Z. P. Algorithms for de novo sequencing of peptides by tandem mass spectrometry: A review // Analytica Chimica Acta. 2023. N 1268. P. 341330.
5. Секвенирование белков de novo: приложения, проблемы и достижения. URL: https://www.creative-proteomics.com/resource/protein-de-novo-sequencing-applicationschallenges-advances.htm (дата обращения: 13.06.2025).
6. Accurate de novo peptide sequencing using fully convolutional neural networks / Kaiyuan Liu, Yuzhen Ye, Sujun Li, Haixu Tang // Nature Communications. 2023. N 14. P. 7974.
7. Основные термины фрагментации: B ионы и Y ионы в масс спектрометрии пептидов. URL: https://www.mtoz-biolabs.com/how-are-the-b-ions-and-y-ions-defined-in-massspectrometry.html (дата обращения: 15.06.2025).
8. Расстояние Левенштейна. URL: https://en.wikipedia.org/wiki/Levenshtein_distance (дата обращения: 15.06.2025).
9. Integrating Database Search and de Novo Sequencing for Immunopeptidomics with DIA Approach / P. Shan, H. Tran [et al.]. URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6936894/ (дата обращения: 15.06.2025).
10. Ebrahimi S., Guo X. Transformer based de novo peptide sequencing for data independent acquisition mass spectrometry (DiaTrans) // 2023 IEEE 23rd International Conference on Bioinformatics and Bioengineering (BIBE). P. 17–22. URL: https://arxiv.org/abs/2402.11363 (дата обращения: 22.06.2025).
11. Bioinformatics Methods for Mass Spectrometry Based Proteomics Data Analysis / Chen Chen, Jie Hou, John J. Tanner, Jianlin Cheng // Int. J. Mol. Sci. 2020. N 21(8). P. 2873. https://doi.org/10.3390/ijms21082873
12. DePS: An improved deep learning model for de novo peptide sequencing / C. Ge [et al.]. URL: https://arxiv.org/abs/2203.08820 (дата обращения: 22.06.2025).
13. PowerNovo: de novo peptide sequencing via tandem mass spectrometry using an ensemble of transformer and BERT models / D. V. Petrovskiy [et al.] // Sci. Rep. 2024. N 14. P. 15000.
14. Latent Imputation before Prediction: A New Computational Paradigm for De Novo Peptide Sequencing (LIPNovo) / Y. Du [et al.]. URL: https://arxiv.org/html/2505.17524v1 (дата обращения: 22.06.2025).
15. π PrimeNovo: an accurate and efficient non autoregressive deep learning model for de novo peptide sequencing / X. Zhang [et al.] // Nat. Commun. 2025. N 16. P. 267.
16. Peptide-Spectra Matching from Weak Supervision / S. S. Schoenholz, S. Hackett, L. Deming [et al.]. URL: https://arxiv.org/abs/1808.06576. (дата обращения: 12.06.2025).
17. Complementary methods for de novo monoclonal antibody sequencing to achieve complete sequence coverage / J. Cheng [et al.] // J. Proteome. Res. 2020. N 19(7). P. 2700– 2707.
18. De novo peptide sequencing by deep learning / N. H. Tran [et al.] // Proceedings of the National Academy of Sciences (PNAS). 2017. Vol. 114, N 31. P. 8247–8252. https://doi.org/10.1073/pnas.1705691114
19. DPST: De Novo Peptide Sequencing with Amino Acid Aware Transformers / Y. Yang [et al.]. URL: https://arxiv.org/abs/2203.13132 (дата обращения: 22.06.2025).
Рецензия
Для цитирования:
Тевяшов М.М. Оценка точности методов контроля частоты ложных срабатываний при аннотации спектра de novo. Известия Юго-Западного государственного университета. Серия: Управление, вычислительная техника, информатика. Медицинское приборостроение. 2025;15(3):122-141. https://doi.org/10.21869/2223-1536-2025-15-3-122-141
For citation:
Tevyashov M.M. Evaluation of the accuracy of false alarm frequency control methods for de novo spectrum. Proceedings of the Southwest State University. Series: IT Management, Computer Science, Computer Engineering. Medical Equipment Engineering. 2025;15(3):122-141. (In Russ.) https://doi.org/10.21869/2223-1536-2025-15-3-122-141


