Preview

Известия Юго-Западного государственного университета. Серия: Управление, вычислительная техника, информатика. Медицинское приборостроение

Расширенный поиск

Оценка точности методов контроля частоты ложных срабатываний при аннотации спектра de novo

https://doi.org/10.21869/2223-1536-2025-15-3-122-141

Аннотация

Цель – сравнение подходов на основе машинного обучения (deep learning) и классических методов по качеству аннотации масс-спектров в условиях больших данных, а также выявление оптимального сценария их интеграции.

Методы. Исследование базируется на использовании набора данных PXD004452, содержащего 2,5 млн уникальных пептидов.

Разработана схема взаимодействия на основе Python/TensorFlow/PyTorch, который обеспечивает параллельную обработку пептидных спектров на GPU-кластере. Использованы следующие этапы: фильтрация топ‑150 пиков по интенсивности; генерация теоретических B-/Y-ионов с учетом модификаций; предсказание пептидов (PepNet – сверточная+рекуррентная сеть; Tide-search – индексная перехеширующая стратегия). Метрики: количества совпадений, дельта-масса, расстояние Левенштейна, ROC‑кривые, распределение ошибок.

Результаты. PepNet требует значительных вычислительных ресурсов, при этом качество предсказаний уступает Tide-search, особенно на длинных пептидах и модификациях (~среднее совпадение: 4,2 пика vs 9,7; p < 0,001). Однако PepNet лучше показывает себя при тех спектрах, где в database search отсутствуют релевантные последовательности, демонстрируя важную способность выявлять novel‑пептиды. Распределение расстояния Левенштейна: ~30% – полное совпадение (0); ~52% – небольшое отклонение (1–5); остальное – значительные расхождения (>5).

Заключение. Метод deep learning (PepNet) демонстрирует перспективы, но без интеграции с database search уступает по точности.

Предлагается гибридная архитектура: pep‑tagging через PepNet, затем уточнение и верификация через database search. Такой конвейер на больших данных позволит сочетать открытие новых пептидов (de novo) и высокую достоверность идентификации (database search).

Об авторе

М. М. Тевяшов
Санкт-Петербургский государственный экономический университет
Россия

Тевяшов Михаил Михайлович, младший научный сотрудник

наб. канала Грибоедова, д. 30-32, г. Санкт-Петербург 191023



Список литературы

1. De novo: определение, применение, значение. URL: https://www.cd-genomics.com/blog/de-novo-definition-applications-meaning/ (дата обращения: 15.06.2025).

2. Acquaye F. L., Kertesz-Farkas A., Noble W. S. Эффективное индексирование пептидов для поиска в базе данных с использованием Tide // Journal of Proteome Research. 2023. Vol. 22, N 2. P. 577–584.

3. Секвенирование белков de novo: приложения, проблемы и достижения. URL: https://www.creative-proteomics.com/resource/protein-de-novo-sequencing-applicationschallenges-advances.htm (дата обращения: 11.06.2025).

4. Ng C. C. A., Zhou Y., Yao Z. P. Algorithms for de novo sequencing of peptides by tandem mass spectrometry: A review // Analytica Chimica Acta. 2023. N 1268. P. 341330.

5. Секвенирование белков de novo: приложения, проблемы и достижения. URL: https://www.creative-proteomics.com/resource/protein-de-novo-sequencing-applicationschallenges-advances.htm (дата обращения: 13.06.2025).

6. Accurate de novo peptide sequencing using fully convolutional neural networks / Kaiyuan Liu, Yuzhen Ye, Sujun Li, Haixu Tang // Nature Communications. 2023. N 14. P. 7974.

7. Основные термины фрагментации: B ионы и Y ионы в масс спектрометрии пептидов. URL: https://www.mtoz-biolabs.com/how-are-the-b-ions-and-y-ions-defined-in-massspectrometry.html (дата обращения: 15.06.2025).

8. Расстояние Левенштейна. URL: https://en.wikipedia.org/wiki/Levenshtein_distance (дата обращения: 15.06.2025).

9. Integrating Database Search and de Novo Sequencing for Immunopeptidomics with DIA Approach / P. Shan, H. Tran [et al.]. URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6936894/ (дата обращения: 15.06.2025).

10. Ebrahimi S., Guo X. Transformer based de novo peptide sequencing for data independent acquisition mass spectrometry (DiaTrans) // 2023 IEEE 23rd International Conference on Bioinformatics and Bioengineering (BIBE). P. 17–22. URL: https://arxiv.org/abs/2402.11363 (дата обращения: 22.06.2025).

11. Bioinformatics Methods for Mass Spectrometry Based Proteomics Data Analysis / Chen Chen, Jie Hou, John J. Tanner, Jianlin Cheng // Int. J. Mol. Sci. 2020. N 21(8). P. 2873. https://doi.org/10.3390/ijms21082873

12. DePS: An improved deep learning model for de novo peptide sequencing / C. Ge [et al.]. URL: https://arxiv.org/abs/2203.08820 (дата обращения: 22.06.2025).

13. PowerNovo: de novo peptide sequencing via tandem mass spectrometry using an ensemble of transformer and BERT models / D. V. Petrovskiy [et al.] // Sci. Rep. 2024. N 14. P. 15000.

14. Latent Imputation before Prediction: A New Computational Paradigm for De Novo Peptide Sequencing (LIPNovo) / Y. Du [et al.]. URL: https://arxiv.org/html/2505.17524v1 (дата обращения: 22.06.2025).

15. π PrimeNovo: an accurate and efficient non autoregressive deep learning model for de novo peptide sequencing / X. Zhang [et al.] // Nat. Commun. 2025. N 16. P. 267.

16. Peptide-Spectra Matching from Weak Supervision / S. S. Schoenholz, S. Hackett, L. Deming [et al.]. URL: https://arxiv.org/abs/1808.06576. (дата обращения: 12.06.2025).

17. Complementary methods for de novo monoclonal antibody sequencing to achieve complete sequence coverage / J. Cheng [et al.] // J. Proteome. Res. 2020. N 19(7). P. 2700– 2707.

18. De novo peptide sequencing by deep learning / N. H. Tran [et al.] // Proceedings of the National Academy of Sciences (PNAS). 2017. Vol. 114, N 31. P. 8247–8252. https://doi.org/10.1073/pnas.1705691114

19. DPST: De Novo Peptide Sequencing with Amino Acid Aware Transformers / Y. Yang [et al.]. URL: https://arxiv.org/abs/2203.13132 (дата обращения: 22.06.2025).


Рецензия

Для цитирования:


Тевяшов М.М. Оценка точности методов контроля частоты ложных срабатываний при аннотации спектра de novo. Известия Юго-Западного государственного университета. Серия: Управление, вычислительная техника, информатика. Медицинское приборостроение. 2025;15(3):122-141. https://doi.org/10.21869/2223-1536-2025-15-3-122-141

For citation:


Tevyashov M.M. Evaluation of the accuracy of false alarm frequency control methods for de novo spectrum. Proceedings of the Southwest State University. Series: IT Management, Computer Science, Computer Engineering. Medical Equipment Engineering. 2025;15(3):122-141. (In Russ.) https://doi.org/10.21869/2223-1536-2025-15-3-122-141

Просмотров: 8


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2223-1536 (Print)