Распределенный алгоритм извлечения текстовой информации из новостных сайтов с использованием технологий больших данных
https://doi.org/10.21869/2223-1536-2021-11-4-8-25
Аннотация
Цель исследования. Целью данной работы является разработка алгоритма и программной системы, позволяющей выполнять в распределенном режиме извлечение информации из новостных сайтов с использованием технологий больших данных.
Методы. Извлечение ключевых концепций содержания новостных сайтов помогает алгоритмам искусственного интеллекта исследовать экономические, политические и социальные явления в различных контекстах. Эта задача близка к проблеме реферирования текста, которая активно изучается в современных исследованиях. Но значительно меньше работ затрагивают алгоритмы больших данных для реферирования текста. Мы предлагаем новый алгоритм для эффективного извлечения текстовых значений из большого количества новостных сайтов, основанный на платформе больших данных Apache Spark. Смысл новостей анализируется с помощью Google BERT - современной архитектуры нейронной сети для обработки естественного языка. Различные группы новостей отделяются друг от друга с помощью алгоритма кластеризации k-средних. Количество кластеров определяется автоматически с использованием метода статистики разрыва. Содержимое сайтов извлекается с помощью браузеров Chrome, управляемых Selenium WebDriver в распределенном режиме.
Результаты. В статье были приведены подробные алгоритмы реализованной программной системы, такие как математическая модель, архитектура программной распределенной системы.
Заключение. Оценка нашего алгоритма с помощью метрики ROUGE демонстрирует удовлетворительное качество резюмирования новостных текстов.
Ключевые слова
Об авторах
Ю. А. КачановРоссия
Качанов Юрий Александрович, преподаватель каф. программного обеспечения автоматизированных систем
пр. Ленина 28, г. Волгоград 400005
П. Д. Кравченя
Россия
Кравченя Павел Дмитриевич, канд. физико-математических наук, доц. каф. электронно-вычислительных машин и систем
пр. Ленина 28, г. Волгоград 400005
М. А. Кузнецов
Россия
Кузнецов Михаил Андреевич, канд. технических наук, доц. каф. электронно-вычислительных машин и систем
пр. Ленина 28, г. Волгоград 400005
А. С. Кузнецова
Россия
Кузнецова Агнесса Сергеевна, ст. преп. каф. программного обеспечения автоматизированных систем
пр. Ленина 28, г. Волгоград 400005
В. В. Гилка
Россия
Гилка Вадим Викторович, ст. преп. каф. программного обеспечения автоматизированных систем
пр. Ленина 28, г. Волгоград 400005
Список литературы
1. Далал В., Малик Л. Обзор методов извлечения и абстрактного обобщения текста // VI Международная конференция по новым тенденциям в машиностроении и технологиях, 2013. https://doi.org/10.1109/icetet.2013.31.
2. Attention is all you need / A. Vaswani, N. Shazir, N. Parmar, J. Ushkoreit, L. Jones, A. N. Gomez, L. Kaiser, I. Polosukhin. URL: http://arXiv.org/abs/1706.03762 (дата обращения: 10.09.2021).
3. BERT: Pre-training of Deep Bedirectional Transformers for Language Understanding / J. Devlin, C. Ming-Wei, K. Lee, K. Tutanova. URL: https://arXiv.org/abs/1810.04805 (дата обращения: 10.09.2021).
4. Ананд Д., Ваг Р. Эффективные подходы глубокого обучения для обобщения юридических текстов // Журнал Университета Короля Сауда - Компьютерные и информационные науки. 2019. https://doi.org/10.1016/jjksuci.2019.11.015.
5. Метод автоматического резюмирования текста, основанный на длинной цепи элементов краткосрочной памяти / В. Фанг, Т. Цзян, К. Цзян, Ф. Чжан, Ю. Дин, Дж. Шэн // Международный журнал вычислительной науки и техники. 2020. https://doi.org/10.1504/ijcse.2020.107243.
6. Aakash Sinha, Abhishek Yadav, Akshay Gakhlot. Extractive Text Summarization Using Neural Networks. URL: http://arXiv.org/abs/arXiv/1802.10137 (дата обращения:
7. 09.2021).
8. Ло Т., Го К., Го Х. Автоматическое обобщение текста на основе преобразователя и переключаемой нормализации // Международная конференция IEEE 2019 по параллельной и распределенной обработке с приложениями, большим данным и облачным вычислениям, устойчивым вычислениям и коммуникациям, социальным вычислениям и сетям (ISPA / BDCloud / SocialCom / SustainCom). 2019. https://doi.org/10.1109/ispa-bdcloud-ustaincom-socialcom48970.2019.00236.
9. Лю Ю., Лапата М. Обобщение текста с предварительно обученными кодировщиками // Материалы конференции 2019 года по эмпирическим методам обработки естественного языка и XIX Международной совместной конференции по обработке естественного языка (EMNLP-IJCNLP). https://doi.org/10.18653/v1/d19-1387.
10. Нейронно-извлекающее резюмирование текста с учетом дискурса / Дж. Сюй, З. Ган, Ю. Ченг, Дж. Лю // Материалы 58-го ежегодного собрания Ассоциации компьютерной лингвистики. 2020. https://doi.org/10.18653/v1/2020.acl-main.451 (дата обращения: 07.09.2021).
11. Чжан X., Вэй Ф., Чжоу М. HIBERT: Предварительная подготовка на уровне документа иерархических двунаправленных преобразователей для резюмирования документов // Материалы 57-го ежегодного собрания Ассоциации компьютерной лингвистики. 2019. https://doi.org/10.18653/v1/p19-1499.
12. Extractive summarization as a text comparison / M. Zhong, P. Liu, Yu. Chen, D. Wang, X. Qiu, X. Huang. URL: https://arXiv.org/abs/2004.08795 (дата обращения: 10.09.2021).
13. Поиск эффективных нейронно-экстрактивных обобщений: что работает и что далее / М. Чжун, П. Лю, Д. Ван, X. Цю, X. Хуан // Материалы 57-го ежегодного собрания. 2019. https://doi.org/10.18653/v1/p19-1100.
14. Индонезийское автоматическое резюмирование текста на основе нового метода кластеризации на уровне предложений / З. Цай, Н. Лин, К. Ма, С. Цзян // Материалы Международной конференции по инженерии больших данных 2019 г. (BDE 2019). New York: ACM Press, 2019. https://doi.org/10.1145/3341620.3341626.
15. Эффективный и уникальный анализ данных на основе алгоритмической модели TF / С. Ивенди, С. Поннан, Р. Муниратхинам, К. Сринивасан, С. Й. Чанг // IDF для обработки приложений с потоковой передачей больших данных // Электроника. 2019. № 8 (11). С. 1331. https://doi.org/10.3390/electronics8111331.
16. Дас С. eStep: новый метод обобщения семантического текста с использованием больших данных в Интернете // Международный журнал новейших технологий и инженерии. 2019. № 8 (3). С. 5171-5175. https://doi.org/10.35940/ijrte.c5802.098319.
17. Гупта В., Бансал Н., Шарма А. Обобщение текста для больших данных:
18. комплексное исследование // Международная конференция по инновационным вычислениям и коммуникациям. Springer Singapore, 2018. С. 503-516. https://doi.org/ 10.1007/978-981-13-2354-6_51.
19. Long Range Arena: A Benchmark for Efficient Transformers / Yu Tai., M. Dehgani, S. Abnar, Yu. Shen, D. Bahri, P. Pham, J. Rao, L. Yang, S. Ruder, D. Metzler. URL: http://arXiv.org/abs/2011.04006 (дата обращения: 17.09.2021).
20. Mojgan Mohajer, Karl-Hans Englemeyer, Volker J. Schmid. A comparison of Gap Statistics Definitions with and without Logarithm Function. URL: http://arXiv.org/abs/1103.4767 (дата обращения: 07.09.2021).
21. Тибширани Р., Вальтер Г., Хасти Т. Оценка количества кластеров в наборе данных с помощью статистики пробелов // Журнал Королевского статистического общества: Серия B: Статистическая методология. 2001. № 63 (2). С. 411-423. https://doi.org/10.1111/1467-9868.00293
22. Keras_bert at master CyberZHG/keras-bert GitHub. URL: https://github.com/ CyberZHG/keras-bert/tree/master/keras_bert (дата обращения: 17.09.2021).
23. Лин С. Я. ROUGE: Пакет для автоматической оценки резюме. URL: https://www.aclweb.org/anthology/W04-1013 (дата обращения 04.09.2021).
24. Teaching Machines to Read and Comprehend / K. Moritz Hermann, T. Kochisky, E. Grefenstefle, L. Espeholt, W. Kay, M. Suleyman, P. Blansom. 2015. URL: http://arXiv.org/abs/1506.03340 (дата обращения: 10.09.2021).
Рецензия
Для цитирования:
Качанов Ю.А., Кравченя П.Д., Кузнецов М.А., Кузнецова А.С., Гилка В.В. Распределенный алгоритм извлечения текстовой информации из новостных сайтов с использованием технологий больших данных. Известия Юго-Западного государственного университета. Серия: Управление, вычислительная техника, информатика. Медицинское приборостроение. 2021;11(4):8-25. https://doi.org/10.21869/2223-1536-2021-11-4-8-25
For citation:
Kachanov Y.A., Kravchenya P.D., Kuznetsov M.A., Kuznetsova A.S., Gilka V.V. Distributed Algorithm for Extracting Text Information from News Sites Using Big Data Technologies. Proceedings of the Southwest State University. Series: IT Management, Computer Science, Computer Engineering. Medical Equipment Engineering. 2021;11(4):8-25. (In Russ.) https://doi.org/10.21869/2223-1536-2021-11-4-8-25