Preview

Известия Юго-Западного государственного университета. Серия: Управление, вычислительная техника, информатика. Медицинское приборостроение

Расширенный поиск

Метод и алгоритм интеллектуальной обработки текстовой информации

https://doi.org/10.21869/2223-1536-2024-14-3-22-35

Аннотация

Цель исследований заключается в разработке алгоритма интеллектуальной обработки для классификации текстовой информации. Поскольку количество информации растет каждый день, необходимо быстро и качественно отделять значимое от второстепенного содержимого. Поэтому разработка алгоритма интеллектуальной обработки для классификации текстовой информации является актуальной задачей.

Методы. Предложен метод для классификации текстовой информации, представленной на одном или нескольких естественных языках. В его основу входит 5 ключевых стадий: ввод задания, накопление очереди задач, обработка задачи, формирование результата обработки задания, вывод результата. Входное задание представлено в виде HTTP-запроса, в теле которого хранится объект файла. Если интенсивность входного потока больше скорости обработки, то происходит накопление задач. После выбора активного задания (по принципу FIFO) происходит его обработка. В результате преобразований происходит декодирование принятых данных в строку, используя кодировку UTF-8. Под обработкой понимается процесс рубрикации, когда происходит поиск шаблонов в строке. По завершению рубрикации происходит формирование результата по выбранному заданию. Из накопленного результата формируется ответ на исходный HTTP-запрос, в теле которого находится список найденных рубрик.

Результаты. Разработан метод и алгоритм обработки текстовых данных, позволяющие определить тематики, которые присутствуют во входном наборе данных. Алгоритм, реализованный программно, позволяет работать с текстовыми данными на различных языках.

Заключение. Программная разработка алгоритма классификации текстовых данных была выполнена на языке программирования C++ с использованием библиотек Qt версии 5.11. Данная реализация показала пропускную способность 1-5 Мб в секунду (на однородном входном текстовом наборе данных). Алгоритм позволяет корректно обрабатывать поврежденные форматы файлов.

Об авторах

С. В. Ефанов
Юго-Западный государственный университет
Россия

Ефанов Сергей Валерьевич, аспирант

ул. 50 лет Октября, д. 94, г. Курск 305040



Е. Н. Иванова
Юго-Западный государственный университет
Россия

Иванова Елена Николаевна, кандидат  технических наук, доцент кафедры  вычислительной техники

ул. 50 лет Октября, д. 94, г. Курск 305040



И. Е. Чернецкая
Юго-Западный государственный университет
Россия

Чернецкая Ирина Евгеньевна, доктор  технических наук, заведующий кафедрой  вычислительной техники

ул. 50 лет Октября, д. 94, г. Курск 305040



Список литературы

1. Кобышев К. С., Молодяков С. А. Анализ и классификация алгоритмов извлечения отношений из текстовых данных // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и технические науки. 2021. № 5. С. 71–79. https://doi.org/10.37882/2223-2966.2021.05.15. EDN KXLLZK

2. Поляков А. А., Фетисов М. В. Классификация алгоритмов предварительной обработки текстовых данных для машинного обучения // Технологии инженерных и информационных систем. 2021. № 4. С. 70–79. EDN QROXYD

3. Разработка перспективных методов поиска и классификации текстовой информации из открытых источников сети Интернет / М. А. Сазонов, А. В. Яковлев, М. О. Кожанчиков, А. А. Мазниченко // Системы управления и информационные технологии. 2023. № 2 (92). С. 92–95. EDN QOMDON

4. Баранчиков А. И., Федосова Е. Б. Применение методов data Mining для анализа и выявления закономерностей в реляционных базах данных // Радиотехнические и телекоммуникационные системы. 2023. № 2 (50). С. 40–45. https://doi.org/0.24412/2221-25742023-2-40-45. EDN CIBVDW

5. Набиуллин Д. А., Кононова В. В., Новикова С. В. Метод автоматизированной разметки больших данных с использованием нейронных сетей // Вестник Технологического университета. 2021. Т. 24, № 6. С. 103–107. EDN PJNLIK

6. Методы интеллектуального анализа текстовых данных для служб экстренного реагирования / А. А. Сабитов, Р. Н. Минниханов, М. В. Дагаева [и др.] // Математические методы в технике и технологиях – ММТТ. 2020. Т. 7. С. 84–87. EDN NMCBWD

7. Ломакина Л. С., Субботин А. Н. Классификация потоковых данных на основе байесовского критерия // Моделирование, оптимизация и информационные технологии. 2020. Т. 8, № 1 (28). С. 18. https://doi.org/10.26102/2310-6018/2020.28.034. EDN ULSSNK

8. Андреев А. В. Искусственный интеллект и его роль в обработке больших данных // Умная цифровая экономика. 2023. Т. 3, № 1. С. 65–69.

9. Лейн Х., Хапке Х., Ховард К. Обработка естественного языка в действии. СПб.: Питер, 2020. 576 с.

10. Баулина А. Р., Ресан М. Т., Янаева М. В. Системы текстового поиска, обработки и анализа естественного языка // Обществознание и социальная психология. 2022. № 9 (39). С. 101–104.

11. Иванова Г. С., Мартынюк П. А. Анализ методов извлечения информации из текстовых данных / Г. С. Иванова // Нейрокомпьютеры: разработка, применение. 2022. Т. 24, № 3. С. 18–28. https://doi.org/10.18127/j19998554-202203-02

12. Кадермятова Л. М., Тутубалина Е. В. Анализ моделей векторных представлений слов в задаче разметки семантических ролей в русскоязычных текстах // Электронные библиотеки. 2020. Т. 23, № 5. С. 1026–1043.

13. Анализ данных / С. В. Лейхтер, С. Н. Чуканов, И. С. Чуканов, И. В. Широков. Омск: Омский государственный университет им. Ф. М. Достоевского, 2022. 108 с. EDN WHSYZW

14. Phat H. N., Anh N. T. M. Vietnamese text classification algorithm using long short term memory and word2vec // Informatics and Automation. 2020. Vol. 19, N 6. P. 1255–1279. https://doi.org/10.15622/ia.2020.19.6.5. EDN MFDPBK

15. Огарок А. Л., Жаворонкова О. Г. Методы семантической обработки неструктурированной текстовой информации // Информатизация и связь. 2022. № 6. С. 44–48. https://doi.org/10.34219/2078-8320-2022-13-6-44-48

16. Огарок А. Л. Математическая модель процесса семантической обработки текстовой информации // Информатизация и связь. 2021. № 6. С. 87–91. https://doi.org/10.34219/2078-8320-2021-12-6-87-91

17. Попов О. Р., Гребенюк Е. В. Алгоритмы построения интеллектуальных систем обработки текстовой информации для задачи анализа мнений // Интеллектуальные ресурсы – региональному развитию. 2021. № 2. С. 104–110.

18. Казанцев А. А., Прохоров М. В., Худякова П. С. Обзор подходов к классификации текстов актуальными методами // Экономика и качество систем связи. 2021. № 1 (19). С. 57–67. EDN ZUJEVN

19. Семина Т. А. Анализ тональности текста: современные подходы и существующие проблемы // Социальные и гуманитарные науки. Отечественная и зарубежная литература. Серия 6: Языкознание. 2020. № 4. С. 47–63.


Рецензия

Для цитирования:


Ефанов С.В., Иванова Е.Н., Чернецкая И.Е. Метод и алгоритм интеллектуальной обработки текстовой информации. Известия Юго-Западного государственного университета. Серия: Управление, вычислительная техника, информатика. Медицинское приборостроение. 2024;14(3):22-35. https://doi.org/10.21869/2223-1536-2024-14-3-22-35

For citation:


Efanov S.V., Ivanova E.N., Chernetskaya I.E. Algorithm for intelligent procesing of text information. Proceedings of the Southwest State University. Series: IT Management, Computer Science, Computer Engineering. Medical Equipment Engineering. 2024;14(3):22-35. (In Russ.) https://doi.org/10.21869/2223-1536-2024-14-3-22-35

Просмотров: 170


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2223-1536 (Print)