Семантически-инвариантное кондиционирование диффузионных моделей: унифицированный фреймворк для кросс-модельного позитивного промптинга
https://doi.org/10.21869/2223-1536-2025-15-4-35-49
Аннотация
Цель исследования – разработка универсальной методологии позитивного промпт-инжиниринга для генерации изображений диффузионными моделями, основанной на глубоком лингво-семантическом анализе взаимодействия «человек – искусственный интеллект» и выявлении кросс-модельных инвариантов.
Методы. В рамках данного исследования применялся междисциплинарный научный подход, объединяющий методы когнитивного анализа и эмпирической верификации.
Результаты. Результаты исследования подтвердили высокую эффективность предложенной универсальной методологии позитивного промпт-инжиниринга, которая значительно повысила качество генерации изображений диффузионными моделями. Экспериментальные данные показали, что промпты, сформированные по разработанной структуре и стратегиям лексической оптимизации, обеспечивают лучшее соответствие заданным характеристикам и более стабильные результаты across различных моделей, при этом статистически значимо превышая качество неструктурированных промптов (p < 0,01). Использование многоуровневой системы компонентов и имплицитных методов контроля позволило снизить вариативность нежелательных артефактов, повысить точность передачи визуальных характеристик и упростить процесс формирования промптов, делая его более предсказуемым, воспроизводимым и универсальным для различных платформ. В целом внедрение этой методологии способствует улучшению взаимодействия человека с искусственный интеллект, повышению стабильности и качества визуальных результатов, а также облегчает адаптацию промптов под разные модели и задачи.
Заключение. Проведенное исследование подтвердило эффективность предложенной универсальной методологии позитивного промпт-инжиниринга для генерации изображений диффузионными моделями. Внедрение структурированного подхода и стратегий лексической оптимизации позволяет значительно повысить качество, стабильность и предсказуемость результатов, а также снизить количество нежелательных артефактов. Такой подход способствует более управляемому и универсальному взаимодействию человека с искусственный интеллект, облегчая создание высококачественных изображений в различных моделях и условиях. В дальнейшем использование разработанной методологии может стать основой для повышения эффективности автоматизированных систем генерации визуального контента и расширения их практических возможностей.
Об авторах
А. А. ЗоткинаРоссия
Зоткина Алена Александровна, кандидаттехнических наук, доцент кафедры программирования
пр. Байдукова / ул. Гагарина, д. 1а/11, г. Пенза 440039
А. И. Мартышкин
Россия
Мартышкин Алексей Иванович, кандидат технических наук, доцент, заведующий кафедрой программирования
Researcher ID: S-7452-2016
пр. Байдукова / ул. Гагарина, д. 1а/11, г. Пенза 440039
А. А. Павлов
Россия
Павлов Аким Алексеевич, студент кафедры программирования
пр. Байдукова / ул. Гагарина, д. 1а/11, г. Пенза 440039
А. В. Ткаченко
Россия
Ткаченко Александра Васильевна, студент кафедры программирования
пр. Байдукова / ул. Гагарина, д. 1а/11, г. Пенза 440039
Список литературы
1. Opportunities and challenges of diffusion models for generative AI / C. Cao, C. Tan, J. Gao [et al.] // National Science Review. 2024. Vol. 11, N 12. P. Nwae348. https://doi.org/10.1093/nsr/nwae348
2. A state-of-the-art review of diffusion model applications for microscopic image and microalike image analysis / Yan Liu, Tao Jiang, Rui Li [et al.] // Frontiers in Medicine. 2025. Vol. 12. P. 1551894. https://doi.org/10.3389/fmed.2025.1551894
3. What is Prompt Engineering? // Google Cloud. URL: https://cloud.google.com/discover/what-is-prompt-engineering (дата обращения: 15.09.2025).
4. Prompt engineering concepts // Amazon Bedrock. URL: https://docs.aws.amazon.com/bedrock/latest/userguide/prompt-engineering-guidelines.html (дата обращения: 20.09.2025).
5. Промпт-инжиниринг: создание эффективных запросов для GigaChat // Sber Developers. URL: https://developers.sber.ru/docs/ru/gigachat/prompts-hub/prompt-engineering (дата обращения: 22.09.2025).
6. Stable Diffusion 3.5 Prompt Guide // Stability AI. URL: https://stability.ai/learninghub/stable-diffusion-3-5-prompt-guide (дата обращения: 25.09.2025).
7. Chain-of-Thought Prompting // Anthropic. URL: https://docs.anthropic.com/ru/docs/buildwith-claude/prompt-engineering/chain-prompts (дата обращения: 27.09.2025).
8. Imagen prompt guide. Gemini API // Google AI for Developers. URL: https://ai.google.dev/gemini-api/docs/imagen-prompt-guide (дата обращения: 30.09.2025).
9. Collection of Dall-E 3 prompting tips, issues and bugs, Simplified // OpenAI. URL: https://community.openai.com/t/collection-of-dall-e-3-prompting-tips-issues-and-bugs-simplified/994822 (дата обращения: 03.09.2025).
10. How to Design Prompts for Flux 1.1 Pro. URL: https://fluxproweb.com/blog/detail/Howto-Design-Prompts-for-Flux-1-1-Pro-0a16b61b16e6/ (дата обращения: 05.09.2025).
11. Version // Midjourney Docs. URL: https://docs.midjourney.com/hc/en-us/articles/32199405667853-Version (дата обращения: 07.09.2025).
12. Ideogram 3.0 // Ideogram. URL: https://about.ideogram.ai/3.0 (дата обращения: 10.09.2025).
13. Kandinsky 3.0 // AI Forever. URL: https://ai-forever.github.io/Kandinsky-3/ (дата обращения: 12.09.2025).
14. How to Craft Prompts for Accurate, AI-Generated Images // Recraft. URL: https://www.recraft.ai/blog/how-to-craft-prompts-for-accurate-ai-generated-images (дата обращения: 15.09.2025).
15. Navigating the Alignment Challenges of Diffusion Models: Insights and Innovations // Preprints.org. 2025. N 1502 // URL: https://www.preprints.org/manuscript/202501.1502/v1 (дата обращения: 18.09.2025).
16. Recraft introduces a revolutionary AI model that thinks in design language // Recraft. URL: https://www.recraft.ai/blog/recraft-introduces-a-revolutionary-ai-model-that-thinks-in-design-language (дата обращения: 20.09.2025).
17. Hierarchical Text-Conditional Image Generation with CLIP Latents // A. Ramesh, P. Dhariwal, A. Nichol [et al.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2022. URL: https://arxiv.org/abs/2204.06125 (дата обращения: 18.09.2025).
18. Ho J., Jain A., Abbeel P. Denoising Diffusion Probabilistic Models // Advances in Neural Information Processing Systems (NeurIPS). 2020. Vol. 33. URL: https://proceedings.neurips.cc/paper/2020/hash/4c5bcfec8584af0d967f1ab10179ca4b-Abstract.html (дата обращения: 11.09.2025).
19. Rombach R., Blattmann A., Lorenz D., et al. High-Resolution Image Synthesis with Latent Diffusion Models // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2022. URL: https://openaccess.thecvf.com/content/CVPR2022/papers/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.pdf (дата обращения: 11.09.2025).
Рецензия
Для цитирования:
Зоткина А.А., Мартышкин А.И., Павлов А.А., Ткаченко А.В. Семантически-инвариантное кондиционирование диффузионных моделей: унифицированный фреймворк для кросс-модельного позитивного промптинга. Известия Юго-Западного государственного университета. Серия: Управление, вычислительная техника, информатика. Медицинское приборостроение. 2025;15(4):35-49. https://doi.org/10.21869/2223-1536-2025-15-4-35-49
For citation:
Zotkina A.A., Martyshkin A.I., Pavlov A.A., Tkachenko A.V. Semantically invariant conditioning of diffusion models: a unified framework for cross-model positive prompting. Proceedings of the Southwest State University. Series: IT Management, Computer Science, Computer Engineering. Medical Equipment Engineering. 2025;15(4):35-49. (In Russ.) https://doi.org/10.21869/2223-1536-2025-15-4-35-49
JATS XML


