Preview

Известия Юго-Западного государственного университета. Серия: Управление, вычислительная техника, информатика. Медицинское приборостроение

Расширенный поиск

Семантически-инвариантное кондиционирование диффузионных моделей: унифицированный фреймворк для кросс-модельного позитивного промптинга

https://doi.org/10.21869/2223-1536-2025-15-4-35-49

Аннотация

Цель исследования – разработка универсальной методологии позитивного промпт-инжиниринга для генерации изображений диффузионными моделями, основанной на глубоком лингво-семантическом анализе взаимодействия «человек – искусственный интеллект» и выявлении кросс-модельных инвариантов.

Методы. В рамках данного исследования применялся междисциплинарный научный подход, объединяющий методы когнитивного анализа и эмпирической верификации.

Результаты. Результаты исследования подтвердили высокую эффективность предложенной универсальной методологии позитивного промпт-инжиниринга, которая значительно повысила качество генерации изображений диффузионными моделями. Экспериментальные данные показали, что промпты, сформированные по разработанной структуре и стратегиям лексической оптимизации, обеспечивают лучшее соответствие заданным характеристикам и более стабильные результаты across различных моделей, при этом статистически значимо превышая качество неструктурированных промптов (p < 0,01). Использование многоуровневой системы компонентов и имплицитных методов контроля позволило снизить вариативность нежелательных артефактов, повысить точность передачи визуальных характеристик и упростить процесс формирования промптов, делая его более предсказуемым, воспроизводимым и универсальным для различных платформ. В целом внедрение этой методологии способствует улучшению взаимодействия человека с искусственный интеллект, повышению стабильности и качества визуальных результатов, а также облегчает адаптацию промптов под разные модели и задачи.

Заключение. Проведенное исследование подтвердило эффективность предложенной универсальной методологии позитивного промпт-инжиниринга для генерации изображений диффузионными моделями. Внедрение структурированного подхода и стратегий лексической оптимизации позволяет значительно повысить качество, стабильность и предсказуемость результатов, а также снизить количество нежелательных артефактов. Такой подход способствует более управляемому и универсальному взаимодействию человека с искусственный интеллект, облегчая создание высококачественных изображений в различных моделях и условиях. В дальнейшем использование разработанной методологии может стать основой для повышения эффективности автоматизированных систем генерации визуального контента и расширения их практических возможностей.

Об авторах

А. А. Зоткина
Пензенский государственный технологический университет
Россия

Зоткина Алена Александровна, кандидаттехнических наук, доцент кафедры программирования

пр. Байдукова / ул. Гагарина, д. 1а/11, г. Пенза 440039



А. И. Мартышкин
Пензенский государственный технологический университет
Россия

Мартышкин Алексей Иванович, кандидат технических наук, доцент, заведующий кафедрой программирования

Researcher ID: S-7452-2016

пр. Байдукова / ул. Гагарина, д. 1а/11, г. Пенза 440039



А. А. Павлов
Пензенский государственный технологический университет
Россия

Павлов Аким Алексеевич, студент кафедры программирования

пр. Байдукова / ул. Гагарина, д. 1а/11, г. Пенза 440039



А. В. Ткаченко
Пензенский государственный технологический университет
Россия

Ткаченко Александра Васильевна, студент кафедры программирования

пр. Байдукова / ул. Гагарина, д. 1а/11, г. Пенза 440039



Список литературы

1. Opportunities and challenges of diffusion models for generative AI / C. Cao, C. Tan, J. Gao [et al.] // National Science Review. 2024. Vol. 11, N 12. P. Nwae348. https://doi.org/10.1093/nsr/nwae348

2. A state-of-the-art review of diffusion model applications for microscopic image and microalike image analysis / Yan Liu, Tao Jiang, Rui Li [et al.] // Frontiers in Medicine. 2025. Vol. 12. P. 1551894. https://doi.org/10.3389/fmed.2025.1551894

3. What is Prompt Engineering? // Google Cloud. URL: https://cloud.google.com/discover/what-is-prompt-engineering (дата обращения: 15.09.2025).

4. Prompt engineering concepts // Amazon Bedrock. URL: https://docs.aws.amazon.com/bedrock/latest/userguide/prompt-engineering-guidelines.html (дата обращения: 20.09.2025).

5. Промпт-инжиниринг: создание эффективных запросов для GigaChat // Sber Developers. URL: https://developers.sber.ru/docs/ru/gigachat/prompts-hub/prompt-engineering (дата обращения: 22.09.2025).

6. Stable Diffusion 3.5 Prompt Guide // Stability AI. URL: https://stability.ai/learninghub/stable-diffusion-3-5-prompt-guide (дата обращения: 25.09.2025).

7. Chain-of-Thought Prompting // Anthropic. URL: https://docs.anthropic.com/ru/docs/buildwith-claude/prompt-engineering/chain-prompts (дата обращения: 27.09.2025).

8. Imagen prompt guide. Gemini API // Google AI for Developers. URL: https://ai.google.dev/gemini-api/docs/imagen-prompt-guide (дата обращения: 30.09.2025).

9. Collection of Dall-E 3 prompting tips, issues and bugs, Simplified // OpenAI. URL: https://community.openai.com/t/collection-of-dall-e-3-prompting-tips-issues-and-bugs-simplified/994822 (дата обращения: 03.09.2025).

10. How to Design Prompts for Flux 1.1 Pro. URL: https://fluxproweb.com/blog/detail/Howto-Design-Prompts-for-Flux-1-1-Pro-0a16b61b16e6/ (дата обращения: 05.09.2025).

11. Version // Midjourney Docs. URL: https://docs.midjourney.com/hc/en-us/articles/32199405667853-Version (дата обращения: 07.09.2025).

12. Ideogram 3.0 // Ideogram. URL: https://about.ideogram.ai/3.0 (дата обращения: 10.09.2025).

13. Kandinsky 3.0 // AI Forever. URL: https://ai-forever.github.io/Kandinsky-3/ (дата обращения: 12.09.2025).

14. How to Craft Prompts for Accurate, AI-Generated Images // Recraft. URL: https://www.recraft.ai/blog/how-to-craft-prompts-for-accurate-ai-generated-images (дата обращения: 15.09.2025).

15. Navigating the Alignment Challenges of Diffusion Models: Insights and Innovations // Preprints.org. 2025. N 1502 // URL: https://www.preprints.org/manuscript/202501.1502/v1 (дата обращения: 18.09.2025).

16. Recraft introduces a revolutionary AI model that thinks in design language // Recraft. URL: https://www.recraft.ai/blog/recraft-introduces-a-revolutionary-ai-model-that-thinks-in-design-language (дата обращения: 20.09.2025).

17. Hierarchical Text-Conditional Image Generation with CLIP Latents // A. Ramesh, P. Dhariwal, A. Nichol [et al.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2022. URL: https://arxiv.org/abs/2204.06125 (дата обращения: 18.09.2025).

18. Ho J., Jain A., Abbeel P. Denoising Diffusion Probabilistic Models // Advances in Neural Information Processing Systems (NeurIPS). 2020. Vol. 33. URL: https://proceedings.neurips.cc/paper/2020/hash/4c5bcfec8584af0d967f1ab10179ca4b-Abstract.html (дата обращения: 11.09.2025).

19. Rombach R., Blattmann A., Lorenz D., et al. High-Resolution Image Synthesis with Latent Diffusion Models // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2022. URL: https://openaccess.thecvf.com/content/CVPR2022/papers/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.pdf (дата обращения: 11.09.2025).


Рецензия

Для цитирования:


Зоткина А.А., Мартышкин А.И., Павлов А.А., Ткаченко А.В. Семантически-инвариантное кондиционирование диффузионных моделей: унифицированный фреймворк для кросс-модельного позитивного промптинга. Известия Юго-Западного государственного университета. Серия: Управление, вычислительная техника, информатика. Медицинское приборостроение. 2025;15(4):35-49. https://doi.org/10.21869/2223-1536-2025-15-4-35-49

For citation:


Zotkina A.A., Martyshkin A.I., Pavlov A.A., Tkachenko A.V. Semantically invariant conditioning of diffusion models: a unified framework for cross-model positive prompting. Proceedings of the Southwest State University. Series: IT Management, Computer Science, Computer Engineering. Medical Equipment Engineering. 2025;15(4):35-49. (In Russ.) https://doi.org/10.21869/2223-1536-2025-15-4-35-49

Просмотров: 10

JATS XML


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2223-1536 (Print)