bufan 开源软件 5天前

Step1X-Edit – 图像编辑模型

Step1X-Edit 是一个开源图像编辑模型，其性能可与 GPT-4o 和 Gemini2 Flash 等闭源模型相媲美。

该模型总参数量为 19B (7B MLLM + 12B DiT)，具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力；支持 11 类高频图像编辑任务类型，如文字替换、风格迁移、材质变换、人物修图等。

Step1X-Edit 针对自然语言图像编辑任务，具备以下核心能力：

Step1X-Edit 采用 MLLM（Multimodal LLM）+ Diffusion 的解耦式架构，分别负责自然语言理解与高保真图像生成，相比现有图像编辑模型，该架构在指令泛化能力与图像可控性上更具优势。

MLLM 模块负责处理自然语言指令与图像内容，具备多模态语义理解能力，可将复杂编辑需求解析为 latent 控制信号；
Diffusion 模块作为图像生成器（Image Decoder），根据 MLLM 生成的 latent 信号完成图像的重构或局部修改，确保图像细节保真与风格统一。

这一结构打破了传统 pipeline 模型中 “理解” 和 “生成” 各自为政的问题，使模型在执行复杂编辑指令时具备更高的准确性与控制力。