GLM-Image is the first open-source industrial-grade discrete auto-regressive image generation model with 16B parameters (9B autoregressive + 7B diffusion decoder). It excels at text rendering, especially Chinese characters, and knowledge-intensive content generation.

What makes GLM-Image's text rendering exceptional?

GLM-Image uses the Glyph-byT5 text encoder, which provides exceptional accuracy for text rendering in images. It achieves 0.9788 accuracy on Chinese text (LongText-Bench ZH) and 0.9557 on English text (LongText-Bench EN), outperforming other models.

What are the system requirements for GLM-Image?

GLM-Image requires a GPU with 80GB+ VRAM or a multi-GPU setup. It also requires Python 3.8 or higher and the latest stable version of PyTorch.

GLM-Image：首个开源工业级
自回归图像生成模型

GLM-Image 结合了 9B 自回归生成器和 7B 扩散解码器，实现卓越的文本渲染和知识密集型生成能力。体验专为高保真图像创建优化的 16B 参数模型的强大力量。

文本渲染知识密集型 16B 参数开源

免费图像生成器试用演示在 GitHub 上查看

试用 GLM-Image 在线演示

实时体验 AI 驱动的图像生成，卓越的文本渲染能力

如果持续加载失败，请检查您的网络连接

演示暂时不可用

直接访问

如何使用 GLM-Image 演示

文本生成图像

• 输入描述图像的文本提示
• 选择图像尺寸和质量设置
• 生成具有精确文本渲染的高质量图像

高级功能

• 卓越的中英文文本渲染
• 知识密集型内容生成
• 支持复杂指令和细节

GLM-Image 核心功能

GLM-Image 在多个维度上提供卓越性能，从文本渲染到知识密集型生成。

卓越的文本渲染

GLM-Image 在中文文本渲染上达到 0.9788 的准确率（LongText-Bench ZH），英文文本达到 0.9557。非常适合创建海报、信息图表和多语言内容，实现精确的文本集成。

混合架构

结合 9B 自回归生成器和 7B 扩散解码器实现渐进式生成。模型首先使用低分辨率令牌建立布局，然后添加高分辨率细节。

知识密集型生成

GLM-Image 擅长复杂指令遵循和事实准确性。非常适合教育内容、技术图表和需要复杂信息表示的创意工作。

高分辨率输出

生成 1024px 到 2048px 的原生分辨率图像。GLM-Image 为专业应用生成具有卓越细节和清晰度的印刷质量图像。

图像编辑与风格迁移

利用块因果注意力机制实现精确的图像编辑功能。通过风格迁移转换照片、增强图像并创建艺术变体，同时保留关键细节。

身份保持

在多次生成中保持多主体一致性。非常适合角色设计、品牌一致性以及需要在多个图像中识别主体的项目。

GLM-Image 性能展示

GLM-Image 在行业基准测试中表现出色，尤其在文本渲染准确性方面表现卓越。

基准测试对比

基准测试	GLM-Image	竞品平均	提升
CVTG-2K Word Accuracy	0.9116	0.7850	+16.1%
LongText-Bench EN	0.9557	0.8920	+7.1%
LongText-Bench ZH	0.9788	0.8650	+13.2%
OneIG-Bench	0.528	0.512	+3.1%
DPG-Bench	84.78	82.45	+2.8%
TIIF-Bench (Short)	81.01	78.30	+3.5%

* 竞品平均值基于可比较的开源模型。GLM-Image 在文本渲染任务中始终表现优异。

📝

文本渲染

创建多语言精确文本集成的图像，非常适合海报和营销材料。

🎨

风格迁移

使用艺术风格转换图像，同时保持主体身份和关键视觉元素。

📚

教育内容

为教育材料生成知识密集型视觉内容，准确表示信息。

GLM-Image 技术创新

GLM-Image 融合了前沿的架构创新，实现卓越的图像生成性能。

🔷

语义-VQ 标记化

16× 压缩比，保留语义信息。相比传统 VQVAE 方法具有更优的收敛特性。

📊

渐进式生成

分层令牌生成：首先生成低分辨率布局（约 256 个令牌），然后添加高分辨率细节（1K-4K 个令牌）。

✍️

Glyph-byT5 编码器

字符级编码实现卓越的文本渲染准确性，特别适合中文字符和复杂文字系统。

🎯

块因果注意力

在图像编辑过程中保持高频细节，同时减少计算开销以实现高效处理。

快速开始使用 GLM-Image

几分钟内开始使用 GLM-Image。安装所需的软件包并开始生成高质量图像。

安装

pip install git+https://github.com/huggingface/transformers.git
pip install git+https://github.com/huggingface/diffusers.git

系统要求

GPU

80GB+ 显存或多 GPU 配置

Python

版本 3.8 或更高

基本使用

import torch
from diffusers.pipelines.glm_image import GlmImagePipeline

pipe = GlmImagePipeline.from_pretrained(
    "zai-org/GLM-Image",
    torch_dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "A beautiful landscape with mountains and a lake"
image = pipe(
    prompt=prompt,
    height=32 * 32,
    width=36 * 32,
    num_inference_steps=50,
    guidance_scale=1.5
).images[0]

image.save("output.png")

GitHub 仓库 HuggingFace 模型文档

常见问题

关于 GLM-Image 及其功能的常见问题。

GLM-Image 是首个开源工业级离散自回归图像生成模型，拥有 16B 参数（9B 自回归 + 7B 扩散解码器）。它在文本渲染（尤其是中文字符）和知识密集型内容生成方面表现出色。

GLM-Image 使用 Glyph-byT5 文本编码器，为图像中的文本渲染提供卓越的准确性。它在中文文本上达到 0.9788 的准确率（LongText-Bench ZH），在英文文本上达到 0.9557（LongText-Bench EN），超越其他模型。

GLM-Image 需要配备 80GB+ 显存的 GPU 或多 GPU 配置。它还需要 Python 3.8 或更高版本以及最新稳定版本的 PyTorch。该模型的大参数量（16B）需要大量的计算资源。

GLM-Image 结合了 9B 自回归生成器和 7B 扩散解码器。自回归组件首先生成低分辨率令牌（约 256 个）以建立布局，然后扩散解码器添加高分辨率细节（1K-4K 个令牌）以生成最终图像。

可以！GLM-Image 采用 Apache 2.0 许可证发布，允许商业使用。您可以在商业项目中使用 GLM-Image，修改它并分发它，只要您遵守许可证条款。

知识密集型生成是指 GLM-Image 能够以事实准确性遵循复杂指令的能力。这使其非常适合创建教育内容、技术图表以及需要准确表示复杂信息的图像。

GLM-Image 在文本渲染任务中超越同类模型，在 CVTG-2K 词准确率上达到 0.9116（比竞品提升 16.1%）。它在中文文本渲染方面也表现出色，准确率达到 0.9788，使其成为多语言内容创作的最佳选择。

可以，GLM-Image 可以针对特定领域或风格进行微调。该模型的架构支持迁移学习，允许您根据特定需求进行调整，同时保持其在文本渲染和知识密集型生成方面的核心能力。

GLM-Image：首个开源工业级自回归图像生成模型

试用 GLM-Image 在线演示

演示暂时不可用

如何使用 GLM-Image 演示

文本生成图像

高级功能

GLM-Image 核心功能

卓越的文本渲染

混合架构

知识密集型生成

高分辨率输出

图像编辑与风格迁移

身份保持

GLM-Image 性能展示

基准测试对比

文本渲染

风格迁移

教育内容

GLM-Image 技术创新

语义-VQ 标记化

渐进式生成

Glyph-byT5 编码器

块因果注意力

最新见解与指南

Qwen3.5-9B：阿里 9B 参数模型干翻 120B 大模型

FireRed-OCR 2B 模型：文档解析的 SOTA 时刻，超越 397B 大模型

ACE-Step 1.5：新一代开源多模态大模型突破

KANI-TTS-2：下一代开源文本转语音模型

MOSS-TTS：下一代开源文本转语音模型

FireRed-Image-Edit-1.0 完整指南：高保真图像编辑模型

GLM-5：智谱AI最新开源语言模型系列

Qwen3.5-397B-A17B：目前最强大的开源权重语言模型

Qwen3-TTS：2026年开源文本转语音革命

微软 VibeVoice-ASR：革命性语音识别模型

AgentCPM-Explore：首个开源4B参数智能体模型

FLUX 2 Klein：最快的 AI 图像生成模型

Qwen3-ASR-1.7B：革命性多语言语音识别模型

快速开始使用 GLM-Image

安装

系统要求

基本使用

常见问题

什么是 GLM-Image？

GLM-Image 的文本渲染为何如此出色？

GLM-Image 的系统要求是什么？

GLM-Image 的混合架构如何工作？

我可以在商业项目中使用 GLM-Image 吗？

什么是知识密集型生成？

GLM-Image 与其他图像生成模型相比如何？

GLM-Image 可以针对特定用例进行微调吗？

GLM-Image：首个开源工业级
自回归图像生成模型