扩散驱动的语言革新者,单张 GPU 亦可突破 2800 Tokens/s,让对话速度与思考深度同时跃迁。
Diffusion 并行解码 + KV 缓存,生成速率是传统自回归模型的 30×
1.5B / 3B / 7B 参数量多档可选,覆盖边缘到企业级推理全场景。
单张消费级 GPU 即可运行,推理成本仅为同规模自回归模型的 1/30。
扩散式全局生成降低前缀偏置,自带 Rethink 反思流程,事实一致性显著提升。
访问 chatdlm.cn,解锁语言创作的新速度!