ChatDLM

扩散驱动的语言革新者，单张 GPU 亦可突破 2800 Tokens/s，让对话速度与思考深度同时跃迁。

核心优势

极速生成

Diffusion 并行解码 + KV 缓存，生成速率是传统自回归模型的 30×

多尺寸模型

1.5B / 3B / 7B 参数量多档可选，覆盖边缘到企业级推理全场景。

成本友好

单张消费级 GPU 即可运行，推理成本仅为同规模自回归模型的 1/30。

更少幻觉

扩散式全局生成降低前缀偏置，自带 Rethink 反思流程，事实一致性显著提升。

技术规格

架构：Masked Block Diffusion + Mixture‑of‑Experts
并行度：最高 8× 解码通道
部署环境：GPU / LPU / CPU（可选），最佳性能在 GPU
推理接口：REST / WebSocket / OpenAI‑Compatible
开源协议：Apache 2.0（计划中）

立即体验

访问 chatdlm.cn，解锁语言创作的新速度！