智谱AI写作助手

中国版对话语言模型，与GLM大模型进行对话。

所在地：

中国

语言：

收录时间：

2024-08-18

智谱AI写作助手

智谱AI推出新一代基座模型 GLM-4

2024年01月16日，我们在「智谱AI技术开放日(Zhipu DevDay)」推出新一代基座大模型 GLM-4。

我们推出 GLM-4 All Tools、GLMs 智能体、大模型科研基金、大模型开源基金以及「Z计划」创业基金等内容。欢迎前往智谱清言体验 All Tools 以及无代码开发 GLMs 智能体。开发者可通过智谱 MaaS 开放平台体验 GLM-4 128K API、GLM-4V 图片理解和 CogView3 文生图 API。

GLM-4

新一代基座大模型 GLM-4 的整体性能相比上一代大幅提升，十余项指标逼近或达到 GPT-4；支持更长上下文；更强的多模态；支持更快推理速度，更多并发，大大降低推理成本；同时 GLM-4 增强了智能体能力。

基础能力（英文）：GLM-4 在 MMLU、GSM8K、MATH、BBH、HellaSwag、HumanEval 等数据集上，分别达到 GPT-4 94%、95%、91%、99%、90%、100%的水平。

基础能力（英文）

	MMLU (5-shot)	GSM8K (5-shot)	MATH (4-shot)	BBH (3-shot)	HellaSwag (10-shot)	HumanEval (0-shot)
GPT-4	86.4	92.0	52.9	83.1	95.3	67.0
Gemini-Ultra	83.7	94.4	53.2	83.6	87.8	74.4
GLM-4	81.5	87.6	47.9	82.3	85.4	72.0
GLM-4 / GPT-4	94%	95%	91%	99%	90%	100%

指令跟随能力：GLM-4 在 IFEval 的 prompt 级别上中、英分别达到 GPT-4 的88%、85%的水平，在 Instruction 级别上中、英分别达到 GPT-4 的90%、89%的水平。

指令跟随能力（中英）

	IFEval Prompt级别、中文	IFEval Instruction级别、中文	IFEval Prompt级别、英文	IFEval Instruction级别、英文
GPT-4	72.4	80.0	79.5	85.4
GLM-4	63.4	71.9	67.7	76.4
GLM-4 / GPT-4	88%	90%	85%	89%

对齐能力：GLM-4 在中文对齐能力上整体超过 GPT-4。

对齐能力（中文）

长文本能力：我们在 LongBench（128K）测试集上对多个模型进行评测，GLM-4 性能超过 Claude 2.1；在「大海捞针」（128K）实验中，GLM-4 的测试结果为 128K 以内全绿，做到100%精准召回。

数据统计