GLM-4.7 与 GLM-4.7 Flash 模型介绍

AI摘要

本文介绍了智谱AI于2025年12月发布的GLM-4.7系列大语言模型，包括旗舰版GLM-4.7和轻量版GLM-4.7 Flash。文章从概览、核心架构、性能评测、部署集成和实战应用等多个方面进行了详细阐述。GLM-4.7采用混合专家架构和三层“思考”系统，在编程和逻辑推理等基准测试中表现优异。GLM-4.7 Flash则主打免费API调用和低硬件需求的本地部署，并提供了具体的集成与开发指南。这是一篇关于国产大模型最新进展的【知识分享】。

GLM-4.7 与 GLM-4.7 Flash 模型介绍

1. 概览：国产大模型的新巅峰

发布时间：2025年12月22日
开发机构：智谱 AI (Zhipu AI)

GLM-4.7 系列的发布标志着开源大语言模型进入了一个新的竞争阶段。作为 GLM-4 系列的最新迭代，它不仅在通用能力上对标 GPT-5.2 和 Claude 3.5 Sonnet，更在 编程 (Coding) 和 逻辑推理 (Reasoning) 领域实现了显著超越。同时，推出的 GLM-4.7 Flash 以“免费调用”和“极速推理”的策略，迅速成为开发者社区的焦点。

2. 核心架构与技术突破

GLM-4.7 并不只是参数量的堆叠，而是引入了多项前沿的架构创新，使其在处理复杂长程任务时表现出惊人的稳定性。

2.1 混合专家架构 (MoE)

GLM-4.7 采用了先进的 MoE 架构，旨在平衡庞大的知识容量与推理效率。

GLM-4.7 (旗舰版)：
- 总参数量：约 3550亿 (355B)
- 激活参数：每次推理仅激活约 320亿 (32B) 参数。
- 优势：保证了模型拥有海量的知识储备，同时推理成本远低于同等规模的稠密模型。
GLM-4.7 Flash (轻量版)：
- 总参数量：约 300亿 (30B)
- 激活参数：每次推理仅激活约 30亿 (3B) 参数 (5/64 experts)。
- 核心技术：采用了 MLA (Multi-head Latent Attention) 架构，极大优化了长上下文的显存占用和推理速度。

2.2 三层“思考”系统 (Thinking System)

为了解决传统 LLM 在长任务中容易“遗忘”或“跑偏”的问题，GLM-4.7 引入了类人的思考机制：

交错式思考 (Interleaved Thinking)：
- 在输出每一个关键步骤或调用工具前，模型会先进行内部推理。确保每一步操作都是经过“深思熟虑”的，显著提升了指令遵循能力。
持久化思考 (Preserved Thinking)：
- 在多轮对话中，模型能够维护一个贯穿始终的“思维链”。即使经过数十轮交互，模型依然能清晰记得最初的目标和上下文逻辑，非常适合长程 Agent 任务。
回合级思考 (Turn-level Thinking)：
- 模型能够根据任务难度动态调整思考的深度，在响应速度和回答质量之间找到最佳平衡。

3. 硬核评测：数据说话

在多个权威基准测试中，GLM-4.7 展现出了统治级的表现，特别是在代码生成和数学推理方面。

GLM-4.7 与 GLM-4.7 Flash 模型介绍以及免费使用方法介绍

3.1 编程能力 (Coding)

GLM-4.7 被誉为“最强开源编程模型”。

基准测试 (Benchmark)	GLM-4.7	Claude 3.5 Sonnet	GPT-4o	备注
SWE-bench Verified	73.8%	49.0%	33.0%	解决真实 GitHub Issue 的能力
LiveCodeBench v6	84.9%	64.0%	-	涵盖最新编程竞赛题目

解读：在 SWE-bench 这种模拟真实软件工程挑战的测试中，GLM-4.7 大幅领先，这意味着它不仅仅能写片段代码，更能理解复杂的项目结构并修复 Bug。

3.2 逻辑与数学 (Reasoning & Math)

基准测试	GLM-4.7	GPT-4o	Claude 3.5 Sonnet	备注
AIME 2025	95.7%	-	-	国际顶尖数学竞赛水平
GPQA-Diamond	85.7%	~54.0%	~59.4%	研究生级科学难题

解读：接近满分的数学竞赛成绩和极高的 GPQA 得分，证明了 GLM-4.7 具备深度科研级别的推理能力。

4. GLM-4.7 Flash：免费、极速、可私有化

GLM-4.7 Flash 是目前性价比最高的模型选择，不仅 API 免费，还非常适合本地部署。

4.1 免费 API 政策

价格：0 元 (需实名认证，无需绑定信用卡)
并发限制：1 QPS (每秒请求数)。虽然有限制，但对于个人开发、调试 Prompt、运行非实时脚本已完全足够。
能力：支持 200k 上下文，涵盖 128k 输出，功能上不打折扣。
在在智谱开放平台 BigModel.cn 上线，并供免费调用。bigmodel.cn/

4.2 本地部署指南 (Local Deployment)

得益于 MoE 和 MLA 架构，GLM-4.7 Flash 对硬件极其友好。

硬件需求表

量化版本	显存需求 (VRAM)	推荐显卡	适用场景
BF16 (原版)	> 16 GB	RTX 3090 / 4090 / A4000	追求极致效果
INT8 量化	> 10 GB	RTX 3080 / 4080	平衡速度与精度
INT4 量化	> 6 GB	RTX 3060 / 4060	消费级显卡门槛

部署工具

vLLM / SGLang：推荐使用最新版 (Nightly Build)，完美支持 MoE 推理加速。支持多卡张量并行 (Tensor Parallelism)，4卡部署可获最佳吞吐量。
Ollama：已支持 GLM-4.7 Flash 量化版，一条命令即可运行：ollama run glm4.7-flash (需确认具体 tag)。

4.3 Vibe Coding 能力

Flash 模型同样继承了 Vibe Coding 特性。它不仅能写出功能正确的代码，还能深刻理解前端美学。生成的 UI 代码（HTML/CSS）布局现代、配色和谐，能够直接达到“设计师交付级”的效果。

5. 生态与集成

GLM-4.7 已融入主流开发生态：

SDK 支持：提供 Python 和 Java SDK，且 完全兼容 OpenAI SDK 协议。
开发工具集成：支持集成到 VS Code 插件（如 Cline, Roo Code），作为极其强大的 AI 编程助手。
第三方平台：OpenRouter, Novita AI 等平台也提供其 API 服务（通常按 token 计费，但支持更高并发）。

6. 实战集成指南 (Integration Guide)

GLM-4.7 的强大不仅在于网页对话，更在于它能深度集成到你的开发工作流中。以下是目前最主流的三种使用方式：

6.1 在 Claude Code 中使用

Claude Code 是 Anthropic 推出的下一代命令行 AI 编程工具。通过兼容协议，我们也可以让它驱动 GLM-4.7。

安装 Claude Code (需 Node.js 18+):

npm install -g @anthropic-ai/claude-code

配置环境 (接入智谱 API):
设置 ANTHROPIC_BASE_URL 环境变量，将其指向智谱的 Anthropic 兼容端点。
```
export ANTHROPIC_BASE_URL="https://api.z.ai/api/anthropic"
```
开始使用:
在终端直接运行，并指定模型（如需）：
```
claude "帮我用 React 写一个倒计时组件" --model glm-4.7
```
(注：具体端点路径请以智谱开放平台最新文档为准，部分功能可能需要额外的鉴权配置)

6.2 在 VSCode 中使用 (推荐 Cline / Roo Code)

这是目前体验 GLM-4.7 编程能力 最直接的方式。推荐使用开源插件 Cline (原 Claude Dev) 或其增强版 Roo Code。

安装插件:
- 在 VSCode 插件市场搜索并安装 Cline 或 Roo Code。
配置 API:
- 打开插件设置页。
- API Provider 选择 OpenAI Compatible (或插件内置的 Zhipu/GLM 选项)。
- Base URL: https://open.bigmodel.cn/api/paas/v4
- API Key: 输入你的智谱 API Key。
- Model ID: 输入 glm-4-plus 或 glm-4-flash (注意这里的 ID 需填写 API 实际支持的模型名称，通常 GLM-4.7 对应 glm-4-plus 或者是最新发布的 ID，请参考官网)。
实战效果:
- 这些插件支持 MCP (Model Context Protocol)，允许 GLM-4.7 读取你的本地文件、运行终端命令、甚至进行浏览器测试。
- Agent 模式: 你可以对它说 “把这个项目的 Python 依赖升级一下并运行测试”，它会自动分析 requirements.txt，执行 pip install，并根据报错自动修复代码。

6.3 进阶开发：构建你的 AI Agent (Skill & Tools)

GLM-4.7 最核心的竞争力在于其强大的工具调用 (Function Calling) 能力。它能够精准识别何时调用外部函数，并从自然语言中提取准确的参数。这使得它成为构建 Agent (智能体) 的最佳大脑。

核心流程：Observation -> Thought -> Action

一个完整的 GLM-4.7 Tool Use 流程通常包含 4 个步骤：

定义工具 (Schema): 告诉模型有哪些“技能”可用（如查询天气、搜索数据库）。
模型决策 (LLM Call): 模型分析用户意图，返回“需要执行的函数名及参数”。
执行工具 (Execute): 你的代码拦截模型响应，执行真实的 Python/API 函数。
回传结果 (Observation): 将函数的执行结果以 tool 角色的身份发回给模型，模型据此生成最终回复。

完整 Python SDK 示例

以下代码展示了如何利用智谱官方 SDK (zhipuai) 构建一个能查询天气的简单 Agent。

1. 定义工具函数与 Schema

# 你的真实业务函数
def get_weather(city: str):
    if city == "Beijing":
        return "Sunny, 25°C"
    return "Cloudy, 20°C"

# 告诉模型的工具描述 (OpenAI 兼容格式)
tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Get the current weather for a city",
            "parameters": {
                "type": "object",
                "properties": {
                    "city": { "type": "string", "description": "The city name" }
                },
                "required": ["city"]
            }
        }
    }
]

2. 执行 Agent 循环

from zhipuai import ZhipuAI
import json

client = ZhipuAI(api_key="your_api_key") 

messages = [
    {"role": "user", "content": "Tell me the weather in Beijing."}
]

# 第一次请求：模型决策
response = client.chat.completions.create(
    model="glm-4.7", # or glm-4.7-flash
    messages=messages,
    tools=tools,
    tool_choice="auto" # 让模型自动决定是否调用工具
)

message = response.choices[0].message

# 检查模型是否决定调用工具
if message.tool_calls:
    tool_call = message.tool_calls[0]
    function_name = tool_call.function.name
    function_args = tool_call.function.arguments

    print(f"Model deciding to call: {function_name} with {function_args}")

    # 执行真实函数 (这里简单模拟)
    args = json.loads(function_args)
    tool_result = get_weather(city=args.get("city"))

    # 将结果追加到对话历史中 (Role = tool)
    messages.append(message) # 添加模型的 Tool Call 请求
    messages.append({
        "role": "tool",
        "content": tool_result,
        "tool_call_id": tool_call.id # 必须匹配 ID
    })

    # 第二次请求：模型接收结果并生成最终回复
    final_response = client.chat.completions.create(
        model="glm-4.7",
        messages=messages,
        tools=tools
    )
    print("Final Answer:", final_response.choices[0].message.content)
else:
    print("Model Answer:", message.content)

高级技巧：`tool_choice` 详解

auto (默认): 模型自主判断。如果用户问“你好”，它通过对话回复；如果问“北京天气”，它调用工具。
required: 强迫模型必须调用工具。常用于“提取结构化数据”场景（如从简历 PDF 中强行提取姓名电话），无论用户说什么，模型都会尝试匹配工具 Schema。
指定函数: 你也可以直接传入 Dictionary {"type": "function", "function": {"name": "my_func"}} 来指定调用某一个特定函数。

通过这种方式，你可以将 GLM-4.7 封装成拥有“联网搜索”、“数据库读写”、“文件分析”等无限技能的超级助理。

本作品采用《CC 协议》，转载必须注明作者和本文链接

JieJue

11 声望

暂无个人描述~

1 人点赞

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

GLM-4.7 与 GLM-4.7 Flash 模型介绍

GLM-4.7 与 GLM-4.7 Flash 模型介绍

1. 概览：国产大模型的新巅峰

2. 核心架构与技术突破

2.1 混合专家架构 (MoE)

2.2 三层“思考”系统 (Thinking System)

3. 硬核评测：数据说话

3.1 编程能力 (Coding)

3.2 逻辑与数学 (Reasoning & Math)

4. GLM-4.7 Flash：免费、极速、可私有化

4.1 免费 API 政策

4.2 本地部署指南 (Local Deployment)

硬件需求表

部署工具

4.3 Vibe Coding 能力

5. 生态与集成

6. 实战集成指南 (Integration Guide)

6.1 在 Claude Code 中使用

6.2 在 VSCode 中使用 (推荐 Cline / Roo Code)

6.3 进阶开发：构建你的 AI Agent (Skill & Tools)

核心流程：Observation -> Thought -> Action

完整 Python SDK 示例

高级技巧：`tool_choice` 详解

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

GLM-4.7 与 GLM-4.7 Flash 模型介绍

GLM-4.7 与 GLM-4.7 Flash 模型介绍

1. 概览：国产大模型的新巅峰

2. 核心架构与技术突破

2.1 混合专家架构 (MoE)

2.2 三层“思考”系统 (Thinking System)

3. 硬核评测：数据说话

3.1 编程能力 (Coding)

3.2 逻辑与数学 (Reasoning & Math)

4. GLM-4.7 Flash：免费、极速、可私有化

4.1 免费 API 政策

4.2 本地部署指南 (Local Deployment)

硬件需求表

部署工具

4.3 Vibe Coding 能力

5. 生态与集成

6. 实战集成指南 (Integration Guide)

6.1 在 Claude Code 中使用

6.2 在 VSCode 中使用 (推荐 Cline / Roo Code)

6.3 进阶开发：构建你的 AI Agent (Skill & Tools)

核心流程：Observation -> Thought -> Action

完整 Python SDK 示例

高级技巧：tool_choice 详解

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录

高级技巧：`tool_choice` 详解