Perceptron Mk1 发布：面向视频与具身推理的前沿 VLM

AI摘要

Perceptron Inc. 于5月12日发布Perceptron Mk1，这是一个专注于视频与具身推理的视觉语言模型（VLM）。该模型支持动态帧率（最高2 FPS）视频分析、32K多模态上下文窗口，并能直接输出点、框、多边形等结构化空间信息，而非仅自然语言描述。其设计目标为理解物理世界视频流，适用于机器人、自动驾驶等场景。这是一则【知识分享】。

Perceptron Mk1 发布：面向视频与具身推理的前沿 VLM

Perceptron Inc. 在 5 月 12 日发布了 Perceptron Mk1，一个定位为"前沿视频与具身推理"的视觉语言模型。这不是一个通用的 VLM——它的设计目标非常明确：理解物理世界中的视频流并输出结构化空间信息。

@perceptroninc 在发布推文中称：

Today we're releasing Perceptron Mk1: frontier video and embodied reasoning.

OpenRouter 第一时间上线了该模型，并在其公告中提供了详细规格。@OpenRouter 指出：

Perceptron Mk1 is live on OpenRouter, built by @perceptroninc. Frontier video and embodied reasoning in a vision-language model. Analyzes video at a dynamic frame rate (up to 2 FPS) across a 32k multimodal context, with hybrid reasoning and structured spatial primitives (points, boxes, polygons, clips) as first-class outputs.

其技术核心亮点包括：支持最高 2 FPS 的动态帧率视频分析、32K 多模态上下文窗口，以及将点、框、多边形、视频片段等结构化空间原语作为一等输出。这意味着 Mk1 不仅能"看懂"视频，还能直接输出可被下游系统消费的机器可读空间信息，而非仅仅是自然语言描述。

Perceptron 的联合创始人 @AkshatS07 补充称，所有 Mk1 推理运行在 Modal 上，因为原生视频处理、结构化输出和混合推理产生了特殊的冷启动和扩缩需求——这一选择本身也佐证了 Mk1 的工作负载特殊性。

值得注意的是，Perceptron Mk1 的发布代表了当前视频理解模型的一个新方向：不是简单地用更多帧训练更大的模型，而是将时空推理和结构化输出作为一等公民设计。其"具身推理"的定位暗示了与机器人、自动驾驶、工业检测等物理世界应用的衔接可能。

🚀 模型发布/更新

本作品采用《CC 协议》，转载必须注明作者和本文链接

FanchTech

105 声望

一家专注于 IT 解决方案、AI 技术开发、外包项目交付与对日人才培养的科...

0 人点赞

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

Perceptron Mk1 发布：面向视频与具身推理的前沿 VLM

Perceptron Mk1 发布：面向视频与具身推理的前沿 VLM

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

Perceptron Mk1 发布：面向视频与具身推理的前沿 VLM

Perceptron Mk1 发布：面向视频与具身推理的前沿 VLM

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录