Perceptron Mk1 发布:面向视频与具身推理的前沿 VLM

AI摘要
Perceptron Inc. 于5月12日发布Perceptron Mk1,这是一个专注于视频与具身推理的视觉语言模型(VLM)。该模型支持动态帧率(最高2 FPS)视频分析、32K多模态上下文窗口,并能直接输出点、框、多边形等结构化空间信息,而非仅自然语言描述。其设计目标为理解物理世界视频流,适用于机器人、自动驾驶等场景。这是一则【知识分享】。

Perceptron Mk1 发布:面向视频与具身推理的前沿 VLM

Perceptron Inc. 在 5 月 12 日发布了 Perceptron Mk1,一个定位为"前沿视频与具身推理"的视觉语言模型。这不是一个通用的 VLM——它的设计目标非常明确:理解物理世界中的视频流并输出结构化空间信息。

@perceptroninc 在发布推文中称:

Today we're releasing Perceptron Mk1: frontier video and embodied reasoning.

OpenRouter 第一时间上线了该模型,并在其公告中提供了详细规格。@OpenRouter 指出:

Perceptron Mk1 is live on OpenRouter, built by @perceptroninc. Frontier video and embodied reasoning in a vision-language model. Analyzes video at a dynamic frame rate (up to 2 FPS) across a 32k multimodal context, with hybrid reasoning and structured spatial primitives (points, boxes, polygons, clips) as first-class outputs.

其技术核心亮点包括:支持最高 2 FPS 的动态帧率视频分析、32K 多模态上下文窗口,以及将点、框、多边形、视频片段等结构化空间原语作为一等输出。这意味着 Mk1 不仅能"看懂"视频,还能直接输出可被下游系统消费的机器可读空间信息,而非仅仅是自然语言描述。

Perceptron 的联合创始人 @AkshatS07 补充称,所有 Mk1 推理运行在 Modal 上,因为原生视频处理、结构化输出和混合推理产生了特殊的冷启动和扩缩需求——这一选择本身也佐证了 Mk1 的工作负载特殊性。

值得注意的是,Perceptron Mk1 的发布代表了当前视频理解模型的一个新方向:不是简单地用更多帧训练更大的模型,而是将时空推理结构化输出作为一等公民设计。其"具身推理"的定位暗示了与机器人、自动驾驶、工业检测等物理世界应用的衔接可能。

🚀 模型发布/更新

本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!