Perceptron Mk1 发布:面向视频与具身推理的前沿 VLM
Perceptron Mk1 发布:面向视频与具身推理的前沿 VLM
Perceptron Inc. 在 5 月 12 日发布了 Perceptron Mk1,一个定位为"前沿视频与具身推理"的视觉语言模型。这不是一个通用的 VLM——它的设计目标非常明确:理解物理世界中的视频流并输出结构化空间信息。
@perceptroninc 在发布推文中称:
Today we're releasing Perceptron Mk1: frontier video and embodied reasoning.
OpenRouter 第一时间上线了该模型,并在其公告中提供了详细规格。@OpenRouter 指出:
Perceptron Mk1 is live on OpenRouter, built by @perceptroninc. Frontier video and embodied reasoning in a vision-language model. Analyzes video at a dynamic frame rate (up to 2 FPS) across a 32k multimodal context, with hybrid reasoning and structured spatial primitives (points, boxes, polygons, clips) as first-class outputs.
其技术核心亮点包括:支持最高 2 FPS 的动态帧率视频分析、32K 多模态上下文窗口,以及将点、框、多边形、视频片段等结构化空间原语作为一等输出。这意味着 Mk1 不仅能"看懂"视频,还能直接输出可被下游系统消费的机器可读空间信息,而非仅仅是自然语言描述。
Perceptron 的联合创始人 @AkshatS07 补充称,所有 Mk1 推理运行在 Modal 上,因为原生视频处理、结构化输出和混合推理产生了特殊的冷启动和扩缩需求——这一选择本身也佐证了 Mk1 的工作负载特殊性。
值得注意的是,Perceptron Mk1 的发布代表了当前视频理解模型的一个新方向:不是简单地用更多帧训练更大的模型,而是将时空推理和结构化输出作为一等公民设计。其"具身推理"的定位暗示了与机器人、自动驾驶、工业检测等物理世界应用的衔接可能。
🚀 模型发布/更新
本作品采用《CC 协议》,转载必须注明作者和本文链接
关于 LearnKu