京东开源全球首个全栈实时视频视觉语言交互模型，对比竞品胜率最高达87.9%-北京尧图网络科技有限公司

【导语近日京东开源了实时视频视觉语言交互模型JoyAI-VL-Interaction这是全球首个全栈开源的interaction模型和系统能让大模型从“一问一答”走向“边看边说”在评测中对比竞品优势明显。】全球首个开源开启实时视频交互新范式京东近日开源的JoyAI-VL-Interaction是全球首个全栈开源的interaction模型和系统还获得了vLLM-Omni的day-0原生支持。此模型让大模型从传统的“一问一答”模式转变为“边看边说”开发者基于该框架能快速搭建实景AI助手可实现持续观察、自主判断和即时响应。三重突破超越传统模型局限相比传统模型JoyAI-VL-Interaction有三重显著突破。首先是主动判断传统模型需等用户发起问题才处理画面而它能持续观察视频流自主判断何时说话或沉默。例如用户设置“裁判出示红牌时提醒我”模型会自动预警。其次是实时响应传统视频理解多在上传完整视频后分析而它面向正在发生的视频流画面变化时就能响应在安防预警等场景中更具价值。最后是适时智能体委托它具备后台任务委派能力遇到复杂任务可交给后台大模型或Agent前台继续观察开启了AI与人类协作的新范式。高灵活性支持多类型输入与组件替换JoyAI-VL-Interaction支持摄像头、直播流、监控流等多种视频输入也支持语音输入输出、可视化界面等。其ASR、TTS等组件都可按需替换开发者能接入自己的语音服务、Agent等具有很高的灵活性。评测获胜对比竞品优势明显在评测中JoyAI-VL-Interaction覆盖多个真实流式场景。在58个真人盲评案例中对比豆包视频通话助手总体胜率达77.6%对比Gemini视频通话助手总体胜率达87.9%尤其在监控预警场景中对两个基线均取得100%胜率。编辑观点京东开源的JoyAI-VL-Interaction为实时视频交互领域带来新突破其三重优势和高灵活性使其在实际应用中表现出色有望推动相关产业发展。

京东开源全球首个全栈实时视频视觉语言交互模型，对比竞品胜率最高达87.9%

相关新闻

致远OA前端密码加密JS逆向分析与Python复现实战

光纤中超短光脉冲传播仿真工具：基于分步傅里叶法的NLSE数值求解器

.Net与JavaScript国密SM2跨平台加解密对接实战

最新新闻

DeepSeek V4 + Cherry Studio 构建可落地的AI Agent工作流

计算机专业学生必看，校招前搞定大模型项目的捷径

HarmonyOS 7.0 Skill开发实战：让你的App能力被AI智能体“一句话调用“

大模型时代基础设施：2026企业训推平台选型指南

Streamlit 和 Dash 都是 Python 中用于快速构建数据可视化 Web 应用（尤其是动态数据看板）的开源框架

Selenium与Playwright深度对比：现代Web自动化测试工具选型指南

日新闻

音视频场景下的 Java 开发者面试：技术与挑战

AI谈判中透明度与人格特质如何影响人机信任与合作

MPC8536E嵌入式平台实战：从BSP构建到驱动开发与系统集成

周新闻

深入解析P89LPC932A1 CCU模块：输入捕获与PWM实战指南

进化博弈论解析AI代理欺骗行为与风险管控

SCF5250 FlashMedia接口与DMA控制器配置实战：实现嵌入式存储高效数据传输

月新闻