自动驾驶[1]

北大团队提出TRKT模型 突破弱监督动态场景图生成目标检测瓶颈

动态场景图生成是计算机视觉核心技术,能为视频帧检测物体并推断关系,广泛应用于自动驾驶、智能监控等领域。弱监督动态场景图生成(WS-DSGG)虽降低标注成本,但目标检测瓶颈制约性能。北京大学团队提出TRKT模型,通过关系敏感知识挖掘(关注物体及交互区域)及时序增强(结合光流信息抗运动模糊),搭配双流融合模块优化定位与置信度,将检测准确率(mAP)从67.4%提升至72.5%,场景图生成Recall@50从45.2%提升至49.3%,在运动模糊、遮挡场景表现更优,推理延迟降低10%。模型已开源,助力自动驾驶路况理解、智能监控异常检测等落地。