我们的项目针对的目标用户主要是大学校园内的学生和教职员工,他们每天都依赖自行车作为主要的出行工具。由于繁忙的学业和工作,这些用户需要一个简便且高效的方式来保障他们的自行车安全。特别是在面对日益增长的自行车盗窃事件时,他们希望能在车辆失窃后,迅速定位到疑似盗窃者和自行车的最后出现位置,从而增加寻回失窃自行车的可能性,减小所需的时间成本。
在当前市场上,针对自行车盗窃问题,已有一些基于物理锁和GPS跟踪器组合的解决方案,旨在提供自行车的实时位置跟踪。但这些方案在校园内普及和推广上面临一定挑战。首先,它们往往需要用户购买和安装额外的硬件设备,这无疑增加了学生的经济负担,并难以推行。其次,由于校园内环境相对封闭、频繁的自行车停放变动,使得这些方案的效果并不稳定。相比之下,我们的系统利用了校园现有的监控设备,在不侵犯隐私的条件下,能够实时跟踪自行车的位置,无需用户额外投资或安装,为校园内的自行车安全提供了一个更为全面和便捷的解决方案,具有显著的竞争优势。
首先我们基于yolox目标检测算法,以监控画面的画面帧作为输入,来实时识别-分割-追踪校园中正在骑行的自行车与自行车上的人。
综合考量了监控分辨度低人像模糊,自行车特征信息不易提取、多机位拍摄带来的画面追踪困难等问题,我们训练了自己的人车重识别的工业级AI模型BikeReid,分离人车特征向量进行表征和度量学习,根据人的穿着、姿态与自行车纹理等特征完成识别分类任务,避免了传统的人脸识别方案带来的隐私问题。每帧的Reid计算生成特征向量平均仅需0.024s,完美完成了实时性的要求。BikeReid在rank10准确率上达到了79.53%,达到工业上部署要求。
此外,我们建立一个Mysql数据库,用来存储各自行车与人的的配对、监控位置与时间戳等基本信息;而对于核心的查询预警功能,利用Milvus引擎针对海量的特征向量进行高速相似度查询。当发现全新的配对时,会将此配对及对应画面加入预警库,从而对自行车盗窃进行预警,并为找回被盗自行车提供便利。
我们的预期使用场景是:当有学生自行车被盗时,数据库会自动发出预警信息,校方仅需查询一次即可获知所有疑似人车不匹配画面帧,选中后再次点击查询,即可显示此辆自行车在监控记录里所有历史人车配对图片,大幅减少查看监控的代价,从而提高寻找被盗自行车的效率。
本项目扩展性良好,对于特征信息更突出的电瓶车、摩托车、乃至汽车等交通工具,只重训REID模型即可实现相同的功能,这里以难度系数较高的自行车识别作为演示。
项目主要分为人车跨镜头重识别管线与数据库交互管线两部分。
下图充分展现了我们的人车跨镜头重识别管线工作的困难之处:不仅需要跨摄像头识别,还需要在低分辨率、多人、多车等复杂情况下进行识别。 为了解决这些问题,我们的人车跨镜头重识别管线主要分为以下几个步骤:
我们使用一个数据库来存储各自行车与人的特征向量的配对。 同时我们也建立一个预警库来存储可疑的人车配对及其画面样本。当发现全新的记录时,会将此配对及对应画面加入预警库以便对自行车盗窃进行预警,存储的画面将用于为找回被盗自行车提供便利。
yolo算法设计快速、准确且易于使用,使其成为各种物体检测与跟踪、实例分割、图像分类和姿态估计任务的绝佳选择 ,具有突出的实时性和高精度等优良特性。
目标检测模块使用YOLOx目标检测算法,对输入的画面进行目标检测,分割出画面中的自行车与人。
我们选择YOLOX-m模型来完成目标检测功能,该模型参数量为25.33M, Gflops量为73.98,在V100显卡上YOLOX对一帧图像耗时平均为0.024s(图像大小不影响结果,因为其大小会被标准化)
功能:
针对监控画质难题,仅仅利用现有的yolo模型无法胜任此任务。故训练了自己的BikeReid模型是重中之重。 训练的AI模型负责将分割出的人车图像分别送入模型进行跨摄像头重识别,得到自行车的特征向量,是本项目核心所在。 下面是BikeReid模型与其余几个模型的效果对比图: 功能:
数据库模块通过MYSQL和Milvus两个数据库耦合共同实现。简要来说,其中MySQL记录人、车、监控编号、时间戳等基本信息,建立关系型数据库;而Milvus向量数据库则专用于自行车特征向量的存储,高速检索,相似度查询功能。
MySQL部分:
主功能分为两大块:
Milvus部分:
Milvus是 基于 FAISS、Annoy、HNSW 的向量搜索数据库,核心是解决稠密向量相似度检索的问题。此外,Milvus 支持数据分区分片、数据持久化、增量数据摄取、标量向量混合查询、time travel 等功能, 针对万亿级向量完成毫秒级搜索,适配在本项目特征向量embedding的索引检索任务 。
此部分主要功能有
测试环境:
YOLOX对一帧图像耗时平均为0.024s(图像大小不影响结果,因为其大小会被标准化) Re-ID模型获取一个对象的embedding耗时0.024s(图像大小不影响结果,因为其大小会被标准化)
可以看到,在V100显卡的加持之下,模型对监控画面的识别速度可以达到每秒10-20帧(视监控中的自行车数量而定),具有很好的实时性;由于画面中自行车出现时间通常在数秒以上,因此对识别的帧率要求不高,由此也可将系统并发地用于多个摄像头的识别检测。
测试环境:
YOLOX对一帧图像耗时平均为0.5-0.6s(图像大小不影响结果,因为其大小会被标准化) Re-ID模型获取一个对象的embedding耗时0.5-0.6s(图像大小不影响结果,因为其大小会被标准化)
可以看到,即使在CPU环境下,对监控画面的识别帧率也可达到每秒1帧,符合该场景下不高的帧率要求,由此即使是无显卡配置或较低配置的显卡也能满足我们的要求。
模型在BikePerson数据集3上的一半自行车数据(1670辆自行车,33382张图片)进行训练,并在另一半自行车数据(1652辆自行车,33032张图片)上进行测试。测试集中的每辆自行车都不在训练集中。 测试集中每辆自行车在其中一个摄像头下的图片作为query集,其余摄像头下的图片作为gallery集。我们的模型在测试集上的表现如下:
Dataset | Rank-1 | Rank-5 | Rank-10 | mAP | mINP | metric |
---|---|---|---|---|---|---|
BikePerson | 56.25 | 71.43 | 79.53 | 52.79 | 34.39 | 54.52 |
可以看到,用户在查询时有56.25%的概率可以在返回的第一张图片中找到自己查询的自行车,有79.53%的概率可以在返回的前10张图片中找到自己的自行车,这样的精度符合我们的项目需求。
在自行车识别中,工作环境的严苛性要求在高噪音、低分辨率、少量特征点以及多样化的拍摄角度下实现准确的车辆识别。尽管车辆图像可以通过YOLO技术分割,从而有效降低背景的干扰,但为确保准确度,我们需要采纳高精度的表示学习方法以区分自行车的身份。而对于人脸的部分,可以直接使用现有的库进行识别。
需要注意的是,识别结果可能不稳定,同一辆车在相近的时间和地点下的识别结果可能会产生波动。为了增加稳定性和鲁棒性,我们可能需要引入基于时间和地点信息的滤波算法,确保在时间和地点的小范围变动内,识别结果保持连贯。
提高识别精度的策略如下:
改进表示学习方法:研究并采用更高精度的表示学习方法,例如采用更深、更复杂的神经网络结构。同时,考虑利用预训练模型和迁移学习,从大规模数据集中提取有价值的先验知识。
数据增强技术:利用旋转、平移、缩放等数据增强方法,扩充和丰富自行车图像数据,以增强模型的泛化能力。
设置合理阈值:在目标检测环节,适当设置置信度阈值和非极大值抑制(NMS)参数,确保高置信度目标的准确识别,从而降低误识别率。
滤波算法:采用基于时间和地点的滤波技术,保持短时间内识别结果的稳定性,充分考虑车辆在连续帧间的动态关系。
定期校准:定期进行系统校准,对自行车和人脸识别模型进行评估和微调,通过标注良好的样本进行测试和验证,确保系统的高准确度。
持续监控与优化:实时监控系统表现,根据用户反馈和日志数据进行分析,修复潜在问题,并根据实际反馈持续优化算法和参数。
备用与应急措施:准备应对识别精度下降或其他故障的备选方案,如预设人工审核环节或手动标注,确保及时纠正错误并恢复系统正常运行。
用户只需在图片输入框中输入自己的自行车图片,点击检索按钮,即可获得查询结果
查询结果包括前十个相似度最高的自行车,以及它们相应的出现记录
本项目需要在milvus服务与mysql服务开启的情况下运行
在docker开启的情况下,运行以下命令启动milvus服务
cd <project_path>/env/milvus
docker-compose up -d
若容器已构建,可直接运行docker start [OPTIONS] CONTAINER [CONTAINER...]
命令启动milvus服务
在mysql官网下载安装MySQL 5.x版本
安装完毕后,新建database命名为Bike_Database,运行以下命令启动mysql服务
mysql -h localhost -u root -p Bike_Database
安装requirements.txt
中的依赖包
在链接:https://rec.ustc.edu.cn/share/0905f400-6979-11ee-b8a8-8b9ab129030e 中下载模型文件,并将其放置于src/models/weights
目录下
将src\models\configs\PersonalConfigTemplate.py
复制为src\models\configs\PersonalConfig.py
,并根据自己的情况修改其中的配置
在src
目录下运行python main.py -mode q
即可启动项目的查询模块,运行python main.py -mode s
即可启动项目的监控模块
此后服务器的7860端口(默认端口)就可以获取用户的请求,响应用户的查询
这三个demo展示了项目运行的UI界面,当用户提交自行车图片后,系统会返回top10的相似度最高的人车匹配记录(命中率79.53%),以及它们的历史记录与相关信息(监控编号、时间戳、地点等)。用户可以根据这些信息,快速找到自己的自行车的最后出现位置,从而加快寻找被盗自行车的过程。
姓名 | 贡献 |
---|---|
罗浩铭 | 目标检测模块,重识别模块,顶层拼接 |
谢天 | 数据库交互模块,目标检测调研 |
张芷苒 | 前端,文档 |
当我们这个项目最初立项时,我们想的仅仅是简单地部署一个YOLO项目,并没有想到过深度学习项目的落地竟如此困难。由于我们的项目工作要求在高噪音、低分辨率、多样化的拍摄角度监控场景下,对特征并不鲜明的自行车实现准确的车辆识别,这对我们项目的技术水平提出了很高的要求。我们投入了大量的时间学习了目标检测、重识别、向量数据库等多个领域的知识,同时深度搜集了当下工业界最广泛使用、最先进的技术方案,最终经过大量的寻找和试错,从最初预想的技术路线一步步出发,最终找到了YOLOx + Fast-ReID + Milvus的技术路线。同时,由于自行车数据集非常稀有,我们花费了大量时间才搜集到了一个可用的自行车重识别数据集。在这个过程中,我们遇到了很多困难,克服了很多困难,回头望去,可谓是轻舟已过万重山!
Redmon, Joseph, et al. "You Only Look Once: Unified, Real-Time Object Detection." arXiv (Cornell University), June 2015, export.arxiv.org/pdf/1506.02640. ↩
He, Lingxiao, et al. "FastReID: A Pytorch Toolbox for General Instance Re-identification." arXiv (Cornell University), Cornell University, June 2020, https://doi.org/10.48550/arxiv.2006.02631. ↩
Yuan, Yuan, et al. "Bike-Person Re-Identification: A Benchmark and a Comprehensive Evaluation." IEEE Access, vol. 6, Institute of Electrical and Electronics Engineers, Jan. 2018, pp. 56059–68. https://doi.org/10.1109/access.2018.2872804. ↩ ↩2