目标检测与跟踪 AI 算法模型及边缘计算智能分析网关 V4 的算法应用
目标检测与追踪是计算机视觉领域中的一个重要任务,主要用于识别图像或视频中的目标,并跟踪它们的运动轨迹。针对这一任务,有许多先进的AI算法模型,例如:
- YOLO(You Only Look Once):一种实时目标检测算法,通过单个神经网络模型实现对图像中多个目标的检测和定位。
- Faster R-CNN:基于深度学习的目标检测算法,通过结合区域建议网络(RPN)和卷积神经网络(CNN)实现对图像中目标的准确检测。
- SSD(Single Shot Multi Box Detector):一种快速目标检测算法,通过多尺度特征图检测出图像中的目标,实现了实时性能和准确性的平衡。
- DeepSORT(Deep Learningand Support Vector Regressor-based Object Tracking):一种基于深度学习和支持向量回归器的目标追踪算法,能够在视频中对目标进行准确跟踪。
目标检测与追踪AI算法模型是现代计算机视觉领域的重要研究方向,以上这些算法模型都具有较高的准确性和实时性能,广泛应用于视频监控、自动驾驶领域。
今天我们结合TSINGSEE青犀AI智能分析网关V4硬件的视频智能分析技术,来介绍下目标检测AI算法在视频分析、视频智能监控领域中的应用。
目标检测是目标追踪的前提,其主要任务是在给定的图像或视频帧中,自动检测出目标物体的位置、大小和类别等信息。目前,深度学习算法已成为目标检测的主流方法,其中卷积神经网络(CNN)是最常用的模型之一。通过训练大量的标注数据,CNN能够学习到目标物体的特征表示,从而实现高精度的目标检测。在智能监控领域,该模型可以实现对监控视频中目标的自动识别和追踪,提高监控系统的智能化水平。
TSINGSEE青犀视频智能分析网关V4内置了近40种AI算法模型,支持对接入的视频图像进行人、车、物、行为等实时检测分析,上报识别结果,并能进行语音告警播放。硬件管理平台支持RTSP、GB28181协议,以及厂家私有协议接入,可兼容市面上常见的厂家品牌设备,可兼容IPC、网络音柱等,同时也支持AI智能摄像头的接入。对于已部署有算法的AI智能摄像头,平台也能展示摄像头上传的告警信息。
在传统的视频监控中,大量的视频数据需要人工逐一查看,不仅耗时耗力,而且容易错过关键信息。而目标AI检测算法的引入,使得监控系统能够自动识别出视频中的关键目标,如人脸、车辆、异常行为等,从而大大减轻了人工监控的负担。通过对视频数据的实时分析,算法能够及时发现安全风险与异常事件,如人员入侵、周界安防、消防火灾等,并立即发出警报,使安保人员能够迅速作出反应,有效防止或减少损失。
在复杂的监控场景中,目标检测AI算法同样展现出了强大的能力。无论是光线变化、遮挡、还是目标的快速移动,算法都能够准确识别目标,保证监控的稳定性和可靠性。
AI智能分析网关V4目前可支持的算法如下:
在场景应用上,AI智能分析网关V4可以接入现场已有的存量监控摄像头等设备,无需大批更换新设备,硬件不仅可以实现对监控现场的视频智能分析与异常情况提醒,还可以实现实时视频监控、抓拍与录像、大数据态势分析、物联事件告警、GIS地图模式等功能,应用场景十分广泛。
1)周界防护:借助小区、园区、厂区等周界已建的各类视频监控,依托人体事件相关智能检测算法,实现非法人员闯入告警、周界入侵告警等,打破了传统电子围栏、红外对射、光纤振动等周界入侵告警方案,赋能周界入侵报警系统。
2)智能监控:依托人工智能技术,无缝智能化升级已建的视频监控系统,可对街区广场、活动中心、公园景区、社区道路等实现车牌识别、车辆轨迹跟踪以及人群聚集预警等,对社区道路卡口、出入口进出车辆进行实时管理,赋能监控系统智能化。
3)智慧消防:借助烟火识别技术,对商业街道、楼宇等室外广泛区域的火情进行自动识别报警,并与消防管理系统进行联通,赋能智慧消防系统。
4)智慧安监:通过安全帽检测、工作服检测、反光衣检测等算法,可对工厂、工地、生产车间等场所与区域内的工作人员自动检测是否按照规范着装,同时依据抽烟/玩手机、离岗等AI算法,自动识别工作人员是否存在违规行为,并能联动语音告警进行提醒,赋能企业安全生产。
5)智慧社区:基于系统内部署的AI算法模型,如:周界入侵、电瓶车入电梯、烟火、消防通道占压、消防设施检测、垃圾满溢、垃圾暴露、高空抛物等,可对小区内部及周边的安全隐患及意外事件进行识别与实时告警,对人、车、物、行为进行智能化管理,构建智慧社区可视化监管平台,推进小区信息化、网络化管理和立体化防控,实现治安防控全覆盖。
随着技术的不断进步,目标AI检测算法的性能也在持续提升。近年来,基于深度学习的目标追踪算法也取得了显著的进展,其中Siamese网络、MDNet等模型在目标追踪领域具有广泛的应用。从最初的简单识别,到现在的高精度、高效率,算法的不断优化和完善,使得视频智能监控领域的应用场景越来越广泛。
推荐阅读
-
【摩尔线程+Colossal-AI强强联手】MusaBert登上CLUE榜单TOP10:技术细节揭秘 - 技术实力:摩尔线程凭借"软硬兼备"的技术底蕴,让MusaBert得以从底层优化到顶层。其内置多功能GPU配备AI加速和并行计算模块,提供了全面的AI与科学计算支持,为AI推理和低资源条件下的大模型训练等场景带来了高效、经济且环保的算力。 - 算法层面亮点:依托Colossal-AI AI大模型开发系统,MusaBert在训练过程中展现出了卓越的并行性能与易用性,特别在预处理阶段对DataLoader进行了优化,适应低资源环境高效处理海量数据。同时,通过精细的建模优化、领域内数据增强以及Adan优化器等手段,挖掘和展示了预训练语言模型出色的语义理解潜力。基于MusaBert,摩尔线程自主研发的MusaSim通过对比学习方法微调,结合百万对标注数据,MusaSim在多个任务如语义相似度、意图识别和情绪分析中均表现出色。 - 数据资源丰富:MusaBert除了自家高质量语义相似数据外,还融合了悟道开源200GB数据、CLUE社区80GB数据,以及浪潮公司提供的1TB高质量数据,保证模型即便在较小规模下仍具备良好性能。 当前,MusaBert已成功应用于摩尔线程的智能客服与数字人项目,并广泛服务于语义相似度、情绪识别、阅读理解与声韵识别等领域。为了降低大模型开发和应用难度,MusaBert及其相关高质量模型代码已在Colossal-AI仓库开源,可快速训练优质中文BERT模型。同时,通过摩尔线程与潞晨科技的深度合作,仅需一张多功能GPU单卡便能高效训练MusaBert或更大规模的GPT2模型,显著降低预训练成本,进一步推动双方在低资源大模型训练领域的共享目标。 MusaBert荣登CLUE榜单TOP10,象征着摩尔线程与潞晨科技联合研发团队在中文预训练研究领域的领先地位。展望未来,双方将携手探索更大规模的自然语言模型研究,充分运用上游数据资源,产出更为强大的模型并开源。持续强化在摩尔线程多功能GPU上的大模型训练能力,特别是在消费级显卡等低资源环境下,致力于降低使用大模型训练的门槛与成本,推动人工智能更加普惠。而潞晨科技作为重要合作伙伴,将继续发挥关键作用。
-
目标检测与跟踪 AI 算法模型及边缘计算智能分析网关 V4 的算法应用
-
计算机视觉中,究竟有哪些好用的目标跟踪算法(下)-快速变形主要因为CF是模板类方法。容易跟丢这个比较好理解,前面分析了相关滤波是模板类方法,如果目标快速变形,那基于HOG的梯度模板肯定就跟不上了,如果快速变色,那基于CN的颜色模板肯定也就跟不上了。这个还和模型更新策略与更新速度有关,固定学习率的线性加权更新,如果学习率太大,部分或短暂遮挡和任何检测不准确,模型就会学习到背景信息,积累到一定程度模型跟着背景私奔了,一去不复返。如果学习率太小,目标已经变形了而模板还是那个模板,就会变得不认识目标。(举个例子,多年不见的同学,你很可能就认不出了,而经常见面的同学,即使变化很大你也认识,因为常见的同学在你大脑里面的模型在持续更新,而多年不见就是很久不更新) 快速运动主要是边界效应(Boundary Effets),而且边界效应产生的错误样本会造成分类器判别力不够强,下面分训练阶段和检测阶段分别讨论。 训练阶段,合成样本降低了判别能力。如果不加余弦窗,那么移位样本是长这样的: 除了那个最原始样本,其他样本都是“合成”的,100*100的图像块,只有1/10000的样本是真实的,这样的样本集根本不能拿来训练。如果加了余弦窗,由于图像边缘像素值都是0,循环移位过程中只要目标保持完整那这个样本就是合理的,只有目标中心接近边缘时,目标跨越边界的那些样本是错误的,这样虽不真实但合理的样本数量增加到了大约2/3(padding= 1),即使这样仍然有1/3(3000/10000)的样本是不合理的,这些样本会降低分类器的判别能力。再者,加余弦窗也不是“免费的”,余弦窗将图像块的边缘区域像素全部变成0,大量过滤掉分类器本来非常需要学习的背景信息,原本训练时判别器能看到的背景信息就非常有限,我们还加了个余弦窗挡住了背景,这样进一步降低了分类器的判别力(是不是上帝在我前遮住了帘。不是上帝,是余弦窗)。 检测阶段,相关滤波对快速运动的目标检测比较乏力。相关滤波训练的图像块和检测的图像块大小必须是一样的,这就是说你训练了一个100*100的滤波器,那你也只能检测100*100的区域,如果打算通过加更大的padding来扩展检测区域,那样除了扩展了复杂度,并不会有什么好处。目标运动可能是目标自身移动,或摄像机移动,按照目标在检测区域的位置分四种情况来看: 如果目标在中心附近,检测准确且成功。 如果目标移动到了边界附近但还没有出边界,加了余弦窗以后,部分目标像素会被过滤掉,这时候就没法保证这里的响应是全局最大的,而且,这时候的检测样本和训练过程中的那些不合理样本很像,所以很可能会失败。 如果目标的一部分已经移出了这个区域,而我们还要加余弦窗,很可能就过滤掉了仅存的目标像素,检测失败。 如果整个目标已经位移出了这个区域,那肯定就检测失败了。 以上就是边界效应(Boundary Effets),推荐两个主流的解决边界效应的方法,但速度比较慢,并不推荐用于实时场合。