深度学习数据集 近 100 个开源数据集
最编程
2024-03-20 14:08:53
...
深度学习开源数据集
Images Analysis 图像分析
数据集 | 介绍 | 备注 | 网址 |
---|---|---|---|
Flickr30k | 图片描述 | 31,783 images,每张图片5个语句标注 | 传送门 |
Microsoft COCO | 图片描述 | 330,000 images,每张图片至少5个语句标注 | 传送门 |
ESP Game | 多标签定义图像 | 20,770 images,268 tags,诸如bed, light man,music | 传送门 |
IAPRTC-12 | 多标签定义图像 | 19,452 images,291 tags | 传送门 |
NUS-WIDE | 多标签定义图像 | 269,648 images,several tags (2-5 on average) per image | 传送门 |
CUHK-PEDES | 以文搜图 | 34,054 images,每张图片2条描述 | 传送门 |
VRD | 视觉关系检测 | 5,000 images, 100目录,37,993对关系 | 传送门 |
sVG | 视觉关系检测 | 108,000 images, 998,000对关系 | 传送门 |
Visual Genome Dataset | 图像属性检测 | 108,077 images, 5.4 M 区域块,2.8 M 属性,2.3 M 关系 | 传送门 |
VQA | 问答系统 | 1,105,904问题,11,059,040 回答 | 传送门 |
Visual7W | 问答系统 | 327,939 问答对 | 传送门 |
TID2013 | 图像质量评价 | 25张参考图像,24个失真类型 | 传送门 |
CSIQ | 图像质量评价 | 30张参考图像,6个失真类型 | 传送门 |
LIVE | 图像质量评价 | 29张参考图像,5个失真类型 | 传送门 |
WATERLOO | 图像质量评价 | 4744张参考图像,20个失真类型 | 传送门 |
photo .net | 图像美观评价 | 20,278张图像,打分[0,10] | 传送门 |
DPChallenge .com | 图像美观评价 | 16,509张图像,打分[0,10] | 传送门 |
CUHK | 图像美观评价 | 28,410张图像,只分高质量和低质量 | 传送门 |
AVA | 图像美观评价 | 255,500张图像,打分[0,10] | 传送门 |
Image Motion & Tracking 图像运动与跟踪
数据集 | 介绍 | 备注 | 网址 |
---|---|---|---|
CUHK03 | Person re-identification(人重识别) | image num:13164 person num:1360 camera num:10( 5 pairs) | 传送门 |
CUHK02 | Person re-identification(人重识别) | image num:7264 person num:1816 camera num:10( 5 pairs) | 传送门 |
CUHK01 | Person re-identification(人重识别) | image num:3884 person num:971 camera num: 2 | 传送门 |
VIPeR | Person re-identification(人重识别) | image num:1264 person num:632 camera num:2 | 传送门 |
ETH1,2,3 | Person re-identification(人重识别) | image num:8580 person num:83,35,28 camera num:1 | 传送门 |
PRID2011 | Person re-identification(人重识别) | image num:24541 person num:934 camera num:2 | 传送门 |
MARS | Person re-identification(人重识别) | image num:11910031 person num:1261 camera num:6 | 传送门 |
Market1501 | Person re-identification(人重识别) | image num:32217 person num:1501 camera num:6 | 传送门 |
Epic Fail (EF) dataset | Risk Assessment(风险评估) | video num:3000 | 传送门 |
Street Accident (SA) dataset | Risk Assessment(风险评估) | video num:1733 | 传送门 |
OTB-50 | visual tracking(跟踪) | video num:50 | 传送门 |
OTB-100 | visual tracking(跟踪) | video num:100 | 传送门 |
VOT2015 | visual tracking(跟踪) | video num:60 | 传送门 |
ALOV300 | visual tracking(跟踪) | video num:314 | 传送门 |
MOT | visual tracking(跟踪) | video num train:11 test:11 | 传送门 |
THUMOS | Temporal action localization(动作定位) | video num:~3K activities class:20 instances:~3K | 传送门 |
ActivityNet | Temporal action localization(动作定位) | video num:20k activities class:200 instances:7.6K | 传送门 |
Mexaction2 | Temporal action localization(动作定位) | activities class:2 instances:1975 | 传送门 |
FlyingChairs dataset | optical flow(光流) | image pairs:22k | 传送门 |
FlyingThings3D | optical flow(光流) | image pairs:22k | 传送门 |
KITTI benchmark suite | optical flow(光流) | image pairs:1600 | 传送门 |
MPI Sintel | optical flow(光流) | image pairs:1064 | 传送门 |
Video Analysis & Scene Understanding 影像分析与情景理解
数据集 | 介绍 | 备注 | 网址 |
---|---|---|---|
UCF101 | 动作行为识别 | 13320 video,101类动作,主要是五大类:1)人-物交互;2)肢体运动;3)人-人交互;4)弹奏乐器;5)运动 | 传送门 |
HMDB51 | 动作行为识别 | 7000 videos,51类,包括人脸表情动作,身体动作,人与人交互等 | 传送门 |
Moments-in-Time | 动作行为识别 | 1,000,000 videos,339类 | 传送门 |
ActivityNet 1.3 | 动作行为识别 | 20,000 videos,200类 | 传送门 |
Kinetics | 动作行为识别 | 300,000 videos,400类 | 传送门 |
AVA | 动作行为识别 | 57,600 videos,80类 | 传送门 |
Collective Activity Dataset | 群体活动行为识别 | 44 videos,穿叉、行走、等待、交谈和排队 五类 | 传送门 |
Choi’s New Dataset | 群体活动行为识别 | 32 videos,聚会,谈话,分开,一起走,追逐和排队 六类 | None |
ActivityNet 1.3 | 检测动作事件的起始时间和终止时间 | 20,000 videos,200类动作的起始时间和终止时间 | 传送门 |
THUMOS | 检测动作事件的起始时间和终止时间 | 15,000 videos,101类动作的起始时间和终止时间 | 传送门 |
MED | 事件检测 | 32,744 videos,20个事件 | 传送门 |
EventNet | 事件检测 | 90,000 videos,500个事件 | 传送门 |
Columbia Consumer Video | 事件检测 | 9,317 videos,20个事件 | 传送门 |
ADE20K | 事件检测 | 20,210 videos,900个事件 | 传送门 |
DAVIS | 视频主物体分割 | 50 videos,分割标注 | 传送门 |
FBMS | 视频主物体分割 | 59 videos,分割标注 | 传送门 |
IJB-C | 视频人脸识别 | 11,000 videos | 传送门 |
YouTube Faces | 视频人脸识别 | 3,425 videos,1595 人 | 传送门 |
MS-Celeb-1M | 视频人脸识别 | 1,000,000 images,21,000人 | 传送门 |
MSVD | 视频描述 | 1,970 videos | 传送门 |
MSR-VTT-10K | 视频描述 | 10,000 videos | 传送门 |
3D Computer Vision 3d计算机视觉
数据集 | 介绍 | 备注 | 网址 |
---|---|---|---|
photoface database | 基于光度立体视觉的二维和三维人脸识别数据库 | 总共7356张图像,包含1839个session和261个subjects | None |
NYU Depth V2 dataset | 关于RGBD 图像场景理解的数据库 | 提供1449张深度图片和他们的密集2d点类标注 | 传送门 |
SUN RGBD dataset | 是上面的NYU Depth V2 dataset的超集,多了3D bounding boxes和room layouts的标注。 | 有10,000张RGB-D图片,有58,657个3D包围框和146,617 个2d包围框。 | 传送门 |
PASCAL3D+ | 新的三维物体检测和姿态估计数据集,从PASCAL VOC 演化而来,包含图像,注解,和3D CAD模型 | 总共12个类,平均每个类别有3000多个实例 | 传送门 |
IKEA | 包含典型室内场景的三维模型的数据库,例如桌子椅子等 | 包含大约759张图片和219个3D模型 | 传送门 |
New Tsukuba Dataset | 包含了很多立体物体对的数据库,用于立体物体匹配 | 总共1800个立体物体对,以及每立体对的立体视差图、遮挡图和不连续图 | 传送门 |
Oxford RobotCar Dataset | 关于户外自动驾驶的数据集。 | 包含在驾驶汽车过程从6个摄像头收集的2000w张图片,和当时的激光雷达,GPS和地面实况标注。 | 传送门 |
Middlebury V3 | 包含高分辨率物体立体视差标注的数据库 | 包含33个类,没有明说每类有多少数据 | 传送门 |
ShapeNet | 包含3D模型,和3d模型的类别标注的数据集,覆盖了常用的3D数据集PASCAL 3D+。 | 它涵盖55个常见的对象类别,有大约51,300个3D模型 | 传送门 |
MICC dataset | 包含了3D人脸扫描和在不同分辨率,条件和缩放级别下的几个视频序列的数据库。 | 有53个人的立体人脸数据 | 传送门 |
CMU MoCap Dataset | 包含了3D人体关键点标注和骨架移动标注的数据集。 | 有6个类别和23个子类别,总共2605个数据。 | 传送门 |
DTU dataset | 关于3D场景的数据集。 | 有124个场景,每场景有49/64个位置的RGB图像和结构光标注。 | 传送门 |
Analyzing Humans in Images 人类分析形象化
数据集 | 介绍 | 备注 | 网址 |
---|---|---|---|
MSR-Action3D | 包含深度的动作识别数据集, 有20个动作, | 总共557个序列。 | 传送门 |
Florence-3D | 包含深度的动作识别数据集, | 有9个动作,总共215个动作序列。 | 传送门 |
Berkeley MHAD | 包含深度的动作识别数据集, | 有11个动作,产生660个动作序列。 | 传送门 |
Online Action Detection | 包含深度的动作识别数据集, | 数据集包含59个长序列,包含10种不同的日常生活行为。 | 传送门 |
ChaLearn LAP IsoGD Dataset | RGB-D图像的手势识别的数据集。 | 包括47933个RGB-D手势视频,有249个手势标签。Training有35878视频,Validation有5784个,test有6271个 | 传送门 |
MAFA dataset | 关于面部遮挡问题的数据集 | 有30, 811张人脸和35806张有遮挡的脸组成。 | 传送门 |
MSRC-12 Kinect Gesture Dataset | 手势识别数据集 | 有4900张图片,包含12个不同手势, | 传送门 |
2013 Chalearn Gesture Challenge dataset | 手势识别数据集 | 有11000张图片,包含20个不同手势, | 传送门 |
WIDER FACE | 人脸检测数据集 | 有 32,203 张图片,标注了393703个人脸。 | 传送门 |
FDDB | 人脸检测数据集 | 2845张图片,标注了5171张人脸。 | 传送门 |
300-VW dataset | 面部表情数据集 | 包含114个视频和总计218,595帧。 | 传送门 |
HMDB51 | 人类行为识别的数据集 | 包含51个动作,总共有6766个视频剪辑 | 传送门 |
MPII Cooking Activities Dataset | 人类行为识别的数据集 | 包含65个动作,有5609个视频 | 传送门 |
UCF101 | 人类行为识别的数据集 | 包含101个动作,有13320个视频 | 传送门 |
IJB-A dataset | 包含视频和图片人脸识别的数据集 | 包含5712个图像和2085个视频 | 传送门 |
YouTube celebrities | 视频人脸识别的数据集 | 包含47位名人的1910个视频 | 传送门 |
COX | 视频人脸识别的数据集 | 包含1000个主题的4000个视频 | 传送门 |
Human3.6M | 人体姿态估计的数据集 | 360万张3D照片,11名受试者在4个视点下执行15个了不同的动作 | 传送门 |
iLIDS | 行人重识别的数据集 | 476 张图像,包含119个人 | 传送门 |
VIPeR | 行人重识别的数据集 | 632个行人图片对(由两个相机拍摄) | 传送门 |
CUHK01 | 行人重识别的数据集 | 包含971行人, 3884张图片 | 传送门 |
CUHK03 | 行人重识别的数据集 | 包含1360行人, 13164张图片 | 传送门 |
RWTH-PHOENIX-Weather multi-signer 2014 | 手语识别的数据集 | 包含了5672个德语手语的句子,有65,227个手语姿势和799,006帧 | 传送门 |
AFLW | 人类面部关键点的数据集 | 总共约有25k张脸,每幅图像标注了大约21个位置。 | 传送门 |
CMU mocap database | 动作识别的数据集 | 2235个数据,包含144个不同的动作。 | 传送门 |
Georgia Tech (GT) database | 人脸识别数据库 | 50个人每人15张人脸。 | 传送门 |
ORL | 人脸识别数据库 | 40个人每个人10张图。 | 传送门 |
Application 应用
数据集 | 介绍 | 备注 | 网址 |
---|---|---|---|
DogCentric Activity Dataset | 第一视角的狗和人之间的相互行为的数据集(视频) | 总共有10类,具体数据量没有明说,y是动作类别 | 传送门 |
JPL First-Person Interaction Dataset | 第一视角观察动作的数据集 | 57个视频,8个大类,y是动作类别 | 传送门 |
NUS-WIDE | 关于图像文本匹配的数据集 | 269,648个图像和对应的标签 | 传送门 |
LabelMe Dataset | 关于图像文本匹配的数据集 | 3825个图像和对应标签 | 传送门 |
Pascal Dataset | 关于图像文本匹配的数据集 | 5011张训练图像和4952张测试图像 | None |
ICDAR 2015 | 关于文本检测的数据集 | 1500张训练,1000张测试,y为四边形的四个顶点。 | 传送门 |
COCO-Text | 关于文本检测的数据集 | 63686张图片,其中43686张被选为训练集,剩下的2万用于测试。 | 传送门 |
MSRA-TD500 | 关于文本检测的数据集 | 300个训练,200个测试图像 | 传送门 |
Microsoft 7-Scenes Dataset | 室内人体运动的数据集 | 有7种不同室内环境,每包含500-1000张图像视频序列。 | 传送门 |
Oxford RobotCar | 户外自动驾驶数据集 | 包含图像,激光扫描结果和GPS数据。 | 传送门 |
Low- & Mid-Level Vision 中低水平视觉
数据集 | 介绍 | 备注 | 网址 |
---|---|---|---|
Deep Video Deblurring for Hand-held Cameras | video/image deblurring(图像去模糊) | video num:71 video time: 3-5s blurry and sharp pair image num:6708 | 传送门 |
GOPRO dataset | video/image deblurring(图像去模糊) | blurry and sharp pair image num:3214 train num:2103 test num:1111 | 传送门 |
BSD68 | image restoration(图像修复)/高斯降噪 | image num:68 | 传送门 |
BSD100 | “image restoration(图像修复)super resolution超分辨率重建” | image num:100 | 传送门 |
Set5 | “image restoration(图像修复)super resolution超分辨率重建” | image num:5 | 传送门 |
Set14 | “image restoration(图像修复)super resolution超分辨率重建” | image num:14 | 传送门 |
Urban100 | “image restoration(图像修复)super resolution超分辨率重建” | image num:100 | 传送门 |
NYU v2 dataset | “image restoration(图像修复)depth super resolution深度超分辨率重建” | image num:1449 | 传送门 |
Middlebury dataset | “image restoration(图像修复)depth super resolution深度超分辨率重建” | image pair num: 33 | 传送门 |
alpha matting benchmark | Natural image matting(抠图) | “train num:27,test num:8” | 传送门 |
real image benchmark | Natural image matting(抠图) | “train num:49300,test num:1000” | 传送门 |
MSRA10K/MSRA-B | Image saliency detection(显著性区域检测) | image num(MSRA10K):10000 image num(MSRA-B):5000 | 传送门 |
ECSSD | Image saliency detection(显著性区域检测) | image num:1000 | 传送门 |
DUT-OMRON | Image saliency detection(显著性区域检测) | image num:5168 | 传送门 |
PASCAL-S | Image saliency detection(显著性区域检测) | image num:850 | 传送门 |
HKU-IS | Image saliency detection(显著性区域检测) | image num:4447 | 传送门 |
SOD | Image saliency detection(显著性区域检测) | image num:300 | 传送门 |
Describable Textures Dataset | texture synthesis(纹理合成) | image num:5640 category num:47 split train:val:test = 1:1:1 | 传送门 |
CVPPP leaf segmentation | Instance segmentation(样例分割) | image num: 161 train num: 128 test num: 33 | 传送门 |
KITTI car segmentation | Instance segmentation(样例分割) | image num: 3976 train num: 3712 test num: 144 val:120 | 传送门 |
Cityscapes | Instance segmentation(样例分割) | image num: 5000 train num: 2975 test num: 1525 val:500 | 传送门 |
SYMMAX | Symmetry Detection(对称性检测) | image num: train:200 test:100 | 传送门 |
WHSYMMAX | Symmetry Detection(对称性检测) | image num: train:228 test:100 object num: 1 | 传送门 |
SK506 | Symmetry Detection(对称性检测) | image num: train:300 test:206 object num: 16 | 传送门 |
Sym-PASCAL | Symmetry Detection(对称性检测) | image num: train:648 test:787 object num: 14 | 传送门 |
Color Checker Dataset | Color constancy(颜色恒定) | image num: 568 | 传送门 |
NUS 8-Camera Dataset | Color constancy(颜色恒定) | image num: 1736 | 传送门 |
Text 文本
数据集 | 介绍 | 备注 | 网址 |
---|---|---|---|
Stanford Sentiment Treebank | 文本情感分析 | 11855个句子划分为239231个短语,每个短语有个概率值,越小越负面,越大越正面 | 传送门 |
IMDB | 文本情感分析 | 100,000句子,正面负面两类 | 传送门 |
Yelp | 文本情感分析 | 无 | 传送门 |
Multi-Domain Sentiment Dataset(Amazon product) | 文本情感分析 | 100,000+句子,正面负面2类或强正面、弱正面、中立、弱负面、强负面5类 | 传送门 |
SemEval | 文本情感分析 | 20,632句子,三类(正面、负面、中立) | 传送门 |
Sentiment140(STS) | 文本情感分析 | 1,600,000句子,三类(正面、负面、中立) | 传送门 |
情感/观点/评论 倾向性分析
数据集 | 备注 | 网址 |
---|---|---|
ChnSentiCorp_htl_all | 7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论 | 传送门 |
waimai_10k | 某外卖平台收集的用户评价,正向 4000 条,负向 约 8000 条 | 传送门 |
online_shopping_10_cats | 10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条, 包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店 |
传送门 |
weibo_senti_100k | 10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条 | 传送门 |
simplifyweibo_4_moods | 36 万多条,带情感标注 新浪微博,包含 4 种情感, 其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条 |
传送门 |
dmsc_v2 | 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 |
传送门 |
yf_dianping | 24 万家餐馆,54 万用户,440 万条评论/评分数据 | 传送门 |
yf_amazon | 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 | 传送门 |
更多数据集可前往github搜索“chineseNLP”下载,传送门:
https://github.com/search?utf8=%E2%9C%93&q=chineseNLP&type=
以及大规模数据及:
推荐阅读
-
[PyTorch 与深度学习] 4、PyTorch 的数据集和数据加载器详细使用教程
-
[深度学习]YOLOv5,金属表面缺陷检测,GC10-DET 数据集-创建数据集.yaml
-
有关深度学习图像数据集的关键问题和注意事项
-
复旦大学团队发布中文医疗保健个人助理,同时开源 47 万个高质量数据集
-
正负偏差变量 即 d2+、d2- 分别表示决策值中超出和未达到目标值的部分。而 di+、di- 均大于 0 刚性约束和目标约束(柔性目标约束有偏差) 在多目标规划中,>=/<= 在刚性约束中保持不变。当需要将约束条件转换为柔性约束条件时,需要将 >=/<= 更改为 =(因为已经有 d2+、d2- 用来表示正负偏差),并附加上 (+dii-di+) 注意这里是 +di、-di+!之所以是 +di,-di+,是因为需要将目标还原为最接近的原始刚性约束条件 优先级因素和权重因素 对多个目标进行优先排序和优先排序 目标规划的目标函数 是所有偏差变量的加权和。值得注意的是,这个加权和都取最小值。而 di+ 和 dii- 并不一定要出现在每个不同的需求层次中。具体分析需要具体问题具体分析 下面是一个例子: 题目中说设备 B 既要求充分利用,又要求尽可能不加班,那么列出的时间计量表达式即为:min z = P3 (d3- + d3 +) 使用 + 而不是 -d3 + 的原因是:正负偏差不可能同时存在,必须有 di+di=0 (因为判定值不可能同时大于目标值和小于目标值),而前面是 min,所以只要取 + 并让 di+ 和 dii- 都为正值即可。因此,得出以下规则: 最后,给出示例和相应的解法: 问题:某企业生产 A 和 B 两种产品,需要使用 A、B、C 三种设备。下表显示了与工时和设备使用限制有关的产品利润率。问该企业应如何组织生产以实现下列目标? (1) 力争利润目标不低于 1 500 美元; (2) 考虑到市场需求,A、B 两种产品的生产比例应尽量保持在 1:2; (3)设备 A 是贵重设备,严禁超时使用; (4)设备 C 可以适当加班,但要控制;设备 B 要求充分利用,但尽量不加班。 从重要性来看,设备 B 的重要性是设备 C 的三倍。 建立相应的目标规划模型并求解。 解:设企业生产 A、B 两种产品的件数分别为 x1、x2,并建立相应的目标计划模型: 以下为顺序求解法,利用 LINGO 求解: 1 级目标: 模型。 设置。 variable/1..2/:x;! s_con_num/1...4/:g,dplus,dminus;!所需软约束数量(g=dplus=dminus 数量)及相关参数; s_con(s_con_num);! s_con(s_con_num,variable):c;!软约束系数; 结束集 数据。 g=1500 0 16 15. c=200 300 2 -1 4 0 0 5; 结束数据 min=dminus(1);!第一个目标函数;!对应于 min=z 的第一小部分;! 2*x(1)+2*x(2)<12;!硬约束 @for(s_con_num(i):@sum(variable(j):c(i,j)*x(j))+dminus(i)-dplus(i)=g(i)); !使用设置完成的数据构建软约束表达式; ! !软约束表达式 @for(variable:@gin(x)); !将变量约束为整数; ! 结束 此时,第一级目标的最优值为 0,第一级偏差为 0: 第二级目标: !求 dminus(1)=0,然后求解第二级目标。 模型。 设置。 变量/1..2/:x;!设置:变量/1..2/:x; ! s_con_num/1...4/:g,dplus,dminus;!软约束数量及相关参数; s_con(s_con_num(s_con_num));! s_con(s_con_num,variable):c;! 软约束系数; s_con(s_con_num,variable):c;! 结束集 数据。 g=1500 0 16 15; c=200 300 2 -1 4 0 0 5; 结束数据 min=dminus(2)+dplus(2);!第二个目标函数 2*x(1)+2*x(2)<12;!硬约束 @for(s_con_num(i):@sum(variable(j):c(i,j)*x(j))+dminus(i)-dplus(i)=g(i)); ! 软约束表达式;! dminus(1)=0; !第一个目标结果 @for(variable:@gin(x)); ! 结束 此时,第二个目标的最优值为 0,偏差为 0: 第三目标 !求 dminus(2)=0,然后求解第三个目标。 模型。 设置。 变量/1..2/:x;!设置:变量/1..2/:x; ! s_con_num/1...4/:g,dplus,dminus;!软约束数量及相关参数; s_con(s_con_num(s_con_num));! s_con(s_con_num,variable):c;! 软约束系数; s_con(s_con_num,variable):c;! 结束集 数据。 g=1500 0 16 15; c=200 300 2 -1 4 0 0 5; 结束数据 min=3*dminus(3)+3*dplus(3)+dminus(4);!第三个目标函数。 2*x(1)+2*x(2)<12;!硬约束 @for(s_con_num(i):@sum(variable(j):c(i,j)*x(j))+dminus(i)-dplus(i)=g(i)); ! 软约束表达式;! dminus(1)=0; !第一个目标约束条件; ! dminus(2)+dplus(2)=0; !第二个目标约束条件 @for(variable:@gin(x));! 结束 最终结果为 x1=2,x2=4,dplus(1)=100,最优利润为
-
深度学习 - 植物和作物图像数据集大集合
-
[姿势估计] 实践记录:使用 Dlib 和 mediapipe 进行人脸姿势估计 - 本文重点介绍方法 2):方法 1:基于深度学习的方法:。 基于深度学习的方法:基于深度学习的方法利用深度学习模型,如卷积神经网络(CNN)或递归神经网络(RNN),直接从人脸图像中学习姿势估计。这些方法能够学习更复杂的特征表征,并在大规模数据集上取得优异的性能。方法二:基于二维校准信息估计三维姿态信息(计算机视觉 PnP 问题)。 特征点定位:人脸姿态估计的第一步是通过特征点定位来检测和定位人脸的关键点,如眼睛、鼻子和嘴巴。这些关键点提供了人脸的局部结构信息,可用于后续的姿势估计。 旋转表示:常见的旋转表示方法包括欧拉角和旋转矩阵。欧拉角通过三个旋转角度(通常是俯仰、偏航和滚动)描述头部的旋转姿态。旋转矩阵是一个 3x3 矩阵,表示头部从一个坐标系到另一个坐标系的变换。 三维模型重建:根据特征点的定位结果,三维人脸模型可用于姿势估计。通过将人脸的二维图像映射到三维模型上,可以估算出人脸的旋转和平移信息。这就需要建立人脸的三维模型,然后通过优化方法将模型与特征点对齐,从而获得姿势估计结果。 特征点定位 特征点定位是用于检测人脸关键部位的五官基础部分,还有其他更多的特征点表示方法,大家可以参考我上一篇文章中介绍的特征点检测方案实践:人脸校正二次定位操作来解决人脸校正的问题,客户在检测关键点的代码上略有修改,坐标转换部分客户见上图 def get_face_info(image). img_copy = image.copy image.flags.writeable = False image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB) results = face_detection.process(image) # 在图像上绘制人脸检测注释。 image.flags.writeable = True image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR) box_info, facial = None, None if results.detections: for detection in results. for detection in results.detections: mp_drawing.Drawing.detection = 无 mp_drawing.draw_detection(image, detection) 面部 = detection.location_data.relative_keypoints 返回面部 在上述代码中,返回的数据是五官(6 个关键点的坐标),这是用 mediapipe 库实现的,下面我们可以尝试用另一个库:dlib 来实现。 使用 dlib 使用 Dlib 库在 Python 中实现人脸关键点检测的步骤如下: 确保已安装 Dlib 库,可使用以下命令: pip install dlib 导入必要的库: 加载 Dlib 的人脸检测器和关键点检测器模型: 读取图像并将其灰度化: 使用人脸检测器检测图像中的人脸: 对检测到的人脸进行遍历,并使用关键点检测器检测人脸关键点: 显示绘制了关键点的图像: 以下代码将参数 landmarks_part 添加到要返回的关键点坐标中。
-
基于深度学习的常见车辆模型识别系统(网络版 + YOLOv8/v7/v6/v5 代码 + 训练数据集)
-
NeurIPS 2022 | 首个标有详细解释的多模态科学问答数据集,利用思维链的深度学习模型推理 (1)
-
NeurIPS 2022 | 首个标有详细解释的多模态科学问答数据集,利用思维链进行深度学习模型推理 (2)