为什么要人脸识别Fc识别不了人脸

人脸识别 - 知乎人脸识别 - 维基百科,自由的百科全书 人脸识别,特指利用分析比较人脸视觉特征信息进行身份鉴别的计算机技术。 广义的人脸识别…阅读全文关注话题分享阅读全文2.6K411 条评论分享收藏阅读全文2.2K94 条评论分享收藏jbhuang0604.blogspot.com/2013/04/miss-korea-2013-contestants-face.html?m=1 用大白话翻译一下:先手工对齐鼻子眼睛嘴,然后用Candes et al的来重建图像(第二列)。这一步主要是去掉头发等遮挡物造成的影响。 再…阅读全文1.9K140 条评论分享收藏感谢阅读全文1.4K175 条评论分享收藏感谢阅读全文1.1K434 条评论分享收藏感谢<strong class="NumberBoard-itemValue" title="&p&目录&/p&&p&1、相关数据集&/p&&p&2、评价度量&/p&&p&3、相关论文目录&/p&&p&&br&&/p&&h2&1、相关数据集&/h2&&h2&2、评价度量&/h2&&h2&3、相关论文目录&/h2&&p&&br&&/p&&p&2014----DeepFace_Closing the Gap to Human-Level Performance in Face Verification&/p&&p&2014----DeepID----Deep LearningFace Representation from Predicting 10,000 Classes&/p&&p&2014----DeepID2+----Deeply learnedface representations are sparse, selective, and robust&/p&&p&2014----DeepID2----Deep Learning Face Representation by Joint Identification-Verification&/p&&p&2014----Deeply learned face representations are sparse, selective, and robust&/p&&p&2014----WebFace Series----Learning Face Representation from Scratch&/p&&p&2015----baidu----Targeting Ultimate Accuracy_Face Recognition via Deep Embedding&/p&&p&2015----Deep face Series----Web-Scale Training for Face Identification&/p&&p&2015----Deepid3_Face recognition with very deep neural networks&/p&&p&2015----EmotioNet_ An accurate, real-time algorithm for the automatic annotation of a million facial expressions in the wild&/p&&p&2015----Face++----Naive-Deep Face Recognition_Touching the Limit of LFW Benchmark or Not&/p&&p&2015----FaceNet----FaceNet_A Unified Embedding for Face Recognition and Clustering--zhihu&/p&&p&2015----MegaFace_A Million Faces for Recognition at Scale&/p&&p&2015----Mnemonic Descent Method_ A recurrent process applied for end-to-end face alignment&/p&&p&2015----Multi-view Face Detection Using Deep Convolutional Neural Networks&/p&&p&2015----Rendering of Eyes for Eye-Shape Registration and Gaze Estimation&/p&&p&2015----VGGFace----Deep Face Recognition&/p&&p&2015----WebFace Series----A Lightened CNN for Deep Face Representation&/p&&p&2015----WIDER FACE_ A Face Detection Benchmark&/p&&p&2016---- Face Attribute Prediction Using Off-the-Shelf CNN Features&/p&&p&2016----3DFAW
Win 1st---- Two-stage Convolutional Part Heatmap Regression for the 1st 3D Face Alignment in the Wild (3DFAW) Challenge&/p&&p&2016----A Discriminative Feature Learning Approach for Deep Face Recognition&/p&&p&2016----HyperFace_A Deep Multi-task Learning Framework for Face Detection, Landmark Localization, Pose Estimation, and Gender Recognition&/p&&p&2016----MTCNN----Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks&/p&&p&2016----OpenFace_an open source facial behavior analysis toolkit&/p&&p&2017----Face Alignment Across Large Poses_ A 3D Solution&/p&&p&2017----Face Attention Network_An Effective Face Detector for the Occluded Faces&/p&&p&2017----Face2Face_Real-time Face Capture and Reenactment of RGB Videos&/p&&p&2017----Finding Tiny Face&/p&&p&2017----SphereFace_Deep Hypersphere Embedding for Face Recognition&/p&&p&2017----WebFace Series----A Light CNN for Deep Face Representation with Noisy Labels&/p&&p&2017----NormFace_L2 Hypersphere Embedding for Face Verification&/p&&p&&br&&/p&&p&&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&返回CV总目录&/a&&/p&&p&&/p&
目录1、相关数据集2、评价度量3、相关论文目录 1、相关数据集2、评价度量3、相关论文目录 2014----DeepFace_Closing the Gap to Human-Level Performance in Face Verification2014----DeepID----Deep LearningFace Representation from Predicting 10,000 …
&p&最近在做人脸识别相关的工作, 比较关注这方面的学术动态. 发现对人脸识别的Loss函数改进的论文比较多, 如:&/p&&p&[2017] L2-constrained Softmax Loss for Discriminative Face Verification&/p&&p&[2017 ACM MM] NormFace_ L2 Hypersphere Embedding for Face Verification&/p&&p&[2017 CVPR] SphereFace_ Deep Hypersphere Embedding for Face Recognition (A_Softmax Loss)&/p&&p&[2017 NIPS] Rethinking Feature Discrimination and Polymerization for Large-scale Recognition (COCO Loss)&/p&&p&[2017 ICCV] Deep Metric Learning with Angular Loss&/p&&p&[2017] Contrastive-center loss for deep neural networks&/p&&p&[2017 CVPR] Range Loss for Deep Face Recognition with Long-tail&/p&&p&2018年伊始也出几两篇相关改进的论文:&/p&&p&[2018] Additive Margin Softmax for Face Verification&/p&&p&[2018] Face Recognition via Centralized Coordinate Learning&/p&&p&[2018] ArcFace_ Additive Angular Margin Loss for Deep Face Recognition&/p&&p&&br&&/p&&p&人脸识别还有一些其他难点和热点的, 比如&/p&&p&1) 基于视频的人脸识别&/p&&p&[2017 CVPR] Neural Aggregation Network for Video Face R&/p&&p&[2017 PAMI] Trunk-Branch Ensemble Convolutional Neural Networks for Video-based Face Recognition&/p&&p&2) 三维人脸识别&/p&&p&[2017] Deep 3D Face Identification&/p&&p&[2017] Learning from Millions of 3D Scans for Large-scale 3D Face Recognition&/p&&p&3) 跨年龄的人脸识别&/p&&p&[2017 PRL] Large Age-Gap face verification by feature injection in deep networks&/p&&p&[2017] Cross-Age LFW_ A Database for Studying Cross-Age Face Recognition in Unconstrained Environments&/p&&p&4) 少样本人脸识别&/p&&p&[2017] One-shot Face Recognition by Promoting Underrepresented C&/p&&p&[2017] SSPP-DAN_ Deep Domain Adaptation Network for Face Recognition with Single Sample Per Person&/p&&p&5) 遮挡情况下的人脸识别&/p&&p&[2017 ICCVW] Disguised Face Identification (DFI) with Facial KeyPoints using Spatial Fusion Convolutional Network&/p&&p&[2017] Enhancing Convolutional Neural Networks for Face Recognition with Occlusion Maps and Batch Triplet Loss&/p&&p&6) 多模型特征融合&/p&&p&[2017 PAMI] Face Search at Scale&/p&&p&[2017] Deep Heterogeneous Feature Fusion for Template-Based Face Recognition&/p&&p&还有注意到现在人脸识别的评价方式逐渐转向更贴近实用的1:N的开集测试([2017 CVPRW] Toward Open Set Face Recognition).&/p&
最近在做人脸识别相关的工作, 比较关注这方面的学术动态. 发现对人脸识别的Loss函数改进的论文比较多, 如:[2017] L2-constrained Softmax Loss for Discriminative Face Verification[2017 ACM MM] NormFace_ L2 Hypersphere Embedding for Face Verificati…
&p&本文由极视角整理,所有数据集均为网上公开数据集。&/p&&p&原文首发地址:&a href=&https://link.zhihu.com/?target=http%3A//cvmart.net/community/article/detail/148& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&人脸识别常用数据集大全(12/20更新) - 极市博客&/a&&/p&&p&&br&&/p&&h2&&a href=&https://link.zhihu.com/?target=http%3A//www.cs.columbia.edu/CAVE/databases/pubfig/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&1.PubFig: Public Figures Face Database(哥伦比亚大学公众人物脸部数据库)&/a&&/h2&&p&&i&The PubFig database is a large, real-world face dataset consisting of 58,797 images of 200 people collected from the internet. Unlike most other existing face datasets, these images are taken in completely uncontrolled situations with non-cooperative subjects.&/i&&/p&&p&这是哥伦比亚大学的公众人物脸部数据集,包含有200个人的58k+人脸图像,主要用于非限制场景下的人脸识别。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-d66ccd26b34_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1267& data-rawheight=&250& class=&origin_image zh-lightbox-thumb& width=&1267& data-original=&https://pic3.zhimg.com/v2-d66ccd26b34_r.jpg&&&/figure&&p&&br&&/p&&h2&&a href=&https://link.zhihu.com/?target=http%3A//mmlab.ie.cuhk.edu.hk/projects/CelebA.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&2.Large-scale CelebFaces Attributes (CelebA) Dataset&/a&&/h2&&p&&i&CelebFaces Attributes Dataset (CelebA) is a large-scale face attributes dataset with more than 200K celebrity images, each with 40 attribute annotations. The images in this dataset cover large pose variations and background clutter. CelebA has large diversities, large quantities, and rich annotations, including&/i&&/p&&p&&i&10,177 number of identities,&/i&&/p&&p&&i&202,599 number of face images, and&/i&&/p&&p&&i&5 landmark locations, 40 binary attributes annotations per image.&/i&&/p&&p&这是由香港中文大学汤晓鸥教授实验室公布的大型人脸识别数据集。该数据集包含有200K张人脸图片,人脸属性有40多种,主要用于人脸属性的识别。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-960fb1755b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1123& data-rawheight=&685& class=&origin_image zh-lightbox-thumb& width=&1123& data-original=&https://pic3.zhimg.com/v2-960fb1755b_r.jpg&&&/figure&&p&&br&&/p&&h2&&a href=&https://link.zhihu.com/?target=https%3A//www.nist.gov/itl/iad/image-group/color-feret-database& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&3.Colorferet&/a&&/h2&&p&&i&The database is used to develop, test, and evaluate face recognition.&/i&&/p&&p&为促进人脸识别算法的研究和实用化,美国国防部的Counterdrug Technology Transfer Program(CTTP)发起了一个人脸识别技术(Face Recognition Technology 简称FERET)工程,它包括了一个通用人脸库以及通用测试标准。到1997年,它已经包含了1000多人的10000多张照片,每个人包括了不同表情,光照,姿态和年龄的照片。&/p&&p&&br&&/p&&h2&&a href=&https://link.zhihu.com/?target=http%3A//mmlab.ie.cuhk.edu.hk/projects/TCDCN.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&4.Multi-Task Facial Landmark (MTFL) dataset&/a&&/h2&&p&&i&This dataset contains 12,995 face images collected from the Internet. The images are annotated with (1) five facial landmarks, (2) attributes of gender, smiling, wearing glasses, and head pose.&/i&&/p&&p&该数据集包含了将近13000张人脸图片,均采自网络。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-ca81ec614b82bd974ecc2_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1267& data-rawheight=&784& class=&origin_image zh-lightbox-thumb& width=&1267& data-original=&https://pic3.zhimg.com/v2-ca81ec614b82bd974ecc2_r.jpg&&&/figure&&p&&br&&/p&&h2&&a href=&https://link.zhihu.com/?target=https%3A//www.bioid.com/About/BioID-Face-Database& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&5.BioID Face Database - FaceDB&/a&&/h2&&p&&i&1521 images with human faces, recorded under natural conditions, i.e. varying illumination and complex background. The eye positions have been set manually.&/i&&/p&&p&这个数据集包含了1521幅分辨率为384x286像素的灰度图像。 每一幅图像来自于23个不同的测试人员的正面角度的人脸。为了便于做比较,这个数据集也包含了对人脸图像对应的手工标注的人眼位置文件。 图像以 &BioID_xxxx.pgm&的格式命名,其中xxxx代表当前图像的索引(从0开始)。类似的,形如&BioID_xxxx.eye&的文件包含了对应图像中眼睛的位置。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-02a4e6b8ee4b8f85cfde933_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&997& data-rawheight=&356& class=&origin_image zh-lightbox-thumb& width=&997& data-original=&https://pic2.zhimg.com/v2-02a4e6b8ee4b8f85cfde933_r.jpg&&&/figure&&p&&br&&/p&&h2&&a href=&https://link.zhihu.com/?target=http%3A//vis-www.cs.umass.edu/lfw/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&6.Labeled Faces in the Wild Home (LFW)&/a&&/h2&&p&&i&More than 13,000 images of faces collected from the web. Each face has been labeled with the name of the person pictured. 1680 of the people pictured have two or more distinct photos in the data set.&/i&&/p&&p&LFW数据集是为了研究非限制环境下的人脸识别问题而建立的。这个数据集包含超过13,000张人脸图像,均采集于Internet。&/p&&p&每个人脸均被标准了一个人名。其中,大约1680个人包含两个以上的人脸。&/p&&p&这个集合被广泛应用于评价Face Verification算法的性能。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-e0d2ee2d42be0cf40d363cb_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&600& data-rawheight=&176& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&https://pic2.zhimg.com/v2-e0d2ee2d42be0cf40d363cb_r.jpg&&&/figure&&p&&br&&/p&&h2&&a href=&https://link.zhihu.com/?target=https%3A//cvhci.anthropomatik.kit.edu/%7Ebaeuml/publications/semi-supervised-learning-with-constraints-for-person-identification-in-multimedia-data/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&7.Person identification in TV series&/a&&/h2&&p&&i&Face tracks, features and shot boundaries from our latest CVPR 2013 paper. It is obtained from 6 episodes of Buffy the Vampire Slayer and 6 episodes of Big Bang Theory.&/i&&/p&&p&该数据集所选用的人脸照片均来自于两部比较知名的电视剧,《吸血鬼猎人巴菲》和《生活大爆炸》。&/p&&p&&br&&/p&&h2&&a href=&https://link.zhihu.com/?target=http%3A//vasc.ri.cmu.edu/idb/html/face/index.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&8.CMUVASC & PIE Face dataset&/a&&/h2&&p&&i&The face datasets were provided by the face reserch group at CMU.&/i&&/p&&p&CMU PIE人脸库建立于2000年11月,它包括来自68个人的40000张照片,其中包括了每个人的13种姿态条件,43种光照条件和4种表情下的照片,现有的多姿态人脸识别的文献基本上都是在CMU PIE人脸库上测试的。&/p&&p&&br&&/p&&h2&&a href=&https://link.zhihu.com/?target=http%3A//www.cs.tau.ac.il/%7Ewolf/ytfaces/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&9.YouTube Faces&/a&&/h2&&p&&i&The data set contains 3,425 videos of 1,595 different people. The shortest clip duration is 48 frames, the longest clip is 6,070 frames, and the average length of a video clip is 181.3 frames.&/i&&/p&&p&YouTube Video Faces是用来做人脸验证的。在这个数据集下,算法需要判断两段视频里面是不是同一个人。有不少在照片上有效的方法,在视频上未必有效/高效。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-70bed021c7dcbe85cf3d5_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&762& data-rawheight=&353& class=&origin_image zh-lightbox-thumb& width=&762& data-original=&https://pic2.zhimg.com/v2-70bed021c7dcbe85cf3d5_r.jpg&&&/figure&&p&&br&&/p&&h2&&a href=&https://link.zhihu.com/?target=http%3A//biometrics.idealtest.org/dbDetailForUser.do%3Fid%3D9& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&10.CASIA-FaceV5&/a&&/h2&&p&&i&CASIA Face Image Database Version 5.0 (or CASIA-FaceV5) contains 2,500 color facial images of 500 subjects. &/i&&/p&&p&该数据集包含了来自500个人的2500张亚洲人脸图片.&/p&&figure&&img src=&https://pic4.zhimg.com/v2-064d5695a7ccd9f39e6748dca537dfd7_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&760& data-rawheight=&563& class=&origin_image zh-lightbox-thumb& width=&760& data-original=&https://pic4.zhimg.com/v2-064d5695a7ccd9f39e6748dca537dfd7_r.jpg&&&/figure&&p&&br&&/p&&h2&&a href=&https://link.zhihu.com/?target=http%3A//wiki.cnbc.cmu.edu/Face_Place& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&11.The CNBC Face Database&/a&&/h2&&p&&i&This database includes multiple images for over 200 individuals of many different races with consistent lighting, multiple views, real emotions, and disguises (and some participants returned for a second session several weeks later with a haircut, or a new beard, etc.). &/i&&/p&&p&该数据集采集了200个人在不同状态下(不同的神情,装扮,发型等)的人脸照片。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-eda4b91ebb_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&692& data-rawheight=&274& class=&origin_image zh-lightbox-thumb& width=&692& data-original=&https://pic2.zhimg.com/v2-eda4b91ebb_r.jpg&&&/figure&&p&&br&&/p&&h2&&a href=&https://link.zhihu.com/?target=http%3A//biometrics.idealtest.org/dbDetailForUser.do%3Fid%3D8& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&12.CASIA-3D FaceV1&/a&&/h2&&p&&i&4624 scans of 123 persons using the non-contact 3D digitizer, Minolta Vivid 910, as shown in figure. &/i&&/p&&p&该数据集包含了来自123个人的4624张人脸图片,所有图片均由下图的仪器进行拍摄。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-93b16a8ea5ae9_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&600& data-rawheight=&456& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&https://pic3.zhimg.com/v2-93b16a8ea5ae9_r.jpg&&&/figure&&p&&br&&/p&&h2&&a href=&https://link.zhihu.com/?target=https%3A//data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&13.IMDB-WIKI&/a&&/h2&&p&&i&In total we obtained 460,723 face images from 20,284 celebrities from IMDb and 62,328 from Wikipedia, thus 523,051 in total. &/i&&/p&&p&IMDB-WIKI人脸数据库是有IMDB数据库和Wikipedia数据库组成,其中IMDB人脸数据库包含了460,723张人脸图片,而Wikipedia人脸数据库包含了62,328张人脸数据库,总共523,051张人脸数据库,IMDB-WIKI人脸数据库中的每张图片都被标注了人的年龄和性别,对于年龄识别和性别识别的研究有着重要的意义。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-8a9da43b318b684b96f4c_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&862& data-rawheight=&776& class=&origin_image zh-lightbox-thumb& width=&862& data-original=&https://pic1.zhimg.com/v2-8a9da43b318b684b96f4c_r.jpg&&&/figure&&p&&br&&/p&&h2&&a href=&https://link.zhihu.com/?target=http%3A//vis-www.cs.umass.edu/fddb/index.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&14.FDDB&/a&&/h2&&p&&i&A data set of face regions designed for studying the problem of unconstrained face detection. This data set contains the annotations for 5171 faces in a set of 2845 images taken from the Faces in the Wild data set. &/i&&/p&&p&FDDB是UMass的数据集,被用来做人脸检测(Face Detection)。这个数据集比较大,比较有挑战性。而且作者提供了程序用来评估检测结果,所以在这个数据上面比较算法也相对公平。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-2d63fade755c5f5e018b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&747& data-rawheight=&281& class=&origin_image zh-lightbox-thumb& width=&747& data-original=&https://pic4.zhimg.com/v2-2d63fade755c5f5e018b_r.jpg&&&/figure&&h2&15.&a href=&https://link.zhihu.com/?target=http%3A//www.vision.caltech.edu/Image_Datasets/Caltech_10K_WebFaces/%23Description& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Caltech人脸数据库&/a&&/h2&&p&&i&The dataset contains images of people collected from the web by typing common given names into Google Image Search. The coordinates of the eyes, the nose and the center of the mouth for each frontal face are provided in a ground truth file. This information can be used to align and crop the human faces or as a ground truth for a face detection algorithm. The dataset has 10,524 human faces of various resolutions and in different settings, e.g. portrait images, groups of people, etc. Profile faces or very low resolution faces are not labeled.&/i&&/p&&p&10k+人脸,提供双眼和嘴巴的坐标位置&/p&&figure&&img src=&https://pic3.zhimg.com/v2-e7cbf71dafadc07899acf3_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1247& data-rawheight=&611& class=&origin_image zh-lightbox-thumb& width=&1247& data-original=&https://pic3.zhimg.com/v2-e7cbf71dafadc07899acf3_r.jpg&&&/figure&&p&&br&&/p&&h2&16.&a href=&https://link.zhihu.com/?target=http%3A//www.kasrl.org/jaffe.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&The Japanese Female Facial Expression (JAFFE) Database&/a&&/h2&&p&&i&The database contains 213 images of 7 facial expressions (6 basic facial expressions + 1 neutral) posed by 10 Japanese female models. Each image has been rated on 6 emotion adjectives by 60 Japanese subjects. The database was planned and assembled by Michael Lyons, Miyuki Kamachi, and Jiro Gyoba. We thank Reiko Kubota for her help as a research assistant. The photos were taken at the Psychology Department in Kyushu University.&/i&&/p&&p&该数据库是由10位日本女性在实验环境下根据指示做出各种表情,再由照相机拍摄获取的人脸表情图像。整个数据库一共有213张图像,10个人,全部都是女性,每个人做出7种表情,这7种表情分别是: sad, happy, angry, disgust, surprise, fear, neutral. 每个人为一组,每一组都含有7种表情,每种表情大概有3,4张样图。
&/p&&figure&&img src=&https://pic4.zhimg.com/v2-279eda0e7aaf397b655a46b5b4f26a83_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&874& data-rawheight=&206& class=&origin_image zh-lightbox-thumb& width=&874& data-original=&https://pic4.zhimg.com/v2-279eda0e7aaf397b655a46b5b4f26a83_r.jpg&&&/figure&&p&&br&&/p&&p&所有的人脸识别数据集打包下载链接:&a href=&https://link.zhihu.com/?target=https%3A//pan.baidu.com/s/1bpjQNh1& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1bpjQNh&/span&&span class=&invisible&&1&/span&&span class=&ellipsis&&&/span&&/a& &/p&&p&密码:4xlk&/p&&p&&/p&
本文由极视角整理,所有数据集均为网上公开数据集。原文首发地址: The PubFig database is a large, real-world face dataset con…
&figure&&img src=&https://pic2.zhimg.com/v2-c39c5dbcbd30ce568cb82cbb4eca51b7_b.jpg& data-rawwidth=&1100& data-rawheight=&778& class=&origin_image zh-lightbox-thumb& width=&1100& data-original=&https://pic2.zhimg.com/v2-c39c5dbcbd30ce568cb82cbb4eca51b7_r.jpg&&&/figure&&p&人脸检测系列博文共分五部分:&/p&&ol&&li&《人脸检测背景介绍和常用数据库》,介绍人脸检测的背景,常用数据库和评价指标,重点介绍各类算法的发展现状和各数据库上目前算法的性能&b&速度&/b&水平;&/li&&li&《非深度学习的人脸检测》,介绍以VJ为代表的非深度学习人脸检测算法,重点介绍速度比较快的&b&简单特征级联&/b&系列,和性能比较好的&b&通道特征&/b&系列,DPM系列速度太慢会略过;&/li&&li&《深度学习的人脸检测》,介绍近3-4年深度学习相关的人脸检测算法,重点是速度比较快的&b&级联CNN&/b&系列,和&b&SSD/RPN&/b&系列,Faster-RCNN系列速度太慢可能会略过;&/li&&li&《将级联CNN人脸检测的速度做到极致》,包括级联CNN的论文复现,算法层面优化,CNN压缩和加速等,分析该系列的优缺点,重点是介绍如何将级联CNN在ARM(单核1.2G)上做到14 fps(VGA@48),重点的重点是为&b&MTCNN &/b&&a href=&https://link.zhihu.com/?target=https%3A//github.com/kpzhang93/MTCNN_face_detection_alignment& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&github.com/kpzhang93/MT&/span&&span class=&invisible&&CNN_face_detection_alignment&/span&&span class=&ellipsis&&&/span&&/a&和&b&ncnn &/b&&a href=&https://link.zhihu.com/?target=https%3A//github.com/Tencent/ncnn& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Tencent/ncnn&/a&打call;&/li&&li&《CNN模型压缩之DeepCompression和模型加速之MobileNet v1&2》,介绍CNN模型仅压缩方向最好的方法&b&DeepCompression&/b&,和从加速角度来说最好的方法&b&MobileNet v1&2&/b&,分享CNN算法落地的关键问题和经验技术。&/li&&/ol&&p&#if 0&/p&&blockquote&写这个系列的动机有两点:(第零是农药双排队友周末经常有事,没人一起玩,)第一,检测和跟踪之间有斩不断分不开的密切关系(&i&官方CP&/i&),从应用角度和通用方法都非常相似相关,人脸检测问题可以为您提供更开阔的思路;第二是打算写自己正在做的深度学习相关内容,人脸检测系列为以后CNN经典模型分析,CNN压缩和加速等内容做个铺垫,证明CNN真的非常有用不难落地(当然理论欠缺、训练难、需要大数据是客观问题)。&br& 虽然检测的博文千千万万,但我还是希望能从工程师的角度出发,能给您完全不一样的观点和感受。最后,专栏会持续更新,请放心关注!&/blockquote&&p&#endif&/p&&h2&背景介绍&/h2&&p&人脸检测(Face Detection),就是给一幅图像,找出图像中的所有人脸位置,通常用一个矩形框框起来,输入是一幅图像img,输出是若干个包含人脸的矩形框位置(x,y,w,h),就像这样。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-15115cee5f2a1bdce1726_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&590& data-rawheight=&396& class=&origin_image zh-lightbox-thumb& width=&590& data-original=&https://pic4.zhimg.com/v2-15115cee5f2a1bdce1726_r.jpg&&&/figure&&p&人脸检测对于我们人类非常容易,出于社会生活的需要,我们大脑中有专门的人脸检测模块,对人脸非常敏感,即使下面这样的简笔画,大脑也能轻易检测出人脸,和各自的表情。人脸检测非常重要,那到底有什么用呢?(2015的A Survey)&/p&&ul&&li&自动人脸检测是围绕自动人脸图像分析的所有应用的基础,包括但不限于:人脸识别和验证,监控场合的人脸跟踪,面部表情分析,面部属性识别(性别/年龄识别,颜值评估),面部光照调整和变形,面部形状重建,图像视频检索,数字相册的组织和演示。&/li&&li&人脸检测是所有现代基于视觉的人与电脑,和人与机器人,交互系统的初始步骤。&/li&&li&主流商业数码相机都内嵌人脸检测,辅助自动对焦。&/li&&li&很多社交网络如FaceBook,用人脸检测机制实现图像/人物标记。&/li&&/ul&&figure&&img src=&https://pic1.zhimg.com/v2-47a53bba77c30daa021bd34_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&406& data-rawheight=&256& class=&content_image& width=&406&&&/figure&&p&从问题的领域来看,人脸检测属于目标检测领域,目标检测通常有两大类:&/p&&ul&&li&&b&通用目标检测&/b&:检测图像中多个类别的目标,比如ILSVRC2017的VID任务检测200类目标,VOC2012检测20类目标,通用目标检测核心是n(目标)+1(背景)=n+1分类问题。这类检测通常模型比较大,速度较慢,很少有STOA方法能做到CPU real-time。&/li&&li&&b&特定类别目标检测&/b&:仅检测图像中某一类特定目标,如人脸检测,行人检测,车辆检测等等,特定类别目标检测核心是1(目标)+1(背景)=2分类问题。这类检测通常模型比较小,速度要求非常高,这里问题的基本要求就是CPU real-time。&/li&&/ul&&p&从发展历史来看,深度学习在其中的作用非常明显:&/p&&ul&&li&&b&非深度学习阶段&/b&:这段时间经典检测算法都是针对特定目标提出的,比如CVPR 2001的Viola-Jones (VJ)是针对人脸检测问题,CVPR 2005的HOG+SVM是针对行人检测问题,TPAMI 2010的DPM,虽然可以检测各类目标,但要用于多目标检测,需要每个类别分别训练模板,相当于200个特定类别检测问题。&/li&&li&&b&深度学习阶段&/b&:这段时间经典检测算法都是针对通用目标提出的,比如性能更好的Faster-RCNN, R-FCN系列,速度更快的YOLO, SSD系列,强大的深度学习只要一个CNN就可以搞定多类别检测任务(&i&模型数量1 vs. 200,CNN真的慢吗?&/i&)。虽然这些都是多类别方法,但它们都可以用来解决单类别问题,目前人脸检测、行人检测等特定目标检测问题的State-of-the-art(SOTA)都是这类方法的针对性改进。&/li&&/ul&&p&目前以深度学习为主的CV算法,研究重点是通用目标检测,这些方法在人脸检测问题上效果都不错,那直接用就好了,为什么还要研究这个问题呢?&/p&&ul&&li&&b&Faster-RCNN系列&/b&:这类方法的优点是性能高,缺点是速度慢,在GPU上都无法实时,无法满足人脸检测对速度的极高要求,既然性能不是问题,这类方法的研究重点是提高效率。&/li&&li&&b&SSD系列&/b&:这类方法的优势是速度快,在GPU上能实时,缺点是对密集小目标的检测比较差,而人脸刚好是密集小目标,这类方法的研究重点是提高密集小目标的检测性能,同时速度也需要尽可能快,GPU实时算法在应用中依然受限。&/li&&/ul&&p&人脸检测还有特殊的级联CNN系列,后面会介绍。目前人脸检测研究抱通用目标检测的大腿,这是事实和现状,但其速度和性能双高的要求还是有挑战性的。&/p&&h2&评价指标&/h2&&p&评价一个人脸检测算法(detector)好坏,常用三个指标:&/p&&ul&&li&&b&召回率(recall)&/b&:detector能检测出来的人脸数量越多越好,由于每个图像中包含人脸的数量不一定,所以用检测出来的比例来衡量,这个指标就是召回率recall。detector检测出来的矩形框越接近人工标注的矩形框,说明检测结果越好,通常交并比IoU大于0.5就认为是检测出来了,所以 recall = 检测出来的人脸数量/图像中总人脸数量。&/li&&li&&b&误检数(false positives)&/b&:detector也会犯错,可能会把其他东西认为是人脸,这种情况越少越好,我们用检测错误的绝对数量来表示,这个指标就是误检数false positives。与recall相对,detector检测出来的矩形框与任何人工标注框的IoU都小于0.5,则认为这个检测结果是误检,误检越少越好,比如FDDB上,论文中一般比较1000个或2000个误检时的召回率情况,工业应用中通常比较100或200个误检的召回率情况。&/li&&li&&b&检测速度(speed)&/b&:是个算法都要比速度,人脸检测更不用说,detector检测一幅图像所用的时间越少越好,通常用帧率(frame-per-second,FPS)来表示。不过这里有点小问题,很多detector都是图像越小、图像中人脸越少、检测最小人脸越大,检测速度越快,需要注意不同论文的测试环境和测试图像可能不一样:测试图像,最常用的配置是VGA(640*480)图像检测最小人脸80*80给出速度,但都没有表明测试图像背景是否复杂,图像中有几个人脸(甚至是白底一人脸的图像测速度);测试环境,差别就更大了,CPU有不同型号和主频,有多核多线程差异,GPU也有不同型号,等等。&/li&&/ul&&p&一般情况下误检数越多召回率越高,同等误检数量下比较召回率,同等测试环境和图像比较速度,请尽可能保持公平正义。下图是评价指标的简单示例,图像总共包含7个人脸(黄色椭圆),某detector给出了8个检测结果(绿色框),其中5个正确,3个错误,这时候误检数为3,召回率为5/7=71.43%。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-d41b2cca4ff8b4fbb6443_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&445& data-rawheight=&339& class=&origin_image zh-lightbox-thumb& width=&445& data-original=&https://pic2.zhimg.com/v2-d41b2cca4ff8b4fbb6443_r.jpg&&&/figure&&h2&常用数据库&/h2&&p&人脸检测的测试数据库有很多,这里仅选择FDDB和WIDER FACE,这个两个数据库都有官方长期维护,各种算法都会提交结果进行比较,而且很多早期数据库目前都已经饱和,没有比较意义。&/p&&p&第一个是2010年非约束环境人脸检测数据库&b&FDDB&/b& &a href=&https://link.zhihu.com/?target=http%3A//vis-www.cs.umass.edu/fddb/index.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&FDDB : Main&/a&:&/p&&ul&&li&Jain V, Learned-Miller E. &b&Fddb: A benchmark for face detection in unconstrained settings&/b& [R]. Technical Report UM-CS-, University of Massachusetts, Amherst, 2010.&/li&&/ul&&figure&&img src=&https://pic1.zhimg.com/v2-b5ac99d04edb00b85885_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&469& data-rawheight=&296& class=&origin_image zh-lightbox-thumb& width=&469& data-original=&https://pic1.zhimg.com/v2-b5ac99d04edb00b85885_r.jpg&&&/figure&&p&FDDB总共2845张图像,5171张,人脸非约束环境,人脸的难度较大,有面部表情,双下巴,光照变化,穿戴,夸张发型,遮挡等难点,是目标最常用的数据库。有以下特点:&/p&&ul&&li&图像分辨率较小,所有图像的较长边缩放到450,也就是说所有图像都小于450*450,最小标注人脸20*20,包括彩色和灰度两类图像;&/li&&li&每张图像的人脸数量偏少,平均1.8人脸/图,绝大多数图像都只有一人脸;&/li&&li&数据集完全公开,published methods通常都有论文,大部分都开源代码且可以复现,可靠性高;unpublished methods没有论文没有代码,无法确认它们的训练集是否完全隔离,持怀疑态度最好,通常不做比较。(扔几张FDDB的图像到训练集,VJ也可以训练出很高的召回率。。需要考虑人品能不能抵挡住利益的诱惑)&/li&&li&有其他隔离数据集无限制训练再FDDB测试,和FDDB十折交叉验证两种,鉴于FDDB图像数量较少,近几年论文提交结果也都是无限制训练再FDDB测试方式,所以,如果要和published methods提交结果比较,请照做。山世光老师也说十折交叉验证通常会高1~3%。&/li&&li&结果有离散分数discROC和连续分数contROC两种,discROC仅关心IoU是不是大于0.5,contROC是IoU越大越好。鉴于大家都采用无限制训练加FDDB测试的方式,detector会继承训练数据集的标注风格,继而影响contROC,所以discROC比较重要,contROC看看就行了,不用太在意。&/li&&/ul&&p&FDDB在非深度学习的年代是极具挑战性的,很少能做到2000误检0.9以上,经典VJ detector在2000误检也只有0.6593,但在深度学习的年代,这个数据库目前也快接近饱和了,FDDB可以看做是资格赛,选手的正式水平请看下面的WIDER FACE。&/p&&p&第二个是目前2016年提出的,目前难度最大的&b&WIDER FACE&/b& &a href=&https://link.zhihu.com/?target=http%3A//mmlab.ie.cuhk.edu.hk/projects/WIDERFace/index.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&WIDER FACE: A Face Detection Benchmark&/a&:&/p&&ul&&li&Yang S, Luo P, Loy C C, et al. &b&Wider face: A face detection benchmark&/b& [C]// CVPR, 2016: &a href=&tel:&&&/a&.&/li&&/ul&&figure&&img src=&https://pic4.zhimg.com/v2-2c90f78ce65d7f18d5c4d9e_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1186& data-rawheight=&396& class=&origin_image zh-lightbox-thumb& width=&1186& data-original=&https://pic4.zhimg.com/v2-2c90f78ce65d7f18d5c4d9e_r.jpg&&&/figure&&p&WIDER FACE总共32203图像,393703标注人脸,目前难度最大,各种难点比较全面:尺度,姿态,遮挡,表情,化妆,光照等。有以下特点有:&/p&&ul&&li&图像分辨率普遍偏高,所有图像的宽都缩放到1024,最小标注人脸10*10,都是彩色图像;&/li&&li&每张图像的人脸数据偏多,平均12.2人脸/图,密集小人脸非常多;&/li&&li&分训练集train/验证集val/测试集test,分别占40%/10%/50%,而且测试集的标注结果(ground truth)没有公开,需要提交结果给官方比较,更加公平公正,而且测试集非常大,结果可靠性极高;&/li&&li&根据EdgeBox的检测率情况划分为三个难度等级:Easy, Medium, Hard。&/li&&/ul&&p&WIDER FACE是目前最常用的训练集,也是目前最大的公开训练集,人工标注的风格比较友好,适合训练。总之,WIDER FACE最难,结果最可靠(顶会论文也有不跑WIDER FACE的,即使论文中用WIDER FACE训练),论文给出经典方法VJ, DPM, ACF和Faceness在这个库上的性能水平,可以看出难度确实很大。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-809ffa49e6d_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&3593& data-rawheight=&1083& class=&origin_image zh-lightbox-thumb& width=&3593& data-original=&https://pic1.zhimg.com/v2-809ffa49e6d_r.jpg&&&/figure&&h2&发展现状&/h2&&p&FDDB上人脸检测算法的水平:&/p&&figure&&img src=&https://pic4.zhimg.com/v2-dfdb3c3ceefc9f7d49a14d8_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1280& data-rawheight=&1200& class=&origin_image zh-lightbox-thumb& width=&1280& data-original=&https://pic4.zhimg.com/v2-dfdb3c3ceefc9f7d49a14d8_r.jpg&&&/figure&&p&结果太多比较乱,先跳过。&/p&&p&WIDER FACE上人脸检测算法的水平,SOTA都在这里了:&/p&&figure&&img src=&https://pic7.zhimg.com/v2-ae01ab37a00e8e10de54b320d0fba11d_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&2069& data-rawheight=&452& class=&origin_image zh-lightbox-thumb& width=&2069& data-original=&https://pic7.zhimg.com/v2-ae01ab37a00e8e10de54b320d0fba11d_r.jpg&&&/figure&&ul&&li&经典方法VJ,在这个库上只有0.412/0.333/0.137;&/li&&li&2015年的STOA,深度学习方法Faceness在这个库上也只有0.716/0.604/0.315;&/li&&li&2016年的STOA,深度学习方法MTCNN是0.85/0.82/0.6,最好的非深度学习方法LDCF+是0.797/0.772/0.564;&/li&&li&2017上半年CVPR的HR是0.923/0.910/0.819,下半年ICCV的SSH是0.927/0.915/0.844,SFD是0.935/0.921/0.858,进步神速,深度学习刷榜真的非常恐怖,WIDER FACE离饱和也不远了。&/li&&/ul&&p&WIDER FACE上结果还是清晰明了的,这个数据库是2015年底提出来的,发表在CVPR 2016,到现在也有两年了,再看这期间ECCV 2016, CVPR 2017和ICCV 2017人脸检测相关工作,也有很多论文没有提交WIDER FACE。&/p&&p&FDDB上结果有点多有点乱,我这里整理了一下FDDB的提交结果,挑选了有代表性的detector,分非深度学习和深度学习两个表格,分别比较&a href=&tel:100/200/500&&100/200/500&/a&/误检时的召回率,并给出了对应论文中的速度情况,方便大家比较。注意速度直接是论文数据,不同论文的电脑配置不同,多核多线程情况不同,测试图像大小和复杂程度不同,等等因素,仅供参考,具体配置请看原论文,有source code的自己实测。有的论文并未提交FDDB,下表中召回率只有小数点后两位的数据是根据论文ROC曲线估计的。&/p&&p&&b&非深度学习的人脸检测算法比较:&/b&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-75f95c3b6c1b8f62a23b8f_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&788& data-rawheight=&1016& class=&origin_image zh-lightbox-thumb& width=&788& data-original=&https://pic1.zhimg.com/v2-75f95c3b6c1b8f62a23b8f_r.jpg&&&/figure&&p&包括年的非深度学习人脸检测方法,还有github上著名项目,深圳大学于仕琪老师的libfacedetection速度最快,和中科院山世光老师的SeetaFaceEngine中的人脸检测部分召回率很高。注意非深度学习方法有时候给出的速度是正脸检测模型,多角度模型通常慢数倍。&/p&&ul&&li&&b&简单特征级联系列&/b&,有VJ框架不同特征(Haar-like, LBP, SURF), 有二值特征JointCascade, Pico, NPD,这系列占比较大,速度优势非常明显,在CPU上单核单线程就能实时,甚至上百FPS;&/li&&li&&b&DPM系列&/b&,有Zhu, Structured Models, vanilla DPM,性能中上但速度都比较慢,FastestDPM较快但也需要多线程才能实时;&/li&&li&&b&通道特征(channel feature)系列&/b&,有HeadHuner, ACF-multiscale, ACF+和LDCF+,这一系列是非深度学习方法中性能最好的,仅ACF+和LDCF+在2000误检时超过了0.9,这两年非深度学习方法比较少,所以在WIDER FACE也只能看到ACF-multiscale和LDCF+。&/li&&/ul&&p&&b&深度学习的人脸检测算法比较:&/b&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-81748ce3cbeb96f71b373710fba413cd_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&762& data-rawheight=&1005& class=&origin_image zh-lightbox-thumb& width=&762& data-original=&https://pic1.zhimg.com/v2-81748ce3cbeb96f71b373710fba413cd_r.jpg&&&/figure&&p&包括的深度学习人脸检测方法,最后是我优化MTCNN的快速版本fastMTCNN。深度学习方法一般不会有正脸和多角度人脸模型的说法,速度都是召回率对应的。&/p&&p&这里跳过了一些只有report的方法,其中有腾讯的两个结果,基于Faster R-CNN的Face R-CNN,和基于R-FCN的Face R-FCN,在FDDB和WIDER FACE都是顶尖水平,说明Faster R-CNN/R-FCN在人脸检测中表现也很不错,不过并没有做速度方面的优化,都极慢就不关注了。&/p&&ul&&li&&b&级联CNN系列&/b&,有CNN Cascade, FaceCraft, MTNN, ICC-CNN,这一系列是深度学习方法中速度最快的,CPU都在10 FPS以上,级联CNN系列优化后轻松可以在CPU上实时,全面优化后的fastMTCNN甚至可以在ARM上跑起来;&/li&&li&&b&Faster R-CNN系列&/b&,性能可以做到极高,但速度都很慢,甚至不能在GPU上实时;&/li&&li&&b&SSD/RPN系列&/b&:有SSH和SFD,都是目前FDDB和WIDER FACE上的最高水平,性能水平与Faster R-CNN系列不相上下,同时也可以保持GPU实时速度,SFD的简化版FaceBoxes甚至可以CPU上实时,极有潜力上ARM。&/li&&/ul&&p&以上就是截至到的人脸检测算法召回率和速度情况,如有疏漏,欢迎补充。&/p&&p&最后,CNN到底能做到多快呢?我们拿非深度学习中最快的libfacedetection中的multiview_reinforce版本,和深度学习中我优化的fastMTCNN(MTCNN的加速版)做速度对比:&/p&&ul&&li&&b&测试环境&/b&:multiview_reinforce是Intel(R) Core(TM) i7-4770 CPU @ 3.4GHz;fastMTCNN是Intel(R) Core(TM) i3-6100 CPU @ 3.7GHz,算是持平吧,我们仅比较&b&单核单线程&/b&的速度。&/li&&li&&b&速度测试&/b&:multiview_reinforce是640x480(VGA),
最小人脸48,速度&b&109.3 FPS&/b&;fastMTCNN是640x480(VGA), 最小人脸80,速度&b&100 FPS&/b&以上,这里multiview_reinforce略快一点点。这一对比其实也是公平的,因为MTCNN中有边框回归,实际检测的最小人脸在50以下,这一点如果您暂时不能理解,请根据最后部分实测。&/li&&li&&b&性能测试&/b&:multiview_reinforce在FDDB上2000误检是0.85,fastMTCNN在FDDB上2000误检是0.92。这里需要强调,fastMTCNN的性能测试和速度测试的配置,仅最小人脸大小不同(20和80),而multiview_reinforce的性能测试和速度测试,除了最小人脸大小不同(16和48)之外,scale也不同,分别是1.08和1.2,做过人脸检测的都知道,这个意味着,如果按照速度测试的配置,multiview_reinforce的召回率还要掉一大截,或者说,如果按照性能测试的配置,multiview_reinforce的速度会慢很多。&/li&&/ul&&p&当然libfacedetection一直在更新,这里对比的仅是2014年提交FDDB的召回率,用于证明深度学习在很高召回率的情况下,也可以做到实时。&/p&&h2&深度学习的人脸检测算法实测&/h2&&p&合理怀疑,fastMTCNN真的能跑这么快吗?如果您有兴趣,可以先测试一下MTCNN,看看优化之前有多快:&/p&&p&&b&AlphaQi同学实现的C++版MTCNN-light&/b&: &a href=&https://link.zhihu.com/?target=https%3A//github.com/AlphaQi/MTCNN-light& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&AlphaQi/MTCNN-light&/a&&/p&&p&代码有&b&几处小错误&/b&需要修改,按照Issue 10 &a href=&https://link.zhihu.com/?target=https%3A//github.com/AlphaQi/MTCNN-light/issues/10& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&你好,这两个地方可能导致错误 · Issue #10 · AlphaQi/MTCNN-light&/a&,稍微修改一下就可以测试了。&/p&&p&另一个错误是mtcnn.cpp中596行,第三阶不应该再矫正为正方形:&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&refineAndSquareBbox(thirdBbox_, image.rows, image.cols);
&/code&&/pre&&/div&&p&另外,MTCNN-light的画框代码是写在检测里面的,这部分不应该计入检测时间。&/p&&p&C++版MTCNN-light只需要OpenBLAS和OpenCV就可以跑了,不需要其他第三方库,用于测试性能完全够用了,&b&但请不要用于实际项目和产品中,因为代码问题较多,具体实现以kaipeng的MATLAB代码为准&/b&。动手实测,一起来感受一下吧:&/p&&ul&&li&输入VGA图像,最小人脸设置80,简单背景单人脸速度应该在&b&40 fps&/b&以上。但复杂背景或人脸数量增加时,速度会严重下降,这就是级联算法的通病,在MTCNN中尤为严重,以后会详细分析成因和解决办法;&/li&&li&设置最小人脸80,实际检测到的最小人脸理论上可以到达&b&52甚至更小&/b&。这是由于MTCNN是分类加回归的多任务方法(深度学习都是),回归机制可以检测到最大IoU = 0.65的更大人脸和最小IoU = 0.65更小人脸,这一点算是深度学习的天然优势吧,传统方法做不到。&/li&&/ul&&h2&END&/h2&&p&以上内容,错误肯定是有的,而且是难免的,欢迎所有讲道理的批评指正,所有脑洞大开的探讨,以及所有莫名其妙的互怼。&/p&
人脸检测系列博文共分五部分:《人脸检测背景介绍和常用数据库》,介绍人脸检测的背景,常用数据库和评价指标,重点介绍各类算法的发展现状和各数据库上目前算法的性能速度水平;《非深度学习的人脸检测》,介绍以VJ为代表的非深度学习人脸检测算法,重点介…
&figure&&img src=&https://pic3.zhimg.com/v2-1f5c5ea96feff2dbb72d77_b.jpg& data-rawwidth=&980& data-rawheight=&231& class=&origin_image zh-lightbox-thumb& width=&980& data-original=&https://pic3.zhimg.com/v2-1f5c5ea96feff2dbb72d77_r.jpg&&&/figure&简介:人脸识别是计算机视觉研究领域的一个热点,同时人脸识别的研究领域非常广泛。因此,本技术综述限定于:一,在LFW数据集上(&a href=&https://link.zhihu.com/?target=http%3A//vis-www.cs.umass.edu/lfw/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Labeled Faces in the Wild&/a&)获得优秀结果的方法; 二,是采用深度学习的方法。&p&&b&前言&/b&&/p&&br&
LFW数据集(&a href=&https://link.zhihu.com/?target=http%3A//vis-www.cs.umass.edu/lfw/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Labeled Faces in the Wild&/a&)是目前用得最多的人脸图像数据库。该数据库共13,233幅图像,其中5749个人,其中1680人有两幅及以上的图像,4069人只有一幅图像。图像为250*250大小的JPEG格式。绝大多数为彩色图,少数为灰度图。该数据库采集的是自然条件下人脸图片,目的是提高自然条件下人脸识别的精度。该数据集有6中评价标准:&p&一,Unsupervised;&br&二,Image-restricted with no outside data;&br&三,Unrestricted with no outside data;&br&四,Image-restricted with label-free outside data;&br&五,Unrestricted with label-free outside data;&br&六,Unrestricted with labeled outside data。&br&
目前,人工在该数据集上的准确率在0.0。在该数据集的第六种评价标准下(无限制,可以使用外部标注的数据),许多方法已经赶上(超过)人工识别精度,比如face++,DeepID3,FaceNet等。&br&&br&&br&&figure&&img src=&https://pic2.zhimg.com/v2-0f310cb0f70e6beb388cdc1_b.jpg& data-rawwidth=&586& data-rawheight=&614& class=&origin_image zh-lightbox-thumb& width=&586& data-original=&https://pic2.zhimg.com/v2-0f310cb0f70e6beb388cdc1_r.jpg&&&/figure&&/p&&p&
图一/表一:人类在LFW数据集上的识别精度&br&&br&&/p&&p&
表二:第六种标准下,部分模型的识别准确率(详情参见&a href=&https://link.zhihu.com/?target=http%3A//vis-www.cs.umass.edu/lfw/results.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&lfw结果&/a&)&br&&figure&&img src=&https://pic2.zhimg.com/v2-8ca4c1ad54d19bd6d2f511e7e6ed5552_b.jpg& data-rawwidth=&641& data-rawheight=&725& class=&origin_image zh-lightbox-thumb& width=&641& data-original=&https://pic2.zhimg.com/v2-8ca4c1ad54d19bd6d2f511e7e6ed5552_r.jpg&&&/figure&&br&
续上表&br&&figure&&img src=&https://pic2.zhimg.com/v2-eed139ac1ca2_b.jpg& data-rawwidth=&616& data-rawheight=&479& class=&origin_image zh-lightbox-thumb& width=&616& data-original=&https://pic2.zhimg.com/v2-eed139ac1ca2_r.jpg&&&/figure&&br&&br&&br&&br&
本文综述的人脸识别方法包括以下几个筛选标准:一,在上表中识别精度超过0.95(超过人类的识别准确度);二,公布了方法(部分结果为商业公司提交,方法并未公布,比如&a href=&https://link.zhihu.com/?target=http%3A//vis-www.cs.umass.edu/lfw/results.html%23notes& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Tencent-BestImage&/a&);三,使用深度学习方法(本人是深度学习的追随者);三,近两年的结果。本文综述的方法包括:1,face++(0.9950 );2,DeepFace(0.9735 );3,FR+FCN(0.9645 );4,DeepID(0.9745 );5,FaceNet(0.9963 );6, baidu的方法(0.9977 );7,pose+shape+expression augmentation(0.9807);8,CNN-3DMM estimation(0.9235 ,准确率没那么高,但是值得参考)。&br&&br&&b&人脸识别方法&/b&&br&&br&&br&1,face++(0.9950)&br&&br&参考文献:&a href=&https://link.zhihu.com/?target=http%3A//xueshu.baidu.com/s%3Fwd%3Dpaperuri%3A%28628ecff0bf9ee4a3a6cea9d3fbca0fd3%29%26filter%3Dsc_long_sign%26sc_ks_para%3Dq%253DNaive-Deep%2BFace%2BRecognition%253A%2BTouching%2Bthe%2BLimit%2Bof%2BLFW%2BBenchmark%2Bor%2BNot%253F%26tn%3DSE_baiduxueshu_c1gjeupa%26ie%3Dutf-8%26sc_us%3D& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Naive-Deep face Recognition: Touching the Limit of LFW Benchmark or Not?&/a&&/p&&p&
face++从网络上搜集了5million张人脸图片用于训练深度卷积神经网络模型,在LFW数据集上准确率非常高。该篇文章的网路模型很常规(常规深度卷积神经网络模型),但是提出的问题是值得参考的。&br&
问题一:他们的Megvii Face Recognition System经过训练后,在LFW数据集上达到了0.995的准确率。在真实场景测试中(Chinese ID (CHID)),该系统的假阳性率(&img src=&https://www.zhihu.com/equation?tex=FP%3D10%5E%7B-5%7D+& alt=&FP=10^{-5} & eeimg=&1&&)非常低。但是,真阳性率仅为0.66,没有达到真实场景应用要求。其中,年龄差异(包括intra-variation:同一个人,不同年龄照片;以及inter-variation:不同人,不同年龄照片)是影响模型准确率原因之一。而在该测试标准(CHID)下,人类表现的准确率大于0.90.&br&&br&&br&&figure&&img src=&https://pic1.zhimg.com/v2-3b620de5fa4b03bdaf4e7_b.jpg& data-rawwidth=&492& data-rawheight=&516& class=&origin_image zh-lightbox-thumb& width=&492& data-original=&https://pic1.zhimg.com/v2-3b620de5fa4b03bdaf4e7_r.jpg&&&/figure&&/p&&p&
图1-1:在CHID中出错的样本&/p&&p&&br&
问题二:数据采集偏差。基于网络采集的人脸数据集存在偏差。这些偏差表现在:1,个体之间照片数量差异很大;2,大部分采集的照片都是:微笑,化妆,年轻,漂亮的图片。这些和真实场景中差异较大。因此,尽管系统在LFW数据集上有高准确率,在现实场景中准确率很低。&br&
问题三:模型测试加阳性率非常低,但是现实应用中,人们更关注真阳性率。&br&
问题四:人脸图片的角度,光线,闭合(开口、闭口)和年龄等差异相互的作用,导致人脸识别系统现实应用准确率很低。&br&
因此,该文章提出未来进一步研究的方向。方向一:从视频中提取训练数据。视频中人脸画面接近于现实应用场景(变化的角度,光照,表情等);方向二:通过人脸合成方法增加训练数据。因为单个个体不同的照片很困难(比如,难以搜集大量的单个个体不同年龄段的照片,可以采用人脸合成的方法(比如3D人脸重建)生成单个个体不同年龄段的照片)。该文章提出的方向在后续方法介绍中均有体现。&br&&br&&br&2,DeepFace(0.9735 )&br&参考文献:&a href=&https://link.zhihu.com/?target=http%3A//xueshu.baidu.com/s%3Fwd%3Dpaperuri%3A%284f6ebcc9d52b5bad9bfilter%3Dsc_long_sign%26sc_ks_para%3Dq%253DDeepFace%253A%2BClosing%2Bthe%2BGap%2Bto%2BHuman-Level%2BPerformance%2Bin%2BFace%2BVerification%26tn%3DSE_baiduxueshu_c1gjeupa%26ie%3Dutf-8%26sc_us%3D2495654& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Deepface: Closing the gap to humal-level performance in face verification&/a&&br&2.1 简介&br&常规人脸识别流程是:人脸检测-对齐-表达-分类。本文中,我们通过额外的3d模型改进了人脸对齐的方法。然后,通过基于4million人脸图像(4000个个体)训练的一个9层的人工神经网络来进行人脸特征表达。我们的模型在LFW数据集上取得了0.9735的准确率。该文章的亮点有以下几点:一,基于3d模型的人脸对齐方法;二,大数据训练的人工神经网络。&br&&br&2.2 人脸对齐方法&br&文中使用的人脸对齐方法包括以下几步:1,通过6个特征点检测人脸;2,剪切;3,建立Delaunay triangulation;4,参考标准3d模型;5,将3d模型比对到图片上;6,进行仿射变形;7,最终生成正面图像。&br&&br&&br&&figure&&img src=&https://pic2.zhimg.com/v2-cf3eec8c9acadefa440f1c_b.jpg& data-rawwidth=&476& data-rawheight=&476& class=&origin_image zh-lightbox-thumb& width=&476& data-original=&https://pic2.zhimg.com/v2-cf3eec8c9acadefa440f1c_r.jpg&&&/figure&&/p&&p&
图2-1 人脸对齐的流程&/p&&p&&br& 2.3 深度神经网络&br&&br&&br&&figure&&img src=&https://pic4.zhimg.com/v2-693ceefb_b.jpg& data-rawwidth=&962& data-rawheight=&305& class=&origin_image zh-lightbox-thumb& width=&962& data-original=&https://pic4.zhimg.com/v2-693ceefb_r.jpg&&&/figure&&/p&&p&
图2-2:深度神经网络&/p&&p&&br&2.4 结果&br&
该模型在LFW数据集上取得了0.9735准确率,在其它数据集比如Social Face Classification (SFC) dataset和YouTube Faces (YTF) dataset也取得了好结果,详情请参见原文。&br&&br&&br&3,FR+FCN(0.9645 )&/p&&p&参考文献:&a href=&https://link.zhihu.com/?target=http%3A//xueshu.baidu.com/s%3Fwd%3Dpaperuri%3A%cb2a0ba5ab6e0ab%26filter%3Dsc_long_sign%26sc_ks_para%3Dq%253DRecover%2BCanonical-View%2BFaces%2Bin%2Bthe%2BWild%2Bwith%2BDeep%2BNeural%2BNetworks%26tn%3DSE_baiduxueshu_c1gjeupa%26ie%3Dutf-8%26sc_us%3D1294352& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Recover Canonical-View Faces in the Wild with Deep Neural Networks&/a&&/p&&p&3.1 简介&/p&&p&自然条件下,因为角度,光线,occlusions(咬合/张口闭口),低分辨率等原因,使人脸图像在个体之间有很大的差异,影响到人脸识别的广泛应用。本文提出了一种新的深度学习模型,可以学习人脸图像看不见的一面。因此,模型可以在保持个体之间的差异的同时,极大的减少单个个体人脸图像(同一人,不同图片)之间的差异。与当前使用2d环境或者3d信息来进行人脸重建的方法不同,该方法直接从人脸图像之中学习到图像中的规则观察体(canonical
view,标准正面人脸图像)。作者开发了一种从个体照片中自动选择/合成canonical-view的方法。在应用方面,该人脸恢复方法已经应用于人脸核实。同时,该方法在LFW数据集上获得了当前最好成绩。该文章的亮点在于:一,新的检测/选择canonical-view的方法;二,训练深度神经网络来重建人脸正面标准图片(canonical-view)。&br&&/p&&p&3.2 canonical view选择方法&br&&/p&&p&我们设计了基于矩阵排序和对称性的人脸正面图像检测方法。如图3-1所示,我们按照以下三个标准来采集个体人脸图片:一,人脸对称性(左右脸的差异)进行升序排列;二,图像锐度进行降序排列;三,一和二的组合。&br&&/p&&br&&figure&&img src=&https://pic4.zhimg.com/v2-79f6b49bacfd72f83f66f1_b.jpg& data-rawwidth=&965& data-rawheight=&565& class=&origin_image zh-lightbox-thumb& width=&965& data-original=&https://pic4.zhimg.com/v2-79f6b49bacfd72f83f66f1_r.jpg&&&/figure&&p&
图3-1 正面人脸图像检测方法&/p&&p&&br&矩阵&img src=&https://www.zhihu.com/equation?tex=Y_%7Bi%7D+%5Cin+R%5E%7B64%5Ctimes+64%7D+& alt=&Y_{i} \in R^{64\times 64} & eeimg=&1&&为第i个个体的人脸图像矩阵,&img src=&https://www.zhihu.com/equation?tex=D_%7Bi%7D+& alt=&D_{i} & eeimg=&1&&为第i个个体所有人脸图像集合,&img src=&https://www.zhihu.com/equation?tex=Y_%7Bi%7D+%5Cin+D_%7Bi%7D+& alt=&Y_{i} \in D_{i} & eeimg=&1&&。正面人脸检测公式为:&img src=&https://www.zhihu.com/equation?tex=M%28Y_%7Bi%7D+%29%3D%7C%7CY_%7Bi%7DP-Y_%7Bi%7DQ%7C%7C_%7BF%7D%5E%7B2%7D-%5Clambda+%7C%7CY_%7Bi%7D%7C%7C_%7B%2A%7D++& alt=&M(Y_{i} )=||Y_{i}P-Y_{i}Q||_{F}^{2}-\lambda ||Y_{i}||_{*}
& eeimg=&1&&。&br&&/p&&p&3.3
人脸重建&/p&&p&我们通过训练深度神经网络来进行人脸重建。loss函数为:&img src=&https://www.zhihu.com/equation?tex=E%28%5Cleft%5C%7B+X_%7Bik%7D%5E%7B0%7D+%5Cright%5C%7D++%3BW%29%3D%5Csum_%7Bi%7D%5E%7B%7D%7B%7D+%5Csum_%7Bk%7D%5E%7B%7D%7B%7D+%5Cleft%7C+%5Cleft%7C+Y_%7Bi%7D-f%28X_%7Bik%7D%5E%7B0%7D%3BW+%29+%5Cright%7C%5Cright%7C+_%7BF%7D%5E%7B2%7D+& alt=&E(\left\{ X_{ik}^{0} \right\}W)=\sum_{i}^{}{} \sum_{k}^{}{} \left| \left| Y_{i}-f(X_{ik}^{0};W ) \right|\right| _{F}^{2} & eeimg=&1&&&br&&/p&&p&
i为第i个个体,k为第i个个体的第k张样本。&img src=&https://www.zhihu.com/equation?tex=X%5E%7B0%7D+& alt=&X^{0} & eeimg=&1&&和Y为训练图像和目标图像。&br&&/p&&p&如图3-2所示,深度神经网络包含三层。前两层后接上了max pooling;最后一层接上了全连接层。于传统卷积神经网络不同,我们的filters不共享权重(我们认为人脸的不同区域存在不同类型的特征)。第l层卷积层可以表示为:&/p&&img src=&https://www.zhihu.com/equation?tex=X_%7Bq%2Cuv%7D%5E%7Bl%2B1%7D+%3D%5Csigma+%28%5Csum_%7Bp%3D1%7D%5E%7BI%7D%7Bx_%7Bpq%2Cuv%7D%5E%7Bl%7D+%7D%5Ccirc+%28X_%7Bp%7D%5E%7Bl%7D+%29+_%7Buv%7D+%2Bx_%7Bq%7D%5E%7Bl%7D+%29& alt=&X_{q,uv}^{l+1} =\sigma (\sum_{p=1}^{I}{x_{pq,uv}^{l} }\circ (X_{p}^{l} ) _{uv} +x_{q}^{l} )& eeimg=&1&&&br&&br&&figure&&img src=&https://pic4.zhimg.com/v2-454ffce5aaefe1dd548812_b.jpg& data-rawwidth=&591& data-rawheight=&298& class=&origin_image zh-lightbox-thumb& width=&591& data-original=&https://pic4.zhimg.com/v2-454ffce5aaefe1dd548812_r.jpg&&&/figure&&p&
图3-2 深度神经网络&br&&/p&&p&最终,经过训练的深度神经网络生成的canonical view人脸图像如图3-3所示。&/p&&br&&figure&&img src=&https://pic4.zhimg.com/v2-d4fa0acddd1e5511dce6ea966d9ccaa5_b.jpg& data-rawwidth=&697& data-rawheight=&389& class=&origin_image zh-lightbox-thumb& width=&697& data-original=&https://pic4.zhimg.com/v2-d4fa0acddd1e5511dce6ea966d9ccaa5_r.jpg&&&/figure&&p&
图3-3 canonical view人脸图像&/p&&br&&p&4,DeepID(0.9745 )&br&&/p&&p&参考文献:&a href=&https://link.zhihu.com/?target=http%3A//xueshu.baidu.com/s%3Fwd%3Dpaperuri%3A%28c8d4befe80e3bfeb693456adae6f141c%29%26filter%3Dsc_long_sign%26sc_ks_para%3Dq%253DDeepID3%253A%2BFace%2BRecognition%2Bwith%2BVery%2BDeep%2BNeural%2BNetworks%26tn%3DSE_baiduxueshu_c1gjeupa%26ie%3Dutf-8%26sc_us%3D& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&DeepID3: Face Recognition with Very Deep Neural Networks&/a&&br&&/p&&br&4.1 简介&br&&br&深度学习在人脸识别领域的应用提高了人脸识别准确率。本文中,我们使用了两种深度神经网络框架(VGG net 和GoogleLeNet)来进行人脸识别。两种框架ensemble结果在LFW数据集上可以达到0.9745的准确率。文章获得高准确率主要归功于大量的训练数据,文章的亮点仅在于测试了两种深度卷积神经网络框架。&br&&br&4.2 深度神经网络框架&br&&figure&&img src=&https://pic4.zhimg.com/v2-0debfe4b7_b.jpg& data-rawwidth=&748& data-rawheight=&643& class=&origin_image zh-lightbox-thumb& width=&748& data-original=&https://pic4.zhimg.com/v2-0debfe4b7_r.jpg&&&/figure&&br&
图4-1 两种深度卷积神经网络框架&br&&br&&br&5,FaceNet(0.9963)&br&参考文献:&a href=&https://link.zhihu.com/?target=http%3A//xueshu.baidu.com/s%3Fwd%3Dpaperuri%3A%28bf74fbbb7d74%29%26filter%3Dsc_long_sign%26sc_ks_para%3Dq%253DFaceNet%253A%2BA%2Bunified%2Bembedding%2Bfor%2Bface%2Brecognition%2Band%2Bclustering%26tn%3DSE_baiduxueshu_c1gjeupa%26ie%3Dutf-8%26sc_us%3D& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&FaceNet: A Unified Embedding for Face Recognition and Clustering&/a&&br&&br&5.1 简介&br&&br&&br&作者开发了一个新的人脸识别系统:FaceNet,可以直接将人脸图像映射到欧几里得空间,空间的距离代表了人脸图像的相似性。只要该映射空间生成,人脸识别,验证和聚类等任务就可以轻松完成。该方法是基于深度卷积神经网络,在LFW数据集上,准确率为0.9963,在YouTube Faces DB数据集上,准确率为0.9512。FaceNet的核心是百万级的训练数据以及 triplet loss。&br&&br&5.2
triplet loss&br& triplet loss是文章的核心,模型将图像x embedding入d-维的欧几里得空间&img src=&https://www.zhihu.com/equation?tex=f%28x%29%5Cin+R%5E%7Bd%7D+& alt=&f(x)\in R^{d} & eeimg=&1&&。我们希望保证某个个体的图像&img src=&https://www.zhihu.com/equation?tex=x_%7Bi%7D%5E%7Ba%7D+%28anchor%29& alt=&x_{i}^{a} (anchor)& eeimg=&1&& 和该个体的其它图像&img src=&https://www.zhihu.com/equation?tex=x_%7Bi%7D%5E%7Bp%7D+%28positive%29& alt=&x_{i}^{p} (positive)& eeimg=&1&& 距离近,与其它个体的图像&img src=&https://www.zhihu.com/equation?tex=x_%7Bi%7D%5E%7Bn%7D+%28negtive%29& alt=&x_{i}^{n} (negtive)& eeimg=&1&&
距离远。如图5-1所示:&figure&&img src=&https://pic2.zhimg.com/v2-e97dea2c74c31b83b7c8_b.jpg& data-rawwidth=&477& data-rawheight=&203& class=&origin_image zh-lightbox-thumb& width=&477& data-original=&https://pic2.zhimg.com/v2-e97dea2c74c31b83b7c8_r.jpg&&&/figure&
图5-1 triplet loss示意图&br&&br&&figure&&img src=&https://pic2.zhimg.com/v2-fb0de06aa80bfd4bb6eb9a24f9855c6b_b.jpg& data-rawwidth=&454& data-rawheight=&38& class=&origin_image zh-lightbox-thumb& width=&454& data-original=&https://pic2.zhimg.com/v2-fb0de06aa80bfd4bb6eb9a24f9855c6b_r.jpg&&&/figure&&br&&figure&&img src=&https://pic3.zhimg.com/v2-89f6cb30446edc2fd1aeba_b.jpg& data-rawwidth=&451& data-rawheight=&119& class=&origin_image zh-lightbox-thumb& width=&451& data-original=&https://pic3.zhimg.com/v2-89f6cb30446edc2fd1aeba_r.jpg&&&/figure&&br&triplets 的选择对模型的收敛非常重要。如公式1所示,对于&img src=&https://www.zhihu.com/equation?tex=x_%7Bi%7D%5E%7Ba%7D+& alt=&x_{i}^{a} & eeimg=&1&&,我们我们需要选择不同个体的图片&img src=&https://www.zhihu.com/equation?tex=x_%7Bi%7D%5E%7Bp%7D+& alt=&x_{i}^{p} & eeimg=&1&&,使&img src=&https://www.zhihu.com/equation?tex=argmax_%7Bx_%7Bi%7D%5E%7Bp%7D+%7D+%5Cleft%7C+%5Cleft%7C+f%28x_%7Bi%7D%5E%7Ba%7D+%29-f%28x_%7Bi%7D%5E%7Bp%7D+%29%5Cright%7C++%5Cright%7C+_%7B2%7D%5E%7B2%7D+& alt=&argmax_{x_{i}^{p} } \left| \left| f(x_{i}^{a} )-f(x_{i}^{p} )\right|
\right| _{2}^{2} & eeimg=&1&&;同时,还需要选择同一个体不同图片&img src=&https://www.zhihu.com/equation?tex=x_%7Bi%7D%5E%7Bn%7D+& alt=&x_{i}^{n} & eeimg=&1&&,使得&img src=&https://www.zhihu.com/equation?tex=argmin_%7Bx_%7Bi%7D%5E%7Bn%7D+%7D+%5Cleft%7C+%5Cleft%7C+f%28x_%7Bi%7D%5E%7Ba%7D+%29-f%28x_%7Bi%7D%5E%7Bn%7D+%29%5Cright%7C++%5Cright%7C+_%7B2%7D%5E%7B2%7D+& alt=&argmin_{x_{i}^{n} } \left| \left| f(x_{i}^{a} )-f(x_{i}^{n} )\right|
\right| _{2}^{2} & eeimg=&1&&。&br&&br&5.3 深度卷积神经网络&br&采用adagrad优化器,使用随机梯度下降法训练CNN模型。在cpu集群上训练了小时。边界值&img src=&https://www.zhihu.com/equation?tex=%5Calpha+& alt=&\alpha & eeimg=&1&&设定为0.2。总共实验了两类模型,参数如表5-1和表5-2所示。&br&
表5-1 CNN模型1&br&&figure&&img src=&https://pic2.zhimg.com/v2-f5cec8e65f5febb35d375d_b.jpg& data-rawwidth=&485& data-rawheight=&640& class=&origin_image zh-lightbox-thumb& width=&485& data-original=&https://pic2.zhimg.com/v2-f5cec8e65f5febb35d375d_r.jpg&&&/figure&&br&
表5-2 CNN模型2&br&&figure&&img src=&https://pic2.zhimg.com/v2-b74bd2f48d2825157dcaae3_b.jpg& data-rawwidth=&950& data-rawheight=&541& class=&origin_image zh-lightbox-thumb& width=&950& data-original=&https://pic2.zhimg.com/v2-b74bd2f48d2825157dcaae3_r.jpg&&&/figure&&br&&br&6,baidu的方法&br&参考文献:&a href=&https://link.zhihu.com/?target=http%3A//xueshu.baidu.com/s%3Fwd%3Dpaperuri%3A%f978db26e2%29%26filter%3Dsc_long_sign%26sc_ks_para%3Dq%253DTargeting%2BUltimate%2BAccuracy%253A%2BFace%2BRecognition%2Bvia%2BDeep%2BEmbedding%26tn%3DSE_baiduxueshu_c1gjeupa%26ie%3Dutf-8%26sc_us%3D2270991& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Targeting Ultimate Accuracy : Face Recognition via Deep Embedding&/a&&br&&br&6.1 简介&br&本文中,作者提出了一种两步学习方法,结合mutil-patch deep CNN和deep metric learning,实现脸部特征提取和识别。通过1.2million(18000个个体)的训练集训练,该方法在LFW数据集上取得了0.9977的成绩。&br&&br&6.2 multi-patch deep CNN&br&人脸不同区域通过深度卷积神经网络分别进行特征提取。如图6-1所示。&br&&figure&&img src=&https://pic1.zhimg.com/v2-16f11e53d474aab46c7e_b.jpg& data-rawwidth=&492& data-rawheight=&280& class=&origin_image zh-lightbox-thumb& width=&492& data-original=&https://pic1.zhimg.com/v2-16f11e53d474aab46c7e_r.jpg&&&/figure&&br&
图6-1 multi-patch示意图&br& 6.3 deep metric learning&br&深度卷积神经网络提取的特征再经过metric learning将维度降低到128维度,如图7-2所示。&figure&&img src=&https://pic1.zhimg.com/v2-330ebf9061dacbed0eed487_b.jpg& data-rawwidth=&417& data-rawheight=&367& class=&content_image& width=&417&&&/figure&&br&
图6-2 metric learning示意图&br&&br&7,pose+shape+expression augmentation(0.9807)&br&参考文章:&a href=&https://link.zhihu.com/?target=http%3A//xueshu.baidu.com/s%3Fwd%3Ddo%2520we%2520really%2520need%2520to%2520collect%2520millions%2520of%2520faces%2520for%2520effective%2520face%2520recognition%26f%3D12%26nojc%3D1%26tn%3DSE_baiduxueshu_c1gjeupa%26ie%3Dutf-8& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Do We Really Need to Collect Millions of Faces for Effective Face Recognition&/a&&br&&br&7.1 简介&br&该文章的主要思路是对数据集进行扩增(data augmentation)。CNN深度学习模型,比如face++,DeepID,FaceNet等需要基于百万级人脸图像的训练才能达到高精度。而搜集百万级人脸数据所耗费的人力,物力,财力是很大的,所以商业公司使用的图像数据库是不公开的。&br&本文中,采用了新的人脸数据扩增方法。对现有公共数据库人脸图像,从pose,shape和expression三个方面合成新的人脸图像,极大的扩增数据量。在LFW和IJB-A数据集上取得了和百万级人脸数据训练一样好的结果。该文章的思路很好,很适合普通研究者。&br&&br&7.2 pose+shape+expression扩增方法&br&一,pose(姿态,文章中为人脸角度,即通过3d人脸模型数据库合成图像看不见的角度,生成新的角度的人脸)。首先,通过人脸特征点检测(facial landmark detector),获取人脸特征点。根据人脸特征点和开放的Basel 3D face set数据库的人脸模板合成3d人脸。如图7-1所示。&figure&&img src=&https://pic3.zhimg.com/v2-a030c1efd4befb6e179f1f_b.jpg& data-rawwidth=&993& data-rawheight=&296& class=&origin_image zh-lightbox-thumb& width=&993& data-original=&https://pic3.zhimg.com/v2-a030c1efd4befb6e179f1f_r.jpg&&&/figure&
图7-1 pose(角度)生成示意图&br&&br&二,shape(脸型)。首先,通过Basel 3D face获取10种高质量3d面部扫描数据。再将图像数据与不同3d脸型数据结合,生成同一个人不同脸型的图像。如图7-2所示:&br&&figure&&img src=&https://pic1.zhimg.com/v2-87b7b059d12bc10c24dd6e96_b.jpg& data-rawwidth=&978& data-rawheight=&620& class=&origin_image zh-lightbox-thumb& width=&978& data-original=&https://pic1.zhimg.com/v2-87b7b059d12bc10c24dd6e96_r.jpg&&&/figure&
图7-2 不同脸型生成示意图&br&&br& 三,expression(表情,本文中,将图像的张嘴表情替换为闭口表情)。采用中性嘴型将图像中的开口表情换位闭口表情。如图7--3所示。&figure&&img src=&https://pic4.zhimg.com/v2-841f605c9cfb79e03a3b3ba0_b.jpg& data-rawwidth=&976& data-rawheight=&368& class=&origin_image zh-lightbox-thumb& width=&976& data-original=&https://pic4.zhimg.com/v2-841f605c9cfb79e03a3b3ba0_r.jpg&&&/figure&
图7-3 不同表情(开口/闭口)生成示意图&br&&br&7.3 模型及训练方法&br&文章模型采用的ILSVRC数据集上预训练的VGG-19模型。训练方法是常规梯度下降训练方法。值得提出的地方是,该文章对测试集也进行了augmentation。&br&&br&8, CNN-3DMM estimation(0.9235)&br&参考文献:&p&1,&a href=&https://link.zhihu.com/?target=http%3A//xueshu.baidu.com/s%3Fwd%3Dpaperuri%3A%283d53eda8a4fdcccf8a40cce%29%26filter%3Dsc_long_sign%26sc_ks_para%3Dq%253DRegressing%2BRobust%2Band%2BDiscriminative%2B3D%2BMorphable%2BModels%2Bwith%2Ba%2Bvery%2BDeep%2BNeural%2BNetwork%26tn%3DSE_baiduxueshu_c1gjeupa%26ie%3Dutf-8%26sc_us%3D2220298& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Regressing Robust and Discriminative 3D Morphable Models with a very Deep Neural Network&/a&(很优秀的工作,强烈推荐阅读原文)&/p&&p&2,中文解析:&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&使用深度卷积神经网络方法进行3D人脸重建&/a&&/p&&p&8.1 简介&br&当在真实场景中应用3d模拟来增加人脸识别精度,存在两类问题:要么3d模拟不稳定,导致同一个个体的3d模拟差异较大;要么过于泛化,导致大部分合成的图片都类似。因此,作者研究了一种鲁棒的三维可变人脸模型(3D morphable face models (3DMM))生成方法。他们采用了卷积神经网络(CNN)来根据输入照片来调节三维人脸模型的脸型和纹理参数。该方法可以用来生成大量的标记样本。该方法在MICC数据集上进行了测试,精确度为state of the art 。与3d-3d人脸比对流程相结合,作者在LFW,YTF和IJB-A数据集上与当前最好成绩持平。文章的关键点有两个:一,3D重建模型训练数据获取;二,3D重建模型训练 。&br&&br&8.2 训练数据&br&作者采用了近期发表的多图像3DMM生成方法(M.Piotraschke 2016)。他们在CASIA WebFace数据集上采用该方法生成3DMM。这些3d人脸模型用于训练CNN的gound truth。多图像3DMM重建包括两步:一,从CASIA数据集选取500K当个图像来估计3DMM参数。二,同一个体不同照片生成的3DMM聚合一起,获取单个个体的3DMM(约10K个体)。&br&&br&8.2.1 Single image 3DMM fitting&br&采用两种不同的方法来对每一个训练图片配对上3DMM。对于图像I,我们估计&img src=&https://www.zhihu.com/equation?tex=%5Calpha+%5E%7B%2A%7D+& alt=&\alpha ^{*} & eeimg=&1&&和&img src=&https://www.zhihu.com/equation?tex=%5Cbeta++%5E%7B%2A%7D+& alt=&\beta
^{*} & eeimg=&1&&来表示与输入图像I类似的图像。采用了目前最好的人脸特征点检测器(CLNF)来检测K=68个人脸特征点&img src=&https://www.zhihu.com/equation?tex=P_%7Bk%7D+%5Cin+R%5E%7B2%7D+%2Ck%5Cin+1..K& alt=&P_{k} \in R^{2} ,k\in 1..K& eeimg=&1&&和置信值&img src=&https://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&&。其中,脸部特征点用于在3DMM坐标系中初始化输入人脸的角度。角度表达为6个自由度:角度&img src=&https://www.zhihu.com/equation?tex=r%3D%5Cleft%5B+r+_%7B%5Calpha+%7D+%2Cr_%7B%5Cbeta+a%7D%2Cr_%7B%5Cgamma+a%7D++%5Cright%5D+& alt=&r=\left[ r _{\alpha } ,r_{\beta a},r_{\gamma a}
\right] & eeimg=&1&& 和平移&img src=&https://www.zhihu.com/equation?tex=t%3D%5Cleft%5Bt_%7BX%7D+%2Ct_%7BY%7D+%2Ct_%7BZ%7D++%5Cright%5D+& alt=&t=\left[t_{X} ,t_{Y} ,t_{Z}
\right] & eeimg=&1&&。然后再对脸型,纹理,角度,光照和色彩进行处理。&br&&br&8.2.2 Multi image 3DMM fitting&br&多图像3DMM生成通过pool 单个个体不同图片生成的3DMM的脸型和纹理参数来实现。&br&&img src=&https://www.zhihu.com/equation?tex=%5Cbar%7B%5Cgamma+%7D+%3D%5Csum_%7Bi%3D1%7D%5E%7BN%7D%7Bw_%7Bi%7D+%5Ccdot+%5Cgamma+_%7Bi%7D+%7D++& alt=&\bar{\gamma } =\sum_{i=1}^{N}{w_{i} \cdot \gamma _{i} }
& eeimg=&1&&其中&img src=&https://www.zhihu.com/equation?tex=%5Csum_%7Bi%3D1%7D%5E%7BN%7D%7Bw_%7Bi%7D%3D1+%7D+& alt=&\sum_{i=1}^{N}{w_{i}=1 } & eeimg=&1&&,&img src=&https://www.zhihu.com/equation?tex=w_%7Bi%7D+& alt=&w_{i} & eeimg=&1&&为CLNF脸部特征检测生成的置信值。&br&&br&8.3
3D重建模型训练&br&对于数据集中每一个个体,有多张图片以及单个pool的3DMM。我们将该数据用于训练模型,使模型可以根据同一个体不同的图片来生成类似的3DMM特征向量。&br&如图8-1所示,我们采用了101层的deep ResNet网络来进行人脸识别。神经网络的输出层为198维度的3DMM特征向量&img src=&https://www.zhihu.com/equation?tex=%5Cgamma+& alt=&\gamma & eeimg=&1&&。然后,使用CASIA 图像生成的pooled 3DMM作为目标值对神经网络进行fine-tuned。我们也尝试了使用VGG-16结构,结果比ResNet结构稍微差一点。&br&&figure&&img src=&https://pic2.zhimg.com/v2-da9a95daa0de_b.jpg& data-rawwidth=&982& data-rawheight=&357& class=&origin_image zh-lightbox-thumb& width=&982& data-original=&https://pic2.zhimg.com/v2-da9a95daa0de_r.jpg&&&/figure&
图8-1 3D重建训练示意图&br&&br&8.3.1 The asymmetric Euclidean loss&br&我们在实验中发现,使用Euclidean loss会导致输出3d人脸缺少细节,如图8-2所示。因此,我们引入了asymmetric Euclidean loss。&figure&&img src=&https://pic2.zhimg.com/v2-45c7da39934eaf0badf3b_b.jpg& data-rawwidth=&481& data-rawheight=&174& class=&origin_image zh-lightbox-thumb& width=&481& data-original=&https://pic2.zhimg.com/v2-45c7da39934eaf0badf3b_r.jpg&&&/figure&其中,&img src=&https://www.zhihu.com/equation?tex=%5Cgamma+& alt=&\gamma & eeimg=&1&&为目标pooled 3DMM值,&img src=&https://www.zhihu.com/equation?tex=%5Cgamma+_%7Bp%7D+& alt=&\gamma _{p} & eeimg=&1&&为输入,&img src=&https://www.zhihu.com/equation?tex=%5Clambda+_%7B1%2C2%7D+& alt=&\lambda _{1,2} & eeimg=&1&&为平衡over和under estimation errors的值。在实际操作中,我们设定&img src=&https://www.zhihu.com/equation?tex=%5Clambda+_%7B1%7D+%3D1%2C%5Clambda+_%7B2%7D+%3D3& alt=&\lambda _{1} =1,\lambda _{2} =3& eeimg=&1&&,来鼓励模型学习更多的细节。&figure&&img src=&https://pic1.zhimg.com/v2-098fef7db8e7ecd97ffd30d7c3964d0b_b.jpg& data-rawwidth=&473& data-rawheight=&221& class=&origin_image zh-lightbox-thumb& width=&473& data-original=&https://pic1.zhimg.com/v2-098fef7db8e7ecd97ffd30d7c3964d0b_r.jpg&&&/figure&&br&
图8-2 不同loss函数对结果的影响&br&&br&8.4 实验结果&br&8.4.1
3D重建结果&br&MICC数据集包含53个个体的人脸视频和个体的3D模型作为gound truth

我要回帖

更多关于 人脸识别为什么没反应 的文章

 

随机推荐