全球計算機視覺頂級會議 IEEE CVPR 2018 (Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議) 即將于六月在美國鹽湖城召開,本屆大會總共錄取來自全球論文979篇。CVPR作為計算機視覺領(lǐng)域級別最高的研究會議,其錄取論文代表了計算機視覺領(lǐng)域在2018年最新和最高的科技水平以及未來發(fā)展潮流。
CVPR官網(wǎng)顯示,今年有超過3300篇的大會論文投稿,錄取的979篇論文,比去年增長了25%(2016年論文錄取783篇)。這些錄取的最新科研成果,涵蓋了計算機視覺領(lǐng)域各項前沿工作。CVPR 2018包括21場tutorials、48場workshops,并且有來自全球各地超過115家企業(yè)將入駐今年CVPR工業(yè)展覽。
商湯科技、香港中文大學(xué)-商湯科技聯(lián)合實驗室以及其他商湯科技聯(lián)合實驗室共有44篇論文被本屆CVPR大會接收,其中包括口頭報告論文3篇(錄取率僅62/3300 = 1.88%),亮點報告論文13篇,論文錄取數(shù)量相較于CVPR 2017的23篇又有大幅度提高,成績斐然。全球領(lǐng)先的科研成果展示了商湯科技智能視覺領(lǐng)域強大的人才儲備、科研底蘊和創(chuàng)新能力。
商湯科技CVPR 2018錄取論文在以下領(lǐng)域?qū)崿F(xiàn)突破:大規(guī)模分布式訓(xùn)練、人體理解與行人再識別、自動駕駛場景理解與分析、底層視覺算法、視覺與自然語言的綜合理解、物體檢測、識別與跟蹤、深度生成式模型、視頻與行為理解等。這些新穎的計算機視覺算法不僅有著豐富的應(yīng)用場景,使得更多的智能視覺算法能應(yīng)用于日常生活之中,還為后續(xù)研究提供了可貴的經(jīng)驗和方向。
大規(guī)模分布式訓(xùn)練
代表性論文:Oral – 深度增強學(xué)習(xí)自動網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計
本文致力于解決深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的自動設(shè)計問題,與一般人工的結(jié)構(gòu)設(shè)計不同,本文提出了一種高效算法,通過強化學(xué)習(xí)來自動設(shè)計最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計通常需要大量專家的知識和試錯成本,并且甚至還需要一些靈感,每年僅有幾個重要的網(wǎng)絡(luò)結(jié)構(gòu)被設(shè)計出來,因此,人工設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)是一個難度極高的工作。近期的網(wǎng)絡(luò)結(jié)構(gòu)自動搜索的算法通常需要巨大的計算資源(數(shù)百塊GPU,近一個月的訓(xùn)練),并且生產(chǎn)的模型可遷移性不強,難以做到真正的實用化。
本文提出了一種基于強化學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)自動設(shè)計算法,通過“網(wǎng)絡(luò)塊”的設(shè)計思想,讓搜索空間大大降低,并且使設(shè)計的網(wǎng)絡(luò)具有非常強的可遷移性。同時,本文使用“提前停止”和分布式架構(gòu)來加速整個網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)過程,達到了百倍于之前算法的速度(32塊GPU,3天的訓(xùn)練)。實驗表面,其生成的網(wǎng)絡(luò)結(jié)構(gòu)在CIFAR數(shù)據(jù)集上達到并且超越人類設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)的精度,并且其結(jié)構(gòu)可以遷移到大規(guī)模的ImageNet數(shù)據(jù)上,取得良好的性能。
人體理解與行人再識別
代表性論文:Oral – 基于組一致性約束條件的行人再識別
行人再識別是新一代智能安防系統(tǒng)中的重要組件之一。給定一幅行人圖像,行人再識別要求跨不同攝像頭,對同一行人基于其視覺外觀進行準確匹配和識別?,F(xiàn)有深度學(xué)習(xí)算法通常使用過于局部的約束損失函數(shù)進行行人特征學(xué)習(xí),因而不能精確的學(xué)習(xí)行人圖像之間的視覺相似度。本文針對該問題提出一種新穎的組一致性約束條件,并通過連續(xù)條件隨機場對該約束條件進行建模。將該連續(xù)條件隨機場加入深度神經(jīng)網(wǎng)絡(luò),從而實現(xiàn)該深度模型的端對端訓(xùn)練。實驗結(jié)果表明該一致性條件在訓(xùn)練與測試中均能夠大幅度提升最終視覺特征的魯棒性與判別性,實現(xiàn)高精度的行人再識別。
自動駕駛場景理解
代表性論文:
Spotlight – 極低延遲的視頻語義分割
本文關(guān)注面向自動駕駛場景的視頻實時語義分割問題,雖然近年來圖像語義分割取得很大的進展,但是對于面向視頻的語義分割任務(wù)仍然存在挑戰(zhàn)。其主要困難在于:1)視頻需要更多的計算量;2)許多實時的應(yīng)用如自動駕駛需要實現(xiàn)低延遲性。
本文致力于解決這兩方面的難題,同時盡可能的保證分割的精度。在視頻分割問題中,鄰近幀之間的語義標簽的變化相對較小,因此不必每幀都使用一個完整的網(wǎng)絡(luò)來提取語義標簽?;谶@種認識,本文提出了一個如圖所示的語義分割的框架,把整個網(wǎng)絡(luò)分為高層部分和低層部分,低層部分消耗較少的計算;本文的框架只在關(guān)鍵幀運行完整的網(wǎng)絡(luò)來提取高層特征進行語義分割,而在其他幀則從上一個關(guān)鍵幀傳播特征來進行語義分割。相應(yīng)的框架由兩部分組件構(gòu)成:1)關(guān)鍵幀調(diào)度模塊,以及2)特征跨幀傳播模塊,其都基于低層特征進行相應(yīng)的計算,因此相對完整的網(wǎng)絡(luò)計算量小很多。同時為了減少延遲,在檢測到當前幀為關(guān)鍵幀時,使用了一個低延遲的調(diào)度策略。本文提出的方法在兩個數(shù)據(jù)集上均驗證了我們方法的有效性,取得了較低延遲并保持精確的分割精度。
Spotlight – 基于單視圖的立體匹配
面向自動駕駛場景的單目深度估計方法,通常利用一個視角的圖像數(shù)據(jù)作為輸入,直接預(yù)測圖片中每個像素對應(yīng)的深度值,這就導(dǎo)致了現(xiàn)有方法通常需要大量的帶深度信息標注的數(shù)據(jù)。近期的研究提出了在訓(xùn)練過程引入了幾何約束的改進,但是在測試過程仍然缺乏顯式的幾何約束。本文提出把單目深度估計分解為兩個子過程,即視圖合成過程以及雙目匹配過程,通過這樣分解之后,使得所提出的模型既可以在測試階段顯式地引入幾何約束又可以極大的減少對帶深度標注數(shù)據(jù)的依賴。實驗證明,本文提出的方法僅利用少量的深度數(shù)據(jù)就可以在KITTI數(shù)據(jù)集上超過之前的所有方法,并首次僅靠單目圖像數(shù)據(jù)就超過了雙目匹配算法Block Matching,進一步推動了單目深度估計技術(shù)的落地。
底層視覺算法
代表性論文:Spotlight – 基于深度增強學(xué)習(xí)的普適圖像復(fù)原
本文提出了一種新穎的深度學(xué)習(xí)圖像復(fù)原方法。大部分已有復(fù)原算法僅面向解決某類特定的圖像復(fù)原問題,因而對各種不同類別的降質(zhì)圖像缺乏普適性。針對該問題,本文提出的RL-Restore算法先訓(xùn)練一系列針對不同降質(zhì)圖像的小型神經(jīng)網(wǎng)絡(luò);同時設(shè)計一種評價圖像復(fù)原質(zhì)量的獎勵函數(shù),使用增強學(xué)習(xí)算法學(xué)習(xí)如何將這些小型神經(jīng)網(wǎng)絡(luò)進行合理組合。針對不同的降質(zhì)圖像,獲得不同的復(fù)原算法組件的組合,實現(xiàn)對復(fù)雜降質(zhì)圖像的有效復(fù)原。
視覺與自然語言的綜合理解
代表性論文:Spotlight – 面向視覺問題回答的對偶視覺問題生成
針對開放式視覺問答(Open-ended VisualQuestion Answering)中訓(xùn)練數(shù)據(jù)過少的問題,本文提出了一種“可逆問答網(wǎng)絡(luò)”。該模型可以通過重組不同模塊,使一組模型同時完成“問題回答”和“問題生成”兩種互逆的兩個任務(wù)。該模型通過充分利用視覺問答和視覺問題生成的對偶性,提升模型對于有限訓(xùn)練數(shù)據(jù)的利用效率。該方法采用兩個任務(wù)同時訓(xùn)練同一模型,使網(wǎng)絡(luò)能夠?qū)栴}和圖片之間的聯(lián)系有更深的理解,從而在問題生成和問題回答兩個任務(wù)上都取得了更好的精度和效果。
人臉識別與人臉分析
代表性論文:
Poster – 超越人臉識別的人臉解離特征空間學(xué)習(xí)
本文同時解決人臉識別、屬性分類和任意人臉生成這三個問題。大多數(shù)人臉特征學(xué)習(xí)的工作通常能夠讓網(wǎng)絡(luò)學(xué)習(xí)得到一個具有極強身份或?qū)傩詤^(qū)分度的特征,以應(yīng)用于人臉識別、屬性分類等任務(wù);或者學(xué)習(xí)一個具有全局信息的特征,以應(yīng)用于人臉生成和編輯等應(yīng)用。為什么不能學(xué)習(xí)到一個完備的特征空間并使得語義信息高度區(qū)分化,進而實現(xiàn)一個特征能夠完成所有的任務(wù)呢?本文提出了一個信息蒸餾與驅(qū)逐網(wǎng)絡(luò)的框架,只使用身份ID作為監(jiān)督信息,學(xué)習(xí)到了一個同時具有極強信息區(qū)分度且包含全局信息的稠密凸特征空間。在LFW、LFWA和CelebA等數(shù)據(jù)集上的實驗表明,人臉在該特征空間下的投影具有極高的身份、屬性識別能力,且該空間內(nèi)的任意一個點均具有較強的身份和屬性語義,并可生成具有該語義的人臉圖像。
Poster – 基于邊緣感知的人臉關(guān)鍵點定位
本文提出一種基于邊緣感知的人臉關(guān)鍵點檢測算法,將人臉邊緣線所描述的結(jié)構(gòu)信息融入到關(guān)鍵點檢測中,極大地提升了算法在大側(cè)臉、夸張表情、遮擋、模糊等極端情況下的檢測精度。文章主要解決了兩大問題:1. 人臉關(guān)鍵點在各個數(shù)據(jù)集間歧義性,定義不一致問題。文章通過捕捉對于人臉更通用的邊緣線信息,將其作為人臉到關(guān)鍵點的中間媒介,使得不同數(shù)據(jù)集即使存在關(guān)鍵點差異,仍然可以相互輔助訓(xùn)練。2. 復(fù)雜情況下關(guān)鍵點檢測精度問題。本文首先通過消息傳遞結(jié)合對抗學(xué)習(xí)得到高精度的邊緣線檢測結(jié)果,再將邊緣線信息多語義層次地融合到關(guān)鍵點檢測中,使得算法在復(fù)雜情況下的魯棒性大幅提升。
另外,文章還提出了一個新的人臉關(guān)鍵點檢測數(shù)據(jù)集Wider Facial Landmarksin-the-wild (WFLW),包含10,000 張帶有98點和6屬性標注的人臉數(shù)據(jù),旨在幫助學(xué)界更有效的評估關(guān)鍵點算法在各種條件下的魯棒性。
物體檢測、識別與跟蹤
代表性論文:
Spotlight – 基于孿生候選區(qū)域網(wǎng)絡(luò)的高性能視覺跟蹤
本文提出一種基于端到端深度學(xué)習(xí)框架的高性能單目標跟蹤算法?,F(xiàn)有的單目標跟蹤算法通常較難兼顧性能和速度,僅能在某一指標占優(yōu)。本文利用孿生(Siamese)網(wǎng)絡(luò)和區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network),構(gòu)建了一種高速高精度的單目標跟蹤算法。兩個子網(wǎng)絡(luò)通過卷積操作升維,統(tǒng)一在一個端到端的深度神經(jīng)網(wǎng)絡(luò)框架里。訓(xùn)練過程中,算法可以利用擁有密集標注(VID)和稀疏標注(YoutubeBB)的數(shù)據(jù)集進行訓(xùn)練。相較于現(xiàn)有方法,稀疏標注的數(shù)據(jù)集大大增加了訓(xùn)練數(shù)據(jù)來源,從而可以對深度神經(jīng)網(wǎng)絡(luò)進行更充分的訓(xùn)練;區(qū)域候選網(wǎng)絡(luò)中的坐標回歸可以讓跟蹤框更加準確,并且省去多尺度測試耗費的時間。實驗方面,本文提出的跟蹤算法能在160幀速度下達到VOT2015和VOT2016數(shù)據(jù)集上目前的先進水平。
Poster – 快速的端到端多角度文字檢測與識別方法
本文首次提出了端到端的多角度文字檢測與識別方法。文字檢測與識別(OCR)是計算機視覺領(lǐng)域的經(jīng)典問題,過去的做法將文字檢測與識別看做兩個問題分別解決。本文提出了一個端到端的方法同時進行文字檢測與識別,驗證了這兩個任務(wù)相輔相成,共同監(jiān)督網(wǎng)絡(luò)訓(xùn)練可以讓這兩個任務(wù)取得更好的精度。由于兩個任務(wù)共用一個特征提取的網(wǎng)絡(luò),速度也是分別進行文字檢測與識別的兩倍左右。同時本文也提出了RoIRotate操作,其擴展了RoIAlign,可以應(yīng)用于旋轉(zhuǎn)物體的檢測。本文在多個數(shù)據(jù)集上超過了現(xiàn)有方法。
深度生成式模型
代表性論文:Poster – 基于特征裝飾的實時零點風(fēng)格遷移
目前針對圖像風(fēng)格化的實時應(yīng)用,大多需要針對特定的風(fēng)格圖來設(shè)計特定的風(fēng)格遷移模型;如果需要實現(xiàn)對于任意風(fēng)格圖的遷移,計算復(fù)雜度和遷移效果大多不能得到保證。本文提出一種實時零點圖像風(fēng)格遷移模型,實現(xiàn)對于任意風(fēng)格圖像的多尺度高質(zhì)量風(fēng)格化遷移。該方法基于名為風(fēng)格裝飾器的特征遷移網(wǎng)絡(luò)結(jié)構(gòu),可以容易地嵌入圖像重構(gòu)網(wǎng)絡(luò)中來達到多尺度的風(fēng)格特征遷移。該網(wǎng)絡(luò)結(jié)構(gòu)使得生成的風(fēng)格化圖像充分表達風(fēng)格圖中的具體紋理模式,同時保留原圖中的語義信息。實驗表明,該網(wǎng)絡(luò)對各種類別的風(fēng)格圖都有較高的風(fēng)格化能力,并且可以有效擴展到多風(fēng)格遷移和視頻風(fēng)格遷移等應(yīng)用中。
- QQ:61149512