CVPR 2018 中國論文分享會之「人物重識別及追蹤」

本文作者： camel

2018-06-03 17:28

導語：圖森未來，北京大學，港中文，商湯科技

雷鋒網 AI 科技評論按：本文為 2018 年 5 月 11 日在微軟亞洲研究院進行的 CVPR 2018 中國論文宣講研討會中第三個 Session——「Person Re-Identification and Tracking」環節的四場論文報告。

圖森未來王乃巖博士做了第一個報告。在行人重識別中，不同的圖片對行人的識別率不同，那么到底需要幾幀圖片才能夠準確地判別一個人的身份呢？王乃巖博士針對這個問題，提出了一種自適應強化學習模型，也即自動學出做出準確判斷所需要的幀，其結果顯示只需要視頻流的 3%-6% 即可獲得最好的結果。而事實上這可以作為一種通用的方法用在別的研究任務中。

第二個報告由來自北京大學特聘研究員張史梁介紹他們在行人重識別研究中對「數據對性能的影響」的思考。他們發現，盡管在特定數據集中許多方法能夠達到超越人類的水平，但是在實際應用中卻表現極差。原因是，目前公開的數據集在數量、場景、時間段、光照等維度都過于單一；且由于不同數據集收集時的標準不同，很難實現跨數據集的研究和應用。基于這樣的思考，他們花費很大精力構建了目前看來最大的多場景、多時間段、多光照強度的數據集 MSMT17；此外，他們還涉及了 PTGAN 網絡，用于將不同數據集的風格進行融合，以達到相互利用的目的。

隨后是由港中文-商湯聯合實驗室的李鴻升教授介紹了他們在行人重識別研究中的新視角。李鴻升教授在今年的 CVPR 中共有 7 篇入選論文，這里他只介紹了其中兩篇。第一篇為 oral 論文，他們考慮到圖片之間具有組相似性，而現有的方法大多忽視了這種相似性；基于這種思考，他們提出了用組相似性的約束的全局 loss 函數，取代了之前只是基于局部的 loss 函數。第二篇論文中他們發現圖片背景對模型重識別行人有很大的影響。

最后由來自商湯科技的武偉博士介紹了他們在目標追蹤方面的工作。基于實際安防監控工作的需要，他們設計了一個利用孿生（Siamese）網絡和區域候選網絡（Region Proposal Network）構建的高速且高性能的單目標跟蹤算法。該算法在 VOT 2016 和 VOT 2017 數據集上都取得了 state-of-art 的結果。

雷鋒網注：

[1] CVPR 2018 中國論文宣講研討會由微軟亞洲研究院、清華大學媒體與網絡技術教育部-微軟重點實驗室、商湯科技、中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數據專委會合作舉辦，數十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術觀點。研討會共包含了 6 個 session（共 22 個報告），1 個論壇，以及 20 多個 posters，雷鋒網 AI 科技評論將為您詳細報道。

[2] CVPR 2018 將于 6 月 18 - 22 日在美國鹽湖城召開。據 CVPR 官網顯示，今年大會有超過 3300 篇論文投稿，其中錄取 979 篇；相比去年 783 篇論文，今年增長了近 25%。

更多報道請參看：

Session 1：GAN and Synthesis
Session 2: Deep Learning
Session 3: Person Re-Identification and Tracking
Session 4: Vision and Language
Session 5: Segmentation, Detection
Session 6: Human, Face and 3D Shape

一、將增強學習引入行人重識別

論文：Multi-shot pedestrian re-identification via sequential decision making
報告人：王乃巖，圖森未來，首席科學家
論文下載地址：https://arxiv.org/abs/1712.07257

所謂行人重識別任務，即將來自多個攝像頭的不同軌跡中的行人（例如多張圖片或者視頻圖片）進行身份識別。這在安全領域中的視頻分析、視頻監控具有廣泛的應用基礎。在實際中多張圖片能夠提供豐富的信息，但是同時也帶來了大量的冗余，甚至潛在的噪聲。解決這一問題的關鍵在于如何將多張圖片中的特性進行聚合。

1、背景

目前實現特性聚合的方法主要有兩類。一類是 feature pooling，也即將每一幀圖片的特性提取出來后，在對所有幀的特性進行 pooling，從而提取出 frame level 的特性。另一類方法是時序模型，也即假設圖片之間存在時序，然后使用光流/LSTM 的方法對 frame level 特性進行融合。

王乃巖在這篇被 CVPR 2018 接收的文章中考慮到，行人重識別應當對不好的檢測（例如重影）或遮擋具有更高的魯棒性，同時對不同圖片中行人的識別有一定的彈性。

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

如上圖所示，左側兩張圖片可以很容易檢測出是否是同一個人，因此期望設計出的模型只是用一對圖片做判別即可；而另一方面，右側的圖片，由于遮擋、模糊的原因，一對圖片很難判斷是否是同一個人，因此希望模型能夠自動地選擇適量的圖片對進行行人身份判斷。

2、方法

基于上面的考慮，王乃巖團隊提出了一種稱為「自適應強化學習」（Adaptive Reinforcement Learning）的模型，如下圖所示：

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

這里有幾個關鍵點需要特別指出：

（1）Actions。圖片對生成的 feature 送入 agent 后，agent 將作出三種判斷：same，different 和 unsure。當判斷結果為 unsure 時，就會返回到開頭重新進行判斷。

（2）Reward。如果目標圖片與 ground truth 圖片匹配，那么獎勵為+1；如果不匹配，或者盡管還不確定但所有的圖片都已經對比完了，那么獎勵為-1；否則，當圖片對還沒有對比完且也沒有確定是否匹配，那么獎勵為 r_p。顯然這里 r_p 大小的設定影響著獎勵的結果，如果設置為負值，那么它會因為請求更多圖像對而受到懲罰；而當設置為正值，它就會被鼓勵收集更多的圖像對，直至對比完所有的圖像，此時 r_p 會被強行設置為-1。

（3）輸入 agent 的 feature，除了學習到的當前圖片的 image features 外，還利用了歷史 feature（也即前面的判斷結果，進行加權平均）和手工設計的距離 3D feature。

（4）學習算法為比較經典的 DQN，學習得到 Q-Value 以判斷兩張圖片中的人是否是同一個人。

3、結果

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

這張對比結果是，當設置每個 episode 中圖片對的最大數量（例如 4 對）時，ARL 方法相比 baseline 的結果。可以看出即使使用少量的圖片對也能在 CMC Rank 中取得極好的分數。

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

這張圖片可以從定量的角度來看該模型的優點。當設置視頻流包含 200 張圖片時，ARL 方法只用 3 - 6 張圖片即可達到近似于使用全部圖片的效果。

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

最后展示一下，訓練過程中 same、different、unsure 三個 state 分數的變化。左側的圖顯示了對不同的圖片判斷結果所需要的圖片對數量也不同，模型能夠自適應選擇。右側是相應的分數變化。

4、總結

這篇文章算是首次嘗試將增強學習方法引入到 multi-shot 重識別問題當中，其結果顯示可能只需要所有圖片（例如視頻流）中的 3%-6% 的圖片即可獲得最好的結果。可能這里更為關鍵的是它可以使用到 single-shot 重識別問題中。據王乃巖表示，這種方法除了能夠用于行人的重識別外，或許也可以作為不確定估計的一種通用方法。期待他們接下來的研究成果。

二、最大、多場景、多時間段行人數據集

論文：Person Transfer GAN to Bridge Domain Gap for Person Re-Identification
報告人：張史梁，北京大學
論文下載地址：https://arxiv.org/abs/1711.08565

這篇文章可能提供了最大的多場景、多時間段的行人數據集了。

從 2005 年行人重識別任務首次提出后，經過 2014 年深度學習被引入該領域，行人重識別的研究得到大量的研究（例如 CVPR 上行人重識別的文章從 2014 年的 3 篇劇增到今年的 32 篇），在這些研究中各種模型所表現出的性能也逐步提升，在今年的一些數據集（例如 CUHK03、Market501）上一些方法的表現甚至超越了人類。

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

1、行人重識別真的超越人類了嗎？

一個讓人不禁產生的問題是：我們真的已經解決行人重識別的問題了嗎？

事實可能是并沒有。對比大多數實驗中所使用的數據集和真實世界的數據集，就可以發現仍然存在著很大的差別。例如下表中的五個已有的公開數據集 Duke、Market、CUHK03、CUHK01、VIPeR 與真實世界數據集的對比：

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

可以看出這些公開數據集有以下幾個問題：數據量小、場景單一（indoor 或者 outdoor）、相機數量少、時間短、光線條件單一等。

此外，在實驗中大多數情況下，訓練數據和測試數據的數量都接近于 1 : 1。但是在現實世界的數據中，訓練數據往往只占全部數據中很小的一部分，因此在實驗中表現良好的模型放到真實世界中可能并不能獲得很好的效果。

2、如何進一步促進？

有了以上的考慮，怎么才能夠進一步促進行人重識別的研究，以便能夠在現實生活中加以應用呢？

第一個想法就是：我們需要有更加真實的數據集。這個數據集的采集應該更加接近真實世界，也即有更多的行人、更多的相機、更多的 bboxes，同時也應當有復雜的場景（既有室內也有室外場景），更加重要的是要還要有不同時段和不同光照下的數據。

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

解決訓練集和測試集嚴重不均衡的問題，張史梁等人認為一個可行的思路就是重用已有的標注數據。例如在 PRID 中訓練集較少，那么可以利用 CUHK03 的數據集進行訓練，然后在 PRID 中進行測試。但是這種方法并不像想象的這么容易，例如上面的例子，Rank-1 精度只有 2%。思考其背后的原因，可能是因為在這兩個數據集中有不同的光照、背景、相機參數等。

基于這兩點考慮，張史梁等人做了兩項工作，首先是構建了一個大型的多場景多時段的數據集 MSMT17；其次構建了一個 Person Transfer GAN，用于將不同的數據集進行融合，以便在同一個任務中使用。

3、數據集MSMT17

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

從上圖中可以看出 MSMT17 的相比于其他數據集的一些優勢。構建這個數據集共使用了 15 個相機，其中 12 個為 outdoor，3 個為 indoor；總共收集了 180 個小時的數據，每個月選擇天氣環境不同的 4 天，每天早、中、晚分別 3 個小時。他們選擇 Faster RCNN 對這些行人進行 bounding box detection，這個標注過程花了兩個月的時間，一共有 126441 個 body boxes。為了模擬真實世界中的環境，他們選擇了 4101 個對象，其中 1041 個人用作訓練，3060 個人用作測試。該數據集目前已經公開，可以說是該研究領域最大的數據集。

感受一下 MSMT17 數據集中的一些案例：

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

這里有光照的變化、場景和背景的變化、多樣的姿態以及遮擋物等多種復雜條件。

4、PTGAN

這個 GAN 網絡的目標就是將一個數據集 A 上的風格（包括背景、光照、照相機參數等）轉化為另一個數據集 B 的風格，轉換完之后則可以使用數據集 A' 作為數據集 B 的訓練集。這里要保證兩個方面：第一，變換后的風格符合數據集 B 的風格；第二，要保證變換前后人的身份信息不變。

張史梁等人提出的 person transfor GAN（PTGAN）如下圖所示：

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

PTGAN 的訓練過程主要由兩個 Loss 來約束。

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

第一個是 Style transfer，即 A 經過 transfer 后風格盡可能和 B 相似，這是一個 unpaired image-to-image translation 任務，因此它就直接采用了 Cycle-GAN 的 loss 函數。另外一個就是 ID loss，保持身份盡可能地不發生變化，這里采用了 PSPNet 的 loss 函數。下圖是三種 GAN 模型作用在輸入圖片上的結果對比：

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

下面變換前后的對比圖之一，從 CUHK03 到 PRID-cam2 的變換：

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

用變換后的數據訓練訓練 GoogLeNet，然后在 PRID 數據集上進行測試，結果如下表：

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

可以看到經過變換后的表現得到了大幅度的提升，例如 CUHK03 - PRID cam1 實驗中，Rank-1 分數從原來的 2.0% 一下子提升到了 37.5%。

5、總結

能夠適用于真實環境中的行人重識別模型才是真正的好模型，為了實現這點，張史梁等人提出了兩種方法。一方面他們構建了一個目前來講最大的近似真實世界的數據集 MSMT17；另一方面他們希望能夠通過數據風格遷移在不同的數據集之間搭建一個橋梁，提出了 PTGAN 模型。

相關代碼和數據：https://github.com/JoinWei-PKU

三、行人重識別中的背景影響到底有多大？

報告題目：Towards More Robust Person Re-identification with Group Consistency and Background-bias Elimination
報告人：李鴻升，港中文-商湯聯合實驗室
論文：
1. Group Consistent Similarity Learning via Deep CRFs for Person Re-Identification (oral)
2. Eliminating Background-bias for Robust Person Re-identification (Poster)

李鴻升教授所在團隊在今年的 CVPR 上共有 7 篇行人重識別的論文被錄用，其中 1 篇 oral，6 篇 poster。在這次分享會上他著重介紹了上述兩篇內容。

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

所謂行人重識別，按照李鴻升教授的說法，即給定一個檢測圖片，依據相似性對圖片集中的所有行人圖片進行排序。這其中的關鍵問題是，如何學習行人圖片之間的視覺相似性。

1、基于組一致性約束條件的行人再識別

現有方法在通過深度神經網絡學習視覺相似性時，一個局限性問題是在其 loss 函數中只用了局部約束。例如下圖所示的 pairwise loss、triplet loss 或者 quardruplet loss：

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

這種局部約束的 loss 函數不能描述圖像之間的相似性。基于這樣的思考，李鴻升等人認為應當構建一種基于組別相似性的新的 loss 函數，這種函數不僅能夠描述局部相似性，還能夠描述圖片之間的相似性。

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

如上圖所示，局部相似性僅僅考慮兩幅圖之間的相似性，而全局相似性則考慮 gallery images 中群組之間的相似性（probe image 也可以視為一個 group）。其方法的框架如下圖所示：

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

共分為三步：先進性深度多尺度 feature embedding（使用了 ResNet-50 作為主體網絡），然后對圖片進行一個局部的相似性估計（得到兩張圖片 I_m,I_n 的局部預估計相似性為 t_mn），最后一步為組相似性增強。

他們假設：給定一個圖片 I_p，如果它與圖片集 I_i 相似，而圖片集 I_i 與圖片集 I_j 相似，那么 I_p 也與 I_j 相似；否則如果 I_p 與圖片集 I_i 不相似，而圖片集 I_i 與圖片集 I_j 相似，那么 I_p 與 I_j 不相似。而組相似性取決于整個圖片組。

如果記 I_p 和 I_i 之間的組相似性為 y_pi。那么基于組相似性的 CRF 模型即為：

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

這里組相似性應當盡可能地接近于通過 CNN 網絡估計出的局部相似性，因此有：

（unary term）

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

（pairwise term）

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

他們的實驗結果如下：

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

可以看出基于組相似性的重識別效果相比之前的 state-of-art 工作有顯著地提升。

2、消除背景偏差

已有行人重識別方法中，大家都是用整張圖片作為一個獨立的數據樣本去訓練和檢測，但是他們忽略了一個問題，即：行人和背景是不同的對象，在識別行人中，圖片背景會帶來偏差。如下圖所示：

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

與 query 圖片有相似背景但不同行人的圖片排在 rank 6，而同一行人不同背景的圖片卻排在 rank 25。那么在行人重識別中，背景到底會帶來多大的偏差呢？李鴻升等人通過在 CUHK03 和 Market-1501 數據集上使用 human parsing mask 的方法獲得了 3 類數據集：mean background、random background 和 background only，如下圖所示：

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

他們用原始數據集進行訓練后，在 mean background、random background 進行測試：

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

發現去除背景或者（尤其是）隨機換背景后，性能出現大幅度的下降。而另一方面他們嘗試只用背景圖去訓練，然后用原圖和背景圖做測試：

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

發現前者的表現并不差。這說明在之前深度學習模型中背景起到了相當大的影響，也同時給行人重識別帶來了偏差。

基于這種發現，他們構建了一個 Person-region Guided Pooling Network。

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

首先他們通過 huaman parsing 方法獲得 4 類人體 parsing map（整體、頭、軀干、腿），然后用這些 parsing map 從不同的人體區域做特征池化。他們分別對有無背景以及不同比例、on-off line 做了實驗對比：

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

他們發現通過 online 且隨機替換掉 50% 的原圖的背景能夠得到最好（限于對比實驗）的結果。

同時他們也將這種方法與其他 state-of-art 方法進行對比：

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

發現在不同數據集上這種方法的表現有顯著的提升。

4、目標檢測落地安防有待性能和速度同時提升

論文：High Performance Object Tracking with Siamese-network
報告人：武偉，商湯科技
論文下載地址：暫無

目標追蹤不同于目標檢測，首先對于追蹤的目標沒有一個預定義的分類；其次在整個視頻幀當中只有第一幀帶有標注；此外，也沒有可用于訓練的數據存在。

據武偉介紹，他在商湯主要負責安防監控方面的研發工作，之所以考慮做目標追蹤，是因為業務需要。現有的單目標跟蹤算法很難兼顧到性能和速度，只能再某一個指標上占優。但是在實際應用中則不得不考慮，在不影響性能的同時如何進一步提高速度。

基于這種業務需求，武偉等人提出了一種端到端的深度學習框架，具體來說就是利用孿生（Siamese）網絡和區域候選網絡（Region Proposal Network），構建了一種高速且高性能的單目標跟蹤算法。如下圖所示：

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

整體上，算法分為 Siamese 特征提取網絡和 Region Proposal Network 子網絡兩個部分。二者通過卷積操作升維，統一在一個端到端的框架里面。

CVPR 2018 中國論文分享會之「人物重識別及追蹤」

訓練過程中，算法可以利用密集標注（VID）和稀疏標注（YoutubeBB）的數據集對進行訓練。相比于現有方法，稀疏標注的數據集大大增加了訓練數據來源，從而可以對深度神經網絡進行更充分的訓練；Region Proposal Network 中的坐標回歸可以讓跟蹤框更加準確，并且省去多尺度測試耗費的時間。

實驗方面，本跟蹤算法能在保持高速的情況下（160fps），在 VOT2016 和 VOT2017 數據集上取得 state-of-the-art 的結果。

(Performance on VOT 2016)

CVPR 2018 中國論文分享會之「人物重識別及追蹤」