CVPR論文詳解：在一場球賽中， AI是如何預判誰將投籃

本文作者：李尊

2016-06-28 13:06

導語：在本文中，我們會建立一種模式，此模式會檢測多人視頻中的活動并且會關注此活動中的關鍵人物。

本文聯合編譯 : 陳圳、Blake

多人視頻中活動和關鍵人物的檢測

摘要

多人活動識別是一個極具挑戰的任務，雖然很多人在一個場景中出現，但只有一小部分人的活動能被重點關注到。在本文中，我們建立了一種模式，此模式會檢測多人視頻中的活動并且會重點關注此活動中的關鍵人物。一般來說，我們在視頻中檢測人的行為會使用遞歸神經網絡（RNN）來表示這些人的行為軌跡特征。把了解到的瞬息變化的特征都按時間先后記錄下來。接下來，將檢測到的特征使用另一個遞歸神經系統進行行為檢測和分類。因為大多數多人視頻中的數據集都限制于少數的視頻中，我們收集了一個新的籃球比賽數據集包括257場籃球賽并根據11種活動行為分類帶有14k的注釋。這種模式在基于新數據的活動分類和檢測方面目前超過了世上的許多先進技術。此外，我們將會展示注意機制能連續地定位相關人物。

1.介紹

盡管視頻識別和檢測從最近的大規模數據和模式引進中受益匪淺。然而，卻局限于單人活動做基礎的活動。另一個同樣重要的問題是多人視頻中活動識別的問題。在我們的研究中，我們為這一特殊設定設計了一個新的模式和數據集。

CVPR論文詳解：在一場球賽中， AI是如何預判誰將投籃

圖1：在籃球比賽中關注錯誤的人會無法傳遞比賽信息，如第一行所示。但是在同樣的視頻，當關注到正確的人之后，我們就能更容易辨別“2個成功點”：傳遞球的人和投籃的分的人。我們使用相同的直覺在活動識別中關鍵球員。

在體育比賽，市場，或是其他包括多人互動領域視頻拍攝。許多人都在做“事情”，但不是所有的人都在參與主要的活動。主要活動往往由少部分人承擔進行。例如，一次“投籃”是由一個或是兩個人完成（如圖一）。此外，為確認關鍵人物排除其他不先關人物也是很關鍵的。這是至關重要的一點，也是區分單人視頻和多人視頻的關鍵點。

憑自己的本事辨認出活動的關鍵人物是一個有興趣的任務。然而獲得此類解釋是非常昂貴的，所以在辨認關鍵人物的訓練中無需使用注釋的模式非常必要的。這也可以看做是對關鍵人物監視薄弱的問題。在本文中，我們提議使用通過能關注關鍵人物子集的模式去分類活動。我們在做此事時，并未準確告訴模式關鍵人物是誰？他在哪？

最近，一些論文提出使用“注意”模式從混合的輸入到輸出排列排列元素。例如，把句子從一種語言翻譯到另一種語言，再輸入時就關注句子中的不同單詞；生成一個映像說明，需注意映像中的不同部分；生成一個視頻說明，需注意視頻中的不同幀。

在我們的研究中，我們使用“注意”來決定哪些人是與實施動作聯系最緊密的，且“注意”能隨時變化。因此我們聯合時間和空間注意。注意到盡管人的檢測從一幀到另一幀都不相同，但他們能通過跨幀追蹤聯系起來。我將會展示如何使用神經遞歸網絡（RNN）表示每一幀的信息；注意模式被用于訓練在每一幀中選出最相關的追蹤。此模式除能辨認相關人物，我們也將展示它較好的活動辨別能力。

為了能評估我們的的方法，我們需要大量的多人視頻解釋活動。最優先的活動識別數據集是關于一個或是兩個人的。多人視頻多限于少量視頻。因此我們需自己收集相關數據集。我們建立一個籃球賽數據集，對所有的11不同活動包括257個視頻，每個時長1.5個小時，備注時間印記。這個數據集就備注的數量而言是可比擬THUMOS數據集的，但包括更多的多人視頻。

總結而言，本文所作成就如下。第一，我們引進一個大規模的籃球數據集，且帶有14K即時注釋。第二，我們將會展示我們的模式在分類剪輯視頻和在未剪輯視頻中的定位功能等方面超過先進模式。第三，我們將會展示我們的模式能學習關注相關人物，盡管未被告知在訓練集中哪個人物是相關的。

2. 相關工作

視頻中的行為識別。一般說來，有良好編程的特征在視頻分類和檢索等任務中十分有效。在標準視頻數據集中改良密集軌道（IDT）取得較好成效。在最過去幾年端對端深度網絡模式在各種網絡任務中表現很好。其他任務則致力于探索使用這些特征表現地更好。最近的研究使用神經遞歸網絡（RNN）在活動識別和生成說明等方面取得較好成就。我們跟隨此研究線索關注到參與者。

另一條研究線在識別動作的同時確認視頻中的有趣之處。Gkioxari et al. 和 Raptis et.al 會在視頻中自動識別時空管。Jain et al. 為行為定位加入超級像素。其他的研究如學著從帶有部分簡單注釋的和部分對準的電影剪輯中定位相關人物。盡管這些模式執行薄弱監督的行為確定，他們在短視頻中將目標鎖定在單人視頻，且在短視頻中的行為是圍繞這個人展開。在訓練定位動作時，模式需要備注。

多人視頻分析。活動識別模式需要界限明確的組別框架。這些模式利用參與者的分布框架去確認小組活動。但是，這些方法卻受限于較小的數據集。

關注模式。Itti et al. 探索在映像中基于顯著性的關注模式，例如使用眼睛凝視數據作為一種學習注意的方法。Mnih et al.通過RNN關注影像領域的解決方法。“注意”同樣也被用于圖像分類和檢測。

Bahdanau et al. 展示了“基于注意的”RNN模式能為機器翻譯有效地排序輸入和輸出。緊接著Xu et al. and Yao et al.使用“注意”分別用于圖像說明和視頻說明。在所有的方法中，“注意”校對了輸入和輸出的一系列特征。但是我們使用“注意”在活動的不同階段辨認出關鍵人物。

行為識別數據集。在視頻中的行為識別涉及到更復雜的數據集，從KTH，HMDB到更大的UCF101，TRECVID-MED和Sports-1M數據集。最近，THUMOS和ActivityNet同樣也提供了檢測設置，且對未剪輯視頻中的每一個行為作了即時注釋。在在特定的場景，MPII的烹飪和早餐中有條紋細膩的數據集。然而大多數數據集只關注一個人的活動，無需辨認發出行為動作的人。另一方面，公開可獲得的多人活動數據集數量非常少。我們所作貢獻之一就是籃球賽數據集有頻繁的活動解釋。

CVPR論文詳解：在一場球賽中， AI是如何預判誰將投籃

圖2：我們在長視頻中詳細注明11個不同的籃球活動。如圖所示，我們通過AMT任務收集了時間印記和活動標簽。

個人識別和追蹤。有相當多的文獻都是關于個人識別和追蹤。也有特定的方法進行個人識別和追蹤。我們只提及少部分重要方法。對于人類識別，我們使用基于CNN多語種檢測器。對于個人追蹤使用KLT追蹤器。但在此項研究中，我們并未嘗試識別辨別參與者。

CVPR論文詳解：在一場球賽中， AI是如何預判誰將投籃

表1：每一個活動涉及的視頻數和每一視頻涉及到的人數。其中人數是比現存的多人活動數據集

3. NCAA籃球數據集

對于收集多人活動視頻首選是團隊比賽。在本文中，我們關注籃球比賽，我們的技術是通用的。我們使用從Youtube 選取的296場NCAA比賽數據集。這些比賽是在不同的場館和不同時間進行的。我們只研究其中最新的257場比賽，因為舊的比賽規則與新的往往有所不同。視頻時長一般是1.5個小時。我們手動分類了11個活動類型（如表格一）。我們選擇5個典型的投籃，分別可以是成功的，失敗的或是偷偷的行為。

接下來我們會進行一個Amazon Mechanical Turk任務，在此任務中，注解者被要求在每一行為“終點”都標上注解；“終點”一般都界限明顯（例如，求脫離球員的手或地面等其他地方，比如在框中）。為確定開始時間，我們假定每一個行為都有4秒長，因為很難讓評定機構同意什么時候比賽開始了。這讓我們有足夠的時間去分類每一個行為，且能及時定位。

這個視頻被隨機剪成了212訓練視頻，12確認視頻和33測試視頻。我們把每一個視頻剪成4秒長的剪輯（使用注釋界限）并且為6pfs下采樣。我們會過濾掉不是人物的剪輯（如圖三所示）使用不同的分類器；這些包括球員的特寫，觀眾的拍攝和當前的重放。提到的這些足以與THUMOS’15測試挑戰的大小進行比較（150剪輯過的訓練實例每一個有20種類，和6553未被剪輯的確定實例）。不同事件的注釋分布如表一。

除了標注的事件標簽和開始及結束的時間，我們收集了測試的850視頻剪輯，并要求標注者標示出球在每一幀中的位置及球員嘗試投籃的位置。

我們同樣也在測試視頻的9000多幀中，使用AMT去標注球的彈跳。我們接著使用Multibox測試器是測試我們的視頻數據集。我們保證所有的檢測的正確性在每幀0.5以上；這導致了每一幀檢測6-8個人，如表一所示。

CVPR論文詳解：在一場球賽中， AI是如何預判誰將投籃

圖3：在我們的模式，每一個球員首先是由相應的BLSTM網絡進行追蹤。Pi-BLSTM網絡對應不同的球員。BLSTM隱藏的狀態被“注意”模式用于辨認每一階段的關鍵球員。BLSTM的不足之處顯示出“注意”的重要性，以及關鍵人物能隨時改變。BLSTM代表“雙向長時和短時記憶”。

4.我們的方法

團體比賽中的所有活動都是由同一批球員在相同的場景中展開的。唯一的不同點在于動作是在給定的時間點由一小部分人完成的。例如，一個“偷偷摸摸的”行為是由一個球員嘗試傳球，而另一個卻偷走了球。為理解這一行為，關鍵在于只關注參與該行為的人。

4.1特征提取

每一幀是由1024維度特征構成。此外，我們計算每個人的空間特征。類似地，對于RCNN目標的檢測，出現的特征是由通過Inception7網絡不斷地裁剪不當的和球員重新控制的領域提取出，和空間對較低層次的集中反應。空間特征對應32×32柱狀圖聯合空間金字塔去暗示球在大規模場景中的彈跳位置。盡管我們只使用靜止的CNN表示，但這些特征依然很容易用流信息擴展。

4.2 行為分類

在每一幀t中給定ft和pti，我們的目標是訓練模式是將剪輯視頻分成11類。就如我們建立我們模式方法有副作用，我們同樣也能在每一幀中辨認關鍵人物。

首先我們計算出每一幀的整體特征，源于雙向LSTM應用于幀級別的特征，如圖三藍框所示。從前向和反向的LSTM成分BLSTM一系列隱藏的狀態能簡潔表示如下：

CVPR論文詳解：在一場球賽中， AI是如何預判誰將投籃

接下來我們使用單向的LSTM去表示行為瞬時狀態t:

CVPR論文詳解：在一場球賽中， AI是如何預判誰將投籃

At 是球員的特征，如下所描述的。從此處我們可以預測等級標記，因為剪輯使用 wk|het，因為在此中的重量矢量與k相呼應，且k由wk暗示。我們計算方鉸鏈損失如下：

CVPR論文詳解：在一場球賽中， AI是如何預判誰將投籃

在此公式中yk是1，但如果視頻屬于k級別，那就是-1。

4.3 注意力模型

和過去的注意力模型不一樣，我們需要在每個時間步上添加一系列不同的特性。在這個設置過程中有兩個關鍵問題。

第一，雖然我們在每個幀都有進行不同的檢測，但是它們也能通過一種對象追蹤來越過幀進行連接。這個可能使球員的表現得更好。

第二，球員的注意取決于球場上當下的情況，同時需要根據球場上的情況作出調整。例如，如果完成一個“三分球”行為，這個球員把球投出去的行為就很重要。不過，在這個行為的最后可以通過判斷這個球員是否拿球來判斷投籃成功還是失敗。

考慮到這幾個因素，我們首先提出使用基于每個運動追蹤來學習的BLSTM模型。我們也提出了一個簡單的無追蹤基準模型。

追蹤注意模型

首先我們使用一個標準方法將同一個運動員的檢測數據關聯到運動追蹤中，通過使用KLT追蹤結合雙向圖像匹配來實現數據關聯。

在計算運動員表現的時候可以將運動追蹤運用到臨近幀的環境融合中。通過一個分離的BLSTM我們能實現這一點。相應公式如下：

CVPR論文詳解：在一場球賽中， AI是如何預判誰將投籃

在每個時間步我們都希望最相關的那個球員能在一瞬間被選中，實現方式如下：

CVPR論文詳解：在一場球賽中， AI是如何預判誰將投籃

無追蹤注意模型

通常在人多的場景下由于各種阻塞和快速運動，想要追蹤人物是十分困難的。在這種情況下，使用無追蹤模型是比較好的。所以，我們提出了一種模型，它在每一個畫面下的檢測識別和其它畫面下的都是互相獨立的。它的特性如下：

CVPR論文詳解：在一場球賽中， AI是如何預判誰將投籃

5. 實驗評價

在這節中，我們提出了三種針對NCAA數據的分析實驗:

1. 活動分類 2.活動檢測 3.主動評價

5.1 實現過程

我們對所有LSTM和BLSTM RNNs使用一種隱藏256狀態維。所有的視頻片段都是4秒長和6fps。這些模型是通過一組20個GPU在一天內10萬次迭代訓練得來的，超參數是通過交叉驗證選取的。

5.2 活動分類

這節中，我們將各種方式分類視頻片段的能力分成了11個等級，它們分別是：

IDT、IDT player、C3D、LRCN、MIL、Only player、Avg. player、Attention no track、Attention with track

表2展示的是每個設定的平均精確度信息。我們可以看出使用本地和全局信息的模型比僅僅使用本地或者全局的模型表現要好。

CVPR論文詳解：在一場球賽中， AI是如何預判誰將投籃

表2

類型不同則表現也不一樣。特別要提到的是，因為我們所有的數據量太少，（所有的方法）在“灌籃失敗”這一類中表現都不好。然而，在“罰球”、“上籃”、“三分球”這幾類中表現不錯。

5.3 活動檢測

這節中，我們評估了這些方法在陌生視頻中分辨的能力。我們將一個4秒的畫面插入所有的籃球視頻中，想知道它是不是能分辨出來。我們在訓練、測試和確認中使用了同樣的設置。在所有的視頻中這個導致了90200負例。然而，因為計算限制我們沒能夠訓練MIL模型。

檢測結果如表3所示，我們能夠看到注意力模型的表現比之前所有新方法都要好。

CVPR論文詳解：在一場球賽中， AI是如何預判誰將投籃

表3

5.4 注意力分析

我們已經知道注意力能夠提升模型在分類以及檢測等任務上的表現。現在，我們來評價注意力模型在識別關鍵球員上準確度如何（模型從未針對檢測關鍵球員進行訓練）。

為了評估這些模型，我們將畫面中離球最近的球員標記為“投手”。我們使用這些注釋來評估我們的“注意”分數能否足夠對這些“投手”進行正確分類。

對“投手”進行分類的平均準確度結果如圖4所示。這個結果表明無追蹤注意力模型在選取投手“罰球成敗”、“上籃成敗”、“灌籃成敗”這就類上相當一致。這對找出投手的身份提供了更詳細的資料。

我們同樣將樣本視頻中的注意模型做了圖示，如圖4.，圖5展示了球場上球員運動的熱量圖。

CVPR論文詳解：在一場球賽中， AI是如何預判誰將投籃

三分球-成功灌籃-成功罰球失敗

圖4

CVPR論文詳解：在一場球賽中， AI是如何預判誰將投籃

圖5

基于追蹤的模型在關注投手上的注意力選擇性不強。我們觀察到在不同畫面切換注意力到同一個球員身上比較勉強。這種誤差在整個視頻中都存在，如圖6所示。

CVPR論文詳解：在一場球賽中， AI是如何預判誰將投籃

圖6

總結

本文中，我們介紹了一種在多人視頻中活動分類和檢測的注意力模型。除了識別活動之外，我們的模型還能在未訓練的情況下識別出活動中的關鍵人物。我們的方法可以在任何多人設置下使用。不過，本文目的我們也介紹一種與之前所有方法都不同的，新的籃球視頻數據標注方法。我們也評估了我們的模型在活動中識別“投手”的能力，還將我們的模型識別方法在空間位置中可視化出來。

文中圖片來自 Detecting events and key actors in multi-person videos

via Stanford Vision Lab

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

3人收藏

李尊

編輯

掃描關注作者微信

發私信

當月熱門文章