零示例學(xué)習(xí)中的映射域遷移 (projection domain shift) 問題

本文作者：奕欣

2018-10-10 14:54

導(dǎo)語：本文介紹了兩種解決零示例學(xué)習(xí)中的映射域遷移問題的方法 AEZSL 和 DAEZSL 。

雷鋒網(wǎng) AI 科技評(píng)論按：本文由上海交通大學(xué)副教授牛力為 AI 科技評(píng)論提供的獨(dú)家稿件，未經(jīng)許可不得轉(zhuǎn)載。

在傳統(tǒng)的機(jī)器學(xué)習(xí)中，訓(xùn)練和測(cè)試都在相同的種類集合上進(jìn)行。而在零示例學(xué)習(xí) (zero-shot learning) 中，訓(xùn)練種類集合和測(cè)試種類集合沒有重合，即在屬于訓(xùn)練種類集合的數(shù)據(jù)上訓(xùn)練模型，然后在屬于測(cè)試種類集合的數(shù)據(jù)上進(jìn)行預(yù)測(cè)。訓(xùn)練種類和測(cè)試種類需要通過所有種類的語義信息建立聯(lián)系，才能把在訓(xùn)練種類的分類模型用于測(cè)試種類。常見的種類語義信息包括屬性 (attribute) 和詞向量 (word vector) 等等。其中屬性需要人工標(biāo)注，但是更精確，因而效果更好。我們把圖像的視覺特征稱為視覺空間 (visual space)，把種類的語義信息稱為語義空間 (semantic space)。現(xiàn)有的一大類零示例學(xué)習(xí)的方法是把視覺空間映射到語義空間，或者把語義空間映射到視覺空間，或者把兩者映射到共同的子空間。其中學(xué)習(xí)到的映射稱為視覺語義映射 (visual-semantic mapping)。比如語義空間有一種屬性是 has_tail，我們需要學(xué)習(xí)從視覺空間到該屬性的映射，這樣給定一張新的動(dòng)物圖片，我們就可以判斷它有沒有尾巴。在這種情況下，視覺語義映射相當(dāng)于由若干個(gè)屬性分類器構(gòu)成。但是對(duì)于不同種類來說，視覺語義映射有很大的差異。比如斑馬和豬都有尾巴，但是它們尾巴的視覺呈現(xiàn)差別很大，因而對(duì)應(yīng)的屬性分類器差異也很大。如果對(duì)于所有種類使用相同的視覺語義映射，在測(cè)試種類上得到的效果就會(huì)大打折扣。這個(gè)問題被稱為零示例學(xué)習(xí)中的映射域遷移 (projection domain shift) 問題。

之前大多數(shù)解決映射域遷移的方法都是在訓(xùn)練階段使用未標(biāo)注的測(cè)試種類數(shù)據(jù)，為訓(xùn)練種類和測(cè)試種類學(xué)習(xí)一個(gè)共同的映射，或者為訓(xùn)練種類和測(cè)試種類分別學(xué)習(xí)一個(gè)映射。但是由于各個(gè)種類的映射之間差異性都很大，僅僅學(xué)習(xí)一個(gè)或兩個(gè)映射是遠(yuǎn)遠(yuǎn)不夠的。所以我們提出為每一個(gè)種類都學(xué)習(xí)一個(gè)不同的視覺語義映射 (category-specific visual-semantic mapping)，文章發(fā)表在期刊 Transaction on Image Processing (T-IP) . 具體來說，我們先提出了一種傳統(tǒng)的方法 AEZSL，利用種類之間的相似關(guān)系為每一個(gè)測(cè)試種類訓(xùn)練一個(gè)視覺語義映射。但是對(duì)于大規(guī)模任務(wù)來說這種訓(xùn)練成本十分高昂，所以我們又提出一種基于深度學(xué)習(xí)的方法 DAEZSL，只需要訓(xùn)練一次就可以應(yīng)用到任意測(cè)試種類。下面分別介紹 AEZSL 和 DAEZSL。