將文學問題變成數(shù)學問題，Google的”看圖說話“是這樣實現(xiàn)的

本文作者：趙小瑾

2014-12-03 00:00

導(dǎo)語：將一種語言翻譯成另一種，一直是一個艱巨的任務(wù)。但近年來，Google已經(jīng)通過開發(fā)機器翻譯算法使這種情況發(fā)生了改變，而如今，Google正在用同樣的機器學習技術(shù)來將圖片“翻譯”為文字，也許有一天，它就能看圖說話，給我們講個故事了。

將一種語言翻譯成另一種，一直是一個艱巨的任務(wù)，Google已經(jīng)通過開發(fā)機器翻譯算法使這種情況發(fā)生了改變，用Google翻譯改變了跨文化交流的本質(zhì)。而今，Google正在用同樣的機器學習技術(shù)來將圖片“翻譯”為文字，研究成果是一個可以自動給圖片生成說明文字的系統(tǒng)Neural Image Caption，所得的文字能夠準確地描述出圖片的內(nèi)容。研究成果將有助于搜索引擎，以及幫助視障人士上網(wǎng)。

語言翻譯的常規(guī)方法是一個迭代過程，從翻譯單個單詞開始，然后將詞和短語進行重新排序，從而改進翻譯。但近年來，Google已經(jīng)研究出來了應(yīng)如何利用其龐大的搜索數(shù)據(jù)庫，用一種全新的方式來翻譯文本。

該方法本質(zhì)上是計算字詞出現(xiàn)于其他字詞周圍或者附近的頻率，然后將這些詞定義在抽象的矢量空間中。如此一來，每個字詞都由一個矢量代替，句子就由矢量的組合代替。

Google繼續(xù)做出一個重要的假設(shè)。在任何語言中，特定的字詞之間的關(guān)系不變。例如，矢量“國王–男人+女人=女王”成立于任何語言之中。

這就使得語言翻譯變?yōu)榱艘粋€矢量空間數(shù)學問題。Google翻譯通過將句子轉(zhuǎn)化為矢量，再用矢量來生成另一門語言中意義相同的句子，從而實現(xiàn)語言的翻譯。

現(xiàn)在，Google的Oriol Vinyals和他的小伙伴們正在用類似的方法將圖片轉(zhuǎn)化為文字。他們采用的技術(shù)，是用神經(jīng)網(wǎng)絡(luò)來研究有著十萬張圖片和配套圖片說明的數(shù)據(jù)庫，然后學著如何將圖片的內(nèi)容進行分類。

但他們的算法產(chǎn)生的是代表字詞關(guān)系的矢量，而不是一組描述圖片的字詞。這種矢量可以嵌入到Google現(xiàn)有的翻譯算法當中，從而用英語或者其他語言產(chǎn)出圖片說明。事實上，Google的機器學習方法已經(jīng)學會了將圖片“翻譯”成文字。

為了測試這種方法的有效性，他們讓從亞馬遜Mechanical Turk招募而來的人評估了以這種方式自動生成的圖片說明，以其他方式生成的說明，以及人工寫的圖片說明。

結(jié)果表明，新系統(tǒng)運轉(zhuǎn)良好，使用PASCAL圖片數(shù)據(jù)庫測試，它的表現(xiàn)明顯優(yōu)于其他自動生成的方法，取得了59分，而目前最先進的其他技術(shù)只有25分，人工寫成的69分。

這個結(jié)果已經(jīng)不錯了，并且隨著訓(xùn)練數(shù)據(jù)庫規(guī)模的增加，表現(xiàn)也會越來越好。顯然，這又回到了另一個問題，人類優(yōu)于機器的日子，是不是屈指可數(shù)了？

via mit

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

趙小瑾

喵~

發(fā)私信

當月熱門文章