• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能 正文
    發(fā)私信給陳圳
    發(fā)送

    1

    用自然語言處理看希拉里、特朗普演講,各自“什么范兒”

    本文作者: 陳圳 2016-10-10 16:58
    導(dǎo)語:數(shù)據(jù)科學(xué)可以應(yīng)用到很多領(lǐng)域。從圖像處理到人工智能,無所不能。本文通過自然語言處理分析兩人的總統(tǒng)候選人提名演講,發(fā)現(xiàn)了他們?cè)谟迷~和演講節(jié)奏上的不同特點(diǎn)。

    雷鋒網(wǎng)按:本文原作者M(jìn)aixent Chenebaux,選文&校對(duì)Aileen,翻譯姜范波。文章由大數(shù)據(jù)文摘|bigdatadigest授權(quán)雷鋒網(wǎng)發(fā)布,如需轉(zhuǎn)載請(qǐng)聯(lián)系授權(quán)。

    用自然語言處理看希拉里、特朗普演講,各自“什么范兒”

    當(dāng)?shù)貢r(shí)間10月9日,美國(guó)總統(tǒng)大選兩名候選人第二場(chǎng)公開辯論將登場(chǎng),特朗普和他的對(duì)手希拉里·克林頓將在圣路易華盛頓大學(xué)進(jìn)行第2場(chǎng)大選辯論,時(shí)長(zhǎng)90分鐘。

    不管是演講或辯論,兩位候選人都有自己獨(dú)特的“演講范兒”,使用語義分析和自然語言處理分析兩人的演講風(fēng)格是件有趣的事情。本文通過自然語言處理分析兩人的總統(tǒng)候選人提名演講,發(fā)現(xiàn)了他們?cè)谟迷~和演講節(jié)奏上的不同特點(diǎn)。

    數(shù)據(jù)科學(xué)可以應(yīng)用到很多領(lǐng)域。從圖像處理到人工智能,無所不能。其中之語義分析(semantic analysis),在社交媒體監(jiān)測(cè)中非常有用。本文聚焦于政治,而非推特或臉書的評(píng)論分析。

    今年7月21日,唐納德?特朗普,在俄亥俄州的克利夫蘭舉行的共和黨全國(guó)代表大會(huì)的最后一天接受了共和黨總統(tǒng)候選人提名。一周之后的28日,希拉里?克林頓在費(fèi)城接受了民主黨總統(tǒng)候選人提名。

    在家人和成千上萬粉絲的支持下,他們發(fā)表了各自的提名演講。本文對(duì)此進(jìn)行了分析,以期更好地理解這份政治通訊背后隱藏的深意。本文集中在三個(gè)特征上:詞匯、風(fēng)格和節(jié)奏

    深扒詞匯

    評(píng)價(jià)誰使用的詞匯量最大的方法之一是看演講者用了有多少獨(dú)特的詞。為此需要先去除英語中沒有“意義”的那些詞(如“the”,“a”,“of”等)。這些詞也叫停用詞:具體名單可參照此鏈接。其次,重復(fù)詞只能計(jì)算一次。英語中的名詞單復(fù)數(shù),動(dòng)詞不同人稱時(shí)態(tài)也用Snowball Stemmer算法做相應(yīng)處理: 比如Leaders和Leader算一個(gè)詞,Am和Are也算一個(gè)詞。

    注:想更多了解Snowball Stemmer算法可以參照這里

    我們發(fā)現(xiàn)特朗普的演講大概13%的詞匯是獨(dú)特的(全文7460個(gè)單詞中有965個(gè)不同的主干詞)。平均每個(gè)詞重復(fù)7.7次。而希拉里有17%的獨(dú)特詞,每個(gè)詞平均重復(fù)約6次。區(qū)別很明顯:特朗普的演講之80%只需要480個(gè)詞,而希拉里需要665個(gè)詞!多出來38%,意味著我們開始得到一些結(jié)果了。

    用自然語言處理看希拉里、特朗普演講,各自“什么范兒”

    構(gòu)成候選人演講稿80%的詞匯量

    演講的效率部分依賴于演講者的風(fēng)格。本文試圖找出兩名候選人最心愛的詞。尋找“特朗普范兒”或者“希拉里范兒”的詞,即找出一個(gè)候選人中使用最頻繁而在其競(jìng)爭(zhēng)對(duì)手那使用最少的詞。比如,“really”這個(gè)詞,在特朗普的演講中出現(xiàn)了15次,在希拉里的演講中僅出現(xiàn)1次。計(jì)算的方法之一是計(jì)算每個(gè)詞的“比值比(odds ratio)”。公式如下:

    用自然語言處理看希拉里、特朗普演講,各自“什么范兒”

    分子是某個(gè)詞在特朗普詞匯表中出現(xiàn)的概率,分母為同樣的詞在希拉里文中出現(xiàn)的概率。取對(duì)數(shù)使得我們可以高效的進(jìn)行排序:當(dāng)二者旗鼓相當(dāng)時(shí),對(duì)數(shù)值為0。否則要么為負(fù)(希拉里范兒)或?yàn)檎ㄌ乩势辗秲海=Y(jié)果如下:

    用自然語言處理看希拉里、特朗普演講,各自“什么范兒”

     幾乎僅見于唐納德?特朗普的詞

    用自然語言處理看希拉里、特朗普演講,各自“什么范兒”

     幾乎僅見于希拉里?克林頓的詞

    我們注意到的第一件事是,特朗普喜歡用短而常見的詞,反復(fù)使用:真的(really),很好(nice),非常好(great),問題(problem)。還有一點(diǎn),我們可以感覺到這位共和黨候選人的某種成見:墨西哥,中國(guó),伊朗。總體而言,特朗普關(guān)注的似乎更偏向于國(guó)際問題。大部分他所提及的外務(wù),旨在煽動(dòng)恐懼,尋找替罪羊。

    而希拉里一方,詞匯的范圍更廣。“希拉里范兒”的詞傾向于較為罕見的詞。希拉里?克林頓提到“美國(guó)”的次數(shù)大大多于特朗普:27:5。“希拉里范兒”的詞表提示,希拉里的演講更加著眼于國(guó)內(nèi)事物。她典型的詞包括:一起(together),運(yùn)動(dòng)(campaign)和努力(hard)。唐納德?特朗普的名字也多次出現(xiàn)在她的演講中。

    認(rèn)真的讀者會(huì)發(fā)現(xiàn),“特朗普”這個(gè)詞并沒有出現(xiàn)在“希拉里范兒”的詞表中,這是因?yàn)樘乩势赵谒难葜v中,多次提到他自己的名字(10次),因此把比值比拉下來了。作為對(duì)比,希拉里的名字只提到了2次:一次在希拉里自己的演講中(提到她的丈夫比爾?克林頓),一次被特朗普提到。并且,“希拉里范兒”的詞“想要(wants)”出現(xiàn)在批評(píng)她的對(duì)手時(shí)(“他想要分裂我們…”,“他想要我們懼怕未來,懼怕彼此”)顯然,希拉里談?wù)摿颂乩势眨乩势照務(wù)摰氖恰约海?/p>

    用自然語言處理看希拉里、特朗普演講,各自“什么范兒”

    所有人都在談?wù)撎乩势?/span>

    我們也可以來看看雙方都在用的詞。它們代表了二者的共識(shí)。不出意料,它們是“工作(jobs)”、“國(guó)家(country)”、“思考(thinking)”。他們都說了很多次“謝謝”,但方式不同:希拉里特別感謝了一些人,而特朗普主要是在觀眾鼓掌的時(shí)候致謝。

    用自然語言處理看希拉里、特朗普演講,各自“什么范兒”

     用自然語言處理看希拉里、特朗普演講,各自“什么范兒”

    演講節(jié)奏

    由于背景的不同,兩位候選人都有自己的節(jié)奏。評(píng)價(jià)語言的內(nèi)在節(jié)奏,一個(gè)好的開端是:把演講分割為很多句子,句子再分割成單詞。我們發(fā)現(xiàn),特朗普的演講較長(zhǎng):有625個(gè)句子和7460個(gè)單詞。而希拉里只用到405個(gè)句子和6088個(gè)單詞。就是說,特朗普比他的對(duì)手,多用了54%的句子,長(zhǎng)了23%。

    特朗普的平均句子長(zhǎng)度是12個(gè)單詞,希拉里的句子稍長(zhǎng),平均每句15個(gè)詞。大部分特朗普的句子都很短:演講21%由5-6個(gè)單子的短句組成。希拉里的句子長(zhǎng)度更均勻,12個(gè)單詞的是最常見的。

    用自然語言處理看希拉里、特朗普演講,各自“什么范兒”

    奧巴馬的句子長(zhǎng)度是特朗普和希拉里之和

    我們看到了特朗普和希拉里的一個(gè)明顯區(qū)別:特朗普演講簡(jiǎn)單明快,而希拉里更加多樣、冷靜。但是等等!她并不是非同尋常:奧巴馬在他的第一次提名演講中,平均每句話用到25.7個(gè)單詞,幾乎是希拉里和特朗普之和。奧巴馬的重復(fù)用詞也比希拉里少了24%,比特朗普少了42%。我想,這說明,雖然希拉里的節(jié)奏要慢一點(diǎn)兒,句子結(jié)構(gòu)要復(fù)雜點(diǎn)兒,她的演講風(fēng)格與對(duì)手仍然非常接近。

    寫在最后

    自然語言處理不是一門精確的科學(xué)。只能給我們一些線索和元件,據(jù)此來理解演講。語料庫也很短,需要更多的分析來提取更精確的特征。但是從本文的分析,我們發(fā)現(xiàn)了什么?

    1. 特朗普談?wù)撍械氖虑槭恰罢娴摹保昂芎谩保胺浅:谩保@镎務(wù)摰氖侨绾巍盀槊绹?guó)”“一起”“工作”。

    2. 特朗普談?wù)摰氖撬约海@镎務(wù)摰氖翘乩势铡km然希拉里用到了更大的詞匯表,更復(fù)雜的句子結(jié)構(gòu),看起來她或多或少采用了特朗普的說話方式。

    3. 奧巴馬的提名演講(兩次均是)采用了更大的詞匯表,復(fù)雜得多的句子結(jié)構(gòu),表明特朗普顛覆性地簡(jiǎn)化了這樣國(guó)家級(jí)的演講。

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    用自然語言處理看希拉里、特朗普演講,各自“什么范兒”

    分享:
    相關(guān)文章
    最新文章
    請(qǐng)?zhí)顚懮暾?qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 日本夜爽爽一区二区三区| 免费无码一区二区三区蜜桃| 色av专区无码影音先锋| 午夜免费啪视频在线无码| 成人污视频在线观看| 国产特级毛片aaaaaa毛片| 亚洲国产精品日韩在线 | 久久日产一线二线三线| 人妻系列AV无码专区| 国产成人亚洲日韩欧美久久| 97免费| 成人国产乱对白在线观看| 成在线人永久免费视频播放| 久久99精品国产麻豆蜜芽| 欧美国产日产一区二区| 中国国产免费毛卡片| 亚洲男人第一无码av网站| 韩国中文字幕一区二区| 国产91在线免费视频| 国产精品自产在线观看一| 日本三码电影在线| 布尔津县| 一级爱一级做a性视频| 国产在线欧美日韩精品一区| 亚洲色伦| 伊人a?v| 亚洲嫩模喷白浆在线观看自拍| 免费的特黄特色大片| 国产精品高清中文字幕| 中文字幕爆乳julia女教师| 久久伊人网久久伊人网| 丰满大爆乳波霸奶| 国产强奷在线播放免费| 男人用嘴添女人下身免费视频| 亚洲国产日韩av一区二区| 怡红院一区二区三区在线| 亚洲综合国产伊人五月婷| www.99热| 国产视频九九| 久久夜色精品国产噜噜亚洲SV| 激情亚洲专区一区二区三区|