• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能開發者 正文
    發私信給吳優
    發送

    0

    1.2毫秒! 英偉達TensorRT 8運行BERT-Large推理創紀錄

    本文作者: 吳優 2021-07-21 15:41
    導語:對話式AI的福音。

    自今年5月份TensorRT 8-EA版(Early Access,嘗鮮版)發布之后,英偉達終于在本周二發布了TensorRT 8的正式版。

    作為支持英偉達GPU平臺的深度學習推理框架,TensorRT 8正式版與以往的版本相比,能夠在在1.2毫秒內運行全球最廣為采用的基于transforemer模型之一——BERT-Large,即將語言查詢推理時間縮短至上一個版本的一半,創下最新記錄,為搜索引擎、廣告推薦和聊天機器人的AI模型提供支持。

    英偉達官方聲稱,TensorRT8不僅針對transformer作出突破性優化,還新增其他兩項關鍵特性,實現AI推理方面的突破。

    推理時間縮短至1.2毫秒,速度提升1倍

    “AI模型以指數級的速度增長,很多公司不得不縮減模型大小以追求響應速度。英偉達2016年推出的TensorRT可以幫助這些企業擴大規模,提升精度。” 英偉達AI軟件部的產品管理總監Kari Briski回顧TensorRT推出的背景時說道。

    1.2毫秒! 英偉達TensorRT 8運行BERT-Large推理創紀錄

    TensorRT是英偉達自家的深度學習推理框架,在模型推理的過程中,可以將Pytorch、TensorFlow等其他框架訓練好的模型轉化為TensorRT格式,再使用TensorRT推理引擎運行,從而提升這一模型在GPU上的運行速度。

    因此,支持更多的模型和進一步縮短推理時間,提高推理速度是廣大AI軟件開發者對TensorRT升級的普遍期望。

    2019年,黃仁勛在GTC China上發布TensorRT 7。相比于只支持30多種模型的TensorRT 5,TensorRT 7能夠支持各種類型的RNN、Transformer和CNN,支持多達1000多種不同類型的計算變換和優化,還能讓推理時間縮短至0.3秒,為此黃仁勛將其稱之為“我們實現的最大飛躍”。

    這次更新的TensorRT 8版本,雖然升級“飛躍”程度比不上從5.0版本到7.0版本的升級,但也有一定程度的更新。

    英偉達宣稱,TensorRT 8的各項優化為語言帶來了創紀錄的速度,能夠在1.2毫秒內運行全球最廣為采用的基于transforemer模型之一——BERT-Large,幫助企業將模型擴大一倍或兩倍,從而提高精度。

    落實到具體的應用上,這種推理速度的提升能夠讓對話式AI更加智能,交互應用程序的性能也能夠得以提升。

    新增兩項核心技術,是推理速度提升的關鍵

    在此之前,之所以能夠憑借TensorRT提升模型在英偉達GPU上的運行速度,主要得益于TensorRT的一系列優化,這些優化包括:

    • 權重與激活精度校準:通過將模型量化為INT8 來更大限度提升吞吐量,同時保持高精度,力求精度和吞吐量的最大平衡;

    • 層與張量融合:通過融合內核中的節點,優化GPU顯存和帶寬的使用;

    • 內核自動調整:基于目標GPU選擇最佳的數據層和算法;

    • 動態張量顯存:更大限度減少顯存占用,并高效地為張量重復利用內存;

    • 多流執行:并行處理多個輸入流的可擴展設計;

    簡單而言,就是在力求以低混合精度提升吞吐量的同時,減少計算和內存訪問,合并網絡層。

    1.2毫秒! 英偉達TensorRT 8運行BERT-Large推理創紀錄

    而在TensorRT 8版本中,英偉達又新加入兩個關鍵特性,以實現AI推理方面的突破。

    其一是稀疏性。TensorRT 8中使用稀疏性技術,在保證精度推理的同時,降低深度學習模型中的部分權重,減小模型所需要的帶寬和內存,在提升效率的同時使開發者能夠通過減少計算操作來加速神經網絡。

    這項技術能夠幫助NVIDIA Ampere架構GPU得到性能上的提升。

    其二是量化感知訓練。開發者能夠使用訓練好的模型,以 INT8 精度運行推理,且不會造成精度損失,大大減少計算和存儲成本,在Tensor Core核心上實現高效推理。

    TensorRT誕生第五年,下載次數近250萬次

    推理模型上的速度優勢讓TensorRT廣受歡迎。五年來,已有來自醫療、汽車、金融和零售等各個領域的27500家企業,超過25萬名開發者下載使用TensorRT,累計次數近250萬次。

    1.2毫秒! 英偉達TensorRT 8運行BERT-Large推理創紀錄

    GE醫療是TensorRT的使用者之一,他們用TensorRT助力加速早期檢測疾病的關鍵工具——超聲波計算機視覺創新,使臨床醫生能夠通過其職能醫療解決方案提供方最高質量的護理。

    GE醫療心血管超聲首席工程師Erik Steen表示:“臨床醫生需要花費寶貴的時間來選擇和評估超聲圖像。在Vivid Patient Care Elevated Release項目的研發過程中,我們希望通過在Vivid E95掃描儀上實施自動心臟視圖檢測,使這一過程變得更加高效。心臟視圖識別算法將選擇合適的圖像來分析心壁運動。TensorRT憑借其實時推理能力,提高了視圖檢測算法的性能,同時縮短了我們研發項目的產品上市時間。”

    開源AI技術的領導者Hugging Face也在同英偉達展開密切合作,其產品總監Jeff Boudier表示,通過TensorRT 8,Hugging Face在BERT上實現了1毫秒的推理延遲,十分期待能在今年晚些時候為客戶提供這一性能。

    目前,TensorRT 8已經全面上市,且面向英偉達計劃開發者成員免費提供,用戶能夠從TensoRT GitHub庫中獲得最新版本插件、解析器和樣本開放源代碼。

    雷鋒網雷鋒網雷鋒網

    相關文章:

    TensorFlow Lattice:靈活、可控、可解釋的機器學習

    谷歌發布TensorFlow,用于測試人工智能模型的隱私保護

    Google用AI設計AI芯片,不到24小時就能設計出Tensor處理單元

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    1.2毫秒! 英偉達TensorRT 8運行BERT-Large推理創紀錄

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 韩国日本三级在线观看| 国产精品福利一区二区三区 | yy111111少妇无码影院| 欧美国产日产一区二区| 国产亚洲无线码一区二区| 国产午夜精品免费一区二区三区| 中文字幕国产原创国产| 女人天堂AV| 天气| 免费观看成年欧美1314www色| 国精品91人妻无码一区二区三区| 被c到高潮疯狂喷水国产| 精品国产品欧美日产在线| 人成午夜免费大片| 99久久99久久久精品久久| 亚洲精品tv夜色在线影院| 午夜成人天堂| 黄频网站| 99久久er热在这里只有精品99| 国产又粗又猛又爽又黄AV| 城步| 97久久超碰国产精品旧版| 蜜芽久久人人超碰爱香蕉| 熟女A片| 亚洲3p| 免费无码AV一区二区波多野结衣| 国产精品自在欧美一区| 成人亚洲av免费在线| 亚洲色大成网站www永久| 国产精品va在线观看国语| 国产av一区二区三区| 国产午夜91福利一区二区| 国产草莓精品国产AV片国产| 在线免费不卡av网站一区| 99久久亚洲综合精品TS| av在线播放观看国产| 日韩欧美一级特黄大片| 无码人妻一区二区三区AV| 国产精品日日摸夜夜添夜夜添无码| 日韩偷拍电影| 精品国产v无码大片在线观看|