• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    業界 正文
    發私信給二維馬曉寧
    發送

    0

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    本文作者: 二維馬曉寧 2024-04-15 12:29
    導語:Mini-Gemini還提供了2B小杯到34B的超大杯,最強模型在多個指標上相比Google Gemini Pro甚至GPT-4V都不遑多讓。

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    更高清圖像的精確理解、更高質量的訓練數據、更強的圖像解析推理能力,還能結合圖像推理和生成,香港中文大學終身教授賈佳亞團隊提出的這款多模態模型Mini-Gemini堪稱絕絕子,相當于開源社區的GPT4+DALLE3的王炸組合!

    Mini-Gemini還提供了2B小杯到34B的超大杯,最強模型在多個指標上相比Google Gemini Pro甚至GPT-4V都不遑多讓。目前,Mini-Gemini從代碼、模型、到數據已全部開源,登上了PaperWithCode熱榜。

    Mini-Gemini線上Demo也已發布,超會玩梗,一起來體驗下!

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    Mini-Gemini Demo放出后受到廣大網友關注,一番“品嘗”后,他們認為Mini-Gemini跟商業模型差不了多少!

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    目前,絕大多數多模態模型僅支持低分辨率圖像輸入和文字輸出,而在實際場景中,許多任務都需要對高清圖像進行解析,并用圖像的形式進行展現。

    如上圖所示,Mini-Gemini不僅能夠根據圖片對做面包的過程進行手把手教學,也能夠準確將不同電腦品種根據圖片中的各種參數進行對比。網友表示:媽媽再也不用擔心我的生活了。

    更重要的是,Mini-Gemini在保留超強的圖像理解和推理能力的同時,還解鎖了圖像的生成能力,就如同ChatGPT和生成模型的結合。

    下面,讓我們通過幾個例子來更直觀地感受這種能力:

    案例分析:

    還記得Google Gemini的官方演示視頻么?當用戶給出兩個毛線團并問出能用它們做什么時,Gemini可以識別出圖片內容并給出相應的建議。

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    當我們把相似的輸入給到Mini-Gemini,它會怎么回答呢?

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    可以發現,Mini-Gemini也可以識別出圖片中的元素,并且合理地建議,同時生成了一只對應的毛線小熊。

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    通過一些抽象的多模態指令來讓模型給出推理,并生成合適的圖片,這個操作就很像是ChatGPT和DALLE3的聯動了!

    接下來讓Mini-Gemini做自己最擅長的推理和圖片理解,看看它表現:比如理解圖片中的矛盾點并舉一反三——輸入冰川中的仙人掌,它會解釋其中的矛盾并生成一張熱帶雨林中北極熊的圖片:

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    圖片呈現了仙人掌的典型棲息地與冰的存在之間的視覺矛盾,因為在沙漠環境中自然不會出現冰。這種矛盾的類似例子可能是一只北極熊出現在熱帶雨林中,因為北極熊適應于寒冷、覆蓋著冰的環境,在炎熱潮濕的氣候中無法生存。這種并置創造了一個引人注目且超現實的視覺效果,挑戰觀眾的期待,并可能引發人們對氣候變化、環境適應或不同生態系統融合的思考。

    同時,正如ChatGPT+DALLE3的夢幻結合一樣,Mini-Gemini的“推理生成”功能還可以在多輪對話中通過簡單指令生成連環小故事。

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    比方說,讓它根據用戶輸入講一個貴族小老鼠的故事。Mini-Gemini會根據前文的文字生成結果和用戶輸入進行推理,在保持一致性的情況下對圖片進行修改,使其更符合用戶的要求。

    當然,Mini-Gemini對于多模態模型的傳統技能圖片理解也不在話下。比方讓模型理解輸入曲線圖的數學意義(高斯分布),并讓它使用代碼復現這張圖,通過運行生成的代碼,模型可以高質量地還原曲線圖,節省了復現的時間。

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    又或者讓Mini-Gemini理解梗圖,通過其強大的OCR和推理能力,也可以準確指出笑點。

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    高清復雜的多圖表理解和歸納也是小菜一碟,Mini-Gemini直接秒變打工人效率提升的超級外掛。

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    技術細節:

    問題來了,Mini-Gemini是怎樣做到這種驚艷的效果呢?核心在于三點,(1) 用于高清圖像的雙編碼器機制,(2) 更高質量的數據, (3) 訓練階段結合生成模型數據拓展。

    大道至簡,Mini-Gemini的整體思路并不復雜。其中的Gemini(雙子座)表達的是使用視覺雙分支的信息挖掘(Mining-Info in Gemini)解決高清圖像理解問題。

    詳細來說,Mini-Gemini將傳統所使用的ViT當做低分辨率的Query,而使用卷積網絡(ConvNet) 將高分辨率的圖像編碼成Key和Value。使用Transformer中常用的Attention機制,來挖掘每個低分辨率Query所對應的高分辨率區域。從而在保持最終視覺Token數目不變的情況下去提升對高清圖像的響應,保證了在大語言模型 (LLM) 中對于高清圖像的高效編碼。值得一提的是,由于高分辨率分支卷積網絡的使用,可以根據需要對圖像所需的分辨率自適應調整,能夠遇強則強。對于圖像的生成部分,Mini-Gemini借助了SDXL,使用LLM推理后所生成的文本鏈接兩個模型,類似于DALLE3的流程。

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    而對于數據這個萬金油,Mini-Gemini進一步收集并優化了訓練數據的質量,并加入了跟生成模型結合的文本數據進行訓練。在僅使用2-3M數據的情況下,實現了對圖像理解、推理、和生成的統一流程。

    Mini-Gemini在各種Zero-shot的榜單上毫不遜色于各種大廠用大量數據訓練出來的模型,可謂是“平、靚、正” !

    量化指標:

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    可以看出,Mini-Gemini提供了多種普通和高清版本的模型,并且覆蓋了2B的小杯到34B的超大杯,各個版本都取得了相似參數量下領先的效果,在許多指標上甚至超越Gemini Pro和GPT-4V。

    在線可玩:

    值得一提的是,Mini-Gemini的圖像理解和生成能力已經出了Demo,可以在線跟自定義圖像對話的那種。

    操作也極其簡單,直接跟輸入圖像或文字進行對話即可,歡迎來撩!

    生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

    Github地址:https://github.com/dvlab-research/MiniGemini

    Demo地址: http://103.170.5.190:7860/

    論文地址:https://arxiv.org/pdf/2403.18814.pdf

    模型地址:https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854

    數據地址:https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e

    雷峰網(公眾號:雷峰網)文章

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 国产精品不卡区一区二| 国产AV一区二区精品凹凸| 亚洲综合熟女久久久30p| 色婷婷亚洲婷婷7月| 国产精品亚洲五月天高清| 亚洲精品国产亚洲精品| 湟源县| 亚洲AV无码专区在线电影天堂| 精品无码久久久久成人漫画| 蜜桃AV在线| 熟女15p| 丁香五月婷婷在线| 日本亚洲一区二区精品| 午夜成人性爽爽免费视频| 无码h黄肉3d动漫在线观看| 少妇高潮无套内谢麻豆传| 制服.丝袜.亚洲.中文.综合懂 | 极品粉嫩嫩模大尺度无码视频| 亚洲午夜爱爱香蕉片| 强行糟蹋人妻HD中文字幕| 尹人视频99| 亚洲AV中文无码字幕色下药| 国产精品免费AⅤ片在线观看| 亚洲精品天堂在线观看| 女高中生自慰污污网站| 久久精品无码一区二区2020| 依依成人精品视频在线观看| 粉嫩AV一区二区凹凸精品| 怀柔区| 成人福利国产午夜AV免费不卡在线 | 老司机午夜福利试看体验区| 精品剧情V国产在线观看| 国产乱子伦视频在线播放| 亚洲综合在线另类色区奇米| 久久午夜福利| 亚洲AV网站| 亚洲精品中文字幕码专区| 日本无码中文| 国产女人喷潮视频免费| chinese乱子伦xxxx| 挺进粗大尤物人妻中文字幕|