每日經(jīng)濟新聞
深讀100

每經(jīng)網(wǎng)首頁 > 深讀100 > 正文

馬斯克展示Grok-1.5 Vision:多模態(tài),能理解真實世界

AIGC開放社區(qū) 2024-04-14 11:05:12

4月13日,馬斯克旗下的AI公司x.ai在官網(wǎng)展示了,Grok-1.5 Vision的眾多亮點功能。

與上一代1.0開源版本相比,Grok-1.5與GPT-4一樣加入了Vision視覺功能可以深度理解真實世界,并進行數(shù)據(jù)解讀、轉(zhuǎn)換等。例如,給出一張蒙娜麗莎的圖片,讓其講解該圖片的來歷以及故事等。

根據(jù)x.ai公布的測試數(shù)據(jù)顯示,Grok-1.5 V的真實世界理解能力超過了GPT-4V、Claude 3 Opus、Gemini Pro 1.5等知名多模態(tài)模型。

x.ai表示,Grok-1.5 V將很快向早期的測試者和現(xiàn)有Grok用戶推出。

Grok-1.5 V能力展示

用戶可以向Grok-1.5 V發(fā)送一張圖片,然后基于該內(nèi)容進行文本問答。例如,讓Grok-1.5 V解讀一下職場非常有名的兩張圖片。

Grok-1.5 V:這張圖是初創(chuàng)公司和大公司之間的幽默比較。在左側(cè),標(biāo)有“初創(chuàng)公司”的標(biāo)簽上,有一群人正在一起挖坑。他們都在積極參與,坑已經(jīng)相當(dāng)深了。

在右側(cè),標(biāo)有“大公司”的標(biāo)簽上,一群人站在一個洞周圍。然而,與初創(chuàng)公司不同的是,實際上只有一個人在挖坑,而其他人則在觀看或從事其他活動。

這張圖片中的幽默來自于對初創(chuàng)公司和大公司之間差異的夸大。在初創(chuàng)公司中,通常會有一種緊迫感,每個人都被期望直接為手頭的任務(wù)做出貢獻。

相比之下,大公司通常被描述為官僚主義較多,所有團隊成員對每個項目的直接參與較少。

Grok-1.5 V基本很好的解讀了這張圖片的物理信息以及內(nèi)涵的職場問題。

Grok-1.5 V不僅能解讀信息,還能進行數(shù)據(jù)轉(zhuǎn)換,例如,將一張表格轉(zhuǎn)換成csv格式。

Grok-1.5 V也能將一張草圖直接轉(zhuǎn)換成真實的代碼:你能把這張圖片翻譯成Python代碼嗎?

Grok-1.5 V:這個流程圖描述了一個簡單的猜謎游戲,其中計算機生成一個隨機數(shù),用戶必須猜測它。下面是代表流程圖中邏輯的Python代碼。

此代碼將按照流程圖中的描述運行猜謎游戲。系統(tǒng)將提示用戶輸入他們的猜測,直到他們猜出正確的數(shù)字。

Grok-1.5 V測試數(shù)據(jù)

研究人員將Grok-1.5V在MMMU、Mathvista、TextVQA、RealWorldQA等知名測試平臺中,與GPT-4V、Claude 3 Sonnet、Claude 3 Opus和Gemini Pro 1.5同類競品進行了綜合對比。

結(jié)果顯示,Grok-1.5V的數(shù)學(xué)、圖表理解、真實世界理解和文本閱讀的能力高于其他模型。

此外,Grok-1.5還能處理更長、更復(fù)雜的提示,同時隨著上下文窗口的擴大,仍能保持其指令跟蹤能力。

在之前公布的"大海撈針"(Needle In A Haystack,NIAH)評估中,Grok-1.5展示了強大的檢索能力,可檢索長度達128K字節(jié)的上下文中的嵌入文本,并取得了完美的檢索結(jié)果。

(作者 AIGC開放社區(qū)

責(zé)編 胡玲

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

數(shù)據(jù) Ai 馬斯克 多模態(tài)

歡迎關(guān)注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

0

0

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人 在线 免费