新研究:Anthropic 的 Claude 2.1 LLM 在情境召回方面仍不如 OpenAI 的 GPT-4

新研究:Anthropic 的 Claude 2.1 LLM 在情境召回方面仍不如 OpenAI 的 GPT-4

這不是投資建議。作者沒有持有上述任何股票的部位。

目前迭代的大型語言模型(LLM) 理解不斷增加的上下文負載的能力有限,這仍然是目前實現人工智慧奇點的最大障礙之一AI 奇點 – 人工智慧明顯超越人類智慧的閾值。乍一看,Anthropic 的 Claude 2.1 LLM 的 20 萬代幣上下文視窗似乎令人印象深刻。然而,它的上下文回憶能力還有很多不足之處,尤其是與 OpenAI 的 GPT-4 相對強大的回憶能力相比。

Anthropic 昨天宣布,其最新的Claude 2.1 LLM 現在支持「行業領先」的200K 代幣上下文窗口,同時將模型幻覺減少2 倍——在這種情況下,生成式AI 模型通常會由於以下原因感知到不存在的模式或物體:不清楚或矛盾的輸入,提供不準確或無意義的輸出。

為了那些可能不知道的人的利益,令牌是法學碩士用來處理和生成語言的文本或代碼的基本單位。根據所採用的標記化方法,標記可能是字元、單字、子字或整個文字或代碼段。 Claude 2.1 擴大的上下文視窗使法學碩士能夠理解和處理一本近 470 頁的書。

當然,與僅支援 128K 令牌視窗的 OpenAI 的 GPT-4 相比,Anthropic 的 Claude 2.1 的 200K 令牌上下文視窗相當令人印象深刻。然而,當人們考慮到 Claude 2.1 回憶上下文的能力並不那麼令人印象深刻時,這種放大的上下文視窗的實際應用就失去了一些光彩。

上下文回憶:Anthropic 的 Claude 2.1 與 OpenAI 的 GPT-4

AI 專家 Greg Kamradt 最近透過標準化測試將 Claude 2.1 與 GPT-4 進行比較,該測試旨在確定特定模型回憶不同通道深度嵌入的特定事實的準確程度。

具體來說,Kamradt 在不同的段落深度嵌入了以下文本:

“在舊金山最好的事情就是在陽光明媚的日子坐在多洛雷斯公園吃一個三明治。”

研究人員將他的輸入文字分成 35 個相等的部分,然後將上述事實放置在這 35 個深度的每個深度上,每次都要求 Claude 2.1 回答一個相關問題。研究人員也改變了上下文窗口,範圍從 1K 令牌一直到 200K 令牌,分為 35 個相等的增量。請訪問此 X 帖子,以了解有關所採用方法的更多詳細資訊。

Claude-2.1-測試結果

在上面,您將發現 Anthropic 的 Claude 2.1 在給定文件深度和上下文視窗長度下能夠多麼準確地回憶嵌入的事實。每個紅色塊代表回憶失敗。從上面的程式碼片段可以明顯看出,隨著上下文窗口的增加,法學碩士的回憶能力逐漸下降。

GPT-4 測試結果

為了進行比較,上面顯示了使用 OpenAI 的 GPT-4 進行的類似測試的結果。在這裡,事實嵌入的深度以及法學碩士的上下文視窗以 15 個不同的增量發生了變化。請前往此X 貼文了解更多詳情。

請注意,GPT-4 在其最大上下文視窗長度為 128K 令牌時,100% 召回失敗的情況要少得多。

我們在先前的貼文中指出,GPT-4 在數學考試中的得分超過了xAI 的Grok 和Anthropic 的Claude 2 LLM。在相同設定下,Claude 2.1 與 GPT-4 的表現如何,還有待觀察。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *