谷歌開發 VRDU AI 數據集基準來掃描和理解文檔

谷歌開發 VRDU AI 數據集基準來掃描和理解文檔

在加利福尼亞州長灘舉行的數據庫知識發現 (KDD) 2023 會議上,Google 的 Athena 團隊展示了其開發的視覺豐富文檔理解 (VRDU) 數據集。該數據集可以構建一個系統,可以自動從收據、保險報價、財務報表等文檔中提取豐富的數據。

雖然像PaLM 2這樣的大型模型具有令人印象深刻的準確性,但它們在現實世界中的可用性取決於數據集的訓練能力。VRDU 旨在彌合這些模型與復雜的現實應用程序之間的差距。為此,Athena 團隊提出了五個基準測試要求:

  • 豐富模式:在實踐中,我們看到了各種用於結構化提取的豐富模式。實體具有不同的數據類型(數字、字符串、日期等),這些數據類型可能是必需的、可選的或在單個文檔中重複,甚至可能是嵌套的。像(標題、問題、答案)這樣的簡單平面模式的提取任務並不能反映實踐中遇到的典型問題。

  • 佈局豐富的文檔:文檔應該具有復雜的佈局元素。實際設置中的挑戰來自以下事實:文檔可能包含表格、鍵值對、在單列和雙列佈局之間切換、不同部分具有不同的字體大小、包括帶有標題甚至腳註的圖片。與此形成對比的是,大多數文檔都以帶有節標題的句子、段落和章節進行組織,這些文檔通常是關於長輸入的經典自然語言處理文獻的焦點。

  • 多樣化的模板:基準應該包括不同的結構佈局或模板。對於大容量模型來說,通過記憶結構從特定模板中提取數據是微不足道的。然而,在實踐中,人們需要能夠推廣到新的模板/佈局,這是基準測試中的訓練-測試分割應該衡量的一種能力。

  • 高質量 OCR:文檔應具有高質量的光學字符識別 (OCR) 結果。我們此基準測試的目標是專注於 VRDU 任務本身,並排除 OCR 引擎選擇帶來的可變性。

  • 令牌級註釋:文檔應包含可以映射回相應輸入文本的真實註釋,以便每個令牌都可以註釋為相應實體的一部分。這與簡單地提供要為實體提取的值的文本形成對比。這是生成乾淨的訓練數據的關鍵,我們不必擔心與給定值的偶然匹配。例如,在某些收據中,如果稅額為零,“稅前總計”字段可能具有與“總計”字段相同的值。具有令牌級別註釋會阻止我們生成訓練數據,其中匹配值的兩個實例都被標記為“total”字段的真實值,從而產生嘈雜的示例。

結構化文檔基準測試

VRDU 是註冊表和廣告購買表單的組合——公開可用的數據集。該數據集可用於處理單一模板、混合模板和未知模板學習文檔。它可以識別結構化和非結構化文檔中的信息類型並對其進行分類,並幫助研究人員跟踪文檔理解任務的進度。數據集在這些類型文檔上的性能可以在此處發表的論文中閱讀。

資料來源:谷歌研究

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *