谷歌開發 VRDU AI 數據集基準來掃描和理解文檔

2023/08/10

在加利福尼亞州長灘舉行的數據庫知識發現 (KDD) 2023 會議上，Google 的 Athena 團隊展示了其開發的視覺豐富文檔理解 (VRDU) 數據集。該數據集可以構建一個系統，可以自動從收據、保險報價、財務報表等文檔中提取豐富的數據。

雖然像PaLM 2這樣的大型模型具有令人印象深刻的準確性，但它們在現實世界中的可用性取決於數據集的訓練能力。VRDU 旨在彌合這些模型與復雜的現實應用程序之間的差距。為此，Athena 團隊提出了五個基準測試要求：

豐富模式：在實踐中，我們看到了各種用於結構化提取的豐富模式。實體具有不同的數據類型（數字、字符串、日期等），這些數據類型可能是必需的、可選的或在單個文檔中重複，甚至可能是嵌套的。像（標題、問題、答案）這樣的簡單平面模式的提取任務並不能反映實踐中遇到的典型問題。

佈局豐富的文檔：文檔應該具有復雜的佈局元素。實際設置中的挑戰來自以下事實：文檔可能包含表格、鍵值對、在單列和雙列佈局之間切換、不同部分具有不同的字體大小、包括帶有標題甚至腳註的圖片。與此形成對比的是，大多數文檔都以帶有節標題的句子、段落和章節進行組織，這些文檔通常是關於長輸入的經典自然語言處理文獻的焦點。

多樣化的模板：基準應該包括不同的結構佈局或模板。對於大容量模型來說，通過記憶結構從特定模板中提取數據是微不足道的。然而，在實踐中，人們需要能夠推廣到新的模板/佈局，這是基準測試中的訓練-測試分割應該衡量的一種能力。

高質量 OCR：文檔應具有高質量的光學字符識別 (OCR) 結果。我們此基準測試的目標是專注於 VRDU 任務本身，並排除 OCR 引擎選擇帶來的可變性。

令牌級註釋：文檔應包含可以映射回相應輸入文本的真實註釋，以便每個令牌都可以註釋為相應實體的一部分。這與簡單地提供要為實體提取的值的文本形成對比。這是生成乾淨的訓練數據的關鍵，我們不必擔心與給定值的偶然匹配。例如，在某些收據中，如果稅額為零，“稅前總計”字段可能具有與“總計”字段相同的值。具有令牌級別註釋會阻止我們生成訓練數據，其中匹配值的兩個實例都被標記為“total”字段的真實值，從而產生嘈雜的示例。

VRDU 是註冊表和廣告購買表單的組合——公開可用的數據集。該數據集可用於處理單一模板、混合模板和未知模板學習文檔。它可以識別結構化和非結構化文檔中的信息類型並對其進行分類，並幫助研究人員跟踪文檔理解任務的進度。數據集在這些類型文檔上的性能可以在此處發表的論文中閱讀。

資料來源：谷歌研究

發佈留言 取消回覆

發佈留言取消回覆