2023-03-16
此前,OneFlow發布了《ChatGPT背后的經濟賬》,其作者從經濟學視角推導了訓練大型語言模型的成本。本文作者則整理分析了2018年到2022年初從GPT-1到Gopher的相關大型語言模型的所有數據集相關信息,希望幫助有志于開發“類ChatGPT”模型的團隊少走一步彎路。
一些研究人員的報告稱,通用人工智能(AGI)可能是從我們當前的語言模型技術進行演進[1],預訓練Transformer語言模型為AGI的發展鋪平了道路。雖然模型訓練數據集日漸增大,但缺乏基本指標文檔,包括數據集大小、數據集token數量和具體的內容細節。
盡管業內提出了數據集組成和整理文檔的標準[2],但幾乎所有重點研究實驗室在揭示模型訓練數據集細節這方面都做得不夠。這里整合的研究涵蓋了2018年到2022年初從GPT-1到Gopher的精選語言模型的所有數據集(包括主要數據集:Wikipedia和Common Crawl)的綜合視圖。
2018年以來,大語言模型的開發和生產使用呈現出爆炸式增長。一些重點研究實驗室報告稱,公眾對大語言模型的使用率達到了驚人高度。2021年3月,OpenAI宣布[3]其GPT-3語言模型被“超過300個應用程序使用,平均每天能夠生成45億個詞”,也就是說僅單個模型每分鐘就能生成310萬詞的新內容。
值得注意的是,這些語言模型甚至還沒有被完全理解,斯坦福大學的研究人員[4]最近坦言,“目前我們對這些模型還缺乏認知,還不太了解這些模型的運轉模式、不知道模型何時會失效,更不知道這些模型的突現性(emergent properties)能產生什么效果”。
隨著新型AI技術的快速發展,模型訓練數據集的相關文檔質量有所下降。模型內部到底有什么秘密?它們又是如何組建的?本文綜合整理并分析了現代大型語言模型的訓練數據集。
因為這方面的原始文獻并不對外公開,所以本文搜集整合了二、三級研究資料,在必要的時候本文會采用假設的方式來推算最終結果。
在本文中,我們會將原始論文中已經明確的特定細節(例如token數量或數據集大小)歸類為“公開的(disclosed)”數據,并作加粗處理。
多數情況下,適當地參考二、三級文獻,并采用假設的方式來確定最終結果是很有必要的。在這些情況下,token數量和數據集大小等細節是“確定的(determined)”,并以斜體標記。
模型數據集可分為六類,分別是:維基百科、書籍、期刊、Reddit鏈接、Common Crawl和其他數據集。
GPT-1數據集
2018年,OpenAI發布了1.17億參數的GPT-1。在論文中,OpenAI并沒有公布模型訓練數據集的來源和內容[10],另外,論文誤將‘BookCorpus’拼寫成了‘BooksCorpus’。BookCorpus以作家未出版的免費書籍為基礎,這些書籍來自于Smashwords,這是一個自稱為“世界上最大的獨立電子書分銷商” 的電子書網站。這個數據集也被稱為Toronto BookCorpus。經過幾次重構之后,BookCorpus數據集的最終大小確定為4.6GB[11]。