小卻強大!TinyLlama:僅用90天、3萬億token訓練的 550MB AI模型
文章概要:
1. TinyLlama:一款小型但強大的AI模型,由新加坡科技設計大學的研究團隊開發,僅占用550MB內存。
2. 該模型采用了穩定擴散XL技術,計劃在90天內在3萬億代幣的數據集上進行訓練,旨在適應內存受限的邊緣設備。
3. TinyLlama的成功將為實時機器翻譯等多種應用提供高性能AI解決方案。
微新創想(idea2003.com)9月8日 消息:新加坡科技設計大學的研究人員正進行一項引人注目的項目,他們正在努力創建一款小型但強大的AI模型,這個模型被稱為TinyLlama,它采用了一種緊湊的設計,僅占用550MB的內存。
這一模型的獨特之處在于,它將在3萬億token的數據集上進行訓練,這個龐大的數據集將在短短90天內完成訓練。
這個項目的目標是為內存受限的邊緣設備提供高性能的人工智能解決方案。越來越多的開發者要求創建更小的AI模型,因為對于內存和計算能力受限的邊緣設備來說,較少的參數更加優化。此外,較小的模型還可以用來協助解碼更大的模型,正如前特斯拉高級AI總監Andrej Karpathy所言。
TinyLlama項目由新加坡科技設計大學的研究助理領導,他們試圖在三萬億token的數據集上預訓練一個11億token的Llama模型。這個模型僅占用550MB的內存,團隊認為它的緊湊性將使它能夠滿足多種應用的需求,這些應用需要受限的計算和內存占用,以實現諸如無需互聯網連接的實時機器翻譯等功能。
TinyLlama的訓練于9月1日開始,使用了16個A100-40G GPU,團隊計劃在短短90天內完成訓練。截止到目前,團隊已完成了1050億token的訓練。
模型的構建者表示,他們正在使用與Meta用于訓練Llama2的“完全相同的架構和分詞器”,因此它可以輕松應用于基于Llama構建的開源項目。
TinyLlama團隊正在使用包括Cerebras Systems的Slimpajama和StarCoder數據在內的三萬億token數據集,這些數據集曾用于訓練StarCoder,這是一個代碼生成模型。
一旦完成,TinyLlama將加入越來越多的較小語言模型的行列,這些模型由開發者用于構建各種應用。同時,EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b也在取得進展。
項目網址:https://github.com/eivindbohler/tinyllama