圖片來源:Meta
在科技迅速發展的世界中,Meta 再次提高了標準,推出了 CM3leon,這是一種先進的生成 AI 模型,能夠進行文本到圖像和圖像到文本的生成。這項突破被譽為生成 AI 領域的重大進步,將徹底改變我們與數字內容的互動方式。
CM3leon(讀音像 “chameleon” 變色龍)是首個使用從純文本語言模型調整的配方進行訓練的多模態模型。它包括大規模檢索增強的預訓練階段和第二階段的多任務監督微調(SFT)階段。這種配方簡單,產生了一個強大的模型,並且還顯示出基於 tokenizer 的變換器可以像現有的生成擴散型模型一樣有效地進行訓練。
CM3leon 與其前輩的區別在於其效率。儘管與以前的基於變換器的方法相比,CM3leon 只需要五倍的計算能力,但它在文本到圖像生成方面達到了最先進的性能。它具有自回歸模型的多功能性和效果,同時保持了低訓練成本和推理效率。
在對最廣泛使用的圖像生成基準,即零擊 MS-COCO 進行測試時,CM3leon 獲得了令人印象深刻的 Fréchet Inception Distance(FID)得分 4.88,建立了文本到圖像生成的新的最先進水平。這個得分甚至超越了 Google 的文本到圖像模型 Parti,突顯了檢索增強的潛力以及縮放策略對自回歸模型性能的影響。
CM3leon 的能力不僅限於文本到圖像和圖像到文本的生成。它還擅長圖像字幕生成、視覺問答、基於文本的編輯和條件圖像生成等任務。即使只在僅包含三百億文本標記的數據集上進行訓練,CM3leon 的零擊效能也能與在更大數據集上訓練的更大型模型相媲美。
CM3leon 的推出證明了 Meta 致力於推動 AI 技術的決心。隨著 AI 行業的不斷發展,像 CM3leon 這樣的生成模型變得越來越複雜。這些模型通過在數百萬個示例圖像上進行訓練來學習視覺和文本之間的關係,但它們也可能反映出訓練數據中存在的任何偏見。
Meta 對 CM3leon 的訓練過程進行了透明化,使用了許可數據集。這證明了與所有以前的模型使用的數據分佈非常不同的強大性能是可能的。通過讓我們的工作透明化,Meta 希望鼓勵生成 AI 領域的合作和創新。
Meta 相信,CM3leon 在各種任務上的強大性能是向更高保真度圖像生成和理解邁出的一步,以實現創建高品質生成模型的目標。像 CM3leon 這樣的模型最終可能有助於提升創造力並在元宇宙中更好地應用。我們期待看到更多像 CM3leon 這樣的模型,推動 AI 領域的可能性的邊界。