OpenAI 宣布了其模型自訂能力的重大進展,推出了強化微調。這項新功能是 o1 系列模型改進的一部分,允許用戶使用強化學習算法在自己的數據集上對模型進行微調。這項宣布是由 OpenAI 研究主管 Mark 在最近的一場演示中發布的。
強化微調技術使模型能夠在特定領域內更有效地思考和推理,對於需要深厚專業知識的領域特別有價值,例如法律、財務、工程和醫療保健。與傳統的監督微調不同,監督微調專注於模仿輸入特徵,強化微調則通過評分模型的回應並強化正確的思維路線來教會模型學習新的推理方法。
這種方法的一大優點是其高效性。模型只需少量示例即可在新領域中有效推理,這是常規微調方法無法實現的。這使得強化微調成為專為特定需求量身定制專家模型的開發者、研究人員和機器學習工程師的強大工具。
OpenAI 已經從這項技術中看到了令人鼓舞的結果。在與 Thomson Reuters 的合作中,o1 mini 模型被微調以充當法律助手,展示了強化微調在實際應用中的潛力。此外,來自 Berkeley Lab 的計算生物學家 Justin Ree 強調了這項技術在科學研究中的潛力,特別是在理解罕見疾病的遺傳原因方面。
強化微調的過程包括上傳訓練和驗證數據集,設置評分器來評估模型輸出,並利用 OpenAI 的強化學習算法自訂前沿模型。這種方法允許用戶帶來他們的專業知識和數據,而 OpenAI 則處理模型訓練的複雜性。
OpenAI 目前正在擴大其 Alpha 計劃,允許更多組織和研究人員訪問這項技術。強化微調研究計劃適合那些正在與專家團隊合作解決複雜任務,並可能從 AI 助手中受益的人。有興趣的各方可以申請該計劃中有限的名額,計劃於明年早些時候公開發布這項技術。
進一步閱讀
- OpenAI 12天活動 DAY12:推出 o3 與 o3 Mini
- OpenAI 12天活動 DAY11:推出進階版 ChatGPT 桌面應用
- OpenAI 12天活動 DAY10:推出 ChatGPT 電話服務
- OpenAI 12天活動 DAY9:推出新模型與功能,提升開發者體驗
- OpenAI 12天活動 DAY8:ChatGPT 搜尋功能全面開放,免費用戶也能享受即時資訊
- OpenAI 12天活動 DAY7:推出「專案」功能整合對話與工作場景
- OpenAI 12天活動 DAY6:ChatGPT 推出影片與螢幕分享功能,聖誕老人也來了!
- OpenAI 12天活動 DAY5:ChatGPT 即將登陸 Apple 設備,與 iOS 及 Mac OS 整合
- OpenAI 12天活動 DAY4:推出 Canvas,重新定義 ChatGPT 的協作體驗
- OpenAI 12天活動 DAY3:推出全新影片生成工具 Sora
- OpenAI 12天活動揭幕:DAY1 推出 o1 模型完整版和 Chat GPT Pro