見發生·知(zhī)未見
業界觀點

GPT-4“自(zì)我反思”後能(néng)力大(dà)增,測試表現(xiàn)提升 30%

業界觀點

OpenAI 最新的語言模型 GPT-4 不僅能(néng)夠像人類一樣生成各種文(wén)本,還能(néng)夠設計(jì)和(hé)執行測試來(lái)評估和(hé)改進自(zì)己的表現(xiàn)。這(zhè)種“反思”技術讓 GPT-4 在多項難度較高(gāo)的測試中,都取得了(le)顯著的進步,測試表現(xiàn)提升 30%。

GPT-4 是繼 GPT、GPT-2 和(hé) GPT-3 之後,OpenAI 推出的最先進的系統,也(yě)是目前最大(dà)的多模态模型(可以接受圖像和(hé)文(wén)本輸入,輸出文(wén)本)。其利用(yòng)深度學習技術,使用(yòng)人工(gōng)神經網絡來(lái)模仿人類的寫作(zuò)。

研究人員諾亞・辛恩(Noah Shinn)和(hé)阿什(shén)溫・戈平納特(Ashwin Gopinath)在論文(wén)中寫道(dào):“我們開(kāi)發了(le)一種新穎的技術,讓 AI 代理(lǐ)能(néng)夠模拟人類的自(zì)我反思,并評估自(zì)己的表現(xiàn)。GPT-4 在完成各種測試的時(shí)候,會(huì)增加一些(xiē)額外(wài)的步驟,讓它能(néng)夠自(zì)己設計(jì)測試來(lái)檢查自(zì)己的答(dá)案,找出錯誤和(hé)不足之處,然後根據發現(xiàn)來(lái)修改自(zì)己的解決方案。”

在 HumanEval 編碼測試中,GPT-4 使用(yòng)自(zì)我反思環路,準确率從(cóng) 67% 上(shàng)升到(dào) 88%

GPT-4 可以通過設計(jì)和(hé)執行測試來(lái)批判其自(zì)身的性能(néng),如 AlfWorld 測試結果所示,可以大(dà)大(dà)改善其性能(néng)

研究團隊使用(yòng)這(zhè)種技術對(duì) GPT-4 進行了(le)幾種不同的性能(néng)測試。在 HumanEval 測試中,GPT-4 需要解決 164 個從(cóng)未見過的 Python 編程問題,原本準确率爲 67%,使用(yòng)反思技術後,準确率提升到(dào)了(le) 88%。在 Alfworld 測試中,AI 需要在各種不同的交互環境中,通過執行一些(xiē)允許的操作(zuò),來(lái)做出決策和(hé)解決多步任務。使用(yòng)反思技術後,GPT-4 的準确率從(cóng) 73% 提高(gāo)到(dào)了(le) 97%,隻有 4 個任務失敗。在 HotPotQA 測試中,GPT-4 可以訪問維基百科,并回答(dá) 100 個需要從(cóng)多個支持文(wén)檔中解析内容和(hé)推理(lǐ)的問題,原本準确率爲 34%,使用(yòng)反思技術後,準确率提高(gāo)到(dào)了(le) 54%。

這(zhè)項研究表明(míng),AI 問題的解決方案有時(shí)候是依賴 AI 本身。IT之家發現(xiàn),這(zhè)有點像生成對(duì)抗網絡,這(zhè)是一種讓兩個 AI 互相提高(gāo)技能(néng)的方法,比如一個 AI 試圖生成一些(xiē)看(kàn)起來(lái)像真實圖片的圖片,另一個 AI 試圖分辨哪些(xiē)是假的,哪些(xiē)是真的。但(dàn)在這(zhè)種情況下(xià),GPT 既是寫作(zuò)者又是編輯,通過自(zì)我反思來(lái)改進自(zì)己的輸出質量。

網站(zhàn)建設開(kāi)發|APP設計(jì)開(kāi)發|小(xiǎo)程序建設開(kāi)發
下(xià)一篇:蘋果爲何要做AR/VR頭戴設備?庫克給出了(le)解答(dá)
上(shàng)一篇:傳台積電代工(gōng)報(bào)價凍漲 提出“加量回饋方案”