OpenAI 最新的語言模型 GPT-4 不僅能(néng)夠像人類一樣生成各種文(wén)本，還能(néng)夠設計(jì)和(hé)執行測試來(lái)評估和(hé)改進自(zì)己的表現(xiàn)。這(zhè)種“反思”技術讓 GPT-4 在多項難度較高(gāo)的測試中，都取得了(le)顯著的進步，測試表現(xiàn)提升 30%。

GPT-4 是繼 GPT、GPT-2 和(hé) GPT-3 之後，OpenAI 推出的最先進的系統，也(yě)是目前最大(dà)的多模态模型（可以接受圖像和(hé)文(wén)本輸入，輸出文(wén)本）。其利用(yòng)深度學習技術，使用(yòng)人工(gōng)神經網絡來(lái)模仿人類的寫作(zuò)。

研究人員諾亞・辛恩（Noah Shinn）和(hé)阿什(shén)溫・戈平納特（Ashwin Gopinath）在論文(wén)中寫道(dào)：“我們開(kāi)發了(le)一種新穎的技術，讓 AI 代理(lǐ)能(néng)夠模拟人類的自(zì)我反思，并評估自(zì)己的表現(xiàn)。GPT-4 在完成各種測試的時(shí)候，會(huì)增加一些(xiē)額外(wài)的步驟，讓它能(néng)夠自(zì)己設計(jì)測試來(lái)檢查自(zì)己的答(dá)案，找出錯誤和(hé)不足之處，然後根據發現(xiàn)來(lái)修改自(zì)己的解決方案。”

在 HumanEval 編碼測試中，GPT-4 使用(yòng)自(zì)我反思環路，準确率從(cóng) 67% 上(shàng)升到(dào) 88%

GPT-4 可以通過設計(jì)和(hé)執行測試來(lái)批判其自(zì)身的性能(néng)，如 AlfWorld 測試結果所示，可以大(dà)大(dà)改善其性能(néng)

研究團隊使用(yòng)這(zhè)種技術對(duì) GPT-4 進行了(le)幾種不同的性能(néng)測試。在 HumanEval 測試中，GPT-4 需要解決 164 個從(cóng)未見過的 Python 編程問題，原本準确率爲 67%，使用(yòng)反思技術後，準确率提升到(dào)了(le) 88%。在 Alfworld 測試中，AI 需要在各種不同的交互環境中，通過執行一些(xiē)允許的操作(zuò)，來(lái)做出決策和(hé)解決多步任務。使用(yòng)反思技術後，GPT-4 的準确率從(cóng) 73% 提高(gāo)到(dào)了(le) 97%，隻有 4 個任務失敗。在 HotPotQA 測試中，GPT-4 可以訪問維基百科，并回答(dá) 100 個需要從(cóng)多個支持文(wén)檔中解析内容和(hé)推理(lǐ)的問題，原本準确率爲 34%，使用(yòng)反思技術後，準确率提高(gāo)到(dào)了(le) 54%。

這(zhè)項研究表明(míng)，AI 問題的解決方案有時(shí)候是依賴 AI 本身。IT之家發現(xiàn)，這(zhè)有點像生成對(duì)抗網絡，這(zhè)是一種讓兩個 AI 互相提高(gāo)技能(néng)的方法，比如一個 AI 試圖生成一些(xiē)看(kàn)起來(lái)像真實圖片的圖片，另一個 AI 試圖分辨哪些(xiē)是假的，哪些(xiē)是真的。但(dàn)在這(zhè)種情況下(xià)，GPT 既是寫作(zuò)者又是編輯，通過自(zì)我反思來(lái)改進自(zì)己的輸出質量。

網站(zhàn)建設開(kāi)發|APP設計(jì)開(kāi)發|小(xiǎo)程序建設開(kāi)發

下(xià)一篇：蘋果爲何要做AR/VR頭戴設備？庫克給出了(le)解答(dá)
上(shàng)一篇：傳台積電代工(gōng)報(bào)價凍漲提出“加量回饋方案”