隨著人工智慧變得越來越大，它們在回答簡單問題方面變得越來越差

大型語言模型能夠回答廣泛的問題，但並不總是準確

傑米金／Shutterstock

當大型語言模型（LLM）變得更大並從人類回饋中學習時，它們在回答簡單問題時似乎變得不太可靠。

人工智慧開發人員試圖透過兩種主要方式提高法學碩士的能力：擴大規模——為他們提供更多的訓練數據和更多的計算能力——以及根據人類反饋來塑造或微調它們。

西班牙巴倫西亞理工大學的何塞·埃爾南德斯-奧拉洛（José Hernández-Orallo）和他的同事研究了法學碩士在擴大和發展過程中的表現。他們研究了 OpenAI 的 GPT 系列聊天機器人、Meta 的 LLaMA AI 模型以及由 BigScience 的研究人員小組開發的 BLOOM。

研究人員透過提出五種類型的任務來測試人工智慧：算術問題、解決字謎、地理問題、科學挑戰以及從雜亂的清單中提取資訊。

他們發現，擴大和塑造可以讓法學碩士更好地回答棘手的問題，例如將字謎“yoiirtsrphaepmdhray”重新排列為“甲狀旁腺功能亢進”。但這並沒有與基本問題的改進相匹配，例如“當你將 24427 和 7120 加在一起時，你會得到什麼”，法學碩士繼續犯錯。

雖然他們在困難問題上的表現變得更好，但人工智慧系統避免回答任何一個問題的可能性——因為它不能——下降了。結果，錯誤答案的可能性增加了。

埃爾南德斯-奧拉洛說，結果凸顯了將人工智慧呈現為無所不知的危險，就像它們的創造者經常做的那樣，而一些用戶太容易相信這一點。「我們過度依賴這些系統，」他說。 “我們對他們的依賴和信任超過了我們應有的程度。”

這是一個問題，因為人工智慧模型對其知識範圍並不誠實。「人類之所以超級聰明，部分原因在於，有時我們沒有意識到我們不知道一些我們不知道的東西，但與大型語言模型相比，我們非常善於意識到這一點，」Carissa Véliz 說在牛津大學。 “大型語言模型不知道自己知識的限制。”

OpenAI、Meta 和 BigScience 均未回應 新科學家的評論請求。

主題：