隨著人工智慧變得越來越大,它們在回答簡單問題方面變得越來越差

隨著人工智慧變得越來越大,它們在回答簡單問題方面變得越來越差


大型語言模型能夠回答廣泛的問題,但並不總是準確

傑米金/Shutterstock

當大型語言模型(LLM)變得更大並從人類回饋中學習時,它們在回答簡單問題時似乎變得不太可靠。

人工智慧開發人員試圖透過兩種主要方式提高法學碩士的能力:擴大規模——為他們提供更多的訓練數據和更多的計算能力——以及根據人類反饋來塑造或微調它們。

西班牙巴倫西亞理工大學的何塞·埃爾南德斯-奧拉洛(José Hernández-Orallo)和他的同事研究了法學碩士在擴大和發展過程中的表現。他們研究了 OpenAI 的 GPT 系列聊天機器人、Meta 的 LLaMA AI 模型以及由 BigScience 的研究人員小組開發的 BLOOM。

研究人員透過提出五種類型的任務來測試人工智慧:算術問題、解決字謎、地理問題、科學挑戰以及從雜亂的清單中提取資訊。

他們發現,擴大和塑造可以讓法學碩士更好地回答棘手的問題,例如將字謎“yoiirtsrphaepmdhray”重新排列為“甲狀旁腺功能亢進”。但這並沒有與基本問題的改進相匹配,例如“當你將 24427 和 7120 加在一起時,你會得到什麼”,法學碩士繼續犯錯。

雖然他們在困難問題上的表現變得更好,但人工智慧系統避免回答任何一個問題的可能性——因為它不能——下降了。結果,錯誤答案的可能性增加了。

埃爾南德斯-奧拉洛說,結果凸顯了將人工智慧呈現為無所不知的危險,就像它們的創造者經常做的那樣,而一些用戶太容易相信這一點。 「我們過度依賴這些系統,」他說。 “我們對他們的依賴和信任超過了我們應有的程度。”

這是一個問題,因為人工智慧模型對其知識範圍並不誠實。 「人類之所以超級聰明,部分原因在於,有時我們沒有意識到我們不知道一些我們不知道的東西,但與大型語言模型相比,我們非常善於意識到這一點,」Carissa Véliz 說在牛津大學。 “大型語言模型不知道自己知識的限制。”

OpenAI、Meta 和 BigScience 均未回應 新科學家的評論請求。

主題:



Source link

By admin

Leave a Reply

Your email address will not be published. Required fields are marked *