上海人工智能實驗室葛佳燁：大模型評測亟需可靠的數據污染檢測技術

快訊 · 04/14 19:19

上海人工智能實驗室司南大模型評測產品負責人葛佳燁表示，大語言模型評測中面臨全面性、評測成本、數據污染、魯棒性等挑戰。她表示，評測數十萬道題需要大量算力資源，基於人工打分的主觀評測成本高昂。同時，海量語料不可避免帶來評測集污染，亟需可靠的數據污染檢測技術。此外，大模型對提示詞十分敏感，多次採樣情況下模型性能不穩定。

譯文內容由第三人軟體翻譯。