當前位置: 首頁 > 學術(shù) > 正文

謝菲爾德大學教授Mike Thelwall開講大語言模型在科研評價中的應用潛力與風險

發(fā)布時間:2025-04-21瀏覽次數(shù):

通訊員肖宇凡)4月18日下午,科學計量學與信息計量學最高獎普賴斯獎得主、英國謝菲爾德大學教授Mike Thelwall在我院412會議室作“How Effective are Large Language Models for Research Quality Evaluation?”學術(shù)報告,介紹其團隊最新研究成果,揭示了大語言模型在科研評價領域的應用潛力與風險。我院張琳教授主持報告會。

undefined

Mike Thelwall介紹了近年來以ChatGPT、Gemini和DeepSeek為代表的大型語言模型在科研評價領域的應用潛力。基于英國REF2021框架,以原創(chuàng)性(Originality)、嚴謹性(Rigour)、科學與社會影響力(Significance)為核心標準,Mike Thelwall通過配置ChatGPT和Gemini模擬專家評審流程,測試其對18.5萬篇研究論文的評估效果。結(jié)果顯示,雖然模型單次打分有波動,但通過多次運行取平均,其評分穩(wěn)定性和可信度都有明顯提升,表明該模型能部分捕捉研究質(zhì)量特征;在圖書情報學等大部分學科,ChatGPT的評估結(jié)果優(yōu)于傳統(tǒng)引用指標。

Mike Thelwall探討了大語言模型在科研質(zhì)量評估中存在的風險。他使用ChatGPT評估虛構(gòu)論文《Do squirrel surgeons generate more citation impact?》,結(jié)果模型仍給出四星評級,未能識別“松鼠會做手術(shù)、寫科研論文”這一荒謬性;但當被問及“松鼠能寫論文嗎”時,該模型卻能果斷否定,凸顯其常識推理與邏輯匹配并存的局限性。在另一項研究中,Mike Thelwall系統(tǒng)檢驗了ChatGPT在評估已撤稿論文時的表現(xiàn),結(jié)果發(fā)現(xiàn)該模型幾乎完全忽視了撤稿信息,依然對錯誤或失實結(jié)論給出積極評價,存在嚴重的“信息幻覺”風險。面對217篇已撤稿或存疑論文,該模型未能識別任何撤稿信息,仍對大多數(shù)論文給出中高評價;在針對61條撤稿結(jié)論的問答中,也有近三分之二的回答傾向于肯定失實內(nèi)容。

Mike Thelwall強調(diào),大語言模型雖為科研評價帶來新思路,但其應用仍需謹慎。研究發(fā)現(xiàn)ChatGPT對已撤稿論文毫無“失效”警示,易將錯誤結(jié)論當作可信知識;若廣泛采用,還可能使研究者刻意迎合大語言模型、引發(fā)上傳侵權(quán)及單次打分不穩(wěn)等問題。Mike Thelwall建議,開發(fā)者應將“撤稿檢測”納入模型訓練與審核,用戶在引用大語言模型產(chǎn)出前務必核實來源,并保留專家終審把關。

活動過程中,師生互動熱烈,現(xiàn)場氣氛活躍。Mike Thelwall熱情回應了師生的提問,與會者圍繞大語言模型與傳統(tǒng)評估方法(如同行評審與引用指標)的差異,以及大語言模型的應用倫理與保障舉措等議題展開了討論。

杭州電子科技大學中國科教評價研究院執(zhí)行院長丁敬達教授、常務副院長王琳教授,中國科學院武漢文獻情報中心馬廷燦研究員,我院趙蓉英教授、安璐教授等五十余人參加講座。

中阳县| 巴南区| 运城市| 永和县| 定边县| 筠连县| 新平| 股票| 海丰县| 夏河县| 连平县| 开阳县| 高雄市| 崇仁县| 阜城县| 莱西市| 乌苏市| 永康市| 射洪县| 青铜峡市| 永川市| 全州县| 张掖市| 达拉特旗| 长宁县| 武城县| 祁阳县| 攀枝花市| 通州区| 乳源| 平定县| 巴彦县| 叙永县| 班戈县| 明光市| 临沂市| 嵊州市| 阜阳市| 迁西县| 凉山| 正定县|