特级毛片片A片AAAAAA,妇女敕BBB搡BBBBBB搡,九九热免费观看

快捷導航

Quick Navigation

當前位置: 首頁 > 學術(shù) > 正文

謝菲爾德大學教授Mike Thelwall開講大語言模型在科研評價中的應用潛力與風險

發(fā)布時間：2025-04-21瀏覽次數(shù)：

（通訊員肖宇凡）4月18日下午，科學計量學與信息計量學最高獎普賴斯獎得主、英國謝菲爾德大學教授Mike Thelwall在我院412會議室作“How Effective are Large Language Models for Research Quality Evaluation?”學術(shù)報告，介紹其團隊最新研究成果，揭示了大語言模型在科研評價領域的應用潛力與風險。我院張琳教授主持報告會。

undefined

Mike Thelwall介紹了近年來以ChatGPT、Gemini和DeepSeek為代表的大型語言模型在科研評價領域的應用潛力。基于英國REF2021框架，以原創(chuàng)性（Originality）、嚴謹性（Rigour）、科學與社會影響力（Significance）為核心標準，Mike Thelwall通過配置ChatGPT和Gemini模擬專家評審流程，測試其對18.5萬篇研究論文的評估效果。結(jié)果顯示，雖然模型單次打分有波動，但通過多次運行取平均，其評分穩(wěn)定性和可信度都有明顯提升，表明該模型能部分捕捉研究質(zhì)量特征；在圖書情報學等大部分學科，ChatGPT的評估結(jié)果優(yōu)于傳統(tǒng)引用指標。

Mike Thelwall探討了大語言模型在科研質(zhì)量評估中存在的風險。他使用ChatGPT評估虛構(gòu)論文《Do squirrel surgeons generate more citation impact？》，結(jié)果模型仍給出四星評級，未能識別“松鼠會做手術(shù)、寫科研論文”這一荒謬性；但當被問及“松鼠能寫論文嗎”時，該模型卻能果斷否定，凸顯其常識推理與邏輯匹配并存的局限性。在另一項研究中，Mike Thelwall系統(tǒng)檢驗了ChatGPT在評估已撤稿論文時的表現(xiàn)，結(jié)果發(fā)現(xiàn)該模型幾乎完全忽視了撤稿信息，依然對錯誤或失實結(jié)論給出積極評價，存在嚴重的“信息幻覺”風險。面對217篇已撤稿或存疑論文，該模型未能識別任何撤稿信息，仍對大多數(shù)論文給出中高評價；在針對61條撤稿結(jié)論的問答中，也有近三分之二的回答傾向于肯定失實內(nèi)容。

Mike Thelwall強調(diào)，大語言模型雖為科研評價帶來新思路，但其應用仍需謹慎。研究發(fā)現(xiàn)ChatGPT對已撤稿論文毫無“失效”警示，易將錯誤結(jié)論當作可信知識；若廣泛采用，還可能使研究者刻意迎合大語言模型、引發(fā)上傳侵權(quán)及單次打分不穩(wěn)等問題。Mike Thelwall建議，開發(fā)者應將“撤稿檢測”納入模型訓練與審核，用戶在引用大語言模型產(chǎn)出前務必核實來源，并保留專家終審把關。

活動過程中，師生互動熱烈，現(xiàn)場氣氛活躍。Mike Thelwall熱情回應了師生的提問，與會者圍繞大語言模型與傳統(tǒng)評估方法（如同行評審與引用指標）的差異，以及大語言模型的應用倫理與保障舉措等議題展開了討論。

杭州電子科技大學中國科教評價研究院執(zhí)行院長丁敬達教授、常務副院長王琳教授，中國科學院武漢文獻情報中心馬廷燦研究員，我院趙蓉英教授、安璐教授等五十余人參加講座。