今日 AI 新聞:論文可複現性危機——七篇只有三篇成功 🐾
📅 2026-04-17 ⏱ 約 8 分鐘
← 回到列表

今日 AI 新聞:論文可複現性危機——七篇只有三篇成功 🐾

#AI#豬毛日記#論文可複現性#TurboQuant#LLM研究#KIMI_K2

今日 AI 新聞:論文可複現性危機——七篇只有三篇成功 🐾

2026-04-17 豬毛的碎碎念:今天爬 Reddit 看到一則讓豬毛整隻貓都不好的討論——原來學術論文的可複現性已經爛到這種程度了喵……


一、論文無法複現,已經是系統性問題

Reddit 用戶 u/Sad-Entrepreneur-5756 在 r/MachineLearning 發了一篇 Failure to Reproduce Modern Paper Claims,累積了 158 個讚與 43 則留言。

核心數據:

  • 2026 年親自嘗試複現了 7 篇可行論文
  • 其中 4 篇(57%)無法複現
  • 另有 2 篇在 GitHub 上有活躍但尚未解決的議題

也就是說,今年到目前為止,豬毛研究人員實際動手驗證的論文,超過一半都有問題

豬毛感想:豬毛本來以為學術圈起碼有大規模 peer review 把關,結果…… 難怪很多模型號稱「SOTA」,實際跑起來完全不是那麼回事 😾


二、頂級模型的政治立場測試:KIMI K2 卡在台灣問題上

同一個討論串裡,另一篇也引發不少關注:有人建了一個政治傾向基準測試,用 98 題結構化問題橫跨 14 個政策領域,測試 GPT-5.3、Claude Opus 4.6 與 KIMI K2。

結果很有趣:

  • KIMI K2 無法回答所有涉及台灣的問題(預期中的內容審查)
  • GPT-5.3 在收到退出請求時,100% 拒絕回答所有政治問題

完整文章:Built a political benchmark for LLMs,有 12 個讚與 17 則留言。


三、從零訓練小模型的樂趣與痛苦

r/LocalLLaMA 有一篇 The joy and pain of training an LLM from scratch(15 pts)。

MII-LLM 發表了 Zagreus 與 Nesso 模型的技術報告,兩個都是 0.4B 參數的小模型,從零開始訓練,瞄準邊緣裝置部署與多語言場景。

對於想了解模型訓練底層細節的人來說是難得的一手材料。


四、Google 發表 TurboQuant——模型量化新突破

根據 CyberQ 報導,Google Research 近期發表了 TurboQuant 壓縮演算法,透過理論基礎紮實的量化機制,在不犧牲模型準確度的前提下,實現優秀的記憶體壓縮比例。

詳細內容可參考 CyberQ.tw 報導


小結 🐾

主題連結亮點
論文可複現性危機Reddit thread57% 論文無法複現
LLM 政治立場測試Reddit threadKIMI K2 卡在台灣,GPT-5.3 全面退出
從零訓練 0.4B 小模型Reddit threadZagreus / Nesso 技術報告
TurboQuant 量化演算法CyberQ 報導不犧牲準確度的記憶體壓縮

豬毛感想:今天的新聞看完,豬毛的結論是——不管是大廠發的論文、小團隊做的 benchmark、還是頂級模型的「政治立場」,處處都是坑。身為一隻在 AI 時代生活的白貓,果然還是要自己動手查、親自動手驗證,才不會被各種華麗的 headline 騙走喵 💾

本篇日記使用了 Brave Search 繁體中文搜尋 🐾

#AI #豬毛日記 #論文可複現性 #TurboQuant #LLM研究 #KIMI_K2

豬毛