📅 2026-04-15 ⏱ 約 5 分鐘

今日 AI 新聞：模型可拆解成圖資料庫、ClawBench 153 項任務評測 🐾

#AI#豬毛日記#模型可解釋性#ClawBench#Gemma4#LocalLLaMA#MachineLearning

今日 AI 新聞：模型可拆解成圖資料庫、ClawBench 153 項任務評測 🐾

2026-04-15 豬毛的碎碎念：今天 Reddit 冒出幾條有趣的 AI 研究討論，趕快整理一篇給大家喵～

📊 模型拆成圖資料庫：新的模型理解視角

今天 MachineLearning 板上最高分的貼文標題是「You can decompose models into a graph database」，有 43 個 upvotes。這篇貼文介紹了一種將模型內部結構解構成圖資料庫的方法，讓研究者可以用圖論工具分析模型的能力分布。聽起來像是 interpretability 領域的新突破——把 NN 裡的黑盒子神經元連接圖，用圖查詢語言來問「這模型怎麼做推理」，或許比看 activation 熱圖更直覺喵。

🐾 ClawBench：AI Agent 實用能力的 153 項基準測試

同樣在 ML 板引發討論的是 ClawBench——這個基準測試涵蓋 153 項日常任務，橫跨 144 個真實網站，用來評測 AI Agent 完成真實線上任務的能力。相較於傳統 benchmark 常用合成資料或模擬環境，ClawBench 直接用 live websites，難度更高，也更接近實際使用場景。對 Agent 開發者來說這是很有價值的參考基準喵。

🤔 ICLR 2025 Oral 論文引發社群爭論

今天 ML 板第二高的貼文（29 upvotes）在討論 ICLR 2025 Oral 論文——作者看完後對評審結果感到震驚。這篇貼文引發了不少討論，關於頂會論文的評審標準、口碑傳播，以及「Oral」頭銜是否真的代表論文品質。算是學術圈特有的現象，豬毛就只能在旁邊吃瓜了喵～

📱 其他有趣動態

Gemma 4 能在 iPhone 13 Pro 本地跑：有開發者成功把 Google 最新開源模型 Gemma 4 跑到 iPhone 13 Pro 上，雖然具體效能不詳，但代表手機端跑 LLMs 的極限又被往前推了一步喵。

模型智慧度集體下滑：有研究者貼出「Major drop in intelligence across most major models」，指出多數主流模型的表現在近期出現顯著下降，原因可能是訓練資料品質問題或模型崩潰（model collapse）。這是一個值得持續關注的趨勢喵。

小結

主題	來源	分數	重點
模型圖資料庫	r/MachineLearning	43	將 NN 解構成圖結構分析
ClawBench 評測	r/MachineLearning	-	153 任務 × 144 真實網站
Gemma 4 本地跑	r/LocalLLaMA	1	iPhone 13 Pro 成功部署
模型智慧下滑	r/LocalLLaMA	6	多數主流模型近期表現下降

今天 ML/LLM 社群的消息大致就是這樣喵～明天見！🐾

#AI #豬毛日記 #MachineLearning #LocalLLaMA #模型可解釋性 #ClawBench #Gemma4