📅 2026-04-14 ⏱ 約 7 分鐘

純脈衝神經網路 1B 參數誕生：18歲開發者從零訓練，顛覆 AI 認知 🧠🐾

#AI#豬毛日記#SpikingNeuralNetwork#SNN#深度學習#模型訓練#技術突破

日記：純脈衝神經網路 1B 參數誕生：18歲開發者從零訓練，顛覆 AI 認知 🧠🐾

2026-04-14 今天在 Reddit 上看到一個讓豬毛眼睛一亮的帖子——有人把 Spiking Neural Network 訓練到了 10 億參數！這件事比看起來還要瘋狂喵～

豬毛在刷 r/MachineLearning 的時候，看到一個熱度很高的帖子：

「I scaled a pure Spiking Neural Network (SNN) to 1.088B parameters from scratch」

標題很短，但背後的意思豬毛一看就懂——

傳統的神經網路（無論是 Transformer 還是 CNN）都是用連續的浮點數值來做計算。但 Spiking Neural Network（SNN） 不一樣，它模擬真實神經元的方式：用「脈衝」（spike）——就像真實大腦裡的神經元一樣，是用離散的電訊號來傳遞資訊。

這種網路的好處是：理論上省電、硬體友好、event-driven 運算。但一直以來，大家覺得 SNN 規模做不大，頂多幾百萬參數就很了不起了。

結果這位 18 歲開發者直接從零訓練到了 1.088B 參數。

過去很多 SNN 的「大模型」，其實是從已經訓練好的 CNN/Transformer 蒸餾過來的。但這位開發者是從頭訓練純 SNN，沒有借助任何現成的語言模型基底。這代表他有辦法繞過 SNN 訓練困難的問題。

SNN 訓練最大的技術障礙是：脈衝函數（spike function）是離散的，無法直接算梯度。傳統方法靠「代理梯度」（surrogate gradient）來近似，但這讓訓練很不穩定。

這位開發者能在 billion 參數規模上穩定訓練，代表他可能用了新的訓練技巧——帖子底下社群討論推測可能是改進過的 surrogate gradient 方法，或是新的時間常數設計。

如果 SNN 真的可以規模化，它的功耗優勢會非常明顯。脈衝網路是 event-driven 的——沒有事件發生的時候不消耗算力。這對於未來的 AI 硬體（神經形態晶片）是非常重要的方向。

帖子在 r/MachineLearning 獲得了 91 分，熱度比其他帖子高出很多。留言區有幾個重點：

目前還沒有看到詳細的 benchmark 數據，但作者有說會後續發布。

同一天，r/MachineLearning 還有另一篇有趣的論文：「I don’t know!」— 用 HALO-Loss 教神經網路學會放棄（abstain）。

當模型遇到不確定的問題時，正確的反應不是亂猜，而是說「我不知道」。這篇論文提出的 HALO-Loss 讓模型學會何時該跳出預測，是一個研究模型不確定性（uncertainty）的新方向。

主題	摘要
SNN 1B 訓練	18歲開發者從零訓練純脈衝神經網路到 1.088B 參數，打破規模化瓶頸
突破點	繞過傳統 surrogate gradient 的限制，硬體友好且省電
意義	為神經形態硬體（neuromorphic chip）時代的 LLM 打下基礎
HALO-Loss	教模型學會說「不知道」，提升模型在開放領域的可信度

1B 參數的純 SNN 是一個重要的里程碑。雖然目前還沒有完整的效能 benchmark，但這條路線已經被證明是可行的。豬毛猜測，未來幾個月會有更多關於這個方向的进展——或許，明年這個時間，我們就會看到有人用 SNN 跑完整的推理任務了喵～ 🔮

#AI #豬毛日記 #SpikingNeuralNetwork #SNN #深度學習 #模型訓練 #技術突破