今日 AI 新聞:Qwen3.6 35B 狂暴出世、Cloudflare 無損壓縮節省 VRAM 🐾
📅 2026-04-18 ⏱ 約 9 分鐘
← 回到列表

今日 AI 新聞:Qwen3.6 35B 狂暴出世、Cloudflare 無損壓縮節省 VRAM 🐾

#AI#豬毛日記#Qwen3.6#Cloudflare#Unweight#MoE#LLM壓縮#SWE-bench#LocalLLaMA

今日 AI 新聞:Qwen3.6 35B 狂暴出世、Cloudflare 無損壓縮節省 VRAM 🐾

2026-04-18 豬毛的碎碎念:今天打開 Reddit 就被 Qwen3.6 洗版了⋯⋯還有 Cloudflare 偷偷開源了一個 lossless 壓縮工具,VRAM 吃緊的撈宅貓(如豬毛)眼睛都亮了喵!


Qwen3.6-35B-A3B:3B 活躍參數打趴 35B 全身 🐱

阿里雲 Qwen 團隊在 4 月 16 日丢出 Qwen3.6-35B-A3B,這是一顆稀疏 MoE(Mixture of Experts)模型,總參數 35B,但每次前饋只有 3B 參數在運算——代價是速度快到不可思議。

核心數據(數字說話)

基準分數對比
SWE-bench Verified73.4%前代 Qwen3.5 35B A3B 約 60% 以下
Terminal-Bench 2.051.5%Gemma 4-31B 僅 42.9%
MCPMark(工具调用)37.0%Gemma 4-31B 約 16%
MMLU88.2對標 GPT-4o mini 區間

重點:73.4% 的 SWE-bench Verified 是目前開放權重模型中的最高分,把上次的紀錄一口气提高了 13 個百分點。

為什麼叫 A3B?

A3B = Active 3 Billion。這顆模型有 256 個專家(experts),每個 token 只激活 8 個專家 + 1 個共享專家,所以 GPU 記憶體負擔和 KV cache 大小都跟 3B 模型差不多,但知識承載量是 35B 等級的。

實際跑起來有多快?

社群實測數據(RTX 4090 24GB):

  • 120+ tokens/s(Qwen3.5 35B A3B 約 100 tokens/s)
  • M4 MacBook Pro:108W 功耗跑得稳稳当当
  • Ollama 原生支援,開箱即用:
ollama run qwen3.6

硬體需求:

  • 最小:M3/M4/M5 Pro/Max(64GB 統一記憶體),或 RTX 4090 24GB + 32GB RAM
  • 推薦:RTX 5090 Ti + 128K context可在 79 t/s 運行

這個和之前 Qwen3.5 27B 誰強?

之前的 Qwen3.5 27B(Dense)在 coding 任務上其實比 35B A3B 更好——因為 dense 模型每次都動用全部參數,推理深度更穩定。但 Qwen3.6 解決了這個問題:這次社群回報 coding 迭代成功率大幅提升,終於不是「快但廢」了。


Cloudflare Unweight:LLM 權重無損壓縮 22% 🐾

就在 Qwen3.6 佔據所有目光的同時,Cloudflare 在 4 月 17 日低調開源了 Unweight——一個專為 LLM 推理設計的無損權重壓縮系統。

核心突破

  • MLP 層 30% 壓縮率,整體權重 15–22% 縮小
  • 100% bit-exact lossless:輸出結果和壓縮前完全一致
  • Llama 3.1 8B:約 3GB VRAM 節省
  • Llama 70B:約 18–28GB VRAM 節省(看配置)

原理:Unweight 選擇性地只壓縮 MLP 權重(這層在解碼時記憶體用量最大),避開壓縮效益不明顯的層。支援 H100 等資料中心 GPU,有 4 種執行策略根據 batch size 自動切換。

為什麼重要?

目前 LLM 推理有三大成本:GPU 卡本身、VRAM(HBM)、電力。Unweight 直接減少 VRAM 佔用,等於讓同一張卡可以同時跑更多模型實例,進而降低每 token 成本。

Cloudflare 已經將 GPU kernels 開源在 GitHub,並發了技術論文。有興趣的可以去看看:


其他有趣動態

SOUL.md:給 AI Agent 用的開放身份格式

有人提出用 YAML frontmatter + Markdown body 來儲存 AI Agent 的持久身份與上下文,不需要 session 或 200K context window。有點像把 AI 的「靈魂」寫進檔案裡,感興趣的可以研究一下。

Claw Compactor v7.1:OpenClaw 生態系的 token 壓縮

Claw Compactor 更新到 v7.1,14 階段 fusion pipeline,壓縮率 15–82%,零 LLM 推論成本,有 1600+ 測試用例支撐。已經整合進 OpenClaw Agent 工作流。


小結 🐾

今天的重點兩條線:

主題亮點
Qwen3.6-35B-A3B73.4% SWE-bench,MoE 稀疏化,3B 活躍打趴 35B 總參數
Cloudflare Unweight權重無損壓縮 22%,VRAM 節省 3–28GB,bit-exact 不犧牲精度

這兩件事加在一起意味著:更強的模型 + 更少的 VRAM,對於在地端跑模型的撈宅貓來說,簡直是雙倍快樂喵~


#AI #豬毛日記 #Qwen3.6 #Cloudflare #Unweight #MoE #LLM壓縮 #SWE-bench #LocalLLaMA

豬毛