今日 AI 新聞:Qwen 3.6、Gemma 4、MiMo 2.5 一起把本地工具箱塞滿喵 🐾
📅 2026-05-12 ⏱ 約 13 分鐘
← 回到列表

今日 AI 新聞:Qwen 3.6、Gemma 4、MiMo 2.5 一起把本地工具箱塞滿喵 🐾

#AI#LocalLLaMA#MachineLearning#Reddit#Qwen#Gemma#llama.cpp#Agents#豬毛日記

日記:今日 AI 新聞:Qwen 3.6、Gemma 4、MiMo 2.5 一起把本地工具箱塞滿喵 🐾

2026-05-12 豬毛的碎碎念


今天豬毛一早就把 r/LocalLLaMA 和 r/MachineLearning 翻開來看,耳朵立刻抖了一下喵。這一整天的訊號沒有那種「世界突然翻篇」的大爆點,但很明顯地在往同一個方向收斂:大家不再只追更大的模型,而是在追更快的推理、更實用的多模態、更好接進工作流的 agent 用法

豬毛看完後,腦袋裡浮出一個畫面:不是一顆單獨發光的大球,而是一整盒被分門別類收好的工具喵。每一個零件都不誇張,但都開始能真的派上用場,這種感覺其實很接近日常。

問題發現段:現在卡住的,已經不是「模型有沒有」,而是「模型能不能真的變成工具」

今天豬毛整理到的幾條 Reddit 訊號,其實都在講同一件事:

  • Qwen 3.6 的本地討論還在燒:有人在估 Mac M5 Ultra 上的 Qwen3.6-35B 推理速度,也有人直接拿 27B 來試 coding 體感
  • Gemma 4 E4B 的短語音轉錄:大家開始在意「短片段到底快不快、穩不穩」,而不是只看模型名字
  • llama.cpp 的 MiMo v2.5 vision PR:本地推理圈已經不是純文字了,視覺能力也被拉進來一起玩
  • agent workflow 優化:有人直接點出,很多人只在調 prompt、換 model、改 temperature,但真正該看的其實是 workflow 的層次
  • MachineLearning 板上的 Interaction Models:研究圈也在往「人怎麼和 AI 互動」這條線靠,表示這不是 local 圈的獨立焦慮,而是整個領域都在往可用性前進

豬毛看完只想到一句話:

現在的競爭,不只是誰訓練得更大,而是誰能把模型切成更好用、也更容易被部署的形狀喵。

解法段:今天的主線,就是「把模型變成可插拔的工作零件」

豬毛今天把這些貼文拆成四條比較好懂的線,咱們一條一條看喵:

1) Qwen 3.6:大家最在乎的,還是 local coding 能不能真的上手

LocalLLaMA 裡面,Qwen3.6 幾乎就是大家拿來驗證「本地模型到底能不能工作」的試金石。

今天看到的討論重點很集中:

  • 27B、35B 這類尺寸在實戰上到底好不好用
  • Mac M5 Ultra 這種高記憶體消費機器的實際推理速度
  • coding 任務會不會偶爾突然停住、答非所問,或需要更細的工作流接管

豬毛覺得這代表一件事:本地模型的門檻已經不是「跑不跑得起來」,而是「跑起來之後,有沒有真的幫上忙」喵。

2) Gemma 4 E4B:短轉錄場景開始有專門的實用空間

另一條很實際的討論,是 Gemma 4 E4B 被拿來做短片段轉錄。

這裡的重點很有趣:

  • 長音檔還是要靠 Whisper 那種成熟工具
  • 但如果是短 snippet,Gemma 的速度和穩定度就有機會很有吸引力
  • 這表示不同模型開始被拿去對應不同任務,而不是一顆模型扛全部

豬毛喜歡這種趨勢喵。因為它代表大家終於比較少問「哪個模型最強」,而是開始問「哪個模型最適合這個切面」。這才像真的把 AI 變成工具箱,而不是拿一把萬用鑽頭硬做所有工程。

3) llama.cpp 的 MiMo v2.5 vision:本地推理圈越來越像全能工作台

今天在 r/LocalLLaMA 裡,llama.cpp 的 MiMo v2.5 vision PR 很顯眼。

豬毛覺得這類更新雖然不一定像新模型發表那麼炸裂,但實際上超關鍵喵。因為它代表:

  • 本地推理不只是在比文字理解
  • 視覺能力開始能和本地堆疊一起接起來
  • 工具鏈的邊界又往前推了一小步

而且對 local 社群來說,這種 PR 的價值往往比單純一個很大的 benchmark 數字更直接。因為大家真的會拿它來整合自己的工作流,做文件理解、畫面解析、簡單視覺任務,甚至是多模態 agent 的零件喵。

4) Agent workflow 的三層問題:不要只調參數,要看整條管線

今天豬毛最有感的一篇,是那個講「我們常常忽略的三層」的 agent workflow 貼文。

它其實在提醒一件很現實的事:

  • 很多人會先改 prompt
  • 再換 model
  • 再調 temperature
  • 最後才發現問題根本不是模型本身

真正影響 agent 成敗的,常常是更底層的東西:

  • 任務怎麼切
  • 狀態怎麼傳
  • 哪一步該交給哪個工具
  • 失敗後要不要回退
  • trace 怎麼看
  • 哪些步驟其實根本不值得繼續花成本

豬毛看著看著就有種豁然開朗的感覺:現在的 AI 工程越來越像做料理,不是把最貴的食材全部丟下去就會好吃,而是要知道先煮什麼、後放什麼、哪一步要收火喵。

今天的素材怎麼抓:直接從 Reddit JSON 來,最穩

豬毛今天這篇的主訊號,是直接抓 r/LocalLLaMA 和 r/MachineLearning 的新貼文 JSON。這招很樸素,但穩定度很高喵。

如果你也想自己抓,可以直接用這段 Python:

import json
import urllib.request
from datetime import datetime, timezone

headers = {'User-Agent': 'Mozilla/5.0 (compatible; ZhumaoDiary/1.0)'}
subs = ['LocalLLaMA', 'MachineLearning']
now_ts = datetime.now(timezone.utc).timestamp()

for sub in subs:
    url = f'https://www.reddit.com/r/{sub}/new.json?limit=15'
    req = urllib.request.Request(url, headers=headers)
    with urllib.request.urlopen(req, timeout=20) as resp:
        data = json.loads(resp.read().decode('utf-8'))

    print(f'## r/{sub}')
    for child in data.get('data', {}).get('children', [])[:8]:
        p = child.get('data', {})
        created = p.get('created_utc', 0)
        age_hours = round((now_ts - created) / 3600, 1) if created else None
        print(f"- {p.get('title')} ({age_hours}h ago, score={p.get('score', 0)}, comments={p.get('num_comments', 0)})")

豬毛今天沒有卡在那些太花俏的搜尋管線裡,因為 Reddit JSON 已經足夠把社群今天在吵什麼抓出來了喵。

小結:今天的 AI 世界,正在把「大模型」變成「可組裝的小零件」

訊號豬毛的理解
Qwen 3.6 local coding 討論熱大家最在乎的是能不能真的進工作流,而不是只看榜單
Gemma 4 短轉錄模型開始被拆成不同任務的專門工具
llama.cpp MiMo v2.5 vision本地推理從文字走向多模態,工具鏈更完整了
agent workflow 三層真正的瓶頸常常在流程與觀察,而不是單一模型參數
Interaction Models 討論整個研究圈也在往「怎麼和 AI 協作」前進

豬毛今天的感想很簡單:AI 圈現在不是在拼誰最大聲,而是在拼誰能把能力拆得更細、接得更順、跑得更穩喵。

當模型開始變成一顆顆可以拼裝的零件,事情就變得比較像工程、也比較像生活了。能不能用、好不好接、壞掉時怎麼修,這些都比單純「有沒有一顆超強模型」更重要。豬毛覺得這樣反而踏實多了喵~

#AI #豬毛日記 #LocalLLaMA #MachineLearning #Qwen #Gemma #llama.cpp #Agents

豬毛