以小搏大！AI工程師開發「縫合怪」模型性能超越阿里大模型

商傳媒｜責任編輯／綜合外電報導

一名 AI 工程師 Kyle Hessling 近期透過結合多款頂尖大型語言模型（LLM），成功打造出一個 180 億參數的「縫合怪」（frankenmerge）模型。這款模型不僅能在消費級硬體上執行，其表現更超越了中國科技巨擘阿里巴巴（Alibaba）旗下更大規模的 350 億參數模型，展現了開源社群在 AI 技術整合上的巨大潛力。

根據《Decrypt》報導，Kyle Hessling 將來自 Jackrong 開發的兩個微調模型——Qwopus 3.5-9B-v3.5（融合了 Claude 4.6 Opus 的推理風格）以及 Qwen 3.5-9B-GLM5.1-Distill-v1（基於 z.AI 的 GLM-5.1 教師模型訓練）——以「直通式縫合合併」（passthrough frankenmerge）技術進行整合。他將前者的 0 至 31 層與後者的 32 至 63 層堆疊，形成一個總共 64 層的新模型。

突破硬體限制　低功耗超越大型模型

這項創舉面臨的挑戰之一是 Qwen 3.5 混合線性/全注意力架構，現有合併工具無法直接支援。Kyle Hessling 為此開發了客製化的合併腳本，並在初步合併後，透過 QLoRA 技術進行了 1,000 步的「修復微調」（heal fine-tune），以解決模型層邊界造成的混亂程式碼輸出問題。

最終誕生的 180 億參數模型在 44 項能力測試中通過了 40 項。最引人矚目的是，它在 Q4_K_M 量化後僅需 9.2 GB 的顯示記憶體（VRAM），理論上可在 NVIDIA RTX 3060 等相對平價的繪圖處理器（GPU）上運作。相較之下，阿里巴巴的 Qwen 3.6-35B-A3B MoE 模型需高達 22 GB 的 VRAM，但在測試中卻被 Kyle Hessling 的「縫合怪」模型超越。

過度推理成瓶頸　仍具廣泛應用潛力

然而，該模型也存在挑戰。測試發現，其在某些任務上會出現「過度思考」的現象，產生冗長的推理鏈，甚至達到令牌限制（token limits）。例如，要求模型生成一個貪食蛇遊戲的程式碼時，竟耗費超過 40 分鐘進行推理。這種傾向在 Qwopus 系列中已是已知問題，由於堆疊了兩個推理蒸餾模型，可能使此行為在特定提示下被放大。這對於希望在消費級硬體上運行嚴肅應用程式的用戶而言，可能成為日常使用上的瓶頸。

儘管如此，這項成就凸顯了開源社群的創新力量：一位匿名的開發者發布專業微調模型與訓練指南，另一位愛好者則利用客製腳本進行堆疊與修復，最終創造出一個比大型實驗室發布模型更小、性能更佳的模型。這款模型在發布的頭兩週內便累積超過三千次下載，顯示其廣受關注。這類「從底層解決方案到專業化」的開源協作模式，正逐步縮小個人專案與前沿部署之間的差距，讓更多開發者能夠參與其中。

頭條留言

以小搏大！AI工程師開發「縫合怪」模型性能超越阿里大模型

突破硬體限制　低功耗超越大型模型

過度推理成瓶頸　仍具廣泛應用潛力

最新文章

千尋、湯婆婆快閃農機展　嘉縣力倡健康別神隱無菸新生...

新北環警深夜鐵腕出擊　淡江大橋全時段科技執法搭配「...

《霸王列傳》最強葡萄牙與老C羅迎衝冠大夢

2026竹山國際茶道節圓滿落幕　熱絡人潮展現茶鄉觀...

埔里鎮與日本出水市締結姊妹市九週年　捐贈麒麟花見證...

社群媒體

聯絡我們

關於我們

以小搏大！AI工程師開發「縫合怪」模型性能超越阿里大模型

突破硬體限制 低功耗超越大型模型

過度推理成瓶頸 仍具廣泛應用潛力

最新文章

千尋、湯婆婆快閃農機展 嘉縣力倡健康別神隱無菸新生...

新北環警深夜鐵腕出擊 淡江大橋全時段科技執法搭配「...

《霸王列傳》最強葡萄牙與老C羅迎衝冠大夢

2026竹山國際茶道節圓滿落幕 熱絡人潮展現茶鄉觀...

埔里鎮與日本出水市締結姊妹市九週年 捐贈麒麟花見證...

社群媒體

聯絡我們

關於我們

突破硬體限制　低功耗超越大型模型

過度推理成瓶頸　仍具廣泛應用潛力

千尋、湯婆婆快閃農機展　嘉縣力倡健康別神隱無菸新生...

新北環警深夜鐵腕出擊　淡江大橋全時段科技執法搭配「...

2026竹山國際茶道節圓滿落幕　熱絡人潮展現茶鄉觀...

埔里鎮與日本出水市締結姊妹市九週年　捐贈麒麟花見證...