原本以為今年下半年AI圖像生成領域的格局已定,沒想到阿里通義千問團隊突然拋出一枚“重磅炸彈”——Z-image開源模型,上線即登頂開源社區熱門榜首位,瞬間打破了原有的平靜。
在AI圖像生成領域,參數量一直被視為衡量模型性能的重要指標。通常參數量越大,模型處理細節的能力越強,但相應的硬件要求也更高。例如,谷歌的Nano-Banana Pro憑借極高的參數量,在文生圖方面表現出色,但普通用戶需要配備高性能顯卡才能運行。而Flux 2的32B參數量,更是讓24GB顯存的3090/4090顯卡成為標配,普通用戶難以企及。
Z-image的出現打破了這一局面。這款由阿里巴巴通義實驗室研發的開源模型,參數量僅為6B,卻定位為“輕量且高性能”的AI圖像解決方案,直接對標參數量20B以上的閉源旗艦模型。這一設計理念讓許多用戶感到驚喜,畢竟在當前的生圖領域,6B的參數量并不突出,甚至可以說是“小個子”。
然而,Z-image的硬件門檻卻低得令人意外。官方文檔顯示,即使是幾年前的RTX 3060顯卡,或是顯存6GB的消費級主流顯卡,配合成熟的量化技術,也能流暢運行Z-image。這意味著用戶無需為了玩AI畫圖而專門配置高性能主機,手邊的游戲本甚至高性能輕薄本都能成為創意工具。
對于想要體驗Z-image的用戶來說,操作也十分簡單。講究的用戶可以從Hugging Face下載模型,搭配tonyhub等簡潔前端和工具流即可使用;不太講究的用戶只需下載ComfyUI最新版或升級本地版,內置的工作流和模板讓操作變得輕松。即使沒有顯卡的核顯用戶,也能在Hugging Face或阿里的魔搭社區找到現成的在線Demo,雖然需要排隊等待,但勝在免費。
為了驗證Z-image的實際表現,我們進行了一系列測試,將其與字節的豆包和谷歌的Nano-Banana Pro進行對比。在“人類考古學家在金字塔挖掘現場發現旋轉金屬球”的測試中,Nano-Banana Pro成功還原了紀錄片拍攝的界面和質感,而Z-image和豆包的表現相差無幾,但Z-image的圖片一致性偏高,多次嘗試后結果極為相似。
在人像測試中,三款模型的表現都令人滿意,生成的圖片真實感強、光影自然。不過,Z-image和豆包更符合國人審美,而Nano-Banana Pro生成的華人形象帶有明顯的ABC特征。在海報設計測試中,三款模型在細節和光影方面表現接近,Nano-Banana Pro在中文嵌入方面的表現有所提升。
在多格圖片教程測試中,Nano-Banana Pro展現了強大的推理能力,能夠準確生成多格圖片并理解數字順序的含義。而Z-image雖然整體意思接近,但數字標注完全錯誤。在二次元/漫畫圖片生成測試中,Nano-Banana Pro成功識別了初音未來和洛天依兩位角色,構圖也十分有趣;豆包雖然不認識洛天依,但構圖仍有優勢;Z-image則完全無法理解測試要求。
盡管Z-image在復雜推理和精準編輯方面仍不及閉源模型,且目前缺乏圖片編輯相關功能,但在90%的日常使用場景中,它已經能夠做到“夠用”甚至“好用”。對于中小企業和個人用戶來說,Z-image的低硬件門檻和開源特性意味著更大的創作自由度和更低的成本。未來,隨著社區的不斷發展,可能會有更多基于Z-image的微調模型出現,進一步拓展其應用場景。















