原本以為今年下半年AI圖像生成領(lǐng)域的熱鬧程度不過如此,沒想到阿里通義千問團(tuán)隊近日甩出一張“王炸”——Z-image,瞬間在開源社區(qū)掀起波瀾,上線即登頂熱門榜首位。
Z-image,中文名為“造相”,是阿里巴巴通義實驗室研發(fā)的一款開源圖像生成基礎(chǔ)模型。它定位為“輕量且高性能”的AI圖像解決方案,參數(shù)量僅有6B(60億),卻對標(biāo)參數(shù)量20B以上的閉源旗艦?zāi)P汀T贏I領(lǐng)域,參數(shù)量常被視為模型的“腦容量”,參數(shù)量越大,模型往往能掌握更多知識,生成圖像的細(xì)節(jié)也越豐富。例如谷歌訓(xùn)練的Nano-Banana Pro,因極高的參數(shù)量,文生圖效果極為出色,但對硬件要求極高,普通用戶難以駕馭。
相比之下,Z-image的硬件門檻低得驚人。官方文檔顯示,即便是幾年前的RTX 3060顯卡,或是顯存6GB的消費級主流顯卡,配合成熟的量化技術(shù),也能流暢運行。這意味著用戶無需為了玩AI畫圖專門配置高性能主機(jī),手邊的游戲本甚至高性能輕薄本都能成為創(chuàng)意工坊。對于沒有顯卡的核顯用戶,Hugging Face和阿里的魔搭社區(qū)(ModelScope)還提供了現(xiàn)成的在線Demo,雖然可能需要排隊等待,但完全免費。
如此低的門檻,讓Z-image迅速吸引了大量關(guān)注。那么,它的實際表現(xiàn)如何呢?為了驗證這一點,記者進(jìn)行了一系列測試,用相同的提示詞(Prompt)對比了Z-image與國內(nèi)外兩款常用圖片生成大模型——字節(jié)的豆包和Nano-Banana Pro。
在測試人類考古學(xué)家在金字塔挖掘現(xiàn)場發(fā)現(xiàn)旋轉(zhuǎn)金屬球的場景時,Nano-Banana Pro成功還原了紀(jì)錄片拍攝的界面和質(zhì)感,而Z-image和豆包的表現(xiàn)相差無幾,但Z-image的圖片一致性偏高,多次嘗試在相同參數(shù)下得出的結(jié)果極為相似,可能是內(nèi)置參數(shù)的影響。
在人像測試中,提示詞要求生成一張平平無奇的iPhone照片,展現(xiàn)松弛氛圍感的亞洲美女。三款模型生成的圖片均真實感強(qiáng)、光影自然,無明顯瑕疵。不過,Z-image和豆包更符合國人審美,而Nano-Banana Pro生成的華人形象帶有明顯的ABC特征。
在海報設(shè)計測試中,三款模型應(yīng)對一般中文嵌入的能力均有所提升,細(xì)節(jié)和光影表現(xiàn)也難分伯仲。然而,在多格圖片教程生成測試中,差距顯現(xiàn)。提示詞要求生成手賬風(fēng)格的番茄炒蛋制作步驟教程圖,步驟說明需為中文。Nano-Banana Pro能夠掌握多格圖片生成和數(shù)字順序的含義,基本一次出圖;而Z-image雖然粗看有些意思,但數(shù)字標(biāo)注完全錯誤。
在二次元/漫畫圖片生成測試中,提示詞要求生成日本漫畫風(fēng)格,展現(xiàn)初音未來和洛天依撕開海報并穿越到現(xiàn)實中的場景。Nano-Banana Pro不僅知道兩位角色,構(gòu)圖也頗具創(chuàng)意;豆包雖不知洛天依,但構(gòu)圖仍有優(yōu)勢;而Z-image則完全不知所云。
盡管在復(fù)雜推理和精準(zhǔn)編輯上,Z-image尚不及Nano-Banana Pro等閉源模型,且目前缺失圖片編輯相關(guān)能力,但在90%的日常使用場景中,它已能做到“夠用”甚至“好用”。對于想嘗試AIGC的中小企業(yè)或個人用戶而言,Z-image的意義不言而喻。它不僅降低了硬件門檻,還因其開源特性,為未來各種微調(diào)模型的出現(xiàn)提供了可能。就像安卓手機(jī)一樣,雖然初期可能不如蘋果流暢,但一旦生態(tài)建立,爆發(fā)力將不可小覷。















