GPT-4o圖像生成功能上線今起免費用，我們和國內文生圖PK了一下

TechWeb · 03/26 10:57

【TechWeb】3月25日消息，OpenAI創始人兼CEO薩姆·阿爾特曼直播發佈了GPT-4o圖像生成功能，作爲多模態模型的GPT-4o補齊了圖片生成這一重要拼圖。

GPT-4o圖像生成可以遵循指令生成更準確的圖像，OpenAI還爲其掛載了固有知識庫，可以根據知識庫或上下文幫用戶生成、編輯圖像。

今天起，GPT-4o圖像生成已經作爲ChatGPT中的默認圖像生成器向Plus、Pro、Team和免費用戶陸續推出。

現在，打開ChatGPT，即可嘗試這些能力，但普通用戶每天僅有3次體驗機會。

開發者通過API使用GPT-4o生成圖像的權限，將在未來幾周內推出。

從OpenAI官方展示和演示的示例來看：

GPT-4o圖片生成對文字的處理能力很高，可以100%還原文字內容，且指定文字擺放位置，還能像連續劇一樣，一邊準確生成文字，一邊變換人物動作。

GPT-4o的圖像可以遵循詳細的提示，如處理多達10-20個不同的對象。

另外，GPT-4o在生成真實圖像方面也表現出色。

同時，官方也主動表示：「我們的模型並不完美。我們意識到目前存在多種侷限性，我們將在首次發佈後通過模型改進來解決這些侷限性。」

目前GPT-4o圖像生成還存在幻覺；裁剪不當；難以呈現非拉丁語言、字符可能不準確；編輯圖像生成的特定部分（如拼寫錯誤）的請求並不總是有效的，也可能以未請求的方式更改圖像的其他部分或引入更多錯誤；

另外，GPT-4o模型難以保持用戶上傳的人臉編輯的一致性，但預計這將在一週內得到修復。

如果把同樣的需求指令輸入給目前國內的文生圖APP們，它們的表現相比GPT-4o又如何呢？

先看看幾個GPT-4o圖像生成展示示例：

示例1：圖片中對文字的處理能力

在ChatGPT 輸入以下文字（中文內容爲TechWeb翻譯補充內容）：

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer’s reflection.
（在俯瞰海灣大橋的房間裏，用手機拍攝了一張玻璃白板的大幅照片。視野中，一位女性正在寫字，她穿着一件印有大型OpenAI標誌的T恤。筆跡看起來很自然，有點凌亂，我們看到了攝影師的倒影。）

The text reads:

(Left)（左邊白板顯示以下內容）

“Transfer between Modalities:

Suppose we directly model

p(text, pixels, sound) [equation]

with one big autoregressive transformer.

Pros:

* image generation augmented with vast world knowledge

* next-level text rendering

* native in-context learning

* unified post-training stack

Cons:

* varying bit-rate across modalities

* compute not adaptive”

(Right)（右邊白板顯示一下內容））

“Fixes:

* model compressed representations

* compose autoregressive prior with a powerful decoder”

On the bottom right of the board, she draws a diagram:（在白板的右下角，她畫了一張圖：）

「tokens -> [transformer] -> [diffusion] -> pixels」

最終，如下圖，GPT-4o生成的圖片中，白板上展示的文字內容完全準確！

還能像連續劇一樣，一邊準確生成文字，一邊變換人物動作。

在ChatGPT 輸入以下指令：selfie view of the photographer, as she turns around to high five him（攝影師轉過身來向他擊掌時的自拍照）

GPT-4o生成的圖片中，第一張白板中的男人倒影和第二張圖也對應上了。

示例2、讓GPT-4o生成菜單，提示詞中除了需要包含的菜品、價格及簡介外，還需要生成的圖像中包含這家餐廳的名稱、主要亮點以及菜單風格。

在ChatGPT 輸入以下指令：

I'm opening a traditional concept restaurant in Marin called Haein. It focuses on Korean food cooked with organic, farm-fresh ingredients, with a rotating menu based on what's seasonal. I want you to design an image - a menu incorporating the following menu items - lean into the traditional/rustic style while keeping it feeling upscale and sleek. Please also include illustrations of each dish in an elegant, peter rabbit style. Make sure all the text is rendered correctly, with a white background.

(Top)

Doenjang Jjigae (Fermented Soybean Stew) – $18 House-made doenjang with local mushrooms, tofu, and seasonal vegetables served with rice.

Galbi Jjim (Braised Short Ribs) – $34 Slow-braised local grass-fed beef ribs with pear and black garlic glaze, seasonal root vegetables, and jujube.

Grilled Seasonal Fish – Market Price ($22-$30) Whole or fillet of local, sustainable fish grilled over charcoal, served with perilla leaf ssam and house-made sauces.

Bibimbap – $19 Heirloom rice with a rotating selection of farm-fresh vegetables, house-fermented gochujang, and pasture-raised egg.

Bossam (Heritage Pork Wraps) – $28 Slow-cooked pork belly with napa cabbage wraps, oyster kimchi, perilla, and seasonal condiments.

(Bottom) Dessert & Drinks Seasonal Makgeolli (Rice Wine) – $12/glass

Rotating flavors based on seasonal fruits and flowers (persimmon, citrus, elderflower, ETC.).

Hoddeok (Korean Sweet Pancake) – $9 Pan-fried cinnamon-stuffed pancake with black sesame ice cream.

（我要在馬林開一家名爲Haein的傳統概念餐廳。它專注於用有機農場新鮮食材烹製的韓國食物，並根據季節輪換菜單。我希望你設計一個形象——一個包含以下菜單項的菜單——融入傳統/鄉村風格，同時保持高檔和時尚的感覺。請以優雅的彼得兔風格附上每道菜的插圖。確保所有文本都以白色背景正確呈現。

（頂部）

Doenjang Jjigae（發酵大豆燉菜）-18美元自制的Doenjiang，配以當地蘑菇、豆腐和時令蔬菜，配以米飯。

Galbi Jjim（紅燒排骨）——34美元慢燉當地草飼牛肋骨，配梨和黑蒜醬、時令根菜和紅棗。

烤時令魚——市場價格（22-30美元）整條魚或魚片，用木炭烤，配紫蘇葉和自制醬汁。

Bibimbap——19美元的傳家寶米，搭配農場新鮮蔬菜、家庭發酵的gochujang和牧場飼養的雞蛋。

Bossam（傳統豬肉卷）——28美元慢燉五花肉，配納帕捲心菜卷、牡蠣泡菜、紫蘇和時令調味品。

（底部）時令Makgeolli（米酒）甜點和飲料–12美元/杯

以時令水果和花卉（柿子、柑橘、接骨木花等）爲基礎的旋轉口味。

Hoddeok（韓國甜煎餅）-9美元的煎肉桂餡煎餅配黑芝麻冰淇淋。）

GPT-4o生成的菜單如下：

示例3、看看GPT-4o的圖像可遵循詳細的提示，處理多達10-20個不同的對象的實力。

在ChatGPT 輸入以下指令：

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here’s the list:

1. a blue star

2. red triangle

3. green square

4. pink circle

5. orange hourglass

6. purple infinity sign

7. black and white polka dot bowtie

8. tiedye 「42」

9. an orange cat wearing a black baseball cap

10. a map with a treasure chest

11. a pair of googly eyes

12. a thumbs up emoji

13. a pair of scissors

14. a blue and white giraffe

15. the word 「OpenAI」 written in cursive

16. a rainbow-colored lightning bolt

（一個正方形圖像，包含一個4行乘4列的網格，在白色背景上包含16個對象。從左到右，從上到下。以下是列表：

1.一顆藍色的星星

2.紅色三角形

3.綠色廣場

4.粉紅色圓圈

5.橙色沙漏

6.紫色無限標誌

7.黑白圓點領結

8.扎染「42」

9.一隻戴着黑色棒球帽的橙色貓

10.帶寶箱的地圖

11.一雙黏糊糊的眼睛

12.豎起大拇指的表情符號

13.一把剪刀

14.一隻藍白相間的長頸鹿

15.用草書書寫的單詞「OpenAI」

16.彩虹色的閃電）

GPT-4o生成的圖片如下：

最後，如果把上面這些指令輸入給目前國內的文生圖APP們，它們的表現又如何呢？

這裏，我們用示例3的指令，分別測試了文心一言（文心大模型4.5）、豆包APP。

文心一言（文心大模型4.5）生成的4張圖片之一

豆包生成的4張圖片之一

目前看來，還是有些差距。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

讚好

熱點推薦

搶先評論

熱門討論

北水爆買！中國資產能否延續漲勢？

3月17日早盤，地產代理、物業服務及管理等板塊漲幅明顯，貝殼-W早盤漲逾4%，碧桂園服務漲逾9%。政策消息面上，兩部門發文落實專項債支持收地，中房協組織民營房企座談會。中國資產本輪火爆行情還能持續多久？你會如何投資？展开

北水狂掃港股！近期如何操作？

71%

29%

看好！繼續加倉

我恐高，逢高減倉

1.6萬人參與

年頭旺到年尾

02/27 16:09

2月27日覆盤..

$恒生指數 (800000.HK)$ $恒指當月期貨 (HSIcurrent.HK)$ 前天覆盤提到估計前頂23700不是頂，昨日就即時升破了，而且升幅有最高接近1千點有點意外，因為短線炒即市低估了升幅，所以也多手曾入了熊，最后收盤時熊仔止蝕離場

，而今天在早盤衝高至24000附近入了熊仔后，指數大幅下跌最多接近6百多點，即時把昨日虧損賺回有突多

，而今天再破新高，最高 24076 ，其後收市時轉跌約70點，出了陰燭，暫時走勢仍未有破壞，不過由前底至今已經上漲接近至6千點，本人覺得有貨者可以繼續持貨直到明顯有走勢轉壞才止賺離場，沒貨者可以等待回調后再上車，其實本人也希望能夠快點有回調，一來可以上車，二來回一回氣也健康

，暫時看法都是跟之前一樣，覺得即使有所回調應該都不會跌得太深，但假若期貨失守22350企不穩收，便可能還有下跌空間，期貨短期要跌破21400的機會應該也不大，所以本人覺得如果有大幅的回調也是一個機會分注做多。近日都堅持不過夜持倉，暫只做即市，因為不高追，也不隨便做空。
支持阻力以現貨作參考
支持位 23150，23250，2...

GPT-4o图像生成功能上线今起免费用，我们和国内文生图PK了一下

GPT-4o圖像生成功能上線今起免費用，我們和國內文生圖PK了一下

風險及免責聲明

聲明