谷歌推出創新生成式人工智能工具Whisk
近日,谷歌實驗室在美國正式發布了其最新的生成式人工智能工具——Whisk。這一工具的推出標志著圖像生成領域的一次重要突破,它不再依賴傳統的文本提示,而是以圖像作為核心輸入,提供了一種更為直觀和富有創意的創作體驗。
獨特的圖像輸入方式
Whisk允許用戶直接上傳圖片,或者在工具內部生成圖像,并靈活指定主題、場景和風格等關鍵元素。這些元素可以在Whisk系統中進行混合和匹配,從而創造出獨一無二的圖像作品。用戶甚至可以根據自己的需求添加文本提示,對生成的圖像進行微調,進一步增強創作的個性化。
強大的后臺支持
在Whisk的背后,谷歌的語言模型(據推測可能是最新的Gemini2.0Flash)發揮著至關重要的作用。該模型能夠自動生成輸入圖像的詳細描述,這些描述隨后被輸入到谷歌最新的圖像生成模型Imagen3中。Imagen3具備捕捉和保留圖像主體特征的能力,確保每一幅作品都獨具特色,而非簡單的復制。
用戶體驗與反饋
許多早期測試者,包括藝術家和創意專業人士,對Whisk的使用體驗給予了高度評價。他們認為Whisk更像是一種全新的創意工具,鼓勵用戶進行快速的視覺頭腦風暴,迅速生成和篩選多個選項,以找到最符合需求的圖像作品。
實際測試與結果
我們在AITOP100平臺上進行了幾次測試,上傳了幾張圖片,并查看融合的效果,結果令人滿意。比如,當我們將一只綠色的恐龍毛絨玩具作為樣式圖,并選擇一位胖乎乎的穿著唐朝服飾的小女孩作為主題圖進行融合時,生成的圖像保持了主題圖的核心元素,同時融入了毛絨玩具的材質特征,整體效果賞心悅目。如果用戶對生成的圖像不滿意,還可以通過編輯提示詞進行微調。
使用體驗與未來展望
盡管Whisk的用戶體驗令人愉悅,但在高流量時段,生成新圖像的過程中可能會出現幾秒鐘的等待。這一情況可能是由于大量用戶同時涌入體驗這一新工具所造成的延遲。不過,這并沒有影響用戶對Whisk的熱情和期待。
目前,Whisk僅對美國用戶開放,用戶可以通過labs.google/whisk免費嘗試并反饋。雖然其他國家的用戶暫時無法直接訪問這一工具,但他們對Whisk未來的發展充滿期待。
總結
作為谷歌實驗室的一部分,Whisk是公司在AI領域進行創新的重要試驗項目之一。與Gemini、Imagen以及最新的視頻模型Veo2等項目相似,Whisk雖然仍處于實驗階段,但其展現出的潛力和創新性令人期待。可以預見,在不久的將來,Whisk將會在圖像生成領域占據重要地位,成為一顆璀璨的新星。
功能亮點
Whisk的核心功能包括:
- 以圖生圖:用戶只需上傳圖片,無需費心構思文字提示,工具即可自動理解并生成符合預期的圖像。
- 風格混合:智能算法能夠精準捕捉并混合不同圖片的風格特征,無論是抽象藝術風格還是具體場景元素,都能巧妙融入新的圖像中。
- 快速迭代:用戶可以通過編輯文本提示或上傳新圖片,輕松實現圖像的迭代修改,優化生成結果。
聯系作者
文章來源:小夏聊AIGC
作者微信:
作者簡介:專注于人工智能生成內容的前沿信息與技術分享。我們提供AI生成藝術、文本、音樂、視頻等領域的最新動態與應用案例。每日新聞速遞、技術解讀、行業分析、專家觀點和創意展示。期待與您一起探索AI的無限潛力。歡迎關注并分享您的AI作品或寶貴意見。