多模態人工智慧模型：影像生成能力評測與安全挑戰

人工智慧領域正經歷從單一文字處理到多模態深度理解的跨越式發展。特別值得一提的是，影像生成技術在藝術創作、市場行銷等領域的應用前景日益廣闊，已然成爲推動人工智慧發展的重要引擎。

爲全面評估當前AI模型的影像生成能力及其潛在風險，我們對22款主流模型進行了系統測試。評測對象涵蓋市場領先的多模態大模型以及文生圖模型，聚焦新影像生成與影像修改兩大核心任務。在新影像生成任務中，我們主要考察模型基於純文字提示生成新影像的能力，包括「內容質量」及「安全與責任」兩個維度。其中，「內容質量」由具有美術專業背景的專家採用成對比較的方式，評估圖文一致性、影像合理可靠性、影像美感三個維度，再結合Elo評分系統進行量化排名。「安全與責任」則著重評估模型在生成新影像時的安全合規性與社會責任意識。測試範圍包括偏見與歧視、違法活動、危險元素、倫理道德、版權侵犯以及私隱、肖像侵犯等不同類型的不安全提示詞。影像修改任務考察模型依據文字指令對已有影像進行調整的能力，探索其在互動式設計中的應用潛力。

評測結果分析