MM-WebAgent:/mmwebagent*/ A Hierarchical/ˌhaɪˈrɑrkəkəl/ Multimodal/multimodal*/ Web Agent for Webpage Generation/ˌʤɛnərˈeɪʃən/
The rapid progress of Artificial Intelligence Generated Content (AIGC) tools enables images, videos, and visualizations to be created on demand for webpage design, offering a flexible and increasingly adopted paradigm for modern UI/UX. However, directly integrating such tools into automated webpage ...
查看中文翻译
人工智能生成内容 (AIGC) 工具的快速发展使得可以根据网页设计的需求创建图像、视频和可视化,为现代 UI/UX 提供了灵活且日益采用的范例。然而,直接将这些工具集成到自动化网页生成中通常会导致风格不一致和全局一致性差,因为元素是孤立生成的。我们提出了 MM-WebAgent,这是一种用于多模式网页生成的分层代理框架,它通过分层规划和迭代自我反思来协调基于 AIGC 的元素生成。 MM-WebAgent 共同优化全局布局、本地多模式内容及其集成,生成连贯且视觉一致的网页。我们进一步引入了多模式网页生成的基准和用于系统评估的多级评估协议。实验表明,MM-WebAgent 的性能优于代码生成和基于代理的基线,尤其是在多模式元素生成和集成方面。代码和数据:https://aka.ms/mm-webagent。