基于大模型的AIGC图像质量评估挑战赛
(中国移动-科大讯飞杯)
以大模型为核心的生成式人工智能(AIGC)技术正迅猛发展,文本生成图像(Text-to-Image)作为多模态大模型的代表性应用,以前所未有的速度重塑艺术创作、视觉设计、数字娱乐等众多领域,展现出强大的创造力和广阔前景。多模态大模型能够根据文本提示生成高度逼真或富有创意的图像,但其输出质量存在显著波动。伴随着技术能力的提升,如何建立一套客观、精准且覆盖多维度的评价体系,科学的衡量AIGC图像的质量与图文匹配度,已成为推动该技术深化应用与可持续发展的核心挑战。
当前,对大模型生成图像的评估仍高度依赖主观性强、成本高昂且难以规模化的人工评判。现有的自动化评估指标虽能有效捕捉图像与提示词在显性主体、基础属性(如颜色、物体类别)层面的浅层匹配度,却难以深入评估生成图像复杂语义的忠实表达、逻辑合理性。本竞赛旨在推动构建一套超越传统单一指标、专门针对大模型生成图像特性的评价标准体系,覆盖提示词-图像匹配度、图像逻辑合理性,为AIGC图像的质量评估提供更全面、客观的标尺。核心在于,我们期望参赛者充分挖掘多模态大模型在深度理解图像内容、精准对齐语义等方面的判别潜能,探索大模型作为“AI评委”在自动化、智能化评价其他大模型生成图像任务上的方法边界与最佳实践。
本竞赛希望各参赛队伍深入探索大模型在AIGC图像评价中的判别机制,开发创新性的自动化评估方法,推动评价技术的标准化与实用化进程。我们期待这些实践能激发对多模态认知、跨模态对齐等基础问题的创新研究,从而促进评价技术的实质进步,为生成式人工智能的健康发展提供核心支撑。
组织方:中国移动通信集团研究院、中国移动技术能力评测中心、科大讯飞股份有限公司、北京邮电大学
报名方式:微信扫码报名
按自愿报名的原则,参赛团队和成员的组成可以为:
(1)各培养单位正式注册教师、在读本科生、研究生以及博士生。
(2)国内各研究团体、企事业单位在职员工
仅接受以团队形式通过微信报名链接报名参赛,每个参赛队伍人员不超过5人,指导老师不超过2人,每名参赛选手只能参加1个参赛队。参赛团队填写报名链接后,竞赛组织方将发送邮件确认报名成功。
比赛开始,竞赛组织方向成功报名的参赛者提供包含400张生成图像、对应提示词和得分的训练集下载链接,同时发布评测结果提交格式,各参赛队需在自行准备的软硬件环境下进行模型训练微调。在比赛截止前72小时,竞赛组织方会公布包含200张生成图像和对应提示词(仅提示词,无图片得分信息)的测试集,各参赛队伍需自行完成推理,并在比赛时间截止前将推理结果以规定格式上传。在这之后竞赛组织方会对各队伍提交的最终版推理结果进行评测,根据成绩进行排名,其中排名前五的队伍会被要求提供全套代码、环境及模型文件(要求必须用docker封装),并由竞赛组织方进行复现。
时间 | 任务 | |
7月10日 |
竞赛组织方公布比赛任务、参赛办法和评比方式。 |
|
7月11日至8月30日 |
参赛队伍报名。 |
|
8月1日至9月7日 |
组织方向成功报名的参赛者提供训练集,同时发布评测结果提交格式,各参赛队需在自行准备的软硬件环境下进行算法调试。 |
|
9月8日至9月10日 |
组织方发布测试集,各参赛队伍需自行完成推理,并将推理结果以规定格式上传。 |
|
9月10日至9月30日 |
竞赛组织方对各队伍提交的最终版推理结果进行评测,开展线下答辩。 |
|
10月15至10月18日 |
研讨会召开,颁奖。 |
|
训练集: 400个精心构建的Image-Text对。其中Text包含两部分:
Prompt:生成该图像所使用的原始提示词。
Scores:该图像在多个预设评价指标上的二值标签,由人工标注。每个指标的判断标准为:
1(正确):该指标完全符合要求
0(错误):该指标存在问题
注意:训练数据个别标注可能存在瑕疵,请选手自行判断和处理。
测试集: 200个Image-Text对,其中Text只包含生成该图像所使用的原始提示词,不包含Scores。参赛队伍需预测其各项得分。
Image-Text对示例:
训练集将在 “训练集发布” 时间点后,提供下载链接。
测试集将在 “测试集发布” 时间点后,提供下载链接。
所有提供的数据集(训练集、测试集)仅限用于本次竞赛。
严禁在竞赛期间及结束后,在未获得组织方明确书面授权的情况下,公开传播或分享任何数据集。
参赛队伍需自行负责数据的安全存储和使用。
核心任务: 使用大模型对AIGC图像多维度质量评价
任务描述: 参赛队伍需训练或微调大模型(如多模态大模型),使其能够根据输入的单张静态生成图像,预测该图像在多个预设维度上的质量得分。参赛队伍只能使用一个大模型来完成比赛。大模型只需要给出每张图片在各个维度的评分,不需要给出评分的理由。
提示词-图像匹配度: 评估生成图像的内容、物体、场景、风格等是否准确、全面地反映了输入提示词的语义意图。匹配度指标示例如下:
主体一致性:图片中核心主体存在性、数量以及基本属性符合提示词。
不合格示例(0分):提示“狗”图片中没有出现;提示“红色衣服”生成“黑色衣服”。
场所完整性:场景类型、环境要素匹配提示词。
不合格示例(0分):提示“广阔的草原”,生成图片背景是丘陵;提示“茂密的热带雨林”,生成图片背景是沙漠。
空间关系一致性:主体在图片中的位置关系符合提示词。
不合格示例(0分):提示“狗在人左侧”,生成图片中狗在人右侧。
风格契合度:图片艺术风格等美学表达匹配提示词。
不合格示例(0分):提示词要求图片呈现油画风格,生成图片呈现水彩风格。
图像合理性: 评估图像内容是否符合物理规律、常识逻辑(如物体的比例、透视、光影合理性,场景的合理性等),是否存在明显的不合理或荒谬之处。合理性指标示例如下:
逻辑合理性:图片中重力、流体、光影等符合物理定律,图片主体符合生理规律
不合格示例(0分):悬浮物体无支撑;物体投影方向与光源方向相反;人有7根手指;狗有四只眼睛。
每项指标当且仅当所有要素都符合要求时,得1分,图片中任一要素不合格则该项指标得0分。
组织方将基于以上维度及内部讨论确定最终评价指标集及其精确定义,并在训练集标注中体现。
任务评价对象是已经生成好的静态图像文件。
允许且鼓励参赛队伍在训练/微调阶段使用自有数据或符合版权要求的第三方公开数据进行补充,以提升模型性能
所有外部数据的使用仅限于模型训练/微调阶段。严禁在测试阶段(即对竞赛提供的测试集图像进行推理时)使用任何外部数据或人工干预进行评分
本次竞赛参赛者使用的大模型参数量不建议高于14B,模型推理时单卡显存峰值占用应小于等于40GB
评价指标: 针对任务设置中的各个指标,采用加权F1分数 (Weighted F1 Score)作为核心评价指标作为核心评价指标。
计算公式:
: 评价指标数量
: 第j个指标的预设权重。本次比赛,各个指标权重相同。
:模型在第j个指标上的F1分数。
Weighted F1值越大,表示模型预测结果与真实标签的一致性越高,排名越靠前。
排名依据: 所有参赛队伍在测试集上的提交结果计算得到的 F1分数进行排序,F1分数大者排名靠前。
公平性保障: 组织方持有测试集的标准答案(人工标注得分),该答案在竞赛期间严格保密,仅用于最终评测和排名。
提交内容: 预测结果文件必须为 JSON 格式。
JSON 文件格式要求:
一等奖1名(奖金10000元人民币),二等奖1名(奖金各5000元人民币),三等奖2名(奖金各2500元人民币)。
组委会将举办挑战赛技术论坛,邀请优胜团队参加作特邀技术报告。
1. 各参赛队在赛前需签订数据使用协议,承诺本竞赛提供的数据集仅能用于本竞赛,不用于除本竞赛外的任何其他用途,并承诺数据不可扩散,主办方保留追究法律责任的权利。
2. 各参赛队需要承诺本队提交的结果可复现,参赛队所有的方案、算法以及相关的知识产权均属于参赛队伍所有,组织方承诺履行保密义务,并不用于除本比赛外的任何其他用途。
3. 参赛队伍应保证所提供的方案、算法属于自有知识产权。组织方对参赛队伍因使用本队提供/完成的算法和结果而产生的任何实际侵权或者被任何第三方指控侵权概不负责。一旦上述情况和事件发生参赛队伍必须承担一切相关法律责任和经济赔偿责任并保护组织方免于承担该等责任。
4. 竞赛期间,竞赛组织方坚持公开、公平、公正的原则。参赛结果评比由统一测试代码完成,如参赛队伍对公布结果有异议,可申请成绩复核。
China Society of Image and Graphics (CSIG)
Chinese Association for Artificial Intelligence (CAAI)
China Computer Federation (CCF)
Chinese Association of Automation (CAA)
Shanghai Jiao Tong University (SJTU)
AutoDL