年度最高奖金【双百万】:2021年全国人工智能大赛开赛啦
点击阅读原文可到大赛官网:https://naic.pcl.ac.cn/landingpage/2021/index.html
赛道一:AI+无线通信
赛题链接:https://www.heywhale.com/home/competition/61b810c9902a13001708eb21/
一、初赛阶段
1、赛题描述
无线通信复杂多场景下的高维信道智能压缩反馈及重建
赛题支持单位:东南大学移动通信国家重点实验室、北京邮电大学-中国移动研究院联合创新中心
1)赛题背景
当今大规模无线通信系统面临着天线阵列扩增所带来的高维信道状态信息(CSI)的传输挑战。随着 6G 系统天线数量增长,高维信道信息维数大幅扩增,需要先在发射端进行压缩再反馈,以减少传输开销,之后在接收端进行解压和重建,恢复原始的高维信道信息。信道状态信息体现信道特性,可以被看作是高维低秩的图像,信道状态信息压缩反馈重建的问题则可以被转化为高维低秩图像的压缩与重建问题。
近年来,人工智能 (AI) 在无线通信领域显示出巨大潜力。AI 辅助的高维 CSI 压缩与重建模型已经超越许多传统算法,取得了非常好的性能。但系统在实际应用中往往面临丰富且复杂的信道场景,且目前大部分 AI 模型只能适用于单一场景的信道信息,对于多场景信道信息适应能力较差。如何提升智能压缩反馈网络对复杂多场景 CSI 的适应性是目前的痛点和难点之一。
该赛题面向真实多场景通信需求,以海量复杂多场景数据为驱动,充分挖掘 AI 的无限潜力,寻找出高效适用于多种场景 CSI 的智能压缩反馈重建模型,赋予智能通信系统灵活性和通用性,有望解决现有智能通信方法的局限,引领未来智能通信系统的前沿研究。
2)初赛任务
大赛将提供真实无线通信场景下采集的信道数据,鼓励参赛选手采取数据驱动的思路和采用深度学习的方法来设计适用于真实多场景下的信道数据的低复杂度 AI 算法,在保持反馈开销一定的情况下,尽量追求模型的重建精准度。
针对多个复杂场景下的真实大规模天线阵列通信信道,采集到的数据是 10,000 个信道数据样本,覆盖若干个复杂场景与采样点。每个样本是一个矩阵(单个样本可视为一张图片)。随机划分 8,000 个样本作为训练数据给予选手,2000 个样本作为验证数据给予选手。选手需要设计合理的神经网络结构来进行信道数据(等同于图片)的压缩和重建。
本赛题规定压缩后的单个样本大小为 512 比特,即压缩后传输的管道容量为 512 比特。本赛题主要考察模型的重建误差,即原始高维信道信息和经过压缩重建后的信息之间的误差。
2、数据描述
初赛训练集:信道数据来源于多个复杂场景下采样得到的真实无线信道信息,数据集包含 10,000 个信道数据样本,覆盖多个复杂场景,每个场景包含若干样本。每个样本是一个 126*128 的二维 CSI 矩阵(可以把单个样本视为一张图片),其中 126 代表时延抽头数目,128 代表天线数目(32 发 4 收)。每个场景内的 CSI 样本具有一定的特征相关度。
真实数据采样配置参数如下:
数据来源 | 多场景实测数据 |
---|---|
频段 | 3.5GHz |
带宽 | 100MHz |
发射端天线配置 | 4×4双极化天线均匀面阵,(4×4×2=32) |
接收端天线配置 | 1×2双极化天线均匀线阵,(1×2×2=4) |
时延抽头数目 | 126 |
样本数 | N=10000 |
实测数据已经过部分数据预处理工作(包括去噪、DFT 转化、归一化处理(到[0,1])、实部虚部分开处理等),数据集格式说明如下:
数据名称 | 格式说明 |
---|---|
训练集:Htrain.mat | 8000×126×128×2的实数样本样本数:8000实部与虚部:2 |
验证集:Htest.mat | 2000×126×128×2的实数样本样本数:2000实部与虚部:2 |
1)数据样例
126×128 的 CSI 灰度图样例,分别为实部、虚部、模值可视化
2)数据及参考材料下载
材料名称 | 材料描述 | 下载链接 |
---|---|---|
初赛训练集 | Htrain.mat包含 8,000 个信道数据样本,Htest.mat包含 2,000 个信道数据样本。 | 待上线后更新 |
示例程序(tensorflow版本) | 参考baseline | 待上线后更新 |
示例程序(pytorch版本) | 参考baseline | 待上线后更新 |
本次比赛数据由鹏城实验室提供,仅可用于本次比赛,不得用于任何商业用途。
赛道二:AI+视觉特征编码
赛题链接:https://www.heywhale.com/home/competition/61b81042902a13001708eb17/
一、赛题背景
为配合国家“加快数字化发展,建设数字中国”战略,促进视觉信息智能编码技术领域的原始创新积累,本次人工智能大赛设立“ AI+视觉特征编码赛道”(以下简称赛道)。
赛道面向视觉大数据应用,针对码率约束条件下的机器视觉任务,探索视觉信息压缩技术与智能处理分析技术的融合。传统方案中视觉信息编码和机器视觉任务作为独立模块分别优化。区别于传统路线,本赛道综合考虑了视觉信息编码效率和机器视觉任务性能,结合传统信号处理技术与人工智能技术,提升精度,优化效率,改善泛化性。
赛道鼓励选手:
联合优化视觉信息编码效率和机器视觉任务性能。
视觉特征压缩码流应具有较好的泛化性。
视觉特征压缩模型与再识别算法应尽量降低计算复杂度。
赛题支持单位:中山大学电子与信息工程学院、北京大学计算机学院、数据堂(北京)科技股份有限公司
1、初赛任务
初赛任务包括行人/车辆视觉特征编码和行人/车辆再识别单独的两部分。
赛道主办方提供行人/车辆的原始视觉特征,选手按规定的预设码率对特征进行压缩和重建。根据原始视觉特征的重建误差得分。
在初赛第一阶段,选手需要进行再识别任务,获取再识别性能得分。第一阶段排名前 200 的团队将进入初赛第二阶段,进行重建特征任务的测评,获取重建误差得分。
初赛得分为重建误差得分和再识别性能得分的加权平均值。
若初赛得分一致,将依据特征重建任务中提供的模型算法先进性与创新性进行排序。
单幅图像的特征压缩操作点(Operating Point)预设 3 个码率:64 字节、128 字节和 256 字节。视觉特征压缩超过预设码率视作无效。
2、复赛任务
复赛任务包括 3 部分联合任务:行人/车辆视觉特征提取、行人/车辆视觉特征压缩编码以及行人/车辆重识别。
赛道主办方提供行人/车辆图像,选手需提取具有良好泛化性与语义抽象力的视觉特征,按规定的预设码率对该特征进行压缩和重建,并使用重建特征进行再识别任务,获得再识别任务性能得分。特征压缩超过预设码率视作无效。
选手对大赛提供的视觉特征进行压缩和重建,根据特征的重建误差得分。特征压缩超过预设码率视作无效。
复赛得分为重建误差得分和再识别任务性能得分的加权平均值。赛道主办方将通过代码及文档复核刷掉违规与存在严重异常的队伍。
选手得分相近的情况下,依据文档提供的模型算法先进性与计算复杂性的定量/定性分析进行排序。
单幅图像的特征压缩操作点(Operating Point)预设 3 个码率:64 字节、128 字节和 256 字节。视觉特征压缩超过预设码率视作无效。
3、决赛任务
决赛任务包括 3 部分联合任务:行人/车辆视觉特征提取、行人/车辆视觉特征压缩编码以及行人/车辆重识别。
赛道主办方提供行人/车辆图像,选手需提取具有良好泛化性与语义抽象力的视觉特征,按规定的预设码率对该特征进行压缩和重建,并使用重建特征进行再识别任务,获得再识别任务性能得分。特征压缩超过预设码率视作无效。
选手对大赛提供的视觉特征进行压缩和重建,根据特征的重建误差得分。特征压缩超过预设码率视作无效。
决赛客观得分是重建误差得分和再识别任务性能得分的加权平均值。主观得分基于专家委员会对于特征提取与压缩编码技术的先进性、复杂度、场景适配性的综合考量。决赛最终得分是客观得分和主观得分的加权平均,客观得分的权重为80%,主观得分的权重为20%。
决赛将在鹏城云脑超算平台上进行。
单幅图像的特征压缩操作点(Operating Point)预设 3 个码率:16 字节、32 字节和 64 字节。视觉特征压缩超过预设码率视作无效。
二、数据描述
初赛所用的训练集将提供行人/车辆的原始视觉特征,选手按规定的预设码率对特征进行压缩和重建。根据原始视觉特征的重建误差得分。
所有参赛队伍需要基于大赛提供的训练集进行模型训练与调优,并在给定的测试集上运行结果。
初赛、复赛、决赛的难度将递增。
1、初赛训练集
含有 259,450 个训练特征文件和对应的ID标签,可以用于模型训练
每个特征文件提供行人或车辆的对应ID标签,共有 259,478 个匹配对应关系
标注文件将由文本文件提供。文本文件每一行提供一个标注
标注格式为:文件名 ID
文件组织结构如下:
train
├── train_feature
└── train_list.txt
2、初赛测试集
初赛测试集仅用于第一阶段(再识别任务)的测评,测试集分 A/B 榜,不提供 ID 标签,其中:
A榜( 开放时间:2021-12-20 (12:00:00 中午) 至 2022-02-13 (12:00:00 中午) ):测试集由 gallery_feature_A 与 query_feature_A 组成,其中 query_feature_A 包含 20,000 个特征文件,gallery_feature_A 包含 428,794 个特征文件,用于参赛队伍模型评估;
B榜( 开放时间: 2022-02-13 (12:00:00 中午)至 2022-02-15 (12:00:00 中午)):测试集由 gallery_feature_B 与 query_feature_B 组成,其中 query_feature_B 包含 10,000 个特征文件,gallery_feature_B 包含 210,939 个特征文件。测试集将于B榜提交开始后在大赛页面提供下载,用于第一阶段最终的成绩评定和排名。
文件组织结构如下:
test_A
├── gallery_feature_A
└── query_feature_A
test_B
├── gallery_feature_B
└── query_feature_B
三、数据下载
数据名称 | 数据描述 | 下载链接 |
---|---|---|
初赛训练集 | 含有 259,450 个特征文件,特征文件名与对应的原始图像一致,特征文件为小端储存的 32 位浮点数表示的固定长度序列。 | 待上线后更新 |
初赛第一阶段A榜 | query包含 20,000 个特征文件,gallery包含 428,794 个特征文件,特征文件名与对应的原始图像一致,特征文件为小端储存的 32 位浮点数表示的固定长度序列。 | 待上线后更新 |
初赛第一阶段B榜 | query包含 10,000 个特征文件,gallery包含 210,939 个特征文件,特征文件名与对应的原始图像一致,特征文件为小端储存的 32 位浮点数表示的固定长度序列。 | 待上线后更新 |