[新闻] 赛题解读 | 城市治理之垃圾暴露检测算法赛| 数博会官网

赛题解读 | 城市治理之垃圾暴露检测算法赛

作者: 贵阳大数据交易所编辑: 蔺弦弦时间:2023-03-14 10:28:31

　　数字经济方兴未艾，正深入渗透到社会各领域全过程。由国家信息中心、贵州省大数据发展管理局、贵州省气象局、共青团贵州省委、贵阳市人民政府指导，贵阳大数据交易所主办的“数据场景应用创新大赛”正如火如荼地举办中，大赛致力于探究数据要素流通交易的应用场景和解决方案，助推数字经济发展，助力数字强国建设。

　　近日，由贵阳大数据交易所主办、北京易华录信息技术股份有限公司（以下简称“易华录”）协办的“数据场景应用创新大赛”—图片赛道“城市治理之垃圾暴露检测算法赛”解读及答疑活动在线上成功举办。易华录数据要素事业群技术副总经理魏健康对赛题进行了详细解读，并围绕参赛选手及团队提出的问题进行了答疑解惑。

－赛题解读－

　　探索城市治理，创新场景应用解决方案

　　城市治理已成为推进国家治理体系和治理能力现代化的重要内容。习近平总书记强调，“推进国家治理体系和治理能力现代化，必须抓好城市治理体系和治理能力现代化”“要着力完善城市治理体系和城乡基层治理体系，树立‘全周期管理’意识，努力探索超大城市现代化治理新路子”。

　　随着人们生活质量的提高，很多污染严重的残剩物被随意地丢弃，不仅影响市容，还给居民的生活带来极大困扰，为了达到利用人工智能技术进行垃圾暴露现象事件抓拍、证据留存的目的，本次图片赛道以“针对城市道路和社区环境中的垃圾暴露现象进行感知发现”为主题。赛道要求参赛选手根据提供的检测数据集，进行模型设计和优化。

　　本赛题中，垃圾按照数据集目标数量和类别被分为十类，每一类垃圾图片数量为几十至几千张。根据不同尺寸和形状的目标，数据集提供的原始图片分辨率也不同，分辨率像素区间为300—2048ppi，需要选手分析标签物体分辨率的分布范围，考虑模型的输入尺寸。

　　选手需对数据集进行去重和清洗，确保数据集中没有重复样本和错误标注信息。在数据预处理上，选手需对数据集进行预处理，包括对图片进行缩放、裁剪、归一化等，以及对标注信息进行格式转换和统一格式等操作，以便后续的训练和评估。在数据增强上，选手需对数据集进行增强，扩充、以增加数据集的多样性和丰富性，提高模型的泛化能力，在进行数据扩充时，需要保证扩充后的数据仍然具有一定的真实性和合理性。

　　在模型选择上，选手可选取基于Anchor-Based的RetinaNet，通过引入Focal Loss来解决类别不平衡问题，提高小目标检测的性能。CenterNet通过直接预测目标中心点和宽高，避免Anchor的生成和匹配过程，可极大简化模型架构；或基于Anchor-Free的yolo系列DETR—一种完全去除Anchor的目标检测模型，通过Transformer机制直接将目标检测转换为对象集合预测问题。FCN虽然被广泛应用于语义分割任务，也可适用于本赛题目标检测任务，通过在特征图上进行滑动窗口来实现目标检测。此外，选手还可以自由选择其他模型。

　　在Pipeline搭建上，选手可采用mmcv框架对相应的训练机制进行处理，在时间允许的条件下，可自行设计分类模型进行辅助；也可以将检测和分类结构融合到一个网络里，在特征提取之后进行双任务推理，最终将推理结果进行融合分析。此外，选手需注意最后提交的结果格式。

　　落实大赛保障，开拓大数据人才培养模式

　　一直以来，易华录围绕“收、存、治、用、易”主航道，开拓大数据人才培养多元模式，深入探索技能大赛人才培养方向，为国赛、省赛及专业领域赛事领域做出积极贡献。基于赛事的宝贵经验，针对大赛图片赛道“城市治理之垃圾暴露检测算法赛”赛题设置，易华录希望选手能够将技术引入应用，切实解决一些基层治理难题，实现城市治理数字化转型。作为大赛的协办单位，易华录提供了城市道路和社区环境等生活场景图片、垃圾暴露标注图片等赛题数据，并对图片中常见的垃圾暴露现象进行了标注，垃圾类别包含纸屑垃圾、打包垃圾、蛇皮袋垃圾等10类。赛题要求选手建立合理模型，以达到城市垃圾自动识别水平。

　　“作为本次大赛赛事的协办单位，易华录在贡献技术力量的同时，深度参与到大赛的运营当中，通过设立专业运营团队，确保‘时间、人员、责任’三落实；同时，作为社会可信的数据资产化提供商，易华录由衷地期望能够以本次大赛为契机，与贵阳大数据交易所一同搭建数据市场供需方的桥梁，充分释放数据价值，真正为实际应用场景提供数据赋能。”魏健康表示，“我们希望选手能够将技术引入应用，切实地解决基层治理的一些难题，实现城市治理的数字化转型。”

　　当下，信息技术的快速发展推动生产方式、生活方式和治理方式的深刻变革，城市建设和社会发展之间的相互影响日益增强，智能建造和新型智慧城市正推动城市规划建设领域转型升级，推动新型城市建设已成为时不我待的重要命题。大赛聚焦前沿信息技术在城市规划建设领域中的创新应用成果落地，期待各位参赛选手的精彩角逐，希望选手能够享受比赛，赛出水平、赛出风格、赛出成绩。

－答疑环节－

　　Q：请问最终成绩以什么为准？多少名可以进入决赛？

　　以3月20日打榜的最终结果为准，每天有2次打榜的机会，各位参赛选手在打榜时间之前提交作品，最终有20支队伍可以进入决赛，如组委会在审核作品过程中发现问题，比如作弊或者抄袭等，名次将往下顺延。

　　Q：标注框坐标数值要用float吗？

　　坐标值一般是用float，但是也可以用int，评分系统对这个没有要求。

　　Q：训练集里有部分场景，标注规范不一致，参赛选手在识别的时候，有些carton堆叠在一起，有的是逐个标注的，每个carton一个独立的标注框。请问在我们识别的时候，是把堆叠的物体识别成一个，还是单独标注一个框？

　　建议按照大的标注框进行召回。但是要考虑数量的多少，在数量很多的情况下，可以按照大标注框召回，如果数量很少，可以加判断的标准，需要实际地去操作。

　　Q：训练时发现了数据中有标注错误的图片怎么办？

　　图片难免会出现标注错误的现象，占比很少，可以视为噪声或者是干扰数据，也相当于一定程度上增加了比赛难度，选手可以充分发挥自身能力，找到合适的数据处理方法，或者选择一些合适的模型，从而达到比较精准的预测结果。

　　Q：图片数量是只有3806张吗？

　　比赛共提供了7806张城市的各场景的图片，其中4000张作为训练集，对图片进行了框选的标注，并提供了XML格式的标注文件，剩余的3806多张是作为测试级供选手去打榜。

　　Q：提交的文件里面图片没有目标，需要加一个空的字典吗？

　　没有强制要求，可以提交空的字典，也可以去掉图片的ID。如果不足3806张，我们会对未提交的图片作漏识别处理。

　　Q：打榜的时间是否可以改变？是否可以多次提交，按最高记录保存？

　　目前打榜时间是早晨十点，晚上八点，每天两次，打榜时间目前暂时不会进行调整，同时打榜的成立是以最新的一次成绩为最终的结果，目的是让选手去开动思维，不断锻炼自己的模型，希望各参赛选手能使用先进的方法及创新的手段获得一个更好、更高的评分。如果说按最高成绩作为最终结果，就会存在选手考虑到分够高后不会再去优化的情况。所以按照最后的一次成绩作为最终的成绩，让大家不断地去训练自己的模型，提交更优质的作品，作为最终的结果。

　　Q：能实时评分吗？

　　目前没有实时评分，各位选手在提交的时候注意节点及最后打榜时间。

- 大赛详情 -