联系我们

  • 地址:安徽省合肥市高新区5089号
  • 邮编:230000
  • 传真:0551-65708002
  • 网址:https://iat.ustc.edu.cn/
  • 邮箱:zhb@iat.ustc.edu.cn

工作动态

当前位置: 首页 > 企业发展 > 工作动态 >

中国科大&湛达智能参赛团队蝉联2021图文识别与推理挑战赛冠军

文章来源:本站原创

发布时间:2021-06-11 08:29:37

文章作者:本站编辑

      2021年06月08日,由CCFA类国际顶级会议-国际计算机视觉与模式识别大会(以下简称IEEE/CVF CVPR 2021,图1)主办的图文识别与推理-商品价格预测挑战赛(以下称“RetailVision Product Pricing in the Wild Challenge”)公布了竞赛结果并举行了颁奖典礼。


       经过近3个月的激烈角逐,由合肥湛达智能科技有限公司首席科学家、中国科大信息学院自动化系於俊老师指导的USTC-NELSLIP参赛团队(成员:於俊、张力文、崔泽宇、谢皓年、张中、余烨、苏雯、高放、双丰等)荣获冠军(图2)。该团队成员来自中国科学技术大学、合肥湛达智能科技有限公司、合肥工业大学等单位。值得注意的是,该团队也曾于2020年参与此项挑战赛的前身“IEEE/CVF CVPR 2020超大规模商品图像检测挑战赛”,并获得冠军。

1.jpg

图1 IEEE/CVF CVPR 2021

2.jpg

图2 获奖证书


      IEEE/CVF CVPR 由电气与电子工程师协会(IEEE)和计算机视觉基金会(Computer Vision Foundation:CVF)共同主办,是计算机视觉和模式识别领域最重要和权威的国际顶级会议(网址:http://cvpr2021.thecvf.com/),根据最新的谷歌学术影响因子统计,IEEE/CVF CVPR在泛人工智能(AI)领域排名第一。

      计算机视觉和机器学习的快速发展对零售业造成了巨大的冲击,推动了在线购物的兴起,同时传统实体店也在尝试采用人工智能相关的技术解决方案。针对这一现实场景,在IEEE/CVF CVPR 2021上举办的图文识别与推理-商品价格预测挑战赛“RetailVision Product Pricing in the Wild Challenge”(网址:https://retailvisionworkshop.github.io/pricing_challenge_2021/)收集了来自世界各地的数千家超市的海量货架图片,每张图片平均包含数百个密集的商品。此外,竞赛数据集中图片的质量、拍摄角度以及光照条件是十分不一致的,这也加大了竞赛的难度。针对上述严峻挑战所带来的全新任务,该挑战赛要求参赛者提出一种通过高精度检测与识别商品所在货架上的价格标签来可靠地预测商品价格的鲁棒算法。

3.jpg

图3 解决方案流程图


      在比赛中,USTC-NELSLIP参赛团队首先分析了数据集的特点,发现数据集中商品均有对应的价格标签,且商品价格可以通过对价格标签进行文本识别来获得。鉴于此,团队首先设计了优良的目标检测算法(Cascade R-CNN+ResNeX+PAFPN等)来找出图片中的价格标签,接着提出鲁棒的推理算法(基于检测Score+匹配置信度来生成决策策略)使得商品与价格标签建立一一对应的关系,然后通过对价格标签进行高精度的文本识别(Robust Scanner等)以获得最终的商品价格预测结果。为了增加检测和识别的精度,团队还对图像的尺寸进行了调整并且同时加入了数据增强等技术。USTC-NELSLIP参赛团队所提出的解决方案总体流程如图3所示。

      本次竞赛吸引了包括Google研究院、FaceBook研究院、中国科学技术大学等国内外著名研究机构在内的众多队伍参赛,经过激烈的比赛,最终USTC-NELSLIP参赛团队荣获了冠军(图4)。


5.jpg

图4 图文识别与推理-商品价格预测结果展示


      本次竞赛得到了国家自然科学基金联合基金、中国科学技术大学探索类基金等项目的支持。


      合肥湛达智能科技有限公司是中国科大先研院持股孵化的国家高新技术企业,是国际领先的高动态视觉算法公司。其专注于用人工智能技术实现在高速移动时,对环境进行多维度精准感知,并提供一体化的解决方案。此次大赛中所使用到的图文识别与推理解决方案,同样适用于城市及道路上各种标志标牌等图文用语识别与推理,有助于增强智慧城市、智能驾驶、智能网联系统的场景理解及信息感知能力。