1. 基于视觉的驾驶系统行人检测及测距

方法流程摘要: 保障行人安全是道路交通安全系统的重要目标之一,这使行人检测作为驾驶辅助系统(advanced driver assistance systems,ADAS)中的核心组成部分。其中获取准确的行人距离十分关键,对此本系统在行人检测模型的基础上加入了行人距离预测分支,提出了一种基于车载视频的行人检测与测距方法,在使用单目摄像头的情况下,可以在检测行人的同时完成对行人与摄像头之间距离的预测。下图为行人检测测距系统流程示意图:

同时,本课题将该模型部署到了基于树莓派 3B 和 Intel NCS2 神经网络计算加速棒的嵌入式平台上,实现了一个简单的行人距离预警系统,系统从摄像头或者视频文件读取视频流,当行人距离摄像头的距离过近时,系统发出预警。实际运行结果如上图所示。

方法优点: 1、同时完成行人检测和测距,采用深度神经网络的方法,对摄像头或视频文件获取的视频流进行处理,对于距离太近的行人发出预警信号。 2、相比传统使用激光雷达测距的方法,极大的降低了成本。 3、轻量化的模型,兼容国产人工智能处理芯片(海思,瑞芯微等),可达 到实时处理的要求。 4、行人检测 mAP 达到 98%以上,距离预测误差小于 5%。

2. 安全帽佩戴情况检测

在建筑施工现场,为避免建材从高处坠落造成人员伤亡,所有进入施工区域的人都被要求佩戴安全帽。而常有工人不遵守安全规范,摘下或忘戴安全帽,有着严重的安全隐患。本课题组针对这一问题,基于监控视频对建筑工地上人员的安全帽佩戴情况进行检测识别。如图所示,佩戴安全帽与不佩戴安全帽、佩戴其他类型帽,分别以黄色、红色与蓝色框标出。该课题完成了对安全帽佩戴检测的自动识别。课题中采用深度神经网络的方法,对不同类型的带帽人员以及不戴帽人员进行检测和良好的属性区分,方法具有一定的实时性。

优点: 1、实现对安全帽佩戴的自动检测,采用深度神经网络的方法,对不同类型的带帽人员以及不戴帽人员进行检测和良好的属性区分,实时性较强。 2、轻量化的模型,兼容国产人工智能处理芯片(海思,瑞芯微等),可达到实时处理的要求。 3、模型的 mAP 可以达到 90%以上。 4、通过使用多线程完成对多路视频的并行处理。

应用及成果: 开发的系统已经在杭州市江干区住建局成功使用。

3. 单菜品属性识别系统

本系统通过计算机视觉技术提供了一种菜品食材等属性信息的识别方法。通过对菜品细粒度特征的识别,实现了百种预设菜品的主要食材、菜品口味特色、适宜人群推荐、相似菜品推荐、以及菜系、烹饪方式等属性信息的识别。如下图为自动菜品结账系统系统流程示意图。

优点:1) 细粒度识别与多标签学习相结合,优化多属性学习,标签不均衡问题,相对于现有人工智能的细粒度菜品识别方法,拓展了菜品的口味特色、菜系、烹饪方式等多属性信息,提高了识别精度。 2) 轻量化的模型,兼容国产人工智能处理芯片(海思,瑞芯微等),可达到实时处理的要求。 3) 百种菜品的识别精度达到现存方法中最高,属性识别精度达到 95%以上。

应用及成果: 本项目获微软亚洲研究院 2019 学术日 Real World Scenario Award 奖。

4. 多菜品识别系统

本系统实现基于视觉的自动菜品结算系统,通过对菜品种类及食材的识别,获取具体的摄入菜品种类和数量,实现营养成分的估计,提供了一种基于细粒度识别的菜品自动结算及饮食健康管理方法。实现了共计百种食物的识别。如下图为自动菜品结账系统系统流程示意图。

优点: 1) 检测和检测相结合,按照大类检测和细致类别检索相结合的识别,相对于现有人工智能的检测识别方法,具有速度优势并且具有识别类别扩展性。当识别的类别发生增补是无需重新训练模型。 2) 轻量化的模型,兼容国产人工智能处理芯片(海思,瑞芯微等),可达到实时处理的要求。 3) 200 道菜的识别性能达到 98%以上。 4) 开发的系统已经在微软亚洲研究院试点应用。

钱学明、彭豪、侯兴松、邹屹洋、李纬.一种基于细粒度识别的菜品自动结算及饮食健康管理方法:(专利受理)

5. 货柜商品识别系统

智能无人货柜得益于其体积小巧,售卖场景多样、用户购物交互体验强的优点,受到大众的欢迎。摈弃了现有基于计算机视觉技术的智能无人货柜识别商品类目少的缺点。本系统将计算机视觉的检测与检索技术相结合,共同实现了智能无人货柜的近百种商品识别系统。下图为本系统的实现流程示意图。

优点: 1) 检测和检测相结合,按照大类检测和细致类别检索相结合的识别,相对于现有人工智能的检测识别方法,具有速度优势并且具有识别类别扩展性。当识别的类别发生增补是无需重新训练模型。 2) 轻量化的模型,兼容国产人工智能处理芯片(海思,瑞芯微等),可达到实时处理的要求。 3) 高识别性能 100 类典型的商品识别性能达到 99.5%,能够对人为产生商品倾倒、损毁和杂物入侵具有实时报警。

应用及成果: 开发的系统已经在山东新北洋信息技术股份有限公司测上线应用。

6. 人员口罩检测(或者特定服饰等)

当前我国大范围爆发了新型冠状病毒(2019-nCoV)感染,我们在支持疫情一线的医护人员的同时,也要做好个人的防护措施。其中佩戴口罩对于防止疫情蔓延至关重要,但仅靠人工监督,效率太低且耗费大量人力。本项目基于这个问题,提出了一套对是否佩戴口罩自动检测和预警系统。如下图为口罩检测系统流程示意图。

方法优点: 1、实现对口罩佩戴的自动检测,采用深度神经网络的方法,对是否佩口罩进行检测和良好的属性区分,实时性较强。 2、轻量化的模型,兼容国产人工智能处理芯片(海思,瑞芯微等),可达到实时处理的要求。 3、识别性能达到 99%以上。

7. 行人检测、检索系统

本系统可从监控视频中检测出所有行人,使用截图功能设定目标人物,可自动定位到其他时段出现的该行人。如下图所示,截取行人正面照片,可定位到该行人被监控摄像拍到的侧面以及背影。可以看到,目标人物的其他时间点所拍摄到的照片,均在排列靠前的搜索结果中。该系统中,对象(行人、车辆等)采用深度特征描述,采用特征匹配和搜索的方法,可以在历史数据中找出当前对象相似的目标。

8. 基于司机状态识别的辅助驾驶方法研究

本系统对司机状态识别来达到辅助驾驶的功能,通过对司机状态进行拍摄监测,通过检测模型来得到司机实时的面部区域和手部区域,进而对面部区域进行关键点检测和对手部区域进行分心状态识别,从而对司机是否疲劳驾驶和分心驾驶作出判断,并对司机进行提醒预警,起到辅助驾驶的作用。共实现了对司机闭眼、打哈欠两种疲劳状态以及玩手机分心状态的监测,其中,对唇部打哈欠、眼部睁闭眼状态识别的准确率分别达到 99.07%、94.6%。如下图为驾驶员驾驶状态监测系统流程示意图。

本系统通过对当前摄像头前人物的眼部特征进行监测、处理识别,可判断出其是否处于疲劳状态,演示效果如图所示,右上角概率设为非疲劳的预测值,当人物闭眼时,标记框为红色并报警,当人物睁眼时标记框为绿色,判断其为非疲劳状态。

方法优点: 1) 在整个检测过程中,对面部和手部区域分别进行处理,当后续需要增加识别手部其他状态时,无需重新训练检测和面部关键点检测的模型,只需再次训练手部状态识别这一小部分模型,具有状态识别可扩展性。 2) 轻量化模型,整个系统在 GTX 1080 显卡下可达每秒 22 帧,满足将来在人工智能芯片上布控的速度要求。 3) 针对唇部状态的识别率达到了 99%以上,眼部状态的识别率也高达 94.6%。

应用及成果: 该算法可以较好地应用到司机辅助驾驶的功能使用中,来起到事故的主动防御作用,达到更安全的出行。

9. 基于AI与大数据学习的高铁受电弓状态监视

自动检测受电弓状态、受损情况、弓角异常、打火等及预警。实现满足电车工控机运行条件的可视化QT软件,覆盖实用的基础功能,安装简便,适用简易。

10. 监控视频之对象检测及检索

设计算法和应用软件,实现对行人、车辆、人脸等对象的检测和检索。

11. 人脸表情分类系统

本系统可以从摄像头和本地视频中读取数据,对数据中的人脸表情进行happy(高兴)、sad(悲伤)、feared(害怕)、angry(生气)、disgusted(困惑)、 surprise(惊喜)、nothing(无)八分类。并根据视频中的人脸实时统计出每种表情所占的比例。

12. 基于AI的管廊智能运维

基于管廊机器人拍摄的视频画面进行自动的积水、异物入侵、支架脱落、管线走线不规范、乱拉线缆等进行实时的检测并预警。 目前该系统已应用于西安沣西一期24公里的地下管网的自动运维,并在郑州管廊推行试点中。

12. 多目标跟踪检测

13. 基于AI与大数据学习的新闻挑图与剪裁

提出基于优美度和内容多样性的新闻封面自动生成方法,利用卷积神经网络(CNN)对图像优美度进行评分并排序,然后利用优美度监督的图像裁剪方法对候选封面进行裁剪,最后基于图像内容多样性筛选出新闻封面。

14. 基于跨模态联合聚类的热点事件发现与展示

主要是对网上热点事件的相关情况进行汇总针对特定事件进行跨模态数据挖掘,通过用户-文本-图片之间的跨模态联合聚类,自动抽取与事件内容相关的文本与图片并进行图文并茂的展示。基本任务:热点事件挖掘、总结与展示。基本原理:跨模态数据挖掘。基本方案:首先通过爬虫进行微博数据的获取,然后对图像和文本数据进行双层过滤、接下来对用户-文本-图像进行跨模态联合聚类,得到聚类数据后提取代表性图片和文本进行事件摘要生成与展示。

关键技术点:设计了一个跨模态联合聚类算法;利用基于谷歌距离的语义相似度来搜索事件相关词汇;利用文本和图片的特征计算图文相关矩阵;利用用户关注的文本相似度和视觉相似度来表征用户微博关注相似度;通过计算用户-图、图-文、文-用户三者之间的联合概率矩阵,进而利用相似性传播的方法加强多模态数据之间的关联;通过找出能使联合概率矩阵的 Bregman 信息最小的最佳的类别划分,从而完成用户、图片、文本数据的联合聚类。

应用及成果:相关成果已发表在IEEE TMM 2020 和KBS 2019 上。

15. 跨模态检索(新闻自动配图)

以往新闻配图主要是编辑来做,但为了节省人力,需要计算机自动进行选图配图,基本原理则是通过标题-图片的相似性度量,找到最匹配的图片。基本方案是对图片和新闻标题文本进行深度特征提取,通过最小化三元组学习,来衡量新闻标题和图片之间的相似性,找到最合适的新闻图片。

关键技术点:使用深度学习网络Faster-RCNN获取图像中的目标区域,使用ResNet提取目标区域的视觉特征;提出了一种基于目标区域所在位置的注意力机制,融合了图像中目标的区域位置信息和目标区域本身的视觉特征信息,可以突出图像想表达内容的重点信息;文本部分的特征提取使用的是Bi-GRU和BERT;使用Stack Cross Attention机制学习图像特征和文本特征之间的联系,将图像目标区域和文本单词进行一一对应;设计一个Triplet Loss函数来进行模型优化,得到高质量的跨模态检索模型。

应用及成果:目前该成果已发表在IJCAI2019,TIP2018,并且应用到腾讯新闻当中,我们的模型在科技新闻频道中找到的新闻图片的正确率为84%,在历史频道当中模型正确率97%,在国际频道中模型的正确率95%,大大减少了新闻媒体编辑的工作量。上图为具体配图的实际样例。

16. 基于用户偏好的推荐可解释性研究

个性化推荐理由生成是在推荐商品的时候,计算机自动生成一句合适的推荐理由,例如给一个半夜还未睡觉的用户推荐一首歌曲,写上一句这样的推荐理由“半夜听到这首歌,满满的都是回忆”。 这样推荐理由就和用户特性非常贴切,容易引起用户兴趣,获得用户的情感认同。我们研究了针对歌曲推荐的个性化推荐理由生成方法,首先通过用户评论挖掘出用户偏好,进而根据用户偏好,在推荐歌曲的同时自动生成一句符合用户偏好的推荐理由,说服用户接受该推荐。该算法目前已成功运用到微软人工智能聊天机器人小冰中,成为其推荐方面的核心算法之一,显著提升了用户对推荐歌曲的点击率,在学术界以及企业界受到了广泛好评。

关键技术点:根据词嵌入(Word2Vec)挖掘用户偏好标签之间的相似度;利用手工设计的文本匹配规则挖掘用户评论,找到可以用来做推荐理由的评论;利用TFIDF抽取歌词里的关键词,并根据文本生成模型Seq2Seq以及Transformer来设计推荐理由生成模型,并结合多层注意力机制来提升生成质量;结合N-gram语言模型、文本依赖关系(dependency parsing)图以及文本生成概率设计了一个文本生成质量自动评估模型,帮助滤除生成质量较差的结果。

应用及成果:该成果应用到了微软小冰聊天机器人当中,显著提升了用户对推荐歌曲的点击率,成为其音乐推荐方面的核心算法之一。相关的工作已经发表在IEEE TMM 2019, TKDE 2020 , ACM TIST 2019 上。

17. 文本生成项目(微软亚洲研究院)

计算机写诗项目是给计算机输入一张图片,通过算法可以生成一首现代诗。首先,利用基于CNN的图像识别技术,识别出图中的内容,然后将图中的内容作为关键词,进行相关词汇的扩展联想,完善关键词,再然后利用自然语言处理里常用的双向LSTM进行文本生成,得到最终的诗歌。

应用及成果:该算法应用到了微软小冰中,微软小冰式微软开发的人工智能机器人,以机器人小冰的身份出版了第一部人工智能诗歌作品集《阳光失了玻璃窗》,该项目就结合了计算机视觉以及自然语言处理相关的技术,学习了近代近519位诗人的6万多行诗歌,完成了看图写诗这样的项目。

18. 社交用户信息认知与挖掘

网络上用户产生的大量的数据信息对用户认知、推荐系统等有重要作用。本课题组研究了网络媒体用户社交圈及用户影响力,用户所在的时空等上下文信息的用户评价置信度和服务推荐系统。相关研究取得了阶段性的研究成果,具体包括基于用户社交圈认知的推荐、用户评价置信度认知的商品推荐、检索结果排序等。

关键技术点:利用矩阵分解技术设计算法模型;利用社交好友之间的点评类别标签上设计了一个用户间兴趣相似度函数;利用用户的点评类别标签和商品的类别标签信息设计了一个用户对商品的兴趣相似度函数;利用社交图关系,将用户社交圈划分为直接好友、共同好友、间接好友,并根据好友间点评的时间差异、评分差异等设计了一个用户影响力传播函数;利用信息墒概念,设计了一个用户置信度评估函数,评估用户个性化评分与大众评分之间的差异。

成果:相关的工作已经发表在IEEE TKDE 2014, IEEE TMM 2016, TBD 2017, TKDE 2016, TKDE 2020 上。

19. 基于上下文环境的个性化推荐

精确地了解用户和项目所处的场景信息,并将相关场景信息应用到推荐算法中可以显著提高推荐准确率。因此对上下文环境的多模态数据进行恰当的表征对推荐系统来讲是有必要的。本课题组已在文本、图像、时间序列数据、地理位置数据 、知识图谱等数据的表示学习方面开展了深入研究,并通过深度学习将多种特征进行融合,提升了推荐系统的准确度。例如在表情推荐当中,不仅考虑到当前文本特征,还要考虑用户性别、偏好、当前时间、以及表情特征等,进而对候选emoji表情进行排序推荐。

关键技术点:利用Word2Vec、Doc2Vec、Bi-LSTM、FastText、TextCNN、BERT、Sentence-BERT等提取文本特征或序列特征;利用嵌入方法表征用户性别、时间、表情、地理位置、类别信息等特征;通过attention机制融合不同类型的特征;设计了融合上下文环境的BPR(Bayesian Personalized Ranking)算法模型。

成果:相关的工作已经发表在IEEE TKDE 2020, TMM 2016, IJCAI 2019, TBD 2017, TKDE 2020, KBS 2020上。