深圳大学沈琳琳：从数据喂养到自监督自主学习

10月28日，由深圳市工业与信息化局、深圳市福田区人民政府指导、高科技行业门户OFweek维科网主办、OFweek维科网·人工智能承办的“OFweek 2020（第五届）人工智能技术创新论坛”在深圳福田会展中心5楼·牡丹厅隆重举办。

论坛聚焦时下正火热发展的人工智能产业，从基础理论知识、行业发展脉络、行业发展现状、成功应用案例等角度切入话题，与产业专家、企业领袖、现场及网络观众们共同探讨人工智能产业当前的发展现状、所面临的各种现实挑战以及优秀的落地实践案例。

本次论坛荣幸邀请到深圳大学计算机视觉研究所所长、深圳大学教授沈琳琳出席并发表《从数据喂养到自监督自主学习》的主题演讲，利用多个实践案例详细介绍在数据有限的情况下，如何通过数据增强的方式来建立训练模型，以及人工智能通过自监督任务实现自主学习的过程。

深圳大学教授沈琳琳（来源：OFweek维科网）

通过数据增强建立训练模型

沈教授在会议上指出，驱动人工智能发展的三架马车分别是算法、算力和数据，其中算法是引擎；算力是加速器；数据是燃料。当前人工智能被广泛应用于医疗领域的分析诊断，传统的医疗诊断过程需要医生与患者观察交流，填写量表，然后依赖医生的经验来做出主观诊断。一旦患者症状不明显，往往无法准确判断或是浪费大量检查时间，所以医疗机构希望人工智能通过深度学习之后，可以快速利用数据比对分析得出有效甄别，辅助早期诊断。

但在实际的数据采集过程中，往往存在数据样本偏少等问题，无法满足人工智能深度学习的需求。所以我们需要通过角度旋转、添加高斯噪声等数据增强方式裂变出更多有效数据，从而顺利建立训练模型。

以全切片图像为例，将30张图片分为HPV病毒细胞、炎症细胞、滴虫细胞、萎缩细胞和正常细胞5类，图像尺寸大小为72468 x 91998。先检测出感兴趣区域（ROI），然后在上面通过滑动窗口取224 x 224的patch。总共选取22695patch，其中HPV：385，炎症：2534，滴虫：9029，萎缩：3775，正常细胞：6972，这样就能得出一系列满足需求的有效数据。

通过自监督任务提升学习效能

谈到当下越来越普及的人脸识别问题，沈教授指出有趣的一点，那就是人脸识别存在“黑白歧视”。在识别不同种族、肤色、人群年龄的过程中，识别准确率有高有低，往往白皮肤人群识别准确率较高。

造成这种差别的重要原因之一，就是用来进行数据喂养的样本量级差别。尽管通过数据增强的方式可以解决数据样本偏少等问题，但是数据标注费时费力，而且需要各自领域的专业知识，成本极高，从而催生出人工智能自监督任务进行自主学习。

自监督任务是指不需要人们标注，人工智能通过数据之间的联系，可以自行恢复秩序，继续完成学习。原来我们需要收集大量数据来进行人工智能数据喂养，现在可以去设计自监督任务，让人工智能去训练网络，通过自监督任务来提升网络问题的性能。

最后，沈教授总结了三代人工智能技术发展的要点：第一代是符号主义，是基于知识与经验的符号推理模型；第二代是人工智能深度学习，是端到端多隐层前向神经学习；第三代是能随机应变，举一反三的智慧化人工智能。

深圳大学沈琳琳：从数据喂养到自监督自主学习

相关阅读

2024全球数字经济产业大会

2024全球数字经济产业大会

举报文章问题

举报评论问题

用户登录×