• 发文
  • 评论
  • 微博
  • 空间
  • 微信

深圳大学沈琳琳:从数据喂养到自监督自主学习

2024全球数字经济产业大会 2020-11-02 16:25 发文

10月28日,由深圳市工业与信息化局、深圳市福田区人民政府指导、高科技行业门户OFweek维科网主办、OFweek维科网·人工智能承办的“OFweek 2020(第五届)人工智能技术创新论坛”在深圳福田会展中心5楼·牡丹厅隆重举办。

论坛聚焦时下正火热发展的人工智能产业,从基础理论知识、行业发展脉络、行业发展现状、成功应用案例等角度切入话题,与产业专家、企业领袖、现场及网络观众们共同探讨人工智能产业当前的发展现状、所面临的各种现实挑战以及优秀的落地实践案例。

本次论坛荣幸邀请到深圳大学计算机视觉研究所所长、深圳大学教授沈琳琳出席并发表《从数据喂养到自监督自主学习》的主题演讲,利用多个实践案例详细介绍在数据有限的情况下,如何通过数据增强的方式来建立训练模型,以及人工智能通过自监督任务实现自主学习的过程。

深圳大学教授沈琳琳(来源:OFweek维科网)

通过数据增强建立训练模型

沈教授在会议上指出,驱动人工智能发展的三架马车分别是算法、算力和数据,其中算法是引擎;算力是加速器;数据是燃料。当前人工智能被广泛应用于医疗领域的分析诊断,传统的医疗诊断过程需要医生与患者观察交流,填写量表,然后依赖医生的经验来做出主观诊断。一旦患者症状不明显,往往无法准确判断或是浪费大量检查时间,所以医疗机构希望人工智能通过深度学习之后,可以快速利用数据比对分析得出有效甄别,辅助早期诊断。

但在实际的数据采集过程中,往往存在数据样本偏少等问题,无法满足人工智能深度学习的需求。所以我们需要通过角度旋转、添加高斯噪声等数据增强方式裂变出更多有效数据,从而顺利建立训练模型。

以全切片图像为例,将30张图片分为HPV病毒细胞、炎症细胞、滴虫细胞、萎缩细胞和正常细胞5类,图像尺寸大小为72468 x 91998。先检测出感兴趣区域(ROI),然后在上面通过滑动窗口取224 x 224的patch。总共选取22695patch,其中HPV:385,炎症:2534,滴虫:9029,萎缩:3775,正常细胞:6972,这样就能得出一系列满足需求的有效数据。

通过自监督任务提升学习效能

谈到当下越来越普及的人脸识别问题,沈教授指出有趣的一点,那就是人脸识别存在“黑白歧视”。在识别不同种族、肤色、人群年龄的过程中,识别准确率有高有低,往往白皮肤人群识别准确率较高。

造成这种差别的重要原因之一,就是用来进行数据喂养的样本量级差别。尽管通过数据增强的方式可以解决数据样本偏少等问题,但是数据标注费时费力,而且需要各自领域的专业知识,成本极高,从而催生出人工智能自监督任务进行自主学习。

自监督任务是指不需要人们标注,人工智能通过数据之间的联系,可以自行恢复秩序,继续完成学习。原来我们需要收集大量数据来进行人工智能数据喂养,现在可以去设计自监督任务,让人工智能去训练网络,通过自监督任务来提升网络问题的性能。

最后,沈教授总结了三代人工智能技术发展的要点:第一代是符号主义,是基于知识与经验的符号推理模型;第二代是人工智能深度学习,是端到端多隐层前向神经学习;第三代是能随机应变,举一反三的智慧化人工智能。

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    举报文章问题

    ×
    • 营销广告
    • 重复、旧闻
    • 格式问题
    • 低俗
    • 标题夸张
    • 与事实不符
    • 疑似抄袭
    • 我有话要说
    确定 取消

    举报评论问题

    ×
    • 淫秽色情
    • 营销广告
    • 恶意攻击谩骂
    • 我要吐槽
    确定 取消

    用户登录×

    请输入用户名/手机/邮箱

    请输入密码