• 发文
  • 评论
  • 微博
  • 空间
  • 微信

谷歌上线“新型冠状病毒公共数据集”,可免费使用到9月15日

镁客maker网 2020-03-31 14:16 发文

开放可获取、完整、细颗粒、及时、可机读、结构化数据,对疫情防控尤为重要。

疫情防控,科技公司一直在行动。

在全球疫情蔓延的情况下,3月31日,谷歌启动了一项名为“COVID-19 Public Datasets(新型冠状病毒公共数据集)”的项目,托管一个与疫情相关的公共数据资料库,并免费向外界开放,用户可以自由访问,以及自由分析其中的数据信息。

“COVID-19 Public Datasets”是什么?

据项目官方解释,“COVID-19 Public Datasets”中的数据,囊括了JHU CSSE(约翰·霍普金斯大学系统科学与工程中心)数据集、世界银行的全球健康数据和OpenStreetMap数据,它们都被存储在了Google Cloud 上,并带有“COVID-19 ”标签,研究人员可以免费访问和查询,并通过BigQuery ML服务(一个完全托管的数据仓库)直接在内部使用这些数据训练高级机器学习模型,直至2020年9月15日。

谷歌方面表示,“COVID-19 Public Datasets”的启动是为了更好的为‘以教育和研究为目的’的工作者提供赋能服务,我们不会加入或管理PHI(一个致病菌的数据库)或PII(个人验证信息)数据,希望尽最大努力阻止疫情蔓延。

不过需要注意的是,如果用户要将“COVID-19 Public Datasets”和其它非新冠病毒数据集结合使用,那么BigQuery Sandbox将以字节为计,在每月的免费额仅有10GB存储空间和1TB查询空间之外,超出部分则按量收费。

疫情之下,开放数据集意味着什么?

数据统计显示,截至到昨日下午2点,全球COVID-19病毒确诊感染人数已超72万人,死亡人数达3.4万人。

但与此同时,正因数据量庞大、分散,研究人员面临着极高强度的数据分析工作。除此之外,数据信息的不完整和部分不公开,也在一定程度上让大众对疫情了解不够全面。也因此,开放可获取、完整、细颗粒、及时、可机读、结构化数据尤为重要。

此前,为加强全球疫情防控联动,多个科技界、学术界机构便联合推出了一个公开数据集“CORD-19”,其中涵盖了截至3月13日之前的近3万篇新型冠状病毒相关论文,以及针对文本进行优化的文本处理工具包SciSpacy、在科学文本上进行预训练的BERT模型SciBERT、开放研究语料库和API等。

而针对谷歌的“COVID-19 Public Datasets”数据集,Descartes Labs的工程主管Sam Skillman评论称,“谷歌在BigQuery中开放并提供COVID-19数据将极大的推动研究人员进行数据分析,特别是免费查询服务的推出,会吸引更多人参与到这一项目中来,这对全球数据共享、提升数据分析能力、普及病毒信息非常有帮助。”

作者:伶轩

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    镁客maker网

    技术驱动创新 包含人工智能虚拟现...

    举报文章问题

    ×
    • 营销广告
    • 重复、旧闻
    • 格式问题
    • 低俗
    • 标题夸张
    • 与事实不符
    • 疑似抄袭
    • 我有话要说
    确定 取消

    举报评论问题

    ×
    • 淫秽色情
    • 营销广告
    • 恶意攻击谩骂
    • 我要吐槽
    确定 取消

    用户登录×

    请输入用户名/手机/邮箱

    请输入密码