疫情带来的大数据第二春

  • 来源:网络
  • 更新日期:2020-07-01

摘要:[摘要]面对疫情,很多人或许和记者一样,每天早上睁开眼后做的第一件事,就是点开某个APP上的疫情地图,看看最新的疫情数据。 面对

[摘要]面对疫情,很多人或许和记者一样,每天早上睁开眼后做的第一件事,就是点开某个APP上的疫情地图,看看最新的疫情数据。

面对疫情,很多人或许和记者一样,每天早上睁开眼后做的第一件事,就是点开某个APP上的疫情地图,看看最新的疫情数据。

疫情地图、疫情数据的背后,让记者对曾经一度热炒、最近又稍显降温的大数据有了新的关注。

01、随处可见的疫情实时地图

新冠病毒的到来,影响了很多企业的生死存亡,企业们被迫站在这样的关口,处境岌岌可危。但也有部分企业逆势而上,不仅没有受到危机的裹挟和冲击,反而越挫越勇,反过身来创新突围,取得了意想不到的发展,丁香园就是这样一个在危机中让流量飞起来的典型。

为了应对疫情,2020年1月20日,丁香园疫情地图上线,这一举动瞬间引爆每个人的朋友圈。随即,众多互联网医疗健康企业和新闻巨头也推出疫情地图实时播报,即时汇总疫情疾病数据,为用户传递疫情一线信息。腾讯新闻、凤凰新闻、阿里健康、人民日报、网易新闻、百度等多家新闻媒体快速上线疫情专题,对疫情各维度的情况实时追踪。

图:丁香医生界面最新截图(2020.06.30)

同一时间,市面上出现大量相似而不相同的疫情地图实时播报产品,某些产品甚至日均UV上亿。

有机构专门研究对比了在移动应用端设有“全国肺炎疫情实时动态”或“抗击肺炎”专项栏目的几大平台的具体内容,对各个平台的疫情大数据服务进行了一些梳理。各个平台上提供的基础功能几乎都包括:疫情数据、最新进展、同程查询、辟谣鉴真、发热门诊、本地疫情、科普知识等几大模块。

这些在这特殊时期活跃在市面上的平台,总是及时有效又准确的根据实际情况的变化对产品进行同步和更新。互联网飞速发展的今天,庞大的浏览人次带来的流量增长在短期内迅速提升了这些平台的渠道影响力、口碑等。

02、乘风破“疫”的大数据

疫情专题离不开数据支撑。那么疫情专题中的数据从何来?疫情中的数据又如何使用呢?

其实,疫情数据的统计远比大部分人想像的要复杂,即便是「今日新增疑似病例」这样看似简单的数据,很多专业人士都会犯错。而疫情数据统计的完整和准确性又至关重要,稍有差错,就有可能产生信息误导,导致大面积的民众恐慌。同时,疫情每分每秒都在发生变化,大家都迫切地希望能在第一时间获取相关信息。

这些问题靠纯人工都很难解决,但在大数据的加持下,相比17年前的非典,很多问题的解决都有了质的变化。

国家及各地卫健委官网,每日以文章形式发布疫情通报。各媒体利用爬虫技术,将这些疫情通报的文章实时采集下来,从文章中提取有效病例数据,再以地图、折线图等可视化图表和表格形式展示病例数据和疫情走势,方便大家查阅。

那么卫健委的数据从何而来呢?

中国软件网了解到,部分卫健委的数据统计情况。以福建省委建委为例,他们有两套数据收集方式,第一套是通过层层上报的方式进行汇总;第二套是在网络直报数据库中提取数据。这其中,网络直报数据库,就是疫情期间利用大数据收集资料的重要举措。

如何使用好这些数据,不仅是国家要想的,也是各个平台要思考的。

根据香医生疫情研究员的负责人介绍,其使用的数据均来源于国家卫健委、各省市区卫健委、各省市区政府公开数。丁香医生的疫情地图发布最早,在数据管理及数据分析方面相比其他平台而言更加完善。

因为数据源头的有限性,各家能拿到的原始数据基本一致。有部分平台数据略有差异,则是因为不同平台进行数据抓取和加工的策略有所不同。有的平台,采取按时发布的方式,只抓取截止到前一日24点的全国数据,一天更新一次。而有的平台,则采取定时发布的方式,定时地抓取一些各省最新发布的数据,并随时将其整理补充进去。

但是如果数据维度太多,迭代速度跟不上会丢失用户;如果数据维度太少,同质化较大同样会丢失用户。各大平台需要通过更新速度争抢用户的关注度,同时在各家获取数据维度一致的情况下,如何满足用户各个方面的诉求,根据这些诉求下一步该怎么进行,每个决策都充满了取舍。

03、大数据迎来“第二春”

数据的收集统计离不开大数据,数据的使用应用离不开大数据,各种“疫情实时地图”也离不开大数据的支撑。但除“疫情实时地图”之外,疫情期间的大数据,随处可见。

图片来源于网络

疫情发生后,工业和信息化部第一时间成立电信大数据支撑服务疫情防控领导小组,统筹协调部门之间、部省之间的联动共享;国家电网浙江杭州供电公司研发了全国首个“电力大数据+社区网格化”算法,实现了收集、研判电力数据功能,对居民和电力数据,进行了收集和分析;随着临床诊断数据的积累,新冠肺炎的影像学大数据特征逐渐清晰,CT影像诊断结果变得愈发重要等等,都说明了大数据在突发重大公共事务中,具有极其重要的发展机遇。

现在,疫情期间病例数据来自于国家卫健委。中国软件网也了解到,部分卫健委在疫情期间几乎是以连轴转的方式来工作。他们在每天凌晨十二点之前,将需要用来统计数据的表格整理好,十二点之后将第一次报上来的数据进行整理,同时将网络直报数据库中的数据导出来,分别做成两个汇总表,然后将两个汇总表中的数据进行比较,核实之后再上报给国家卫健委。据反馈,这个过程中最难的部分是数据对比。有专家认为,这种工作方式,或许可以通过更好的大数据平台进行优化。在日后的政府工作中,大数据的应用会更加深入,从而减少更多时间、人物成本,提升效率。

在今年的全国两会上,“新基建”被首次写入政府工作报告。国家信息中心信息化和产业发展部主任单志广表示,“新基建”将充分发挥数字对经济发展放大、叠加、倍增作用,对产业链实行改造,有助于突破产业发展瓶颈,培育新的服务与消费,实现经济增长动力机制由传统要素驱动、投资规模驱动向创新驱动转型。

国家发改委曾就新基建给出过“权威解释”,新型基础设施主要包括三方面内容:一是信息基础设施,二是融合基础设施,三是创新基础设施。这三个大的方面无一不惯穿着大数据的使用。

疫情催生在线办公、在线娱乐、在线教育、在线医疗、直播等领域的快速发展。他们也是大数据重要的应用场景。




新网箭头云服务器