• banner1
  • banner2
  • banner3
当前位置:主页 > 创新研发 >

谷歌流感趋势猜测失利:大数据分析为何犯错?尊龙d88

来源:http://www.i-fpga.com 责任编辑:尊龙d88 更新日期:2018-09-26 13:04

  谷歌流感趋势猜测失利:大数据分析为何犯错?

  跟着大数据成为各式各样产品的商业噱头,越来越多的人开端了解大数据的魅力,关于大数据而言,巨量的数据来历是其剖析精确性的根本确保。但是,数据量大到必定程度之后,想要确保数据的精确度就会变得反常困难,相应的剖析成果也就很难确保。

  谷歌

  之前,谷歌公司发现流感疫情的开展状况能够和某些关键词被查找的频率很好的联系起来,尊龙d88,因而建立了谷歌流感趋势(GFT)模型,GFT将许多关于流感的谷歌查找数据进行核算汇总,通过剖析之后与美国疾病防控中心的监测数据进行比对。这一次,大数据失利了,GFT剖析猜测出的成果和美国疾病防控中心的数据相差近两倍。

  尽管谷歌对其查找引擎的算法不断的做出调整和改善,但仍旧很难为GFT供给卓有成效的协助,事实上,算法的改变反倒是很可能为GFT的猜测成果发生晦气的影响。比方,用户查找头痛等词汇时,谷歌的相关查找算法可能会将此成果和流感联系起来,即便此用户正本并不是要查找流感相关内容,从而为GFT供给了不精确的数据。

  找准数据是条件,数据并非越大越好

  谷歌流感趋势的失利作为一个经典的比方,为咱们指出了大数据在使用中的一些问题,或许大数据现在还并不是全能的,又或许数据并不是越大越好。

  几乎在一切介绍大数据和云核算的文章中,都会提出足够多的数据是完成技能的条件,而且数据越多越全面,得出的剖析成果也就越精确,在抱负情况下这样说当然是没错的,但是在现有的技能不能确保数据来历精确度的情况下,许多的数据反而会加大剖析的难度。

  大数据剖析所使用的算法是非常复杂的,由于它要将成千万上亿的数据逐个剖析匹配,假如数据来历是像查找引擎这种复杂度自身就很高的当地,那剖析就会变得更困难,比方前文中说到的,许多查找词仅仅看起来和流感有关,实则无关,像头疼这种。

  咱们回忆一下大数据的成功使用,基本上都是在数据源比较单一的范畴,比方流媒体的用户操作习气,智能交通的车辆方位速度信息等,这些数据的收集方法与场合特别,精确度较高,因而能够得到成功使用。而像查找引擎收集的数据,尽管有着巨大的数据量,但无关数据所占份额也较高。

Copyright © 2013 尊龙d88_www.d88.com_尊龙用现金娱乐一下下载㊣ All Rights Reserved 网站地图