大数据时代的到来,使得传统统计分析方法已经不能完全适应日新月异的数据环境。大数据也带来了一系列问题:第一,信息过量,难以消化;第二,信息真假难以辨识;第三,信息安全难以保证;第四,信息形式不一致,难以处理。如何从大数据中发现有用的知识以及提高信息的利用率是迫在眉睫的任务。
近年来,数据挖掘理论及其技术研究和开发取得了较为快速的发展,其在各个领域应用有着非常广阔的空间和潜力。数据挖掘主要依赖两项技术:一是对某个领域各部门产生的各种业务数据进行整理和集成,搭建支持决策的数据分析环境,即数据仓库;二是发现隐藏在各种监测数据之中的有用知识,即数据挖掘。
随着国内信息化系统的不断建设,相关的数据量级已从TB级别跃升到PB级别,形成了名副其实的大数据。但是这些以往的海量数据大多只存在于垂直业务和单一应用中,数据过于分散且信息内容单一,而且缺乏有效的数据分析方法,数据处理效率低下,致使海量的数据无法被共享利用,严重制约信息化建设整体发展的速度。因此,需要通过信息化手段对已有各系统的海量数据进行整合、分类、归纳,搭建数据仓库,实现有效的数据存储与管理。
利用各种分析方法,对已有数据进行统计和分析,提供历史数据的分析结果。帮助决策者能快速有效的从大量资料中,获得有价值的分析结果,做出科学的决策,帮助建构商业智能(BI)。
数据可视化是数据挖掘人员必备的技术,它不但可以帮助探索数据内存价值,还能直观有效地展示分析结果,从而更容易让人接受所希望传达的关键信息。发现变化趋势,在某个地区是否有聚集性;识别数据的边缘点,如最大值、最小值、边界数据等。目前可视化数据挖掘过程分为数据可视化、数据挖掘过程可视化、数据挖掘结果可视化、交互式可视化数据挖掘等。
基于沃达德大数据平台,通过对海量数据采集、处理、存储、分析和数据挖掘,根据数据的特性,采用合适的可视化方式,将数据直观地展现出来,以帮助人们认识数据、理解数据,同时找出包含在海量数据中的规律或者信息,预测未来发展趋势,进行智能化决策分析,使得数据资产成为核心竞争力。