大数据平台  人工智能技术

生物大数据

医学科学直接关乎全人类的生命健康,以数据创新探索未来的医学科学,在庞大的数据资源中快速获取信息、提升人类医疗集体经验,具有十分重要的意义和医疗价值。

基因组数据库是分子生物信息数据库的重要组成部分。基因组数据库内容丰富、名目繁多、格式不一,分布在世界各地的信息中心、测序中心、以及和医学、生物学、农业等有关的研究机构和大学。基因组数据库的主体是模式生物基因组数据库,其中主要的是由世界各国的人类基因组研究中心、测序中心构建的各种人类基因组数据库。

大数据基础平台对大规模数据集(海量数据),提供底层分布式计算和分布式存储技术,可以扩展到数以千计的存储和计算节点,提供高可用服务的大数据集群。沃达德大数据平台具备数据的可靠性、安全性和高可用性,是构建整个大数据技术架构的基础平台。产品特性包括:分布式计算、分布式存储、支持数以千计的存储和计算节点、高可用服务,以及保证数据的可靠性、安全性和高可用性。

数据是一种宝贵的资源。利用新技术新方法挖掘现有数据的价值,找到数据间的关联关系,提高基础数据的利用率,并预测未来趋势及行为,是国内面临的迫切问题。一批新兴的数据处理、挖掘与分析技术不断涌现,如沃达德大数据平台、数据仓库、分布式数据库、数据挖掘平台、大数据可视化,使分析处理海量数据变得更加容易、更加便捷。

大数据平台进行数据采集时通常要面对数据结构、业务规则、技术特性(网络、安全、性能约束)等方面的综合挑战。如果数据源和大数据平台处于相同的网络环境,具有类似的数据结构和编码映射,可以通过工具配置或脚本进行采集,如使用Sqoop。当需要面对和对接第三方的数据生产系统,需要遵循对方的抽取协议,以及跨网段的数据访问,从而需要对采集应用进行一定程度上的定制,可以使用Java NIO、Netty或Mina。

Hadoop是一个成熟的大数据处理框架,允许在集群中使用简单的编程模型对大规模数据集进行分布式计算。它被设计为可以从单一服务服务器扩展到数以千计的本地计算和存储节点,并且Hadoop会在应用层面监测和处理错误,而不依靠硬件的高可用性,所以Hadoop能够在一个每个节点都有可能出错的集群之上提供一个高可用服务。

基于沃达德大数据平台,通过对海量数据采集、处理、存储、分析和数据挖掘,根据数据的特性,采用合适的可视化方式,将数据直观地展现出来,以帮助人们认识数据、理解数据,同时找出包含在海量数据中的规律或者信息,预测未来发展趋势,进行智能化决策分析,使得数据资产成为核心竞争力。

沃达德大数据平台