HashData 数据仓库

原文链接 产品试用 自创立之日起,酷克数据一直致力于降低企业进行大数据分析的门槛,推动数据民主化。今天,我们朝这个目标迈出了第一步:酷克数据在青云QingCloud上推出基于PostgreSQL和Greenplum Database的SQL-on-Cloud解决方案--HashData数据仓库。利用HashData数据仓库,企业用户可以随时随地用标准的SQL客户端和BI工具对海量数据进行极速分析,轻松把握商业趋势,及时应对各种变化。 什么是HashData数据仓库 HashData数据仓库是一个高性能、完全托管的PB级数据仓库服务,让企业用户能够更轻松地分析海量数据。通过使用HashData,企业用户无需购买、配置和管理庞大的服务器集群,按使用量付费,没有任何前期投入,使得数据存储和分析的成本不到传统解决方案的十分之一。另外,HashData数据仓库兼容标准的JDBC和ODBC,无缝集成企业内部已有的ETL和BI工具。这意味着HashData数据仓库使用起来跟部署在企业内部数据中心的传统数据仓库一样自然方便。 HashData数据仓库的优势 完全托管,快速上手 通过使用HashData云服务,企业用户可以在几分钟内创建启动一个包含几个到几十个甚至上百个节点(根据业务需求)的数据仓库集群,数据加载后马上可以开始数据分析任务。随着业务负载的变化,用户还可以动态地对数据仓库集群进行纵向伸缩(scale up and down)和横向伸缩(scale in and out)。同时,由于是完全托管的云服务,HashData数据仓库承担了所有的集群资源配置、

Read More

Apache HAWQ 的可扩展性与其设计哲学

Apache HAWQ 的可扩展性与其设计哲学

Apache HAWQ 作为一款先进的SQL-On-Hadoop开源分布式数据库产品,其代码基础源自著名的分布式数据库Greenplum Database (GPDB)。在设计之初,高可扩展性(Scalability)即成为HAWQ的一个重要的设计目标。因此HAWQ在架构与实现上均与GPDB有着明显的不同。这些不同点反应了HAWQ对高可扩展性的追求。本文将介绍这些不同点与其背后的设计哲学。 HAWQ架构简介 HAWQ是一款基于massively parallel processing (MPP)架构的分布式数据库。HAWQ由一个master节点,一个可选的standby节点和多个计算节点(segment)组成。其中master节点负责接收用户的查询请求,生成查询计划。然后master节点会指挥多个计算节点执行查询计划,最后将查询结果返回给用户。 无状态的计算节点 从HAWQ的架构可以大概看出,作为计算节点,HAWQ的可扩展性与segment的设计实现密不可分。为了提高HAWQ的可扩展性,HAWQ的计算节点被设计成无状态的节点。GPDB的计算节点存储了大量的状态信息,其中包括用户的配置选项和事务的状态等等。维护多个节点间状态的一致性成为影响可扩展性的重要原因。HAWQ的所有状态信息统统保存在master节点,在执行查询计划的时候,状态信息随着查询计划一并分发到计算节点。无状态计算节点的设计使得计算节点不必要再费力的维护状态信息的一致性。而master的唯一性使得维护状态信息的复杂度不随计算节点的增加而增加。 元数据的存储与访问 基于无状态计算节点的设计理念,HAWQ的元数据集中存储在master节点。这成为HAWQ与GPDB的一个重要的设计区别。元数据集中存储的好处是便于管理与一致性的控制。再加上HAWQ的用户数据存储在分布式文件系统HDFS上,HAWQ因此不在需要为计算节点设计镜像(mirror)节点,

Read More