释义一
释义一
中文名称:红移
英文名称:Redshift
简介:
收录有约425张星体照片、8,000,000星体、70,000星云、15,000小行星与超过1,500慧星资料,真是超棒的天文软件.
软件.视窗设计简单易操作,只要点选任何图上星体就会自动拉近并获得其详细资料.特殊的每日星体主题让你随时掌握主要星体变化资料,此外,有天文字典可查询各专门术语、星体照片精选与宇宙的故事等等单元,你也可记录下你的个人使用资料,以随时找寻资料,本软体是现今欧美最畅销的天文软件.
在物理学(尤其是天文学)上,红移是指自物体发出的光在传播时波长比例增加,或者说该光向光谱的红端移动的情况。
释义二
Amazon Redshift 使用列存储技术改善 I/O 效率并跨过多个节点平行放置查询,从而提供快速的查询性能。Redshift 使用标准的 PostgreSQL JDBC 和 ODBC 驱动程序,从而使您能够使用各种常见 SQL 客户端。数据加载速度与集群大小、与
Amazon S3、Amazon DynamoDB、Amazon Elastic MapReduce、Amazon Kinesis或任何SSH 启用主机的集成呈线性关系。
我们已自动化与预配置、配置和监控数据仓库相关的大多数常见管理任务。连续、递增且自动地备份到 Amazon S3。快速还原;您可以在几分钟内开始查询,同时数据会在后台缓冲。只需单击几下就可以跨地区启用灾难恢复。
安全性是内置的。您可以使用
硬件加速型 AES-256 和 SSL 加密静态和中转数据,使用Amazon VPC隔离您的集群,甚至使用硬件安全模块 (HSM)管理您的密钥。所有的 API 调用、连接尝试、查询以及集群的变动都会被记录,并可审计。
快速
专为数据仓库而优化
Amazon Redshift 使用各种创新技术,对于大小在 100 GB 到 1 PB 或更高的数据集,拥有很强的查询性能。它使用列式存储、数据压缩及区域映射,降低了执行查询所需的 I/O 数量。Amazon Redshift 拥有大规模并行处理 (MPP) 架构,对 SQL 操作进行并行分布处理,以利用所有可用资源。基础硬件为高性能数据处理而设计,使用本地附带存储空间以最大化处理器与驱动器之间的吞吐量,同时使用 10GigE 网状网络以最大化节点之间的吞吐量。
可扩展
仅需在AWS 管理控制台中点击几次或通过一个简单的 API 调用,您就能在性能或容量需要改变时,轻松改变数据仓库中的节点数和节点类型,以提高性能或增加容量且不会发生停机。利用 Amazon Redshift,您只要用单个 160GB DW2.Large 节点就可开始,并能一路扩展到使用 16TB DW1.8XLarge 节点的 1 PB 或更多压缩用户数据。调整大小时,Amazon Redshift 可将您现有的集群置于只读模式,并预配置一个您选定大小的新集群,然后将数据从您的旧集群并行复制到您的新集群。在配置新集群的同时,您可继续对您的旧集群进行查询。一旦您的数据被复制到您的新集群,Amazon Redshift 将自动将查询重新定向至您的新集群,并移除旧集群。
成本低
无需预付费用。
您仅需为实际调用的资源付费。您可选择无预付费用的按需定价或长期合约,或者用预留实例定价来获得大幅折扣。按需定价的起点仅为每 160GB DW2.Large 节点 0.25 USD 每小时,或每 2TB DW1.XLarge 节点 0.85 USD 每小时。利用预留实例,您可以将实际价格降低至每 DW2.Large 节点 0.10 USD 每小时(5 500 USD/TB/年)或每 DW1.XLarge 节点 0.228 USD 每小时(1 000 USD/TB/年)。请访问Amazon Redshift 定价页面参阅更多细节。
简便
几分钟内即可入门
仅需在AWS 管理控制台中单击几下或通过简单的 API 调用,您就可创建一个集群、指定它的大小、规定节点类型和安全性配置文件。Amazon Redshift 将设置您的节点、配置节点之间的连接并保护集群的安全性。您的数据仓库应该在几分钟之内就可正常运行。
完全托管
Amazon Redshift 处理数据仓库的管理、监控及扩展所需的所有工作,从监控集群健康状态、备份到进行修补和升级。当您的性能和容量需求变化时,您可轻松添加节点或从集群中移除节点。通过处理所有这些耗时耗力的任务,Amazon Redshift 使您得到了解脱并专注于您的数据和业务。
Amazon Redshift 拥有多种改善数据仓库集群可靠性的功能。所有写入集群内节点的数据自动复制到集群内的其他节点,且所有数据被连续备份至
Amazon S3。Amazon Redshift 持续监控集群的健康状态并自动从故障驱动器重新复制数据,并在必要时替换节点。
自动备份
Amazon Redshift 的自动快照功能连续地将集群上的数据备份至
Amazon S3。备份是连续、递增而自动的。Amazon Redshift 按用户定义的期间存储您的快照,此期间可以是 1 到 35 天。您可在任何时候拍摄您自己的快照,这些快照影响所有现有的系统快照,并可保留到您明确地删除它们时为止。Redshift 还能将您的快照异步复制到另一个地区的 S3 中进行灾难恢复。一旦您删除了某个集群,您的系统快照也被移除,但您的用户快照在您明确地删除它们之前仍可使用。
快速恢复
您可通过AWS 管理控制台或Amazon Redshift API用任何系统快照或用户快照来恢复您的集群。一旦恢复了系统元数据,您的集群就可供使用,而且您可在用户数据在后台脱机的时候开始运行查询。
安全
仅需若干参数设置,您即可设置 Amazon Redshift,使其利用 SSL 来保护中转数据,并利用硬件加速型 AES-256 加密来保护静态数据。如果您选择启用静态数据的加密,那么所有写入硬盘的数据以及任何备份数据也将被加密。默认情况下,Amazon Redshift 会负责密钥管理,但您也可以选择使用您自己的硬件安全模块 (HSM)、AWS CloudHSM或AWS Key Management Service管理您的密钥。
网络隔离
Amazon Redshift 使您能够配置防火墙规则,以控制对数据仓库集群的网络访问。您也可在Amazon Virtual Private Cloud (Amazon VPC)中运行 Amazon Redshift,将您的数据仓库集群隔离在您自己的虚拟网络中,并用行业标准加密 IPsec VPN 将其连接至您现有的 IT 基础设施。
审计与合规
Amazon Redshift 与AWS CloudTrail相集成,可使您对所有的 Redshift API 调用进行审计。Amazon Redshift 还会纪录所有的 SQL 操作,包括连接尝试、查询和数据库的变动。您可以使用 SQL 查询在系统表格中访问这些记录,或选择将其下载到 Amazon S3 上的安全位置。Amazon Redshift 与 SOC1、SOC2、SOC3 和 PCI DSS 1 级要求兼容。关于更多详细信息,请访问AWS 合规中心。
兼容
Amazon Redshift 是一种 SQL 数据仓库解决方案,它使用行业标准的 ODBC 和 JDBC 连接以及 PostgreSQL 驱动程序。许多流行的软件供应商正在用他们的产品和服务对 Amazon Redshift 进行认证,这使您能够继续使用您使用的工具。有关详细信息,请参阅Amazon Redshift 合作伙伴页面。
Amazon Redshift 与其他 AWS 服务相兼容,并内建了指令将数据从
Amazon S3、Amazon DynamoDB或EC2 以及使用 SSH 的本地服务器中并行加载到每个节点中。AWS Data Pipeline和Amazon Kinesis都以数据目标的形式与 Amazon Redshift 相集成。
优势
完全托管,快速上手
使用Redshift云服务,您可以根据业务需要在几分钟内建立几个到几十个节点的数据仓库集群,立刻开始您的数据分析的任务,也能根据需求随时增加或减少集群资源。Redshift是完全托管平台,承担了大量的集群管理、数据库管理、监控、集群健康检查、备份、升级等工作,让您能专注业务分析,无需花大量时间在服务器管理,安全及数据备份等工作上。
为数据仓库而优化的架构
Amazon Redshift基于企业级PostgreSQL数据库,有大规模并行处理 (MPP) 架构,MPP可以通过将数据分布到各个计算节点来解决海量数据的处理难题。在Redshift中,每个集群有1个管理节点和多个计算节点,集群内部使用私有、高速、 低延时的网络连接。每个计算节点都有单独的CPU,内存和附加存储,并且每个计算节点有多个分区,您的数据被分布保存在计算节点的多个分区内,因此每个分区的数据量大大减少,您的查询会在多个分区并行执行,大大的增加了查询的效率。
高性能
很多用户使用Redshift获得了几十倍甚至上百倍的查询加速,Redshift能为您提供非常高效的查询性能,除了专为数据仓库而优化的架构外,还有以下优势:
列式存储
很多数据库使用行式存储,此时如果要基于某个列求和,需要加载整张表的数据,而Redshift列式存储只需要加载一列的数据,磁盘的IO及内存的消耗都显著减少,增加了性能。由于数据仓库中的大部分查询只是扫描整张表中的部分字段,因此Redshift列式存储特别适合数据仓库查询,另外列式存储索引比传统索引能提供5倍以上的压缩效果和10倍以上的性能提升。
数据压缩
作为一个列式数据仓库,Redshift还支持按列数据压缩,数据压缩减少了磁盘占用空间、减少了读写I/O、减少了内存占用空间,并提高了查询的性能。由于Redshift同列的数据类型相同、有些值也相同,因此Redshift的压缩效率很高。
查询优化
Redshift提供了针对MPP架构的查询优化引擎,被编译后的SQL分布在多个计算节点的分区内并行执行,并且最大化的利用了列式存储的优势,因此在复杂的多表连接查询的情况下,
查询优化器通常能有很大的性能提升。
成本低
使用Redshift无需昂贵的服务器及管理人员成本,仅按使用量付费,并且可以通过购买预留实例来进一步减少成本,实际成本只有传统数据仓库分析的十分之一。
安全
创建Redshift集群的时候,可以选择启用加密来保护数据仓库中的数据,启用加密后,所有的数据库、系统表及备份数据都会被加密,保障了数据的安全。连接Redshift的时候,您也可以使用
SSL连接,保障网络传输安全。另外AWS也通过身份管理IAM,虚拟网络VPC,防火墙安全组等保护您数据的安全 。
对比
Redshift同Python的数据映射和安全权限对比,Redshift的数据类型可以映射到Python中很明显的对应类型。Redshift的几个数据类型,包括“integer”,“smallint”,“bigint”,“short”和“long”映射到Python的“int”类型。Redshift的“decimal”和“numeric”数据类型映射到Python的“decimal”类型,而Redshift的“double”和“real”数据类型映射到Python的“float”数据类型。
Redshift的“boolean”数据类型映射到Python的“bool”,“char”和“varchar”则映射到“string”,而“timestamp”则相当于Python的“datetime”数据类型。“ANYELEMENT”这个多态的数据类型在利用Python动态类型系统的优势时很有用。牢记这些映射很重要,因为你需要指定参数并返回Redshift的数据类型值,而不是Python的数据类型。
要使用用户定义功能我们必须先设立一组所需的权限。用户必须拥有Python语言的USAGE权限才能创建UDF。一旦创建完,只有所有者和超级用户才可以执行它们。管理员必须明确授予权限给其他的终端用户才能运行那些不是他们创建的UDF。只有所有者或超级用户可以更新或删除一个UDF。
Redshift数据仓库会基于合理的安全考虑而限制某些操作。例如,用户定义功能不能保存文件或访问网络。除了安全相关的约束之外,还有更多操作方面的限制。用户安装的库最大不能超过100MB。UDF还受制于工作负载管理规则,如果达到最大并发数的话,UDF就必须进入队列等待之后运行。