作者:Jyoti Aggarwal 2023年11月28日 发表在 Amazon Redshift 和 Analytics
在当前竞争激烈的市场中,客户日益依赖数据来驱动其决策和业务运营。为了更好地了解业务驱动力,从而提高销售、降低成本并优化运营,客户需要轻松地对数据进行分析。但在将操作数据进行分析时,许多客户仍然需要构建结合数据库、数据仓库及提取、转化和加载ETL管道的解决方案。ETL 是数据工程师用来将不同来源的数据合并的过程。
根据客户反馈,我们了解到,很多时间和资源被用于构建和管理交易数据库与数据仓库之间的 ETL 管道。我们的目标是通过简化数据集成过程,帮助客户以更快的速度和灵活性连接及使用他们的数据。通过自动化不具差异化的部分,我们希望消除数据孤岛,加速客户基于数据的创新。
客户需要灵活的数据架构,可以让他们跨组织整合数据,以便更全面地了解客户、简化运营,从而帮助团队做出更好、更快的决策。然而,数据集成的复杂性使得这一过程充满挑战。构建这些管道并组建架构以互连所有数据源,优化分析结果的过程既复杂又需要高技能人才,最终生成的数据可能存在错误或不一致的情况。
Amazon Redshift 每天为成千上万的客户提供数据驱动决策的支持,凭借其完全托管的、基于人工智能的云数据仓库,提供最佳的性能价格比以支持其分析工作负载。
零 ETL 是一套集成方案,旨在消除构建 ETL 数据管道的需求。通过与 Amazon Redshift 的零 ETL 集成,客户可以使用联邦查询直接访问其数据,或从各个数据库中将数据纳入 Amazon Redshift,并享受全托管的解决方案。得益于新功能,如支持自动复制简化和自动化用户文件从 Amazon S3 进行数据导入、Redshift 流数据接收能力的持续数据导入等,Amazon Redshift 让数据集成和快速访问成为可能,而无需人工构建管道。
所有数据的集成使 Amazon Redshift 允许每个数据用户进行分析并建立 AI、机器学习 (ML) 和生成性 AI 应用。开发者还可以利用 AWS 的分析服务如 Amazon EMR 和 AWS Glue在数据仓库中的数据上直接运行 Apache Spark 应用。他们还可以通过零 ETL 集成将操作数据与其他数据源如软件即服务 (SaaS) 应用中的销售和市场数据进行联合,从而丰富其数据集,并可以在这些数据之上创建 Amazon QuickSight 仪表盘,以便在同一处跟踪销售、网站分析、运营等关键指标。
客户也可以使用 Amazon Redshift 数据共享,与不同团队使用的多个消费者集群可能跨 AWS 账户安全共享这些数据,推动业务的统一视图,并实现团队集群中对应用数据的自助访问,同时维护对敏感操作数据的治理。

此外,客户可以在 Amazon Redshift ML 与 Amazon SageMaker 的原生集成上直接在他们的操作数据上构建机器学习模型,而无需构建任何数据管道,并使用 SQL 命令生成数十亿次预测。他们还可以使用 Amazon Redshift 物化视图对集成数据进行复杂的转换和聚合。
我们很高兴地宣布与 Amazon Redshift 的四个 AWS 数据库零 ETL 集成:
一元机场手机Amazon Aurora MySQL 兼容版现已普遍可用Amazon Aurora PostgreSQL 兼容版预览Amazon RDS for MySQL预览Amazon DynamoDB限量预览通过将不同的数据库服务与分析更紧密结合,AWS 正在简化数据访问,并使企业能够加速创新,创造竞争优势并最大化从数据资产中获得的商业价值。
Amazon Aurora 与 Amazon Redshift 的零 ETL 集成 实现了 Amazon Aurora 的交易数据与 Amazon Redshift 中近实时分析的统一。这一解决方案消除了构建和维护自定义 ETL 管道的负担。与传统隔离数据库相比,零 ETL 集成避免了对性能和分析之间的权衡,能够无需影响生产工作负载,就将来自多个 Aurora 集群的数据复制到同一 Amazon Redshift 数据仓库。这一系统还可以是无服务器的,并可以自动扩展以应对数据量的波动,而无需管理基础设施。
Amazon Aurora MySQL 的零 ETL 集成与 Amazon Redshift 每分钟处理超过100万笔交易相当于每分钟1750万个插入/更新/删除操作,能在不到15秒的时间内p50 延迟将数据从多个 Aurora 数据库导入 Amazon Redshift。图1展示了 Aurora MySQL的零 ETL 集成与 Amazon Redshift 的高层次工作原理。
以下是我们一位客户使用 Aurora MySQL 零 ETL 集成与 Amazon Redshift 的经验:
例如,在零售行业,Infosys 想要获得有关业务的更快洞察,例如最佳销售产品和高收益门店,这些都是基于商店管理系统中的交易。他们使用 Amazon Aurora MySQL 零 ETL 集成与 Amazon Redshift 达到这一目标。通过这一集成,Infosys 将 Aurora 数据复制到 Amazon Redshift,并为产品经理和渠道领导者创建了 Amazon QuickSight 仪表盘,只需几秒钟,而不是好几个小时。现在,作为 Infosys Cobalt 和 Infosys Topaz 蓝图的一部分,企业可以对交易数据进行近实时分析,这可以帮助他们做出有关商店管理的明智决策。
Sunil Senan Infosys 数据、分析与 AI 全球副总裁
想了解更多,请参见 Aurora 文档、Amazon Redshift 文档 和 AWS 新闻博客。
全新的 Amazon RDS for MySQL 与 Amazon Redshift 集成使客户能够轻松对他们的 RDS for MySQL 数据进行分析。通过几次点击,无缝地将 RDS for MySQL 数据复制到 Amazon Redshift,自动处理初始数据加载、持续变化同步和架构复制。这避免了传统 ETL 作业的复杂性。零 ETL 集成能够实现工作负载隔离以优化性能;RDS for MySQL 专注于高速交易,而 Amazon Redshift 则处理分析工作负载。客户还可以将来自多个来源的数据整合到 Amazon Redshift 中,例如 Aurora MySQL 兼容版和 Aurora PostgreSQL 兼容版。这种统一视图提供了应用程序间的全面洞察,使整体运作效率显著提升。
图2展示客户如何使用 AWS 管理控制台为 Amazon RDS 创建零 ETL 集成,将 RDS for MySQL、Aurora MySQL 兼容版和 Aurora PostgreSQL 兼容版的数据整合到 Amazon Redshift 中。
该集成目前处于公开预览中,访问 入门指南 以了解更多信息。
Amazon DynamoDB 的零 ETL 集成与 Amazon Redshift 限制预览版提供了一种完全托管的解决方案,将 DynamoDB 的数据用于 Amazon Redshift 中的分析。通过最小配置,客户可以将 DynamoDB 数据复制到 Amazon Redshift 进行分析,而无需消耗 DynamoDB 读取容量单位 (RCU)。这一零 ETL 集成解锁了强大的 Amazon Redshift 功能,对于 DynamoDB 数据可以支持高速 SQL 查询、机器学习集成、物化视图以实现快速聚合和安全数据共享。
该集成目前处于有限预览中,请使用 此链接 请求访问。
我们的使命是帮助客户从数据中获得最大价值,集成服务对此至关重要。这就是为什么我们今天在致力于构建零 ETL 未来。通过自动化复杂的 ETL 过程,数据工程师可以将更多精力集中在为数据创造价值上。采用这种现代数据管理方法,组织能够加速数据的使用,简化运营并推动业务增长。
Jyoti Aggarwal 是 Amazon Redshift 零 ETL 的产品管理负责人,拥有云计算与存储、数据仓库以及 B2B/B2C 客户体验的丰富专业知识。