发布于: Nov 26, 2019

Amazon Athena 现在允许用户跨关系、非关系、对象和自定义数据源运行 SQL 查询。通过联合查询,客户可以通过提交一个 SQL 查询,扫描来自本地运行或托管在云中的多个来源的数据。

对分布在应用程序的数据进行分析可能很复杂且耗时。分析所需的数据通常分布在关系、键值、文档、内存、搜索、图形、对象、时间序列和分类账数据存储中。为了分析跨这些来源的数据,分析师需要构建复杂的管道,来将这些数据提取、转换和加载到数据仓库中,以便可以进行查询。访问各种来源中的数据需要学习新的编程语言和数据访问构造。Athena 的联合 SQL 查询允许用户在不移动数据的情况下进行查询,消除了这种复杂性。分析师可以使用熟悉的 SQL 构造跨多个数据源联接数据以进行快速分析,并将结果存储在 Amazon S3 中以备随后使用。

Athena 使用在 AWS Lambda 上运行的 Athena 数据源连接器执行联合查询。AWS 具有适用于 Amazon DynamoDBApache HBaseAmazon DocumentDBAmazon RedshiftAWS CloudWatchAWS CloudWatch 指标以及与 JDBC 兼容的关系数据库(例如 MySQL 和 Apache 2.0 许可下的 PostgreSQL)的开源数据源连接器。客户可以使用这些连接器在 Athena 中跨这些数据源运行联合 SQL 查询。此外,使用 Athena Query Federation 开发工具包,开发人员可以建立与任何数据源的连接器,以使 Athena 可以针对该数据源运行 SQL 查询。Athena Query Federation 连接器使得 AWS 提供的连接器之外的连接器也能够享受联合查询的优势。由于连接器在 AWS Lambda 上运行,因此客户不必管理基础设施或计划扩展以应对尖峰需求。

Athena 联合查询在 us-east-1(弗吉尼亚北部)区域提供预览版。现在就按照这些步骤开始使用预览版。
如需了解更多关于此功能的信息,请参阅此处的文档。
要开始使用现有的连接器,请遵循该指南
要了解如何使用 Athena Query Federation 开发工具包构建自己的数据源,请访问此链接