Data Lake on AWS

许多 Amazon Web Services(AWS)客户需要能够提供比传统数据管理系统更高的敏捷性和灵活性的数据存储和分析解决方案。数据湖是存储和分析数据的一种新方法,越来越受欢迎,因为它可使公司管理来自各种不同来源的多种数据类型,并将结构化和非结构化的此数据存储在集中存储库中。

AWS 云提供帮助客户实施安全、灵活且经济高效的数据湖所需的许多构建块。这其中包括帮助摄取、存储、查找、处理和分析结构化和非结构化数据的 AWS Managed Services。为支持我们的客户构建自己的数据湖,AWS 提供了 Data Lake on AWS,它可在 AWS 云上部署高度可用且经济高效的数据湖架构,同时提供一个用于数据集搜索和请求的用户友好型控制台。

概览

Data Lake on AWS 可以自动配置所需的核心 AWS 服务,以便轻松标记、搜索、共享、转换、分析和管理公司内部或其他外部用户的特定数据子集。该指南部署了一个控制台,用户可以通过访问该控制台搜索和浏览满足其业务需求的可用数据集。它还包含一个联合模板,让您能够启动可与 Microsoft Active Directory 集成的解决方案版本。

下图展示了您可以使用 GitHub 上的示例代码构建的数据湖架构。

AWS 上的数据湖架构

该代码配置了一系列 AWS Lambda 微服务(函数)、用于可靠的搜索功能的 Amazon OpenSearch Service、用于用户身份验证的 Amazon Cognito、用于数据转型的 AWS Glue 和用于分析的 Amazon Athena

AWS 上的数据湖利用 Amazon S3 的安全性、持久性和可扩展性来管理组织数据集的持久性目录,并利用 Amazon DynamoDB 来管理相应的元数据。编制好数据集的目录后,其属性和描述性标签将可供搜索。用户可以搜索并浏览控制台中的可用数据集,并且可以创建他们需要访问的数据列表。它将跟踪用户选择的数据集,并在用户签出时生成一个其中包含至所需内容的安全访问链接的清单文件。

Data Lake on AWS

版本 2.2
上次更新日期:2023 年 4 月
作者:AWS 

此指南是否对您有帮助?
提供反馈 

功能

数据访问灵活性

利用预先签名的 Amazon S3 URL 或使用相应的 AWS Identity and Access Management(IAM)角色,在 Amazon S3 中以受控方式直接访问数据集。

托管存储层

在托管的 Amazon S3 存储桶中保护并管理数据的存储和检索,并使用特定于解决方案的 AWS Key Management Service (KMS) 密钥对静态数据进行加密。

联合登录

或者,您可以使用户通过 Microsoft Active Directory Federation Services (AD FS) 等 SAML 身份提供商 (IdP) 登录。

命令行界面

使用提供的 CLI 或 API 轻松实现数据湖活动的自动化,或将此指南集成到现有数据自动化中进行数据集传入、传出和分析。

用户界面

AWS 上的数据湖会自动创建基于 Web 的直观控制台 UI,它托管在 Amazon S3 上并由 Amazon CloudFront 提供。访问控制台以轻松管理数据湖用户、数据湖策略,添加或删除数据包,搜索数据包,并创建数据集清单以进行额外分析。
构建图标
自己部署 AWS 解决方案

浏览我们的 AWS 解决方案库,以获取常见架构问题的答案。

了解更多 
查找 APN 合作伙伴
查找 AWS 合作伙伴解决方案

查找 AWS 合作伙伴,以帮助您入门。

了解更多 
探索图标
探索指导

查找常见使用案例的规范性架构图、示例代码和技术内容。

了解更多