亚马逊AWS官方博客

Tag: 分析

使用 Amazon EMR 6.0.0(测试版)在 Docker 上运行 Spark 应用程序

Amazon EMR 团队很高兴宣布支持 Spark 2.4.3、Hadoop 3.1.0、Amazon Linux 2 和 Amazon Corretto 8的EMR 6.0.0 的公开测试版已经推出。在这个测试版中,Spark 用户可以使用 Docker Hub 和 Amazon Elastic Container Registry (Amazon ECR) 中的 Docker 镜像来定义环境和库依赖项。使用 Docker,用户可以轻松管理依赖项并将其用于单个作业,而无需在集群的各个主机上安装依赖项。

通过 EMR Notebooks 在运行的集群上安装 Python 库

本博文将讨论如何通过 EMR Notebook 直接在正在运行的集群上安装笔记本范围的Python库。在此功能推出之前,您必须依赖Bootstrap引导操作或使用自定义 AMI 来安装预置 EMR AMI 没有预先打包的其他库。接下来,博文还将讨论如何使用 EMR Notebooks 中本地可用的预安装 Python 库来分析结果并绘制图表。此功能在您无法访问 PyPI 存储库但需要分析和可视化数据集的情况下非常有用。

使用 Apache Flink 和 Amazon Kinesis Data Analytics for Java 应用程序构建和运行流应用程序

流处理有助于实时数据的收集、处理和分析,并能够持续生成见解和快速响应新出现的情况。当派生见解的值随时间减少时,此功能非常有用。因此,您对检测到的情况反应越快,反应就越有价值。例如,考虑一个可以在欺诈性信用卡交易发生时对其进行分析和阻止的流应用程序。将该应用程序与传统的面向批处理的方法相比较,该方法在每个工作日结束时识别欺诈性交易,并生成一份供您在次日早上读取的全面报告。

Amazon S3 对象的 Amazon Kinesis Data Firehose 自定义前缀

2019 年 2月,Amazon Web Services (AWS) 宣布了 Amazon Kinesis Data Firehose 的一项称为“Amazon S3 对象自定义前缀”新功能。它允许客户为传输数据记录的 Amazon S3 对象的前缀指定自定义表达式。 之前,Kinesis Data Firehose 仅允许指定部分文字前缀。新支持的前缀可以与静态日期格式的前缀结合使用,以创建固定格式的输出文件夹。