用最专业的眼光看待互联网
立即咨询今天,我们宣布 AWS Glue Studio 的数据准备创建功能正式面世。这是一个为业务使用者和数据分析师设计的无代码数据准备用户体验,具备类似电子表格的用户界面,能够在 AWS Glue for Spark 上运行大规模数据集成作业。新的视觉数据准备体验让数据分析师和数据科学家更容易清理和转换数据,以便进行数据分析和机器学习(ML)。在这个新体验中,您可以从数百个预设的转换中选择,自动化数据准备任务,而无需撰写任何代码。
蘑菇vp加速器业务分析师现在可以与数据工程师协作来构建数据集成作业。数据工程师可以使用 Glue Studio 的视觉化流程图定义数据的连接以及数据流过程的排序。业务分析师则可以使用数据准备功能定义数据的转换和输出。此外,您可以将现有的 AWS Glue DataBrew 数据清理和准备“配方”汇入到新的 AWS Glue 数据准备经验中。这样,您可以直接在 AWS Glue Studio 中创建配方,然后将其扩展以处理 PB 级别的数据,并在 AWS Glue 作业 中享受更低的价格。
视觉 ETL 先决条件环境设置视觉 ETL 需要为将访问 AWS Glue 的用户和角色附加 AWSGlueConsoleFullAccess IAM 管理政策。
许可政策描述AWSGlueConsoleFullAccess这个政策授予用户和角色完全访问 AWS Glue 的权限,并获得对 Amazon Simple Storage Service (Amazon S3) 资源的读取权限。进阶视觉 ETL 流程一旦定义了适当的 AWS 身份与访问管理(IAM) 角色权限,使用 AWS Glue Studio 创建视觉 ETL。
提取从 Sources 列表中选择 Amazon S3 节点来创建一个 Amazon S3 节点。
选择新创建的节点,然后浏览 S3 数据集。成功上传文件后,选择 Infer schema 来配置源节点,视觉界面将显示 csv 文件中所包含数据的预览。
我在与 AWS Glue 视觉 ETL 相同区域中创建了一个 S3 桶,并上传了一个名为 visual ETL conference datacsv 的 csv 文件,该文件包含我想要视觉化的数据。
重要的是要设置角色权限,如前一步所述,授权 AWS Glue 获得读取 S3 桶的权限。未执行此步骤将使您无法看到数据预览,并导致错误。
转换配置完节点后,添加数据准备配方并开始数据预览会话。开始此会话通常需要约 23 分钟。
一旦数据预览会话准备就绪,选择 Author Recipe 开始作业会话并在数据帧完成后添加转换。在作业会话期间,您可以查看数据,应用转换步骤,并交互式地查看转换后的数据。您可以撤销、重做和重新排序步骤,并可以可视化列的数据类型和每列的统计属性。
您可以开始对数据应用转换步骤,如将格式从小写改为大写、更改排序顺序等等,选择 Add step 进行操作。您所有的数据准备步骤将在配方中进行跟踪。
我想要查看在南非举办的会议,因此我创建了两个配方,过滤 Location 列中值等于“南非”,并且 Comments 列包含某个值的条件。
加载完成互动式数据准备后,可以与数据工程师共享您的工作,他们可以通过更高级的视觉 ETL 流程和自定义代码来扩展它,以无缝集成到生产数据管道中。
AWS Glue 数据准备创建功能现在在所有商业 AWS 区域 中公开可用这些区域中都提供 AWS Data Brew。欲了解更多,请访问 AWS Glue,查看以下 视频,并阅读 AWS 大数据博客。
如需更多信息,请查看 AWS Glue 开发者指导,并通过 AWS rePost for AWS Glue 或通过您通常的 AWS 支持联系人提供反馈。

Veliswa
Veliswa Boya 是一位资深开发者倡导者,基于南非,与撒哈拉以南非洲的创建者社区密切合作。她在技术领域中担任过多种角色,涵盖从开发者到分析师,从架构师到云端工程师,现在成为开发者倡导者。Veliswa 特别喜欢与那些刚进入技术领域的人士以及那些刚开始使用 AWS 的人合作。