AWS Glue 是一款無伺服器資料整合服務,提供多個資料整合引擎,以支援您的使用者和工作負載。透過 AWS Glue,您可以根據任何工作負載的特性,以及開發人員與分析師的偏好,使用合適的引擎。
主要功能
適用於 Apache Spark 的 AWS Glue
AWS Glue 提供優化效能的無伺服器基礎設施,以讓 Apache Spark 順利執行資料整合與擷取、轉換和載入 (ETL) 工作。適用於 Apache Spark 的 AWS Glue 支援批次與串流處理,加速資料擷取、處理和整合。您便可以建立和更新資料湖與資料倉儲,同時更快速地從資料擷取洞察。
AWS Glue for Ray
透過適用於 Ray 的 AWS Glue,您的資料工程師和開發人員可以使用 Python 和常用的 Python 程式庫來處理大型資料集。AWS Glue 使用 Ray (Ray.io),這是一種開放原始碼統一運算架構,可用來擴展 Python 工作負載。適用於 Ray 的 AWS Glue 包含常用的 Python 資料處理程式庫,所以您可以使用自己的程式庫自訂資料整合工作。
適用於 Python Shell 的 AWS Glue
透過適用於 Python Shell 的 AWS Glue,您可以使用 Python Shell 工作在 AWS Glue 上執行 Python 指令碼。透過這些工作,您可以在 Python 中寫入複雜的資料整合和分析工作。適用於 Python Shell 的 AWS Glue 工作提供常見、可立即使用的分析程式庫,包含 Pandas、NumPy 和 Amazon SageMaker Data Wrangler。您可以使用組合功能連接多個資料庫、資料倉儲和 AWS 服務。