任務 - AWS 連接詞

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

任務

「工作」API 描述資料類型,以及API與中建立、更新、刪除或檢視工作相關的資料類型 AWS Glue。

資料類型

Job 結構

指定任務定義。

欄位
  • Name— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    您指派給此任務定義的名稱。

  • JobMode-UTF -8 字符串(有效值:SCRIPT=""VISUAL=""| |NOTEBOOK="")。

    描述如何建立工作的模式。有效的 值如下:

    • SCRIPT-工作是使用 AWS Glue Studio 指令碼編輯器建立的。

    • VISUAL-工作是使用 AWS Glue Studio 視覺化編輯器建立的。

    • NOTEBOOK-工作是使用互動式工作階段筆記本建立的。

    JobMode欄位遺失或為 null 時,SCRIPT會指派為預設值。

  • JobRunQueuingEnabled – 布林值。

    指定是否為此工作的工作執行啟用工作執行佇列。

    值為 true 表示工作執行已啟用工作執行佇列。如果為 false 或未填入,則不會將工作執行視為佇列。

    如果此欄位與工作執行中設定的值不符,則會使用工作執行欄位中的值。

  • Description – 描述字串,長度不可超過 2048 個位元組,需符合URI address multi-line string pattern

    任務的描述。

  • LogUri— UTF -8 個字符串。

    此欄位保留供日後使用。

  • Role— UTF -8 個字符串。

    與此任務相關聯之IAM角色的名稱或 Amazon 資源名稱 (ARN)。

  • CreatedOn – 時間戳記。

    此任務定義的建立日期和時間。

  • LastModifiedOn – 時間戳記。

    此任務定義上一次修改的時間點。

  • ExecutionPropertyExecutionProperty 物件。

    ExecutionProperty,指定此任務可同時執行的最大數量。

  • CommandJobCommand 物件。

    執行這個任務的 JobCommand

  • DefaultArguments – 金鑰值對的映射陣列。

    每個鍵是 UTF -8 個字符串。

    每個值都是 UTF -8 個字串。

    此任務每次執行的預設引數,以名稱值對的方式指定。

    您可以在這裡指定自己的工作執行腳本消耗的參數,以及 AWS Glue 本身消耗的參數。

    可以記錄任務引數。不要將純文字袐密當做引數傳遞。如果您想要將密碼保留在 Job 中,請從「 AWS Glue 連線」 AWS Secrets Manager 或其他密碼管理機制擷取密碼。

    有關如何指定和使用自己的 Job 引數的詳細信息,請參閱開發人員指南AWS Glue APIs中的在 Python 中調用主題。

    如需有關設定 Spark 任務時可提供給此欄位之引數的資訊,請參閱開發人員指南中的 Special Parameters Used by AWS Glue 主題。

    如需有關設定 Ray 任務時可提供給此欄位之引數的資訊,請參閱開發人員指南中的 Using job parameters in Ray jobs

  • NonOverridableArguments – 金鑰值對的映射陣列。

    每個鍵是 UTF -8 個字符串。

    每個值都是 UTF -8 個字串。

    在任務執行中提供任務引數時,此任務未被覆寫的引數,以名稱值對的方式指定。

  • ConnectionsConnectionsList 物件。

    用於此任務的連線。

  • MaxRetries – 數字 (整數)。

    JobRun 失敗後重試此工作的次數上限。

  • AllocatedCapacity – 數字 (整數)。

    此欄位已作廢。請改用 MaxCapacity

    配置給此工作執行的 AWS Glue 資料處理單元 (DPUs) 數目。您最少可以配置 2DPUs;預設值為 10。A DPU 是處理能力的相對度量,由 4 vCPUs 個運算容量和 16 GB 的記憶體組成。如需詳細資訊,請參閱 AWS Glue 定價頁面

  • Timeout – 數字 (整數),至少為 1。

    任務逾時 (以分鐘為單位)。此為任務執行在停止並進入 TIMEOUT 狀態前可以消耗資源的最大時間。批次工作的預設值為 2,880 分鐘 (48 小時)。

    串流工作的逾時值必須小於 7 天或 10080 分鐘。當值保留空白時,如果您尚未設定維護時段,工作將在 7 天後重新啟動。如果您已設定維護時段,則維護時段將在 7 天後重新啟動。

  • MaxCapacity – 數字 (雙位數)。

    對於 Glue 1.0 版或更早版本的工作,使用標準 Worker 類型,即此工作執行時可配置的 AWS Glue 資料處理單元 (DPUs) 數目。A DPU 是處理能力的相對度量,由 4 vCPUs 個運算容量和 16 GB 的記憶體組成。如需詳細資訊,請參閱 AWS Glue 定價頁面

    對於 Glue 2.0 版或更新版本的任務,您不能指定 Maximum capacity。反之,您必須指定 Worker typeNumber of workers

    如果使用 WorkerTypeNumberOfWorkers,請勿設定 MaxCapacity

    可以分配的值MaxCapacity取決於您是否正在執行 Python 命令介面工作、Apache 星火ETL工作或 Apache 星火串流ETL工作:

    • 當你指定一個 Python 外殼作業(JobCommand.Name=「蟒蛇殼」),你可以分配 0.0625 或 1。DPU預設值為 0.0625 DPU。

    • 當您指定一個阿帕奇星火ETL作業(JobCommand.Name=「膠水」)或 Apache 星火流ETL作業(JobCommand.Name=「膠流」),您可以從 2 分配到 100。DPUs預設值為 10 DPUs。此工作類型不能有分數DPU配置。

  • WorkerType-UTF -8 字符串(有效值:Standard=""G.1X=""G.2X=""| G.025X="" | | G.4X="" | G.8X="" |Z.2X="")。

    將在任務執行時分配的預先定義工作者類型。接受 Spark 任務的 G.1X、G.2X、G.4X、G.8X 或 G.025X 值。接受 Ray 任務的 Z.2X 值。

    • 對於G.1X背景工作類型,每個 Worker 會對應至具有 84GB 磁碟 DPU (約 34GB 可用空間) 的 1 (4 vCPUs ,116 GB 記憶體),並為每個背景工作者提供 1 個執行程式。我們建議將此工作者類型用於資料轉換、聯結和查詢等工作負載,以提供可擴展且符合成本效益的方式來執行大部分任務。

    • 對於G.2X背景工作類型,每個背景工作會對應至具有 128GB 磁碟 DPU (大約可用 77GB) 的 2 個 (8 vCPUs、32 GB 記憶體),並提供每個背景工作者 1 個執行程式。我們建議將此工作者類型用於資料轉換、聯結和查詢等工作負載,以提供可擴展且符合成本效益的方式來執行大部分任務。

    • 對於G.4X背景工作類型,每個工作站都會對應至 4 個 DPU (16 vCPUs、64 GB 記憶體),其中包含 256GB 磁碟 (約 235GB 可用空間),並為每位工作者提供 1 個執行程式。我們建議工作負載包含最嚴苛轉換、彙總、聯結和查詢的任務採用這種工作者類型。此 Worker 類型僅適用於下列 AWS 區域的 3.0 AWS Glue 版或更新版本 Spark ETL 工作:美國東部 (俄亥俄)、美國東部 (維吉尼亞北部)、美國西部 (奧勒岡)、亞太區域 (新加坡)、亞太區域 (雪梨)、亞太區域 (東京)、加拿大 (中部)、歐洲 (法蘭克福)、歐洲 (愛爾蘭) 和歐洲 (斯德哥爾摩)。

    • 對於G.8X背景工作類型,每個工作站都會對應至 8 個 DPU (32 vCPUs、128 GB 記憶體) 與 512GB 磁碟 (大約可用 487GB),並為每位工作者提供 1 個執行程式。我們建議工作負載包含最嚴苛轉換、彙總、聯結和查詢的任務採用這種工作者類型。此 Worker 類型僅適用於 3.0 AWS Glue 版或更新版本的 Spark ETL 工作,與 G.4X Worker 類型支援的相同 AWS 區域中。

    • 對於G.025X背景工作類型,每個 Worker 會對應至具有 84GB 磁碟 DPU (約 34GB 可用空間) 的 0.25 (2 vCPUs、4 GB 記憶體),並為每個背景工作者提供 1 個執行程式。我們建議低容量串流任務採用這種工作者類型。此背景工作類型僅適用於 3.0 AWS Glue 版串流工作。

    • 對於Z.2X工作者類型,每個 Worker 都會對應至具有 128 GB 磁碟 DPU (約 120GB 可用) 的 2 M-(8 vCPUs、64 GB 記憶體),並根據自動配置器提供最多 8 個射線工作者。

  • NumberOfWorkers – 數字 (整數)。

    當任務執行時所配置的已定義 workerType 的工作者數目。

  • SecurityConfiguration— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    與此任務搭配使用的 SecurityConfiguration 結構名稱。

  • NotificationPropertyNotificationProperty 物件。

    指定任務通知的組態屬性。

  • Running – 布林值。

    此欄位保留供日後使用。

  • GlueVersion— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Custom string pattern #20.

    在星火作業中,GlueVersion確定阿帕奇星火和 Python 的版本,在作業中 AWS Glue 可用。Python 版本指示針對 Spark 類型任務支援的版本。

    Ray 任務應將 GlueVersion 設定為 4.0 或更高版本。不過,Ray 任務中可用的 Ray、Python 和其他程式庫的版本由 Job 命令的 Runtime 參數決定。

    如需有關可用版 AWS Glue 本以及對應 Spark 和 Python 版本的詳細資訊,請參閱開發人員指南中的 Glue 版本。

    建立時未指定 Glue 版本的任務,預設為 Glue 0.9。

  • CodeGenConfigurationNodes – 金鑰值對的映射陣列。

    每個鍵都是 UTF -8 字符串,匹配Custom string pattern #42.

    每個值都是 CodeGenConfigurationNode 物件。

    Glue Studio 視覺化組件和 Glue Studio 代碼的產生都根據有向無循環圖的表示形式。

  • ExecutionClass— UTF -8 個字串,長度不超過 16 個位元組 (有效值:FLEX=""|STANDARD="")。

    表示任務執行使用的是標準執行類別還是彈性執行類別。標準執行類別非常適合需要快速任務啟動和專用資源的時間敏感型工作負載。

    彈性執行類別適用於開始和完成時間可能會有所變化的時間敏感型任務。

    只有 AWS Glue 版本 3.0 及更新版本和指令類型glueetl的工作才能設定ExecutionClassFLEX。彈性執行類別可用於 Spark 任務。

  • SourceControlDetailsSourceControlDetails 物件。

    任務原始檔控制組態的詳細資訊,可允許與遠端儲存庫雙向同步任務成品。

  • MaintenanceWindow-UTF -8 字符串,匹配Custom string pattern #30.

    此欄位指定串流工作的維護時段的星期幾和小時。 AWS Glue 定期執行維護活動。在這些維護時段期間, AWS Glue 將需要重新啟動您的串流工作。

    AWS Glue 將在指定維護時間的 3 小時內重新啟動工作。例如,如果您在星期一上午 10:00 設定維護時段GMT,您的作業將在上午 10:00 GMT 到下午 1:00 之間重新啟動GMT。

  • ProfileName— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    與工作相關聯的 AWS Glue 使用情況設定檔名稱。

ExecutionProperty 結構

任務的執行屬性。

欄位
  • MaxConcurrentRuns – 數字 (整數)。

    一項任務可同時執行的最大數量。預設為 1。達到此閾值時,會傳回錯誤。可指定的最大值由服務限制來控制。

NotificationProperty 結構

指定通知的組態屬性。

欄位
  • NotifyDelayAfter – 數字 (整數),至少為 1。

    任務執行開始後,在傳送任務執行延遲通知之前所要等待的分鐘數。

JobCommand 結構

指定任務執行時執行的程式碼。

欄位
  • Name— UTF -8 個字符串。

    任務命令的名稱。對於 Apache 星火ETL工作,這必須是glueetl。用於 Python shell 任務時,必須使用 pythonshell。對於 Apache 星火串流ETL工作,這必須是gluestreaming。對於 Ray 任務,這一定是 glueray

  • ScriptLocation-UTF -8 個字符串,長度不超過 40 萬字節。

    指定指向執行任務指令碼的 Amazon Simple Storage Service (Amazon S3) 路徑。

  • PythonVersion-UTF -8 字符串,匹配Custom string pattern #21.

    用於執行 Python Shell 任務的 Python 版本。允許的值是 2 或 3。

  • Runtime— UTF -8 個字串,長度不超過 64 個位元組,符合Custom string pattern #29.

    在 Ray 任務中,執行期用於指定環境中可用的 Ray、Python 和其他程式庫的版本。此欄位不用於其他任務類型。如需支援的執行階段環境值,請參閱 AWS Glue 開發人員指南中的支援的 Ray 執行階段

ConnectionsList 結構

指定任務所使用的連線。

欄位
  • Connections-UTF -8 個字符串的數組。

    任務所使用連線的清單。

JobUpdate 結構

指定用於更新現有任務定義的資訊。此資訊將完全覆寫之前的任務定義。

欄位
  • JobMode-UTF -8 字符串(有效值:SCRIPT=""VISUAL=""| |NOTEBOOK="")。

    描述如何建立工作的模式。有效的 值如下:

    • SCRIPT-工作是使用 AWS Glue Studio 指令碼編輯器建立的。

    • VISUAL-工作是使用 AWS Glue Studio 視覺化編輯器建立的。

    • NOTEBOOK-工作是使用互動式工作階段筆記本建立的。

    JobMode欄位遺失或為 null 時,SCRIPT會指派為預設值。

  • JobRunQueuingEnabled – 布林值。

    指定是否為此工作的工作執行啟用工作執行佇列。

    值為 true 表示工作執行已啟用工作執行佇列。如果為 false 或未填入,則不會將工作執行視為佇列。

    如果此欄位與工作執行中設定的值不符,則會使用工作執行欄位中的值。

  • Description – 描述字串,長度不可超過 2048 個位元組,需符合URI address multi-line string pattern

    正在定義的任務說明。

  • LogUri— UTF -8 個字符串。

    此欄位保留供日後使用。

  • Role— UTF -8 個字符串。

    與此任務相關聯之IAM角色的名稱或 Amazon 資源名稱 (ARN) (必要)。

  • ExecutionPropertyExecutionProperty 物件。

    ExecutionProperty,指定此任務可同時執行的最大數量。

  • CommandJobCommand 物件。

    負責執行此任務的 JobCommand (必要)。

  • DefaultArguments – 金鑰值對的映射陣列。

    每個鍵是 UTF -8 個字符串。

    每個值都是 UTF -8 個字串。

    此任務每次執行的預設引數,以名稱值對的方式指定。

    您可以在這裡指定自己的工作執行腳本消耗的參數,以及 AWS Glue 本身消耗的參數。

    可以記錄任務引數。不要將純文字袐密當做引數傳遞。如果您想要將密碼保留在 Job 中,請從「 AWS Glue 連線」 AWS Secrets Manager 或其他密碼管理機制擷取密碼。

    有關如何指定和使用自己的 Job 引數的詳細信息,請參閱開發人員指南AWS Glue APIs中的在 Python 中調用主題。

    如需有關設定 Spark 任務時可提供給此欄位之引數的資訊,請參閱開發人員指南中的 Special Parameters Used by AWS Glue 主題。

    如需有關設定 Ray 任務時可提供給此欄位之引數的資訊,請參閱開發人員指南中的 Using job parameters in Ray jobs

  • NonOverridableArguments – 金鑰值對的映射陣列。

    每個鍵是 UTF -8 個字符串。

    每個值都是 UTF -8 個字串。

    在任務執行中提供任務引數時,此任務未被覆寫的引數,以名稱值對的方式指定。

  • ConnectionsConnectionsList 物件。

    用於此任務的連線。

  • MaxRetries – 數字 (整數)。

    如果此任務失敗,可重試的次數上限。

  • AllocatedCapacity – 數字 (整數)。

    此欄位已作廢。請改用 MaxCapacity

    要配置給此工作的 AWS Glue 資料處理單元 (DPUs) 數目。您最少可以配置 2DPUs;預設值為 10。A DPU 是處理能力的相對度量,由 4 vCPUs 個運算容量和 16 GB 的記憶體組成。如需詳細資訊,請參閱 AWS Glue 定價頁面

  • Timeout – 數字 (整數),至少為 1。

    任務逾時 (以分鐘為單位)。此為任務執行在停止並進入 TIMEOUT 狀態前可以消耗資源的最大時間。批次工作的預設值為 2,880 分鐘 (48 小時)。

    串流工作的逾時值必須小於 7 天或 10080 分鐘。當值保留空白時,如果您尚未設定維護時段,工作將在 7 天後重新啟動。如果您已設定維護時段,則維護時段將在 7 天後重新啟動。

  • MaxCapacity – 數字 (雙位數)。

    對於 Glue 1.0 版或更早版本的工作,使用標準 Worker 類型,即此工作執行時可配置的 AWS Glue 資料處理單元 (DPUs) 數目。A DPU 是處理能力的相對度量,由 4 vCPUs 個運算容量和 16 GB 的記憶體組成。如需詳細資訊,請參閱 AWS Glue 定價頁面

    對於 Glue 2.0+ 版任務,您不能指定 Maximum capacity。反之,您必須指定 Worker typeNumber of workers

    如果使用 WorkerTypeNumberOfWorkers,請勿設定 MaxCapacity

    可以分配的值MaxCapacity取決於您是否正在執行 Python 命令介面工作、Apache 星火ETL工作或 Apache 星火串流ETL工作:

    • 當你指定一個 Python 外殼作業(JobCommand.Name=「蟒蛇殼」),你可以分配 0.0625 或 1。DPU預設值為 0.0625 DPU。

    • 當您指定一個阿帕奇星火ETL作業(JobCommand.Name=「膠水」)或 Apache 星火流ETL作業(JobCommand.Name=「膠流」),您可以從 2 分配到 100。DPUs預設值為 10 DPUs。此工作類型不能有分數DPU配置。

  • WorkerType-UTF -8 字符串(有效值:Standard=""G.1X=""G.2X=""| G.025X="" | | G.4X="" | G.8X="" |Z.2X="")。

    將在任務執行時分配的預先定義工作者類型。接受 Spark 任務的 G.1X、G.2X、G.4X、G.8X 或 G.025X 值。接受 Ray 任務的 Z.2X 值。

    • 對於G.1X背景工作類型,每個 Worker 會對應至具有 84GB 磁碟 DPU (約 34GB 可用空間) 的 1 (4 vCPUs ,116 GB 記憶體),並為每個背景工作者提供 1 個執行程式。我們建議將此工作者類型用於資料轉換、聯結和查詢等工作負載,以提供可擴展且符合成本效益的方式來執行大部分任務。

    • 對於G.2X背景工作類型,每個背景工作會對應至具有 128GB 磁碟 DPU (大約可用 77GB) 的 2 個 (8 vCPUs、32 GB 記憶體),並提供每個背景工作者 1 個執行程式。我們建議將此工作者類型用於資料轉換、聯結和查詢等工作負載,以提供可擴展且符合成本效益的方式來執行大部分任務。

    • 對於G.4X背景工作類型,每個工作站都會對應至 4 個 DPU (16 vCPUs、64 GB 記憶體),其中包含 256GB 磁碟 (約 235GB 可用空間),並為每位工作者提供 1 個執行程式。我們建議工作負載包含最嚴苛轉換、彙總、聯結和查詢的任務採用這種工作者類型。此 Worker 類型僅適用於下列 AWS 區域的 3.0 AWS Glue 版或更新版本 Spark ETL 工作:美國東部 (俄亥俄)、美國東部 (維吉尼亞北部)、美國西部 (奧勒岡)、亞太區域 (新加坡)、亞太區域 (雪梨)、亞太區域 (東京)、加拿大 (中部)、歐洲 (法蘭克福)、歐洲 (愛爾蘭) 和歐洲 (斯德哥爾摩)。

    • 對於G.8X背景工作類型,每個工作站都會對應至 8 個 DPU (32 vCPUs、128 GB 記憶體) 與 512GB 磁碟 (大約可用 487GB),並為每位工作者提供 1 個執行程式。我們建議工作負載包含最嚴苛轉換、彙總、聯結和查詢的任務採用這種工作者類型。此 Worker 類型僅適用於 3.0 AWS Glue 版或更新版本的 Spark ETL 工作,與 G.4X Worker 類型支援的相同 AWS 區域中。

    • 對於G.025X背景工作類型,每個 Worker 會對應至具有 84GB 磁碟 DPU (約 34GB 可用空間) 的 0.25 (2 vCPUs、4 GB 記憶體),並為每個背景工作者提供 1 個執行程式。我們建議低容量串流任務採用這種工作者類型。此背景工作類型僅適用於 3.0 AWS Glue 版串流工作。

    • 對於Z.2X工作者類型,每個 Worker 都會對應至具有 128 GB 磁碟 DPU (約 120GB 可用) 的 2 M-(8 vCPUs、64 GB 記憶體),並根據自動配置器提供最多 8 個射線工作者。

  • NumberOfWorkers – 數字 (整數)。

    當任務執行時所配置的已定義 workerType 的工作者數目。

  • SecurityConfiguration— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    與此任務搭配使用的 SecurityConfiguration 結構名稱。

  • NotificationPropertyNotificationProperty 物件。

    指定任務通知的組態屬性。

  • GlueVersion— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Custom string pattern #20.

    在星火作業中,GlueVersion確定阿帕奇星火和 Python 的版本,在作業中 AWS Glue 可用。Python 版本指示針對 Spark 類型任務支援的版本。

    Ray 任務應將 GlueVersion 設定為 4.0 或更高版本。不過,Ray 任務中可用的 Ray、Python 和其他程式庫的版本由 Job 命令的 Runtime 參數決定。

    如需有關可用版 AWS Glue 本以及對應 Spark 和 Python 版本的詳細資訊,請參閱開發人員指南中的 Glue 版本。

    建立時未指定 Glue 版本的任務,預設為 Glue 0.9。

  • CodeGenConfigurationNodes – 金鑰值對的映射陣列。

    每個鍵都是 UTF -8 字符串,匹配Custom string pattern #42.

    每個值都是 CodeGenConfigurationNode 物件。

    Glue Studio 視覺化組件和 Glue Studio 代碼的產生都根據有向無循環圖的表示形式。

  • ExecutionClass— UTF -8 個字串,長度不超過 16 個位元組 (有效值:FLEX=""|STANDARD="")。

    表示任務執行使用的是標準執行類別還是彈性執行類別。標準執行類別非常適合需要快速的任務啟動和專用資源的時間敏感型工作負載。

    彈性執行類別適用於開始和完成時間可能會有所變化的時間敏感型任務。

    只有 AWS Glue 版本 3.0 及更新版本和指令類型glueetl的工作才能設定ExecutionClassFLEX。彈性執行類別可用於 Spark 任務。

  • SourceControlDetailsSourceControlDetails 物件。

    任務原始檔控制組態的詳細資訊,可允許與遠端儲存庫雙向同步任務成品。

  • MaintenanceWindow-UTF -8 字符串,匹配Custom string pattern #30.

    此欄位指定串流工作的維護時段的星期幾和小時。 AWS Glue 定期執行維護活動。在這些維護時段期間, AWS Glue 將需要重新啟動您的串流工作。

    AWS Glue 將在指定維護時間的 3 小時內重新啟動工作。例如,如果您在星期一上午 10:00 設定維護時段GMT,您的作業將在上午 10:00 GMT 到下午 1:00 之間重新啟動GMT。

  • ProfileName— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    與工作相關聯的 AWS Glue 使用情況設定檔名稱。

SourceControlDetails 結構

任務原始檔控制組態的詳細資訊,可允許與遠端儲存庫雙向同步任務成品。

欄位
  • Provider— UTF -8 個字符串。

    遠端儲存庫的提供者。

  • Repository-UTF -8 個字符串,長度不小於 1 個或大於 512 字節。

    任務成品所在遠端儲存庫的名稱。

  • Owner-UTF -8 個字符串,長度不小於 1 個或大於 512 字節。

    任務成品所在遠端儲存庫的擁有者。

  • Branch-UTF -8 個字符串,長度不小於 1 個或大於 512 字節。

    遠端儲存庫中可供自由選用的分支。

  • Folder-UTF -8 個字符串,長度不小於 1 個或大於 512 字節。

    遠端儲存庫中可供自由選用的資料夾。

  • LastCommitId-UTF -8 個字符串,長度不小於 1 個或大於 512 字節。

    遠端儲存庫中遞交的最後一個遞交 ID。

  • LastSyncTimestamp-UTF -8 個字符串,長度不小於 1 個或大於 512 字節。

    最近一次執行任務同步作業的日期和時間。

  • AuthStrategy— UTF -8 個字符串。

    驗證類型,可以是儲存在 AWS Secrets Manager 中的驗證權杖,也可以是個人存取權杖。

  • AuthToken-UTF -8 個字符串,長度不小於 1 個或大於 512 字節。

    授權字符的值。

作業

CreateJob 行動(Python:創建工作)

建立新任務定義。

請求
  • Name必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    您指派給此任務定義的名稱。它在您的 帳戶中必須是唯一的。

  • JobMode-UTF -8 字符串(有效值:SCRIPT=""VISUAL=""| |NOTEBOOK="")。

    描述如何建立工作的模式。有效的 值如下:

    • SCRIPT-工作是使用 AWS Glue Studio 指令碼編輯器建立的。

    • VISUAL-工作是使用 AWS Glue Studio 視覺化編輯器建立的。

    • NOTEBOOK-工作是使用互動式工作階段筆記本建立的。

    JobMode欄位遺失或為 null 時,SCRIPT會指派為預設值。

  • JobRunQueuingEnabled – 布林值。

    指定是否為此工作的工作執行啟用工作執行佇列。

    值為 true 表示工作執行已啟用工作執行佇列。如果為 false 或未填入,則不會將工作執行視為佇列。

    如果此欄位與工作執行中設定的值不符,則會使用工作執行欄位中的值。

  • Description – 描述字串,長度不可超過 2048 個位元組,需符合URI address multi-line string pattern

    正在定義的任務說明。

  • LogUri— UTF -8 個字符串。

    此欄位保留供日後使用。

  • Role必要:UTF-8 個字串。

    與此任務相關聯之IAM角色的名稱或 Amazon 資源名稱 (ARN)。

  • ExecutionPropertyExecutionProperty 物件。

    ExecutionProperty,指定此任務可同時執行的最大數量。

  • Command必要:JobCommand 物件。

    執行這個任務的 JobCommand

  • DefaultArguments – 金鑰值對的映射陣列。

    每個鍵是 UTF -8 個字符串。

    每個值都是 UTF -8 個字串。

    此任務每次執行的預設引數,以名稱值對的方式指定。

    您可以在這裡指定自己的工作執行腳本消耗的參數,以及 AWS Glue 本身消耗的參數。

    可以記錄任務引數。不要將純文字袐密當做引數傳遞。如果您想要將密碼保留在 Job 中,請從「 AWS Glue 連線」 AWS Secrets Manager 或其他密碼管理機制擷取密碼。

    有關如何指定和使用自己的 Job 引數的詳細信息,請參閱開發人員指南AWS Glue APIs中的在 Python 中調用主題。

    如需有關設定 Spark 任務時可提供給此欄位之引數的資訊,請參閱開發人員指南中的 Special Parameters Used by AWS Glue 主題。

    如需有關設定 Ray 任務時可提供給此欄位之引數的資訊,請參閱開發人員指南中的 Using job parameters in Ray jobs

  • NonOverridableArguments – 金鑰值對的映射陣列。

    每個鍵是 UTF -8 個字符串。

    每個值都是 UTF -8 個字串。

    在任務執行中提供任務引數時,此任務未被覆寫的引數,以名稱值對的方式指定。

  • ConnectionsConnectionsList 物件。

    用於此任務的連線。

  • MaxRetries – 數字 (整數)。

    如果此任務失敗,可重試的次數上限。

  • AllocatedCapacity – 數字 (整數)。

    此參數已棄用。請改用 MaxCapacity

    要配置給此 Job 的 AWS Glue 資料處理單元 (DPUs) 數目。您最少可以配置 2DPUs;預設值為 10。A DPU 是處理能力的相對度量,由 4 vCPUs 個運算容量和 16 GB 的記憶體組成。如需詳細資訊,請參閱 AWS Glue 定價頁面

  • Timeout – 數字 (整數),至少為 1。

    任務逾時 (以分鐘為單位)。此為任務執行在停止並進入 TIMEOUT 狀態前可以消耗資源的最大時間。批次工作的預設值為 2,880 分鐘 (48 小時)。

    串流工作的逾時值必須小於 7 天或 10080 分鐘。當值保留空白時,如果您尚未設定維護時段,工作將在 7 天後重新啟動。如果您已設定維護時段,則維護時段將在 7 天後重新啟動。

  • MaxCapacity – 數字 (雙位數)。

    對於 Glue 1.0 版或更早版本的工作,使用標準 Worker 類型,即此工作執行時可配置的 AWS Glue 資料處理單元 (DPUs) 數目。A DPU 是處理能力的相對度量,由 4 vCPUs 個運算容量和 16 GB 的記憶體組成。如需詳細資訊,請參閱 AWS Glue 定價頁面

    對於 Glue 2.0+ 版任務,您不能指定 Maximum capacity。反之,您必須指定 Worker typeNumber of workers

    如果使用 WorkerTypeNumberOfWorkers,請勿設定 MaxCapacity

    可以分配的值MaxCapacity取決於您是否正在執行 Python 命令介面工作、Apache 星火ETL工作或 Apache 星火串流ETL工作:

    • 當你指定一個 Python 外殼作業(JobCommand.Name=「蟒蛇殼」),你可以分配 0.0625 或 1。DPU預設值為 0.0625 DPU。

    • 當您指定一個阿帕奇星火ETL作業(JobCommand.Name=「膠水」)或 Apache 星火流ETL作業(JobCommand.Name=「膠流」),您可以從 2 分配到 100。DPUs預設值為 10 DPUs。此工作類型不能有分數DPU配置。

  • SecurityConfiguration— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    與此任務搭配使用的 SecurityConfiguration 結構名稱。

  • Tags – 金鑰值對的對應陣列,不超過 50 對。

    每個鍵是 UTF -8 個字符串,長度不小於 1 或超過 128 個字節。

    每個值都是 UTF -8 個字串,長度不超過 256 個位元組。

    要搭配此任務使用的標籤。您可以使用標籤來限制對於任務的存取情況。如需中標籤的詳細資訊 AWS Glue,請參閱開發人員指南AWS Glue中的「AWS 標籤」。

  • NotificationPropertyNotificationProperty 物件。

    指定任務通知的組態屬性。

  • GlueVersion— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Custom string pattern #20.

    在星火作業中,GlueVersion確定阿帕奇星火和 Python 的版本,在作業中 AWS Glue 可用。Python 版本指示針對 Spark 類型任務支援的版本。

    Ray 任務應將 GlueVersion 設定為 4.0 或更高版本。不過,Ray 任務中可用的 Ray、Python 和其他程式庫的版本由 Job 命令的 Runtime 參數決定。

    如需有關可用版 AWS Glue 本以及對應 Spark 和 Python 版本的詳細資訊,請參閱開發人員指南中的 Glue 版本。

    建立時未指定 Glue 版本的任務,預設為 Glue 0.9。

  • NumberOfWorkers – 數字 (整數)。

    當任務執行時所配置的已定義 workerType 的工作者數目。

  • WorkerType-UTF -8 字符串(有效值:Standard=""G.1X=""G.2X=""| G.025X="" | | G.4X="" | G.8X="" |Z.2X="")。

    將在任務執行時分配的預先定義工作者類型。接受 Spark 任務的 G.1X、G.2X、G.4X、G.8X 或 G.025X 值。接受 Ray 任務的 Z.2X 值。

    • 對於G.1X背景工作類型,每個 Worker 會對應至具有 84GB 磁碟 DPU (約 34GB 可用空間) 的 1 (4 vCPUs ,116 GB 記憶體),並為每個背景工作者提供 1 個執行程式。我們建議將此工作者類型用於資料轉換、聯結和查詢等工作負載,以提供可擴展且符合成本效益的方式來執行大部分任務。

    • 對於G.2X背景工作類型,每個背景工作會對應至具有 128GB 磁碟 DPU (大約可用 77GB) 的 2 個 (8 vCPUs、32 GB 記憶體),並提供每個背景工作者 1 個執行程式。我們建議將此工作者類型用於資料轉換、聯結和查詢等工作負載,以提供可擴展且符合成本效益的方式來執行大部分任務。

    • 對於G.4X背景工作類型,每個工作站都會對應至 4 個 DPU (16 vCPUs、64 GB 記憶體),其中包含 256GB 磁碟 (約 235GB 可用空間),並為每位工作者提供 1 個執行程式。我們建議工作負載包含最嚴苛轉換、彙總、聯結和查詢的任務採用這種工作者類型。此 Worker 類型僅適用於下列 AWS 區域的 3.0 AWS Glue 版或更新版本 Spark ETL 工作:美國東部 (俄亥俄)、美國東部 (維吉尼亞北部)、美國西部 (奧勒岡)、亞太區域 (新加坡)、亞太區域 (雪梨)、亞太區域 (東京)、加拿大 (中部)、歐洲 (法蘭克福)、歐洲 (愛爾蘭) 和歐洲 (斯德哥爾摩)。

    • 對於G.8X背景工作類型,每個工作站都會對應至 8 個 DPU (32 vCPUs、128 GB 記憶體) 與 512GB 磁碟 (大約可用 487GB),並為每位工作者提供 1 個執行程式。我們建議工作負載包含最嚴苛轉換、彙總、聯結和查詢的任務採用這種工作者類型。此 Worker 類型僅適用於 3.0 AWS Glue 版或更新版本的 Spark ETL 工作,與 G.4X Worker 類型支援的相同 AWS 區域中。

    • 對於G.025X背景工作類型,每個 Worker 會對應至具有 84GB 磁碟 DPU (約 34GB 可用空間) 的 0.25 (2 vCPUs、4 GB 記憶體),並為每個背景工作者提供 1 個執行程式。我們建議低容量串流任務採用這種工作者類型。此背景工作類型僅適用於 3.0 AWS Glue 版串流工作。

    • 對於Z.2X工作者類型,每個 Worker 都會對應至具有 128 GB 磁碟 DPU (約 120GB 可用) 的 2 M-(8 vCPUs、64 GB 記憶體),並根據自動配置器提供最多 8 個射線工作者。

  • CodeGenConfigurationNodes – 金鑰值對的映射陣列。

    每個鍵都是 UTF -8 字符串,匹配Custom string pattern #42.

    每個值都是 CodeGenConfigurationNode 物件。

    Glue Studio 視覺化組件和 Glue Studio 代碼的產生都根據有向無循環圖的表示形式。

  • ExecutionClass— UTF -8 個字串,長度不超過 16 個位元組 (有效值:FLEX=""|STANDARD="")。

    表示任務執行使用的是標準執行類別還是彈性執行類別。標準執行類別非常適合需要快速的任務啟動和專用資源的時間敏感型工作負載。

    彈性執行類別適用於開始和完成時間可能會有所變化的時間敏感型任務。

    只有 AWS Glue 版本 3.0 及更新版本和指令類型glueetl的工作才能設定ExecutionClassFLEX。彈性執行類別可用於 Spark 任務。

  • SourceControlDetailsSourceControlDetails 物件。

    任務原始檔控制組態的詳細資訊,可允許與遠端儲存庫雙向同步任務成品。

  • MaintenanceWindow-UTF -8 字符串,匹配Custom string pattern #30.

    此欄位指定串流工作的維護時段的星期幾和小時。 AWS Glue 定期執行維護活動。在這些維護時段期間, AWS Glue 將需要重新啟動您的串流工作。

    AWS Glue 將在指定維護時間的 3 小時內重新啟動工作。例如,如果您在星期一上午 10:00 設定維護時段GMT,您的作業將在上午 10:00 GMT 到下午 1:00 之間重新啟動GMT。

  • ProfileName— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    與工作相關聯的 AWS Glue 使用情況設定檔名稱。

回應
  • Name— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    為此任務定義而提供的唯一名稱。

錯誤
  • InvalidInputException

  • IdempotentParameterMismatchException

  • AlreadyExistsException

  • InternalServiceException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • ConcurrentModificationException

UpdateJob 行動(Python:更新工作)

更新現有的任務定義。此資訊將完全覆寫之前的任務定義。

請求
  • JobName必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    要更新之任務定義的名稱。

  • JobUpdate必要:JobUpdate 物件。

    指定用於更新任務定義的值。未指定的組態將被移除或重置為預設值。

  • ProfileName— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    與工作相關聯的 AWS Glue 使用情況設定檔名稱。

回應
  • JobName— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    傳回已更新之任務定義的名稱。

錯誤
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

  • ConcurrentModificationException

GetJob 行動(Python:獲取工作)

擷取現有的任務定義。

請求
  • JobName必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    欲擷取的任務定義的名稱。

回應
  • Job任務 物件。

    要求的任務定義。

錯誤
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

GetJobs 行動(Python:獲取工作)

擷取所有目前的任務定義。

請求
  • NextToken— UTF -8 個字符串。

    接續符記,如果這是接續呼叫。

  • MaxResults – 數字 (整數),不可小於 1,也不可以大於 1000。

    回應的大小上限。

回應
  • Jobs – 一個 任務 物件陣列。

    任務定義的清單。

  • NextToken— UTF -8 個字符串。

    持續符記 (如果尚未傳回所有任務定義)。

錯誤
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

DeleteJob 行動(Python:刪除工作)

刪除指定的任務定義。如果找不到此任務定義,不會擲出例外狀況。

請求
  • JobName必要:UTF-8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    欲刪除的任務定義的名稱。

回應
  • JobName— UTF -8 個字串,長度不小於 1 或超過 255 個位元組,符合Single-line string pattern.

    已刪除之任務定義的名稱。

錯誤
  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

ListJobs 行動(Python:列表工作)

擷取此 AWS 帳號中所有工作資源的名稱,或具有指定標籤的資源。您可運用此操作,查看帳戶下有哪些可用資源及其名稱。

此操作會接收您可在回應時做為篩選條件的選用 Tags 欄位,因此已標記的資源可分組進行擷取。如果您選擇使用標籤進行篩選,則此時只會擷取包含該標籤的資源。

請求
  • NextToken— UTF -8 個字符串。

    接續符記,如果這是接續要求。

  • MaxResults – 數字 (整數),不可小於 1,也不可以大於 1000。

    所要回傳清單的大小上限。

  • Tags – 金鑰值對的對應陣列,不超過 50 對。

    每個鍵是 UTF -8 個字符串,長度不小於 1 或超過 128 個字節。

    每個值都是 UTF -8 個字串,長度不超過 256 個位元組。

    指定只傳回包含這些標籤的資源。

回應
  • JobNames-UTF -8 個字符串的數組。

    這個帳戶下所有任務的名稱,或是使用指定標籤的任務。

  • NextToken— UTF -8 個字符串。

    接續字元,如果傳回的清單未包含最後一個可用指標。

錯誤
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

BatchGetJobs 行動(Python:批處理工作)

為指定的動作名稱清單,傳回資源中繼資料的清單。呼叫 ListJobs 操作之後,您便可以呼叫此操作來存取您已授與許可的資料。此作業支援所有IAM權限,包括使用標籤的權限條件。

請求
  • JobNames必要:UTF-8 個字串的陣列。

    任務名稱清單,可能是從 ListJobs 操作傳回的名稱。

回應
  • Jobs – 一個 任務 物件陣列。

    任務定義的清單。

  • JobsNotFound-UTF -8 個字符串的數組。

    找不到任務名稱清單。

錯誤
  • InternalServiceException

  • OperationTimeoutException

  • InvalidInputException

警告 您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript,才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。