AWS Glue

あらゆる規模ですべてのデータを検出、準備、統合する

AWS Glue を選ぶ理由?

質の高い結果を得るためにデータを準備することは、分析または ML プロジェクトの最初のステップです。AWS Glue は、データの準備をより簡単、迅速、低コストにするサーバーレスデータ統合サービスです。70 を超える多様なデータソースを検出して接続し、一元化されたデータカタログでデータを管理し、ETL パイプラインを視覚的に作成、実行、モニタリングして、データをデータレイクにロードできます。

AWS Glue のご紹介 (01:54)

AWS Glue の利点

テーラーメイドツール

デベロッパーからビジネスユーザーまで、すべてのデータユーザーをサポート

オールインワン

1 つのサーバーレスサービスで完全なデータ統合機能を提供

すべてのワークロードをサポート

ETL、ELT、バッチ、ストリーミングなどをロックインなしで柔軟にサポート

オンデマンドでスケール

ペタバイト規模、従量課金、あらゆるデータサイズ

仕組み

AWS Glue は、サーバーレスなデータ統合サービスで、分析、機械学習 (ML)、アプリケーション開発用に、複数のソースからデータを検出、準備、移動、統合することをより容易にします。

データ統合エンジンオプション
AWS Glue でお好みのデータ統合エンジンを選択し、ユーザーとワークロードをサポートします。

この図は、AWS Glue のユーザーが、複数のデータ統合エンジンを使用したジョブワークロードを作成するために、インターフェースオプションを選択する方法を示しています。左側に 1 つ、真ん中に 2 つ、右側に 1 つ、計 4 つのセクションを表示します。

左側の最初のセクションは、「データソース」と呼ばれています。「Amazon S3」、「Amazon DynamoDB」、「Amazon EC2 上で実行するデータベース」、「データベース」および「SaaS」の、データソースが含まれます。

最初のセクションに、「インターフェースの選択」という図の上部にある真ん中のセクションを指す矢印があります。この 2 番目のセクションには、3 つのセクションが含まれています。「AWS Glue Studio」、「Amazon SageMaker ノートブック」、「ノートブックと IDE」の 3 つです。

この 2 番目のセクションの下に、「オープンインターフェースでインタラクティブな作業やジョブワークロードをサポート」というテキストがあります。このテキストには、その上の既述の 2 番目のセクションを指す矢印と、その下の 3 番目のセクションを指す矢印が含まれています。

この 3 番目のセクションは、「データインテグレーションエンジン」と呼ばれています。テキストには、「自動スケーリングと従量制料金による、サーバーレスでスケーラブルなデータ処理エンジンを優先的に選択する」とあります。このセクションには、「AWS Glue for Ray」、「AWS Glue for Python Shell」、「AWS Glue for Apache Spark」の、3 つのエンジン名があります。

4 番目のセクションは 2 番目のセクションの右側に表示され、2 番目のセクションから 4 番目のセクション部へ向かう矢印が表示されます。4 番目のセクションでは、「データレイクやデータウェアハウスにデータを作成し、ロードする」とあります。また、このセクションには、「Amazon Redshift」、「データレイク」、「データウェアハウス」の 3 つのセクションがあります。

拡大イメージを見る
イベント駆動型 ETL
AWS Glue は、新しいデータが到着すると、抽出、変換、ロード (ETL) ジョブを実行できます。例えば、AWS Glue を設定して、Amazon Simple Storage Service (S3) で新しいデータが利用可能になり次第、ETL ジョブの実行を開始できます。
AWS Glue データカタログ
データを移動させることなく、AWS の複数のデータセットを迅速に検出および検索を行うには、データカタログを使用します。カタログ化されたデータは、すぐに Amazon Athena、Amazon EMR、Amazon Redshift Spectrum を使用した検索やクエリで利用できるようになります。
ノーコード ETL ジョブ
AWS Glue Studio を使用すると、AWS Glue ETL ジョブを視覚的に作成、実行、モニタリングするのがより簡単になります。ドラッグアンドドロップエディタを使用してデータを移動および変換する ETL ジョブを構築できます。また、AWS Glue は自動的にそのコードを生成します。
データ品質の管理とモニタリング
AWS Glue Data Quality は、データ品質ルールの作成、管理、モニタリングを自動化し、データレイクやパイプライン全体で高品質なデータを確保できるよう支援します。

この図は、AWS Glue Data Quality を使用して、推奨ルールの作成、データ品質のモニタリング、データ品質悪化時のアラート送信を行う方法を示しています。左から右に 3 つのセクションが表示されます。

最初のセクションには、AWS Glue データカタログと AWS Glue ETL のイラストがあります。AWS Glue データカタログの下に、「データレイクにあるすべてのデータセットをカタログ化」とあります。 AWS Glue ETL の下には、「異種データソースからのデータの統合と変換」とあります。

2 番目のセクションは、「AWS Glue データ品質」というタイトルです。このセクションには、3 つのアイコンがあります。1 つ目は、チェックリストです。その下には「データ品質ルールの推奨事項。データ品質ルールの自動推奨ですぐに始める」とあります。 2 つ目は、鉛筆のアイコンです。その下に、「事前設定されたデータ品質ルール」とあります。あらかじめ設定されたデータ品質ルールで推奨事項を編集、強化」 3 つ目のアイコンはベルです。その下には「アラートとアクション。データ品質が悪化したときに実行するアラートとアクションを追加する」とあります。

3 番目セクションは、2 つのアイコンが重なっています。最初のアイコンは棒グラフです。その下には「メトリクス。データ品質メトリクスを使用して、自信を持ってビジネス上の意思決定を行う」とあります。 2 つ目のアイコンは、警告サインです。その下には「アラート。アラートを使って、品質が悪化したときに通知を受け、データを修正するためのアクションを起こす」とあります。

拡大イメージを見る
データ準備
AWS Glue DataBrew を使用することで、データレイク、データウェアハウス、および Amazon S3、Amazon Redshift、AWS Lake Formation、Amazon Aurora、Amazon Relational Database Service (RDS) などのデータベースから直接データを探索して実験できます。DataBrew の 250 を超える構築済みトランスフォーメーションから選択して、異常のフィルタリング、フォーマットの標準化、無効な値の修正などのデータ準備タスクを自動化できます。

さらに、AWS Glue Studio にはデータ準備ツールが用意されており、コードを記述することなく、インタラクティブなポイントアンドクリックのビジュアルインターフェイスでデータを準備できます。