📖

第2章 データベース (Database)

データベースの質問についての対策

データエンジニアリングとそのデータパイプラインでクリーニングされたデータが機械学習モデルにどのように組み込まれるかを掘り下げる前に、まずデータベースについて学ぶ必要があります。機械学習エンジニアとして働くには、データレイクやデータウェアハウスからデータを抽出し、変換するための複雑なクエリを構築できるほどのSQL知識を前提とします。
最近では、データレイクへのアクセスはApache Sparkのような分散ビッグデータフレームワークを介してよく行われ、ANSI SQLのサポートを通じて、データレイクをデータウェアハウスのように扱うことが可能になっています。このような機能を提供するクラウドやベンダーのソリューションも多数存在します。

クラウドソリューション

  • AWS: Glue/Elastic Map Reduce → S3
  • Azure: Synapse → Azure Data Lake Storage Gen 2
  • Google: Dataproc → Google Storage
  • Databricks:Spark → AWS S3/Azure Data Lake Storage Gen 2/Google Storage
ここではオブジェクトストレージはデータレイクとして使用されます。

オープンソースソリューション

  • Apache Spark / Apache Hive -> Hadoop
(注)Databricks SparkとApache Sparkは異なります。
ここでは、データベースに関連する質問に焦点を当て、データウェアハウスが従来のMySQLのようなOLTPデータベースとどのように異なるかについて話します。

データベースの重要性

データベースは、いくつかの理由で機械学習(ML)において重要な役割を果たします。
すべてを見るには

返金は購入日から1日以内に申し出て下さい。詳細はこちらからご確認ください。
また、このコンテンツ以外の他の永久アクセス権は付与されない事はご注意下さい。

支払いはによって保護されています

購入済の方はこちらからログインしてください

Loading...