データベースの質問についての対策
データエンジニアリングとそのデータパイプラインでクリーニングされたデータが機械学習モデルにどのように組み込まれるかを掘り下げる前に、まずデータベースについて学ぶ必要があります。機械学習エンジニアとして働くには、データレイクやデータウェアハウスからデータを抽出し、変換するための複雑なクエリを構築できるほどのSQL知識を前提とします。
最近では、データレイクへのアクセスはApache Sparkのような分散ビッグデータフレームワークを介してよく行われ、ANSI SQLのサポートを通じて、データレイクをデータウェアハウスのように扱うことが可能になっています。このような機能を提供するクラウドやベンダーのソリューションも多数存在します。
クラウドソリューション
- AWS: Glue/Elastic Map Reduce → S3
- Azure: Synapse → Azure Data Lake Storage Gen 2
- Google: Dataproc → Google Storage
- Databricks:Spark → AWS S3/Azure Data Lake Storage Gen 2/Google Storage
ここではオブジェクトストレージはデータレイクとして使用されます。
オープンソースソリューション
- Apache Spark / Apache Hive -> Hadoop
(注)Databricks SparkとApache Sparkは異なります。
ここでは、データベースに関連する質問に焦点を当て、データウェアハウスが従来のMySQLのようなOLTPデータベースとどのように異なるかについて話します。
データベースの重要性
データベースは、いくつかの理由で機械学習(ML)において重要な役割を果たします。