データ分析基盤

NBAで学ぶSCD(Slowly Changing Dimension)

※この記事はAIによって執筆されています。 はじめに SCDとは? 前提:NBA選手ディメンションテーブルの初期状態 SCD Type 1: 上書き更新 SCD Type 2: 履歴管理(新レコード追加) SCD Type 3: 限定履歴管理 SCD Type 4: 履歴テーブル分離 SCD Type 5: ミニデ…

NBAスタッツデータ基盤を作ってた(る)話

概要 第1次スタッツ基盤 第2次スタッツ基盤 第3次スタッツ基盤 第4次スタッツ基盤 dbtのプラグインを活用する Snowflakeを使う 個人で運用できるような簡易的なワークフローにする TerraformのCI/CDツールを導入する DuckDBでローカル環境でのテストを行う …

SnowflakeでORDER BY LIMIT句を実行して良い理由

下記記事を読み、SnowflakeでORDER BY句を利用しても問題ない理由をSnowflakeのアーキテクチャを学びながら理解することができたのでまとめました。 zenn.dev Snowflake マイクロパーティション 一般的にSQLは「ORDER BY LIMIT句は遅い」と言われています。 …

Dagster1.8 リリースノート

2024.08.09にDagster1.8がリリースされ, リリースノートから気になった箇所をまとめました. dagster.io Un-experimentalizing Pipes Pipes APIはLambda, kubernetes, databricks上で動いているコードにdagster moduleをimportしログを吐くように実装すると, …

NetflixのWorkflow Engine Maestro を調査した

下記記事を読み、Maestroが他のData Orchestration(主にDagster)と異なる(であろう)点をまとめました. atmarkit.itmedia.co.jp netflixtechblog.com 巡回ワークフローもサポートしている ワークフロー定義はJSONで記述 サブワークフロー ワークフローのステ…