めもちょー

メモ帳代わりに使っています。

Dagster

DagsterでYearlyPartitionsDefinitionを実装する

概要 実装 概要 Dagsterでbackfillの単位として、パーティションという概念があります。 docs.dagster.io その中でも時間単位で制御したい場合、下記が提供されています。 HourlyPartitionsDefinition DailyPartitionsDefinition WeeklyPartitionsDefinition…

DagsterでBQテーブルの鮮度チェックを実装する

概要 下記記事について、SnowflakeのテーブルのSourceAssetに対して「2時間以内に更新があったか?」という鮮度チェックの例が載っていました。 個人の環境では、SnowflakeではなくBigQueryをメインに使っているため、BigQueryでも同じ処理をやりたいなと思…

Dagster Asset Checksについて調べた

概要 基本 asset_checks関数 1つのasset_check関数内に複数のチェック項目を設ける asset関数内にcheckまで書く asset_check factory pattern AssetCheckResultをカスタマイズする エラーレベル メタデータ 下流アセットのブロック asset_checkを含めた・含…

Dagsterのjob factory patternを通常のasset関数から徐々に理解する

概要 asset asset factory pattern job factory pattern 概要 Dagsterのデザインパターンであるjobクラス+asset_factoryメソッドのパターンを理解するために、最も基本的な概念であるasset関数から徐々に理解していくための解説を書きました。 asset もっと…

DagsterにおけるYahooオークションのスクレイピングパターンを考えた

問題設定 ヤフオクの特定の出品者の商品一覧を毎日決まった時刻に取得したいと考えます。 設計 時間による情報の変化をopに落とし込む 上記の問題を考えた場合、訪れるページの種類は主に3つ挙げられます。 No ページの種類 得たい情報 得たい情報に対しての…

Dagster1.8 リリースノート

2024.08.09にDagster1.8がリリースされ, リリースノートから気になった箇所をまとめました. dagster.io Un-experimentalizing Pipes Pipes APIはLambda, kubernetes, databricks上で動いているコードにdagster moduleをimportしログを吐くように実装すると, …

External Assetの仕様が変わっていた

概要 変更点 一つのExternalAsset 複数のExternalAsset Definition 概要 1.7.9から1.8.0にかけてExternal Assetの仕様が変わっていたため調査を行いました。 changelogは下記のようになっています。 github.com このうちexternal assetに関する記述は下記に…

Dagsterのjob内のasset/opのリセットの仕組み

概要 同run内でop/asset単位のリトライ ResetPolicy コード例 異なるrunで失敗したop/assetのみをリトライ dagster.yaml jobのタグに設定 概要 Dagsterのリセットポリシーについてまとめてみました。 Dagsterのリトライの単位は大きく2つあります。 同run内…