めもちょー

メモ帳代わりに使っています。

BigQuery

生成AIを活用して複雑なスタッツを分析する

概要 NBAスタッツ分析について 分析の動機 スタッツの計算 ChatGPTへの事前入力内容 前提 ChatGPTへの事前入力内容 スタッツの計算1 スタッツの計算2 スタッツの計算3 スタッツの計算4 概要 この記事では、生成AI(Chat GPT無料枠)を用いてNBAのスタッツを…

NBAのレギュラーシーズン開幕からの連勝数の導出

Cleveland Cavaliersがレギュラーシーズン開幕から15連勝を記録しました。 www.youtube.com「歴代の開幕からの連勝数」を導出するクエリを考えたので防備録を残します。 前提として、全試合のチーム単位でのスタッツをnba.leaguegamelog_teamというテーブル…

SQLでargmax_id(SUM(col))を取得する方法

概要 解法1 解法2 まとめ 概要 ここに2013-14のレギュラーシーズンの全選手・全試合のスタッツ情報があります。 例として一部を表示します。このようなスタッツデータが26401件あります。 PLAYER_NAME GAME_DATE GAME_ID MATCHUP PTS AST REB BLK STL Nassir…

BigQueryのsamplingについて調べた

サンプリングとは サンプリングに関する誤解 サンプリングの料金は? サンプリングとは BigQueryのサンプリングについて理解を深めたので記します。 サンプリングとは、すべてのレコードを対象にするまでもないが、任意に抽出したn%のレコードに対してクエリ…

DataformとBigQueryでコメントアウトの記法が異なる罠を踏んだ

結論 BigQueryのSQLとDataformのsqlxはコメントの適用が異なることが分かりました。これらはBigQueryでもDataformでもコメントとして認識されます。 -- SELECT 1 /* SELECT 1 */ #によるコメントは、BigQueryでは(標準SQL導入前のコメント記法で)コメント…

BigQuery 時間関数メモ

集約 Time Columnに関する関数 1日を3時間単位に丸めるTIMESTAMP_BUCKET(・, INTERVAL 3 HOUR) Value Columnに対する関数 平均・最大・最小 3時間ごとに丸める 下記は「各郵便番号のある時刻における最低気温と最高気温」のテーブルです。 timeがTime Column…

BigQuery Emulatorを動かす

BigQueryのEmulatorを用いて、開発環境やCI環境で導入できないかを検証しました。 github.com インストール 使用方法は go install Docker バイナリ があるようです。私はlinux用のバイナリを落としPATHに追加する方法で使用しました。 github.com wget http…