めもちょー

メモ帳代わりに使っています。

スクレイピング

データ掲載サイトからのスクレイピングの個人的プラクティス

JavaScriptによるレンダリング避け スタッツサイトは, クライアントのレンダリングによって表が表示されているパターンが多いです. そのような場合は, seleniumなどでバックグラウンドでブラウザで操作しHTMLを取得するようにします. def get_soup_by_url(ur…

WikipediaとGoogle画像検索APIによるアニメ顔データセットの構築

作ったもの 532アニメキャラクタそれぞれに対して、複数枚の画像を用意した画像データセットをつくりました。 作った動機 アニメ顔の認証器作成に向けてキャラクタ名のラベルのついた画像が欲しかったからです。アニメ顔の公開データセットや、pixiv APIなど…