tktechblog

日々の記録用です。blockchain,bitcoin,ethereumメインです。

2018-06-23 bigqueryに関して

現在、gcpawsを触っていて、料金に関して気を払いながら作業をすることが多いので、なんとかならないかと考えることが多い。特にBigquery、君は非常に恐ろしい。

qiita.com

なにやら、limitをかけてもフルスキャンして、入力値はフルスキャン、出力値が制限されるだけで全く意味がないらしいし、なんとか、正確に料金構成を認識した上で対策を取れるようにしたいなあと感じた次第。

どうやらdry runで先に料金シミュレーションをするのが割と良い方法らしい。

https://cloud.google.com/bigquery/docs/best-practices-costs

これからも継続的に調べていって手を動かしながらも事故らないように頑張りたいと思う。

現在触っているのは

gcp

この中でgaeのバージョンアップの時と、インスタンス作成の際にどのようにbigqueryに反映されるのかがいまいちよくわかっていないので引き続き調べながらも試して生きたいように感じた。

加えて、bigqueryに関して。これは多分、リアルタイムでログデータがguiの方に反映されない疑惑があるので、cliで操作する方法や、料金シミュレーションの方法など試行錯誤しながらも早い段階で試しながら確認していきたい。

aws

  • cloudfront
  • s3

cloudfrontはもはやよく意味がわからない。わからないがとりあえず触って調べて試していきたい。

s3はただのデータストレージなのでそんなに難しい話ではないはず。

あとは、javascriptpythonなどと併用することが多いので、request/responseの仕組みや、基本的なhttpプロトコルの仕組み、ネットワークやキャッシュやcookieの仕組みもきちんと認識することが必要っぽい。

GCPに関して、dispatchや、task/queを用いているらしいが、この部分も自分はそこまで詳しくないので調べて試していきたい。

今日はこんな感じ。引き続き早く実装して、運用に入って、無駄な作業は自動化して効率化できるように意識して取り組んでいく。

cf. Bq partition tableに関して

なにやら、bqは通常フルスキャンするのでお金がめちゃくちゃかかるらしいが、partition tableを作って、料金を抑える方法などもあるらしい。

sucrose.hatenablog.com