
ワイは大阪在住の30代、現役のデータサイエンティストや。
大学出てからSIerで数年働いて、今はスタートアップで分析業務から機械学習モデルの構築まで幅広くやっとる。
毎日データとにらめっこしながら、どうやったらもっと効率よく仕事できるかを考えるのが趣味みたいなもんや。
そんなワイが「これはホンマに助かったわ〜」って思ったツールを、今日は紹介していくで。
dbtはデータ変換の救世主
まず紹介したいんはdbt(Data Build Tool)や。これはSQLベースでデータの変換処理を管理できるツールやねんけど、ワイみたいなSQL好きにはたまらん。
今までは、ETL処理をPythonで書いてたんやけど、メンテが面倒やし、属人化してた。dbtに切り替えてからは、SQLでロジック書いて、依存関係も自動で管理してくれるから、めっちゃ楽になった。
しかも、ドキュメントも自動生成されるから、後から見返しても「なんでこの変換してるんや?」って迷うことがなくなった。
ワイの中では、データ基盤の透明性が一気に上がったツールやと思ってる。
Streamlitで分析結果の共有が爆速
分析結果をチームに共有する時、昔はJupyter Notebookでグラフ作って、PDFにして送ってたんやけど、正直めんどくさいし、見づらいって言われることも多かった。
そこで導入したんがStreamlitや。
Pythonで簡単にWebアプリが作れるから、分析結果をインタラクティブに見せられるようになった。
フィルター機能とかもつけられるし、非エンジニアのメンバーにも好評や。
「このグラフ、条件変えたらどうなるん?」って言われても、「このスライダー動かしてみてや」で済む。
ほんま、共有のストレスがゼロになったわ。
GitHub Copilotでコード書くスピード爆上がり
最近導入して一番衝撃やったんが、GitHub Copilotやな。AIがコードの補完してくれるんやけど、これがまた賢いんよ。
「このデータをグループ化して平均出したいな〜」って思いながら書き始めたら、Copilotが先回りしてコード提案してくれる。
しかも、コメント書いたらそれに沿ったコードまで出してくれるから、ワイの作業スピードが2倍以上になった。
もちろん、全部鵜呑みにするわけやないけど、ベースとしてはめっちゃ優秀。
特に、ちょっと忘れかけてるPandasの書き方とか、Copilotが補ってくれるのはありがたい。
Prefectはワークフロー管理の革命児
最後に紹介したいんがPrefectや。
これはデータパイプラインの管理ツールで、Airflowの代替として使ってる。
Airflowは設定が複雑で、ワイにはちょっと重かったんやけど、PrefectはPythonで直感的に書けるし、ローカルでも動かせるから導入が楽やった。
しかも、失敗したタスクの再実行とか、ログの確認も簡単にできるから、運用面でも安心。
今では、毎朝のデータ更新処理は全部Prefectで回してる。これがなかったら、毎日手動でSQL叩いてたと思うとゾッとするわ。
まとめ
ワイが思うに、データサイエンティストの仕事って、分析だけやなくて「どうやって効率よく価値を出すか」がめっちゃ重要やと思うねん。
そのためには、ツールを使い倒すことが不可欠。
最初は慣れへんかもしれんけど、ちょっとずつ触っていくうちに、「これ、めっちゃ便利やん!」ってなる瞬間が絶対ある。
ワイもまだまだ勉強中やけど、こうやって業務効率化していくことで、もっと面白い分析に時間使えるようになったし、チームとの連携もスムーズになった。
せやから、もし「最近仕事が回らへんな〜」って思ってる人がおったら、まずはツールの見直しから始めてみるのがええと思うで!
スポンサーリンク