【データ管理】DVCの設定まとめ

トークン切れによる再認証が必要な問題を解消できるかもしれません。

DVC
公開

2025年6月1日

はじめに

環境構築の記事でDVCを使用したデータ管理についてもまとめていますが、Google Cloud Projectを使用するため若干ややこしいことに加え、定期的にトークンが切れて認証し直さないといけないという大きいデメリットがありました。

今回は初回の設定のみで設定がすむ方法について解説します。

記事と同様の流れでの作業を想定しているので、その点ご留意ください。

Google Cloud Console

  1. Google Cloud Consoleへアクセス
  2. 画面上部のボックスからプロジェクトを作成
    • 左上にGoogle Cloudと書いてある部分の右です
    • 出てくるウィンドウの右上から作れます

  1. 画面左のメニューから「IAMと管理」を選択
    • 左にメニューがない場合は左上の3本線から開けます
  2. サイドバーの真ん中上あたりから「サービスアカウント」を選択
  3. 画面上部の「サービスアカウントを作成」へ進む
  4. 任意の名前と説明を入力し、完了を押下
    • 権限のところはスキップで構いません

  1. メールの列に書いてある、長いメールアドレスをコピーしておく
    • 後ほどGoogle Driveのフォルダにこのアドレスを共有します
  2. 作成したサービスアカウントの一番右にある「操作」から「鍵を管理」を選択
    • 長ったらしいメールアドレスの右側にある点々の部分です
  3. 「キーを追加」→「新しい鍵を作成」→「JSON」を選択、作成へ進む
  4. ファイルとして保存されるので、作業ディレクトリへ保存する
    • .secretsフォルダを作り、その中へ保存してください
    • ファイル名は変えて問題ありません。key.jsonとかで大丈夫です

Google Drive

  1. Google Driveの任意の場所にプロジェクトでデータをしまうフォルダを作成する
  2. フォルダの共有の設定から、先ほどコピーしたメールアドレスを貼り付け共有する

メールアドレスを貼り付け、権限を「編集者」にして共有します
  1. Googleドライブで作成したフォルダのIDをコピー
    • IDは、ドライブでフォルダを開いたときのURLで、最後のスラッシュ(~/folders/)より右側の部分です

VSCode

  1. VSCodeのターミナルで次のコマンドを入力して実行 - 最後の部分(四角括弧ごと)をコピーしたIDに変更してください
dvc init && dvc remote add -d myremote gdrive://[Google DriveのフォルダID]
  1. サービスアカウントを有効にする
    • 以下のコマンドを実行してください
dvc remote modify myremote gdrive_use_service_account true
  1. 次のコマンドを実行する
    • フォルダ名やファイル名を自分で変えた場合、修正してから実行してください
dvc remote modify myremote --local \
    gdrive_service_account_json_file_path .secrets/key.json

設定ファイルをgitignore(重要!)

いま.secretsを作りましたが、この中身はいわば個人情報であり他人に漏らしていいものではないので、.gitignoreファイルにしっかり記載し、Gitのトラッキングを解除しておく必要があります。

以下のように.gitignoreに追記してください。

.gitignore
/.secrets/

これで.secretsフォルダの中身がGitに追跡されません。

データフォルダを作ったら適宜add, push

以上で設定は終了です。

環境構築の記事でも説明しているように、あとはdataなどデータを入れるフォルダを作りデータを追加したら、dvc add data/を実行し、最後はdvc pushでプッシュすることでデータファイルをGoogle Drive上で管理することができます。

共有する場合

共同研究などで他の人と作業を進める場合はこのデータフォルダも共有したいということになると思います。その場合は、記事における共有に加え、.secretsは別に送る必要があります(Gitで追跡していないのでクローンしても.secretsは現れないからです)。

別に共有したうえでワーキングディレクトリに.secretsを置いてもらえばdvc pullでデータを引っ張ってくることができるようになります。

その際、.dvc/config.localファイルを以下のように編集してもらってください。

[remote "myremote"]
    gdrive_use_service_account = true
    gdrive_service_account_json_file_path = ../.secrets/key.json

../は1つ上の階層のフォルダの~という意味なので、これであっています。.dvc/config.localもgitignoreされているので、クローン下だけでは共有されません。

感想

今のところ結構いい感じです。例えばこのウェブサイトを作るうえではあまり新しくデータを追加することがないので、追加するたびにトークンが切れて認証のし直しということが頻発していました。今回の方法では再認証がない(はず)なので、ストレスが軽減されたかなという印象です。

何かあればぜひコメントまでお願いします。