1

大量のデータセットを扱っており、多数のCSVファイルに分散しているとします。あなたはIPythonノートブックを開いて物を探索し、いくつかの変換を行い、データの並べ替えやクリーンアップを行います。IPythonノートブックの使用中に複雑さを管理するにはどうすればいいですか?

次に、データでいくつかの実験を開始し、さらにノートブックをいくつか作成し、最終的にはデータ変換パイプラインが埋め込まれたさまざまなノートブックを手に入れます。このようにデータ探索/変換/学習から、それのプロセスを整理する方法

、その:

  • 複雑さが徐々に引き上げ、爆破されません。
  • あなたのコードベースを管理し、ナビゲートすることができます。
  • データ変換パイプラインを再現し調整することができますか?

答えて

1

さて、私はこの問題を抱えており、大きなデータセットを扱うときには、この問題があります。複雑さは私が生きることを学んだものですが、物事を単純にするのは難しい場合もあります。

GITリポジトリをよく管理し、良く書かれたメッセージで頻繁にコミットすると、データへの変換を簡単に追跡できます。

私はいくつかのテストを行うたびに、新しい支店を作成し、それに私の仕事をします。それがどこにも届かなければ、私は自分の枝に戻り、そこから作業を続けますが、私がやった作業は、必要な場合でも参照用に利用できます。

有用なものにつながる場合、私はそれを自分のmasterブランチにマージし、必要に応じて新しいテストを行い、新しいブランチを作成します。

私はそれがあなたの質問のすべてに答えているとは思わないし、あなたのノートブックですでに何らかのソートバージョンコントロールを使用しているかどうかわからないが、それは私を助けてくれるもので、 - ノートブック。

関連する問題