2
Python CRFSuite(https://github.com/tpeng/python-crfsuite)を並列化できますか? CRF ++は並列化をサポートしていると思うので、CRFsuiteとの並列化を可能にするフックが必要です。Pythonで並列化が可能CRFsuite?
Python CRFSuite(https://github.com/tpeng/python-crfsuite)を並列化できますか? CRF ++は並列化をサポートしていると思うので、CRFsuiteとの並列化を可能にするフックが必要です。Pythonで並列化が可能CRFsuite?
いいえ、現在できません。並列訓練は実施されていない。しかし、バグトラッカーではそれにいくつかの作業があります。クロスバリデーションを平行して実行することもできます(つまり、複数のモデルを並行してトレーニングすることができます)。
model_selectionモジュール(GridSearch)を使用して、ハイパーパラメータを並列に最適化することができます。しかし、実用的なサイズのデータ(実際には何もありません)では、モデルサイズが大きくなり、従業員に関連付けられたデータを持つモデルをpickling/unpicklingするとほとんどの時間がかかるため、シリアル化されます。マルチプロセッシングは本質的に直列化されます。 – Kai
私はconll-2002のデータでこれを使用していますが、それはまったく大きくはありません。トレーニングのための14987文、ベースライン機能のみ。私が一番上に走ったとき、私は8つのpythonプロセスを見ました - 私は8つのCPUコアを持っています - ラウンドロビンを1つずつ実行していて、残りの7つはスリープしています...追加機能を追加したい場合は、さらに遅くなります。 – Kai
Kai:プロセスの開始後に機能を抽出することができます。これは、クロスバリデーションのために行うべきことです。この場合、入力文のみが直列化される。 –