私は約6億語のコーパスを持っています。私はそれを文字列のリストにして、それを使って作業したいと思いますが、600万要素のリストを使って作業することはかなり遅くなると心配しています。私はPythonで(単語の)リストのための高性能同等物があるかどうか疑問に思っています。文字列を扱うための最も効率的な配列
UPDATE:
私は彼らのためにいくつかのスコアを計算した後に2つのラベルの一つに各単語をマップします。スコアは基本的には小数であり、分子は特定の環境(例えば特定の単語の前)に現れる頻度であり、分母はそれらの全体のコーパス頻度である。これは私が心に留めている仕事です。
「働いている」と正確に何が関係していますか?述べているように、問題は幅広い側面です。 – MSeifert
Pythonはおそらく大きなデータセットを扱うための言語ではありません。 – intboolstring
それはあなたが文字を集計したり、言葉をクラスタリングしたり、自動翻訳したりしたいのであれば、おそらくもっと説明を与えるでしょう –