人は私がプログラムで経験している問題をメールで送ってきたとしましょう。これらの電子メールを各電子メールで使用されている単語に基づいて「問題タイプ」クラスに分類するようにマシンに教えます。各メール Wordデータを処理してScikit-LearnのSVCアルゴリズムに入力する
Here is an image showing the two CSV files
として標識されるクラスの
- ワードの内容:
私はそれぞれ含む2つのCSVファイルを作成しましたこれらのデータをPython 3のScikit-LearnのSVCアルゴリズムに入力しようとしています。しかし、私が知る限り、電子メールの内容を持つCSVファイルはb eはSVCに直接渡されます。それは浮きだけを受け入れるようです。私はこれを実行すると
import pandas as pd import os from sklearn import svm from pandas import DataFrame data_file = "data.csv" data_df = pd.read_csv(data_file, encoding='ISO-8859-1') classes_file = "classes.csv" classes_df = pd.read_csv(classes_file, encoding='ISO-8859-1') X = data_df.values[:-1] #training data y = classes_df.values[:-1] #training labels #The SVM classifier requires the specific variables X and y #an array X of size [n_samples, n_features] holding the training samples, #and an array y of class labels (strings or integers), size [n_samples] clf = svm.SVC(gamma=0.001, C=100) clf.fit(X, y)
が、私はの内容に続いて、「フロートする文字列を変換できませんでした」述べ、最後の行に「とValueError」を受信:
は、私は次のコードを実行してみてください"data.csv"ファイルの最初の電子メール。これらの電子メールコンテンツをSVCアルゴリズムに供給するためにフロートに変換する必要がありますか?もしそうなら、私はそれをどうやってやりますか?
私はhttp://scikit-learn.org/stable/datasets/index.html#external-datasetsで読んでいたのだが、その後、データの前処理に関するそれぞれの文書に私をリード
Categorical (or nominal) features stored as strings (common in pandas DataFrames) will need converting to integers, and integer categorical variables may be best exploited when encoded as one-hot variables
を述べたが、私は次の行くところへと失われたビットになった怖いです。 SVCアルゴリズムで動作するためには、電子メールの内容をどうすればいいのかよく分かりません。
この問題にどのように対処するかについては、誰でも洞察できますよう、感謝します。
をはい、SVCを使用することが可能であるが、まず、あなたのデータを変換する必要があります。私の答えを参照してください – sera