2017-04-07 5 views
2

これは、Stanford GLOVEプロジェクトで提供されている、よく訓練された単語ベクトルファイルです。これは自然言語アプリケーションによく使用されます。h2oで不一致の引用解析エラーを防止するimportFile

解析エラーは、私が修正しようとしている予測できない動作の根本的な原因かもしれません。この16進数のフレームでas.data.frameを実行すると、不思議なもの(図示せず)が表示されます。だから私はこの初期のエラーを何らかの形で修正したいと思います。

# How to eliminate parse error? 
g6B = h2o.importFile(path = "/mnt/fastssd/glove/glove.6B/glove.6B.100d.txt", header=FALSE, na.strings=NA, sep=" ") 

WARNING: ParseError at file nfs://mnt/fastssd/glove/glove.6B/glove.6B.100d.txt at byte offset 7674; error = 'Unmatched quote char "' 
    |======================================================================| 100% 
Warning message in doTryCatch(return(expr), name, parentenv, handler): 
“ParseError at file /mnt/fastssd/glove/glove.6B/glove.6B.100d.txt at byte offset 7674; error = 'Unmatched quote char "'” 

このエラーを解決する方法はありますか?そうでない場合、別の方法は何ですか?ありがとう

+0

は、そのファイルに何のスナップショット(頭を)提供することはできますか?私はそのファイルの形式が何であるかを知る必要があります:スパースかCSVか他の何か? –

+0

はKaggleの "Two Sigma Connect:Rental Listing Inquiries"コンテストでテストファイルを読んでいる間も同様のエラーが発生しました:https://www.kaggle.com/c/two-sigma-connect-rental-listing-inquiries/data –

答えて

0

私はglove.6B.100d.txtテストをダウンロードし、Rで最新のH2O 3.10.4.3ですばやく試しましたが、データは正しく取り込まれましたが、同じ警告が表示されました。

399,999行と101列のデータフレームを正しく使用できるため、データの取り込みが正しいことを確認でき、警告がデータの取り込みに問題を起こさなかったことを確認できます。

私は警告の問題を修正するには、以下のJIRAを開いている:

https://0xdata.atlassian.net/browse/PUBDEV-4284

関連する問題