私は、Twitterのつぶやきを上回るさまざまな検索プラットフォームのパフォーマンスを比較する調査を行っています。Solrを使ってtxtファイルのコンテンツをインデックス/検索する
:データは次のようになりますTweet ID User Tweet Content Tweet Time-stamp
:私の目的のために私は次のような形式で単一のテキスト(.txt
)ファイル(50,000前後)ツイートのセットを収集し、それらを保存しています
31261817690923008 username1 tweet 1 content goes here 1482180069
31132193287839744 username2 tweet 2 content goes here 1274400000
ここで、Solr 6.3.0を使用すると、コンテンツの各行を個別にインデックスできますか?代わりに、私はXMLまたはJSONを使うべきですか?それとも別のファイルに各行(ツイート)を保存する必要がありますか?