ローカルマシン上のd:/tmp/docs
の場所にいくつかのdocファイルがあり、Apache SolrとTikaを使用してそれらのインデックスを作成したいと思います。以下は私のdata-config.xml
ファイルです。私はSolrのにそれらのファイルをインポートしようとすると、私は例外次取得apache solrとtikaを使用したテキストファイルのインデックス作成
<dataSource type="BinFileDataSource" />
<document>
<entity name="file_Import" dataSource="null" rootEntity="false"
processor="FileListEntityProcessor"
baseDir="D:/temp/docs" fileName=".*\.(doc)|(pdf)|(docx)"
onError="skip"
recursive="true">
<field column="fileAbsolutePath" name="id" />
<field column="fileSize" name="size" />
<field column="fileLastModified" name="lastModified" />
<entity
name="documentImport"
processor="TikaEntityProcessor"
url="${files.fileAbsolutePath}"
format="text">
<field column="file" name="fileName"/>
<field column="Author" name="author" meta="true"/>
<field column="title" name="title" meta="true"/>
<field column="text" name="text"/>
</entity>
</entity>
</document>
:
Caused by: java.net.MalformedURLException: no protocol: null
at java.net.URL.<init>(Unknown Source)
at java.net.URL.<init>(Unknown Source)
at java.net.URL.<init>(Unknown Source)
at org.apache.solr.handler.dataimport.URLDataSource.getData(URLDataSource.java:90)
... 11 more
私はSORLがd:/temp/docs
フォルダを見つけることができないことを考え出しました。
解決方法がわからない。どんな助けもありがたい。
それは...同じ問題が続く –