2017-11-24 10 views
0

私はMs Graph APIを使用してOneDriveのファイルを正常にダウンロードしています。グラフApiを使用してOneDrive文書のテキストを抽出します

グラフAPIを使用してテキストコンテンツ(私のアプリケーションでインデックスを作成するためのもの)のみを読み込む方法を探していました。これは、従来の形式ではなくさまざまな種類のファイル(pdf、xls、zip、Imagesなど)アプローチを使用して、完全なファイルをダウンロードし、いくつかの「Text extraction api」を使用してテキストを抽出し、ファイルを索引付けすると、時間がかかる作業になります。私はGraphAPIに独自の検索機能があることを認識していますが、正規表現検索のような複雑な検索機能はありません。 OneDriveは、各ファイルのインデックスを作成して、ユーザーが基本検索を行うのに役立つと確信しています。

グラフAPIを使用してドキュメントのテキストコンテンツを取得する方法はありますか?

答えて

1

現在、テキストベースのドキュメントの「プレビュー」がAPIを通じて利用できるとは思われません。コンテンツを取得するには、GETリクエストを行う必要があります。完全なドキュメントが必要ない場合は、ドキュメントのために十分であると思われるバイトのrequest a partial rangeを使用できます。また、さまざまなファイルタイプを扱いやすくするため、現在はconverting common file formats to PDFをサポートしています(ファイル解析ロジックを標準化する可能性があります)。

+0

返信いただきありがとうございます。メールに添付された「Converting to PDF」アプローチも使用できますか? O365メールボックスの添付ファイルを読むための同様の要件があります。 –

+0

ドライブ項目の正規表現検索ができる方法はありますか?私は、グラフAPIに検索機能があることは知っていますが、正規表現検索を行うことができるかどうかは言及していません。 –

+0

申し訳ありません - これらのいずれかが今日可能であるとは思わない(RegEx $検索、または添付ファイルからPDFへの変換)。 –

関連する問題