2017-10-06 15 views
0

私はData Lake StoreにたくさんのHTMLファイルを持っており、完全なソースコードをテーブルに入れることを望んでいますすべてのファイルのコード、出力形式は私には関係ありませんが、たぶんtsvです)。私は標準的なExtractorや、私のために働くWeb上の何かを使う方法を見つけることができません。それのために私はカスタムエクストラクタを書く必要がありますか?完全なソースコードをHTMLファイルから抽出する完全なソースコードを抽出するU-SQL

私はExtractors.Tsv()とExtractors.Text()をデリミタの束で試してみました。何の区切り文字を持たないようにしないように思われるので、このdidntのがうまく

@data = 
EXTRACT source string 
FROM "<MY DIRECTORY IN ADL>" 
USING Extractors.Text(delimiter:''); 

をするだけでなく、私はそれがうまくdidntのhtmlファイルに含まれていない区切り文字を使用しようとした時:私が最初に試してみました。

誰もがこれを行う方法を知っていますか?私はばかだと思うので、ここの誰かが少し賢いと願っています。

2つの列にソースコード+ファイル名がある場合でもソースコードよりも優れていますが、私は小さなものから始めたいと思います。

ありがとうございました!

+0

これはまだ問題ですか? Davidの答えに対する私のコメントを見てください。 –

答えて

0

@files =

EXTRACT FileName string, 
     Text string 
FROM @"/somepath/{FileName}.html" 
USING Extractors.Text(silent: true, delimiter: '`'); 

OUTPUT @files TO "/somepath/Test.txt" USING Outputters.Tsv(outputHeader: false, quoting: false);

+0

あなたの返信ありがとう!私はこれを試みましたが、まだエラーが発生しています(これは前と同じです)。 頂点の入力分割で722個のレコードを処理した後に行を抽出する際にエラーが発生しました。列インデックス:0、列名: 'テキスト'。 Vertexがフェイル・ファースト・エラーで失敗しました これはなぜ起こるのでしょうか? –

+0

遅く返事を申し訳ありません。おそらく、何らかのフォーマットエラー(値が大きすぎたり、カラム数が多すぎるために解析できない値)があります。通常、内部のエラーメッセージにはそれが表示されるはずですが、Octのタイムフレームではその内部エラーは表示されませんでした。私はあなたがエラーの原因を突き止めることができたことを願っています。 –

関連する問題