私はData Lake StoreにたくさんのHTMLファイルを持っており、完全なソースコードをテーブルに入れることを望んでいますすべてのファイルのコード、出力形式は私には関係ありませんが、たぶんtsvです)。私は標準的なExtractorや、私のために働くWeb上の何かを使う方法を見つけることができません。それのために私はカスタムエクストラクタを書く必要がありますか?完全なソースコードをHTMLファイルから抽出する完全なソースコードを抽出するU-SQL
私はExtractors.Tsv()とExtractors.Text()をデリミタの束で試してみました。何の区切り文字を持たないようにしないように思われるので、このdidntのがうまく
@data =
EXTRACT source string
FROM "<MY DIRECTORY IN ADL>"
USING Extractors.Text(delimiter:'');
をするだけでなく、私はそれがうまくdidntのhtmlファイルに含まれていない区切り文字を使用しようとした時:私が最初に試してみました。
誰もがこれを行う方法を知っていますか?私はばかだと思うので、ここの誰かが少し賢いと願っています。
2つの列にソースコード+ファイル名がある場合でもソースコードよりも優れていますが、私は小さなものから始めたいと思います。
ありがとうございました!
これはまだ問題ですか? Davidの答えに対する私のコメントを見てください。 –