いくつかのデータを持つ.pdfファイルを読んでみたい。 PowerShellを使用して特定の列から完全なデータを抽出するにはどうすればよいですか?私は、iText 5 .NET(別名iTextSharp)を使ってpdfデータを抽出しています。powershellのpdfから列賢明なデータを抽出するには?
これは、行全体を抽出し、私の現在のコードです:
$reader = New-Object iTextSharp.text.pdf.pdfreader -ArgumentList testPOC.pdf
$page = 2
$text = [iTextSharp.text.pdf.parser.PdfTextExtractor]::GetTextFromPage($reader, $page).Split([char]0x000A)
Write-Host $text[5]
出力は次のように示されている:
ID Working Agent Assistant Name Plan Gender Year Amount Comm.% Split% Commission 4169985061 Paul E. Ted Alskd, Ols fhghslhshsl+(0sdhsk) M 12 $1,234.00 0.45% 100.00% $32.78
は、どのように私は例えば(1つの列からのデータのみを取得することができますからのみ。給与コラム)?
最も単純なアプローチは、各行をスペースで分割し、関連するフィールドを選択することです。 '$ line.Split( '')[4]'。さらに役立つようにするには、PDFから抽出したテキストの代表サンプルを提供する必要があります。 –
@AnsgarWiechers私はそのアプローチを試みましたが、問題は、名前の列の長さとパターンについて予測できないことです。最初の文字、中間の文字、または姓と名が含まれている可能性があります。 –
私はそれほど疑わしい。そのため、PDFから抽出したテキストの代表サンプルを提供する必要があると述べました。テキストの構造を知らなくても、テキストからデータを解析する方法を考案することはできません。 –