以下のコードを使用して.docxファイルを読み込み、ファイルからテキストを抽出しています。しかし、ここでの問題は、テキストを抽出することだけです。例えば、私の文書データは、その後docxファイル内のテキストを抽出する
I am line 1
I am line 2 I am some other text
の下にそれがあるとして、私はちょうどたい
I am line 1I am line 2I am some other text.
ように私を返しているようなものである場合。どうやってやるの。以下は私が今使っているコードです。
open System
open System.IO
open System.IO.Packaging
open System.Xml
let getDocxContent (path: string) =
use package = Package.Open(path, FileMode.Open)
let stream = package.GetPart(new Uri("/word/document.xml",UriKind.Relative)).GetStream()
stream.Seek(0L, SeekOrigin.Begin) |> ignore
let xmlDoc = new XmlDocument()
xmlDoc.Load(stream)
xmlDoc.DocumentElement.InnerText
let docData = getDocxContent @"C:\a1.docx"
printfn "%s" docData
を意味していますか?私のために –
、それは返します; 'val docData:string ="私はライン1です。私はライン2です。 "(適切なスペース数で) – Dirk
@GeneBelitski私はフォーマットは必要ありませんが、私は改行とスペースを保存するだけでいいです。 – Exception