extraction

    4

    2答えて

    段落から簡単な文を抽出するために使用できるアルゴリズムはありますか? 私の最終的な目標は、結果として得られた単純な文章で別のアルゴリズムを実行して、著者の感想を判断することです。 私はChae-Deug Parkのような情報源からこれを研究しましたが、訓練データとして単純な文章を準備することについては議論していません。事前

    0

    1答えて

    可能性の重複: how to extract all images from a .ppt file using Android with help of Apache poi? 私は、AndroidのためのPPTビューアに取り組んでいます。私はApache POI APIの助けを借りてpptからすべてのテキストを抽出しましたが、pptファイルでイメージを抽出することはできません。私は私のコードは

    -1

    1答えて

    私はこれを理解しようとしている午前中に過ごしていますが、何も動作していません。 私がやっているのは基本的にウェブサイトをとり、の1つのリンク、特にをページから抽出することです。基本的にこのウェブサイトはフォーラムであり、ページの一番下に「最新のメンバーはMEMBERNAMEHEREです」というセクションがあります。メンバー名は、ユーザープロファイルにリンクされたリンクです。私はページからリンクを得

    2

    2答えて

    私はこのようなSQL文字列の部分を抽出したい:変数で SELECT *,somecolumn, anothercolum FROM sometable INNER JOIN anotherTable WHERE somecolumn>1 : aVariable = "*,somecolumn, anothercolum"; anotherVariable = "sometable INNER

    3

    2答えて

    私はPDF文書からテキストを抽出するために、多くのpdf - > textメソッドを使用しました。私が持っている1つの特定のタイプのPDFについては、pyPDFまたはpdfMinerのどちらも、テキストを抽出するのに良い仕事をしていません。しかし、http://www.convertpdftotext.net/は(ほとんど)完璧です。 私は使用しているPDFに透明なテキストがあり、それが他のテキス

    11

    3答えて

    Apache POIを使用しているときに私が(プログラムで)MS Wordファイルから取得している文字列は、MS Wordでファイルを開くと見ることができるテキストと同じではありません。 次のコードを使用している場合: File someFile = new File("some\\path\\MSWFile.doc"); InputStream inputStrm = new FileInpu

    7

    1答えて

    C++では、fstreamライブラリ(または任意のライブラリ)に、\ nを区切らずに区切り線を読み込む関数がありますか? peek()関数は、プログラムが次の文字を読み込むことなく 'peek'することができることを知っていますが、私はそれを行う関数のように全体の行を必要とします。

    2

    2答えて

    抽出演算子>>が空白で区切られていることを理解しています。抽出演算子は区切り文字をストリームから削除しますか?例えば、(潜在的に、後続のgetline文をめちゃくちゃに)私は、ファイル 6 Foo Bar とFileStreamはまだ6に続く改行文字が含まれていないコード ifstream fin(filename); int x; fin >> x; を持っていると言いますか?ま

    3

    6答えて

    var << ifstreamはと同じですか? 私が知る限り、それらはまったく同じである必要があります。しかし、それは遅れて、私の脳は半分眠っているので、私は明確にしたいと思います。

    2

    1答えて

    re apiを使用してテキストファイルからURLを抽出しようとしました。 http://、https://、およびwwwで始まるリンク。 ファイルにはテキストとHTMLソースコードが含まれています.Html部分はBeautifulSoupを使用して抽出できるので簡単ですが、通常のテキストは難しいようです。 これはURL抽出の最適な実装であるように見えますが、特定のタグでは失敗します。特にタグを処理