text-processing

1熱

1答えて

私はアンドロイドのアプリケーションで、どのフォントがテキストイメージで使用されているかを判断しています。だから私はイメージからすべてのキャラクターを抽出する必要があり、正確にそれを行う方法を知らない。さらに、私が画像を処理しようとしているとき、私は1つの結果を持っています...しかし、私のクラスメートは異なっています（例えば、多かれ少なかれノイズ）。文字の検出に関する問題は次のとおりです。 1）画

1熱

2答えて

bashのラインプレースメントを

に切り替えることは可能ですか？例えば： Iは、テキストファイルにbashコマンドの一部として両方の出力であるライン 2. diskusage1: 27.0572519084 3. partition1: を有します。これらの行の順序を逆にする方法はありますか？彼らが見えるように場所を切り替えるようにするには：コメントに引き続き 3. partition1: 2. diskusage1:

-1熱

1答えて

ツイートのコレクションから有名人を抽出するにはどうすればよいですか？

私は、もしあれば、Twitterのテキストから有名人を抽出する必要があるプロジェクトに取り組んでいます。私は箱からこれを行うライブラリを見つけることができません。私は、ユーザープロフィールに有名人のために検証されたブール値フィールドがあるという情報を得ました。提案がありますか？

1熱

1答えて

JQ私はテキスト文字列を変換し、既存のJSONオブジェクト</p> <p>現在のJSON出力にそれらを追加するにはどうすればよい

： { "start process": "Wed May 24 05:22:35 UTC 2017", "logfilename": "log_test" } { "start filelist": [ "/downloads/json_log_array2object.jq", "/downloads/json_log_string2obj

2熱

2答えて

PostgreSQLのテキストの本文から長さ1,2、および3のすべてのnグラムを抽出する最速の方法は何ですか？

私はたくさんの本文を持っていますが、それぞれのユニグラム、バイグラム、トリグラム（文字ではなく単語）をすべて抽出し、カウントとngramの長さを別のテーブルに挿入したいと思います。今は、ORDINALITYを使用して正規表現分割されたテキストの本文をアンネストしてから、バイグラムとトリグラムに複数のサブクエリを使用することを考えていますが、順序が必要です。しかし、この種の位置情報は通常インデック

3熱

2答えて

LSTMの注意が可変長入力を持つ方法

LSTMの注意メカニズムは、エンコーダの各タイムステップの隠れ状態とデコーダの現在の状態を取り入れるストレートsoftmaxフィードフォワードネットワークです。依存（は、1）フィードフォワードネットワークへの入力の数は、エンコーダの隠された状態の数が可変である） 2を事前に定義する必要がありますこれらの2つのステップは矛盾するように思えるし、周り私の頭をラップすることはできませんエンコード中の

0熱

2答えて

whileループはawkを使用して結果ブロックを1つだけ提供します

awkを使用してテキストファイルを処理しています。私は以下のコードを書いています： #!/bin/bash l=1 while [ $l -lt 5 ] do echo $l awk -v L=$l '/^BS[0-5]|^FG[2-7]/ && length<10 {i++}i==L {print}' l=$(expr $l + 1) done <input.txt しかし、一

-1熱

2答えて

csv文書のテキストの処理

一部のCSV文書でテキスト解析を開始しています。しかし私のCSVファイルには興味のない単語がいくつかありますので、このCSVファイルを解析したpythonコードを作成して解析用に5単語以上含まれている文章のみを残したいと思いますどこで私のコードを作成し始めるべきか、助けてください。例：これは（Pythonの3.5で）動作するはず入力文書 enter image description here

0熱

1答えて

フィルターは、特定のカテゴリ

は私が私がこの 2017-06-13 11:47:05.121 [INFO] : Finished obj.clickButton('A1'); 2017-06-13 11:47:05.137 [INFO] : Processing index 2432 2017-06-13 11:47:13.807 [INFO] : start=1497347223552 end=1497347233576