text-processing

    2

    1答えて

    私は15グラムの単語のテキストを持っています。私は、ウィンドウの固定サイズの単語の同時発生回数を計算し、それを処理する必要があります。例えば、ここに私のテキストがあります。 「フーはフーだよ、バーは何を言ってる?」 このテキストからウィンドウサイズ= 4の共起頻度を持つbigramを構築するには、出力は次のようになります。 単語1-WORD2カウント がfoo、言う、1つの FOO、ホー、1 のf

    1

    2答えて

    この完全な停止(最後のものを除く)の後にスペースが続くかどうかを確認する、この簡単なテキストの修正を行うためのPythonのクリーンな方法は何ですか?ドットの後に空白がないことは、入力文字列で唯一可能なエラーであると仮定してください。私はこれをやっている : def textFix(text): result = re.sub('\.(?!\s)', '. ', text) i

    0

    2答えて

    viエディタを開いてEsc + iを押してから、それにエントリの列を貼り付けてEsc:wq!と入力して手動で作成するファイルを作成しようとしています。ユーザーがviエディタを開くことを望まない場合、スクリプトはデータのリストを入力する必要があり、ファイルを作成してエントリを追加する必要があります。 count=1 read total while [ "$count" -le "$total"

    1

    1答えて

    TXRで再帰的パターンマッチング関数を書く方法を理解できません。以下では、ファイルパスを認識するための再帰的なディレクティブを定義しようとします。私はこの場合、正規表現([a-z]+\/)+[a-z]+でこの文法を表すことができますが、実際のコードではより複雑なルールが念頭に置かれています。スラッシュがあるときにこのディレクティブが失敗する原因は何ですか? @(define location)@\

    1

    1答えて

    にファイル名の特定の部分を抽出し、私は、フォルダ内の多くのファイルを持っている: yyyymmdd_hhmmss.mp4 yyyymmdd_hhmmss_suffix1.mp4 yyyymmdd_hhmmss_suffix1_suffix2.mp4 次のファイル名の形式は、(まれ)も可能です:$は数0-ある yyyymmdd_hhmmss_$$$.mp4 yyyymmdd_hhmmss_

    0

    1答えて

    申し訳ありません愚かな質問ですが、回答を見つけるためにどのようなキーワードを使用するのかよくわからないので、私は何も探していません。 私はカラムがあります:df $ infecting_agent。エントリは「:$菌とのdf $ウイルス dfを私はすべての観測を持ちたい私は2つの新しい列をしたいなど、 」「ブドウ」「細菌」「ウイルス」」細菌のようなものがあります診断エントリに "bact"または

    1

    2答えて

    私は、Linuxとperlプログラミングにはかなり新しいです。私は答えなしですべての検索オプションを使い果たしました。 私は、同じ行のアイテムが相互作用することがわかっている2つの列で知られているすべての相互作用を含むマスターファイル "master.txt"を持っています。私は、列1と列2に含まれている場合、マスターファイルから結果を返すための検索基準にしたい項目 "list.txt"のリストを

    0

    1答えて

    thisからtext1.similar( "monstrous")とtext1.concordance( "monstrous")を読みました。 ここでは、Pythonの自然言語処理ツールキットのtext1.concordance('monstrous')とtext1.similar('monstrous')の違いについて満足のいく答えを得ることができませんでした。 例を詳しく説明してください。

    2

    2答えて

    3つ目のファイルを作成するために2つのファイルを比較する効率的な方法を見つけるのに少し問題があります。 私は、最初のファイルは、私が削除したいIPアドレスのリストであるPythonの3.6に を使用しています。 2番目のファイルには、削除対象のIPアドレスに関連付けられているすべてのDNSレコードが含まれています。 2番目のファイルにDNSレコードがある場合は、3番目のファイルに行全体を追加します

    -1

    1答えて

    同様の質問hereを慎重に引用していますが、列1に異なる値があるので、 A.B|100|20 A.B|101|20 A.X|101|30 A.X|1000|20 B.Y|1|1 B.Y|1|2 私はそれをxファイルに分割して、各ファイルに最大5行を含むようにしたいと考えています。例では、私は2つのファイルたい: A.B|100|20 A.B|101|20 A.X|101|30