2016-11-05 18 views
-1

単語クラウドのテキストを準備していますが、固まってしまいます。私はすべての数字を削除する必要が文字列から文字/記号を削除する

、すべての兆候が好きです。 、 - ? = /! @など、しかし私はどのようにわからない。私は何度も何度も交換したくありません。そのための方法はありますか?私は特定のを削除したい今ここ

  • だ---

    • 1つの文字列で連結しテキスト<を小文字に
    • セット文字:ここ

      は私の考え方と私は何をする必要があります看板と次のストップワードのスクリプトを実行する言葉

    • の言葉(リスト)
    • 計算FREQにテキストを分割...
    abstracts_list = open('new','r') 
    abstracts = [] 
    allab = '' 
    for ab in abstracts_list: 
        abstracts.append(ab) 
    for ab in abstracts: 
        allab += ab 
    Lower = allab.lower() 
    

    テキスト例:

    マイクロRNA(miRNA)は非コードRNA分子のクラスである転写後レベルでの標的遺伝子の 発現をダウンレギュレート長さ 約19〜25ヌクレオチド3 '非翻訳領域(3'-UTR)に結合することにより、エプスタインバーウイルス (EBV)は、少なくとも44個のmiRNAを生成するが、これらの大部分のmiRNAはまだ同定されていない。以前、我々は のmiR-BART15-3p、EBVによって生成miRNAのターゲットとしてBRUCEを報告したが、私たちのデータ は、他のアポトーシス関連標的遺伝子のmiR-BART15-3pの があるかもしれないことを示唆しました。したがって、本研究では、in silico分析を使用して、miR-BART15-3pの新規標的 遺伝子を検索した。 Tax1結合タンパク質1(TAX1BP1)の3'-UTRに可能な シードマッチサイトを見出した。 TAX1BP1の3'-UTRを含むレポーターベクターの ルシフェラーゼ活性は、miR-BART15-3p減少しました。 MiR-BART15-3pは、AGS細胞におけるTAX1BP1 mRNAおよびタンパク質の発現を下方制御し、一方、miR-BART15-3pに対する阻害剤は、AGS-EBV細胞におけるTAX1BP1 mRNAおよびタンパク質の発現を上方制御した。胃癌細胞株におけるMir-BART15-3p調節NF-κB 活性。さらに、miR-BART15-3p は、5-フルオロウラシル(5-FU)に対する化学感受性を強く促進した。本発明者らの の結果は、miR-BART15-3pが癌細胞中の抗アポトーシスTAX1BP1 遺伝子を標的とし、アポトーシスおよび化学感受性を増加させることを示唆している( 〜5-FU)。

  • +3

    だからここであなただ

    その後の言葉が発生する頻度を決定するために、次のコマンドを使用します。コードとそれには何が問題なのでしょうか?これはコード作成サービスでもチュートリアルサービスでもありません。 – jonrsharpe

    +0

    [Pythonの文字列から数値以外の文字をすべて削除する]の可能な複製(http://stackoverflow.com/questions/1249388/removing-all-non-numeric-characters-from-string-in-python) – tanaydin

    +0

    あなたがこれまでに試したことは何ですか? – Soviut

    答えて

    2

    だから、あなたができるケースの文字を下げるために大文字を設定するには、以下: はこれだけ

    STRING=re.sub('([A-Z]{1})', r'\1',STRING).lower() 
    

    今の例のSTRINGと次の使用コマンドのために、文字列変数にテキストを保存し、あなたの文字列は大文字ではありません。再サブコマンドであなたを助けることができるモジュールを再び特殊文字を削除するには

    STRING = re.sub('[^a-zA-Z0-9-_*.]', ' ', STRING) 
    

    これらは、あなたの文字列が

    特殊文字の自由となり、単語の出現頻度にあなたを決定するためのコマンドで可能性Counterをインポートする必要があるモジュールコレクションを使用します。私はおそらく)(string.isalphaを使用しようと思い

    Counter(STRING.split()).most_common()

    0

    abstracts = [] 
    with open('new','r') as abstracts_list: 
        for ab in abstracts_list: # this gives one line of text. 
         if not ab.isalpha(): 
          ab = ''.join(c for c in ab if c.isalpha() 
         abstracts.append(ab.lower()) 
    # now assuming you want the text in one big string like allab was 
    long_string = ''.join(abstracts) 
    
    関連する問題