2016-07-14 11 views
0

引用符と引用符を混ぜ合わせて、読み込みしようとするとRの問題が発生するCSVファイルがあります。引用符内のコンマで問題が発生しますが、引用符で区切りますが、無視してください。 ExcelでCSVを表示すると、完全に管理され、どこで破損するかを理解します。これらの設定をRに表示/変換する方法はありますか?ExcelはCSVファイルの読み込みにどのようなパラメータを使用し、どのようにRに適合させることができますか?

問題のファイルをダウンロードするのはlinkです。これは、遺伝子オントロジーとその関連用語のセット、およびその遺伝子がその一部であるかどうか(0または1)です。テキストは4列、pValuesは1列、0/1は50列でなければなりません。

read.table(file, quote="\"", sep=",", row.names=NULL)でRに読み込もうとしましたが、カテゴリ、名前、冗長IDの値がpValueにこぼれてしまい、カウントデータに影響します。次に、別の誤解した区切り文字が出現するまで、データの全行を1つのセルに入れることができます。

最後に、0/1の最後の列の一部が長さのために編集された問題行があります。

"Pubmed","Expression of epidermal growth factors, erbBs, in the nasal mucosa of patients with chronic hypertrophic rhinitis.","22327010","pubmed_22327010_Expression_of_epidermal_growth_factors,_erbBs,_i...",0.005837270080633278,0,0,0,0,0,1,0,... 
+0

私はリンクをたどったが、それはすぐには(サイトに使用されていない人のために)あなたがここで説明するCSVを取得する方法...) –

答えて

0

から見つかった、私が欲しいまさにんうーん、私は、複製することはできません。 readrパッケージからquote="\"", sep=","

example_line <- '"Pubmed","Expression of epidermal growth factors, erbBs, in the nasal mucosa of patients with chronic hypertrophic rhinitis.","22327010","pubmed_22327010_Expression_of_epidermal_growth_factors,_erbBs,_i...",0.005837270080633278,0,0,0,0,0,1,0' 
r <- read.table(header=FALSE,quote="\"",sep=",",text=example_line,stringsAsFactors=FALSE) 
str(r) 
## 'data.frame': 1 obs. of 12 variables: 
## $ V1 : chr "Pubmed" 
## $ V2 : chr "Expression of epidermal growth factors, erbBs, in the nasal mucosa of patients with chronic hypertrophic rhinitis." 
## $ V3 : int 22327010 
## $ V4 : chr "pubmed_22327010_Expression_of_epidermal_growth_factors,_erbBs,_i..." 
## $ V5 : num 0.00584 
## $ V6 : int 0 
## $ V7 : int 0 
## $ V8 : int 0 
## $ V9 : int 0 
## $ V10: int 0 
## $ V11: int 1 
## $ V12: int 0 

...あなたが求めているものを与えるよう
0

read_cvsを使用することも可能です。それは明らかに奇妙な奇妙な種類に対処することができます

関連する問題