2017-03-26 15 views
0

RでEDGARパッケージを使用してSEC Webサイトから10-Kを引き出します。幸いにも、テキストファイルには一貫したファイル命名規則が付いています:CIK番号ファイリングID)_File type_Date。ディレクトリ内のファイル名に新しいフィールドを追加 - R

最終的に私はこれらをSIC /業界団体で分析したいので、これを実行する最良の方法は、このファイル名ルールにSIC業界コードを追加することです。

私は以下に何をしたいのかのイメージを含めています。私のファイル名が新しいフィールドを取ることを除いて、データベース結合のようなものです。それを行う方法がわからない、私はRとファイルスクリプティングについてはかなり新しいです。

enter image description here

答えて

0

私はあなたが列filenamesとdata.frameを持っていると仮定しています。 (または、すべてのファイル名を含むベクトル)以下のコードを参照してください:CIKSIC:今すぐ

# A data.frame with a character column 'filenames' 
df$CIK <- sapply(df$filenames, FUN = function(x) {unlist(strsplit(x, split = "_"))[1]}) 
df$CIK <- as.character(df$CIK) 

を、私たちはあなたが2列を持つ別のdata.frameを持っていると仮定しましょう。

# A data.frame with two character columns: 'CIK' and 'SIC' 
# df2. 
# 
# We add another column to the first data.frame: 'new_filenames' 
df$new_filename <- sapply(1:nrow(df), FUN = function(idx, CIK, filenames, df2) { 
    SIC <- df2$SIC[which(df2$CIK == CIK[idx])] 
    new_filename <- as.character(paste(SIC, "_", filenames[idx], sep = "")) 
    new_filenames 
}, CIK = df$CIK, filenames = df$filenames, df2 = df2) 

# Now the new filenames are available in df$new_filenames 
View(df) 
+0

はい!クール。ありがとうございました。 –

関連する問題