2016-11-08 51 views
1

このサイトで見つかったMapReduce Matrix Multiplication.javaプログラムを実行していましたhttp://www.norstad.org/matrix-multiply/index.html
(ソースコードは、サイトの最後に見ることができます)Hadoop入力SequenceFile行列乗算

私はそれを実行すると、それは入力が私の入力ファイルが最近inputA.txtであり、それがこの

のように見えますSequenceFile

はないと述べました

A,0,1,1.0 
A,0,2,2.0 
A,0,3,3.0 
A,0,4,4.0 
A,1,0,5.0 
A,1,1,6.0 
A,1,2,7.0 
A,1,3,8.0 
A,1,4,9.0 

フォーマット:MatrixName、row、col、element
もちろん、うまくいきませんでした。

アルゴリズムのためにこのソースコードを実際に実行したいと思っています。では、この場合、どのようにして正しいSequenceFileを生成できますか?
既に持っている.txtファイルから生成できますか?

答えて

1

TestMatrixMultiplyに含まれているテストコード(あなたが提供したリンク)を見ると、あなたには何かを教えてください。

私は関連するビットを引き出して使い始めました。この(テストされていない)コードは、2つのシーケンスファイルを作成する必要があります(testIdentity()を参照)。

writeMatrixメソッドでは、SequenceFileの作成方法と使用する構造を見ることができます。これは実際のmapreduceジョブと同じです。

このコードを拡張して、テキストファイルを読み込み、2次元行列配列に正しく挿入し、シーケンスファイルを書き込むことができます。

public class TestMatrixMultiply { 

    private static final String DATA_DIR_PATH = "/tmp/MatrixMultiply"; 
    private static final String INPUT_PATH_A = DATA_DIR_PATH + "/A"; 
    private static final String INPUT_OATH_B = DATA_DIR_PATH + "/B"; 

    private static Configuration conf = new Configuration(); 
    private static FileSystem fs; 

    public static void writeMatrix (int[][] matrix, 
       int rowDim, int colDim, String pathStr) throws IOException { 

     Path path = new Path(pathStr); 
     SequenceFile.Writer writer = SequenceFile.createWriter(fs, conf, path, 
     MatrixMultiply.IndexPair.class, IntWritable.class, 
     SequenceFile.CompressionType.NONE); 
     MatrixMultiply.IndexPair indexPair = new MatrixMultiply.IndexPair(); 
     IntWritable el = new IntWritable(); 
     for (int i = 0; i < rowDim; i++) { 
      for (int j = 0; j < colDim; j++) { 
       int v = matrix[i][j]; 
       if (v != 0) { 
        indexPair.index1 = i; 
        indexPair.index2 = j; 
        el.set(v); 
        writer.append(indexPair, el); 
       } 
      } 
     } 
     writer.close(); 
    } 

    public static void main (String[] args) throws Exception { 

     new GenericOptionsParser(conf, args); 
     fs = FileSystem.get(conf); 
     fs.mkdirs(new Path(DATA_DIR_PATH)); 

     A = new int[][] { {1,0}, {0,1}}; 
     B = new int[][] { {1,0}, {0,1}}; 
     writeMatrix(A, 2, 2, INPUT_PATH_A); 
     writeMatrix(B, 2, 2, INPUT_OATH_B); 
    } 
} 

この方法は、少量のデータでも問題ありません。何らかのスケールを打ち始めると、テキストファイルを入力として受け取り、シーケンスファイルを書き出すmapreduceジョブを作成したいと思うでしょう。