2017-09-29 10 views
0

ライブラリカタログからデータダンプを受け取りました.txt形式で出力されています。私はスプレッドシートにデータを取得できましたが、すべてが1つの列にあります。行を列に転置します。Openrefine - テキストを基に行を列に変換します。

データは次の順序で、この1列にある: タイトル 文書型 著者 日

しかし、いくつかのケースでは、カタログレコードが順に表示されます。 タイトル ドキュメントの種類 あらすじ 著者 日付

したがって、これらのレコードを行数に基づいて列に転記することはできません。

各タイトルの前に「説明」という単語があります。これは、データセット全体の1つの通常の機能です。

OpenRefineを使用して、列内のテキストに基づいて行を列に転記する方法はありますか? "Description"を含む行の後にx行を "Description"という単語の次のインスタンスに転記するには?

+0

あなたは、私たちが直接いくつかを行うためにオープン絞り込みにインポートすることができます何かをあなたのデータの最小サンプルを提供することができます説明するためにスクリーンキャストを行うことができますテスト? –

+1

こんにちは@phillip。オーウェンの答えが正しければ、そうだと思いますが、それを受け入れることができますか?ありがとう! –

答えて

2

私がお勧めしたいのアプローチはOpenRefine「記録」へのグループにあなたの行である - 次のように私はこれに近づくだろう:それは

  • は、「カスタムを書くあるよう

    • はOpenRefineにデータをインポートします「GREL value.startsWith("Description")
    • でこのファセットが表示される行を選択し 『テキストファセット真の』 - これは、このファセットの選択とまだタイトル
    • を含むすべての行が適用され、あなたを与える必要があり、使用 『』この列に基づいて列を追加タイトルだけを含む新しい列を追加するsのあなたは今、関係する行のセットごとに単一のレコードを持っていることを確認する必要があり、プロジェクト
    • スイッチの開始(左側)に「レコード」モード

    から

  • 移動し、この新しいコラム同じタイトルにタイトル、ドキュメントタイプ、概要(存在する場合)、著者、日付を1つのセルにまとめるオプションを使用することができます。

    分割するには、「複数の列に分割」を使用します。列全体の値

    タイトルごとに1行にする必要があります。シノプシスが存在する行のデータは、シノプシスが存在しない行と比較して1つずつシフトされるので、やるべきことはまだまだあります。この問題を解決するには、最後の列に「空白で表示」することをお勧めします。最後の列で非シノプシス行を空にする必要があります。

    変換を使用すると、値を列ごとに1つずつシフトできます(空の列から開始します。そうでない場合は、データを上書きします)。

    すべてが意味をなさないことを望みます。あなたはいくつかの例のデータを投稿する場合エットーレが示唆するように、私は

    オーウェン

  • 関連する問題