bigdata

0熱

1答えて

kafkaトピックから3MBのメッセージストリームを取得していますが、デフォルト値は1MBです。 kafa consumer.propertiesとserver.propertiesファイルに以下の行を追加することで、kafkaプロパティを1MBから3MBに変更しました。今 fetch.message.max.bytes=2048576 (consumer.properties) filemes

2熱

1答えて

USQL ACUTE ACCENT

私はU-SQLを初めて使用しています。私はいくつかの基本的な質問をしようとしており、急性のアクセントがどのように扱われるかという問題を発見しました。私のデータに鋭いアクセントがあると、エラーが発生し、続行できません。私はスペイン語ですので、私が扱っているデータのほとんどは鋭いアクセントを持っています。特別なコーディングプロトコルに従う必要がありますか？

1熱

1答えて

Python 2.7経由でzipファイル内のファイルにバイトをどのように追加しますか？

私は現在、より大きなパズルの一部に取り組んでいます。私の作品には、ファイルオブジェクトとzipファイルの宛先があります。私はファイルオブジェクトのサイズを知っていることは決してありません。私は1つしか持っていないことを知っている。そこにはzip64をサポートする必要があります。私の目標は、そのファイルオブジェクト（ファイルへのポインタを）取ると、ファイル全体をメモリにロードせずにzipファイルに

0熱

1答えて

Flume-ng：ログファイルをローカルからHDFSにコピーするためのソースパスとタイプ

localからHDFSまでのログファイルの一部をflume-ngを使用してコピーしようとしています。 sourceは/home/cloudera/flume/weblogs/であり、sinkはhdfs://localhost:8020/flume/dump/である。 cronジョブはtomcatサーバーのログを/home/cloudera/flume/weblogs/にコピーし、HDFSにコピーす

0熱

1答えて

Pythonの日時 - 計算の速度 - 大きなデータ

データフレーム内の2つの列（具体的にはgraphlab SFrameデータ構造）の違いを（日単位で）探したいと思います。これを行うためにいくつかの関数を記述しようとしましたが、十分に速い関数を作成できないようです。処理速度は8000万〜8000程度です。私は2つの異なる機能を試してみましたが、両方は遅すぎる： t2_colname_strとt1_colname_str引数は、私が使用したいの列

0熱

1答えて

elasticsearchで2種類のクロス結合を達成するにはどうすればよいですか？

SELECT u.Address,c.locality,jaccard_similarity(u.Address, c.locality) as score FROM users u left join communites c on jaccard_similarity(u.Address, c.locality) >=0.65 私はElasticsearchで同じ機能をどのように達成で

0熱

1答えて

R jsonliteフィルタレコード

をロードする前に、私は強いリアルサーバマシンに効率的にロードする多くの大規模なJSONファイル（3Gそれぞれを）持っている、しかし、すべてのファイルからすべてのレコードをロードすると冗長と排出されます（50Mレコードは40を掛けます）。だから私はそれが効率的だと聞いたので、jsonliteパッケージを使用すると思った。事は、私はすべてのレコードを必要とするが、名前によって埋め込まれた要素（「ソー

1熱

1答えて

初心者Apache Nifiを使ってREST APIをソースとして使用する方法は？

プロジェクトでは、REST APIでデータを公開する（レガシー）ツールからデータを読み込むETLプロセス（変換ロードの抽出）を開発する必要があります。このデータはamazon S3に保存する必要があります。私はapache nifiでこれを試してみたいと思っていますが、正直なところ、REST APIにどのように接続できるのか、そして/どのようにしてソースシステムと適切なプロトコル。例えば、私はこ

-1熱

1答えて

機械学習を使用してシステムログファイルの障害を予測するにはどうすればよいですか？

私は、ログファイルの分析に基づいてサーバーで予測システムの失敗を作成することを主な目的としているプロジェクトで作業します。それに加えて、ルールエンジンと深い学習としていくつかのアルゴリズムを使用する必要があります。現時点では、どのトラックから開始するのか正確には分からず、これらのアルゴリズムを使用するのが最適なのかどうかはわかりません。私は何か助けや提案に感謝します。

0熱

1答えて

JDBCがチャンク内のOracleデータを取得する

JDBCを使用しているが、チャンクを使用してOracleデータベースからデータをリカバリしたいとします。 MySQLと他のデータベースとは対照的に、ORacleは簡単にのクエリから行のサブセットのみを回復することはできません。なにか提案を？ Java 8 APIを使用してJDBCをストリームする必要があります。私はページ分割の実装を使用しようとしています。ただし、ページ区切りは常に結果を結果