需求及選型
昨天在做簡單日志采集分析,使用技術(shù)如下
- filebeat:做日志的收集
- kafka: 日志中轉(zhuǎn),緩沖及解耦作用
- storm: 做日志實時分析
后續(xù)會再加上其它,如
- elasticsearch : 做搜索
- hbase : 存儲
在此調(diào)研只使用最上面的三項。
kafka
其安裝不做介紹。只需做簡單配置,然后創(chuàng)建一個topic,命令如:
kafka-topics.sh --create --zookeeper 192.168.101.176:2181 --replication-factor 1 --partitions 1 --topic demolog1
filebeat
安裝不做介紹。
修改filebeat.yml
,注釋掉其默認(rèn)的elasticsearch
的配置,修改要輸出的log文件
在最后面增加輸入到kafka
的信息,如:
output.kafka:
enabled: true
hosts: ["192.168.101.176:9092"]
topic: demolog1
在此遇到一個問題:配置好ip,但發(fā)現(xiàn)不能找到kafka,其內(nèi)部都是使用的域名,應(yīng)該為:先通過ip查到域名,然后使用域名去查找,則這時找不到相應(yīng)的主機了,這時只需要
在/etc/hosts
里面配置好相應(yīng)的域名即可。
storm
引用最新的kafka,及其client,最新的使用的是storm-kafka-client
,網(wǎng)上已有的內(nèi)容基本都是針對老版本kafka的,老版本使用的是storm-kafka
,需要使用的pom如下:
<dependencies>
<dependency>
<groupId>org.apache.storm</groupId>
<artifactId>storm-core</artifactId>
<version>1.1.1</version>
</dependency>
<dependency>
<groupId>org.apache.storm</groupId>
<artifactId>storm-kafka-client</artifactId>
<version>1.1.1</version>
</dependency>
<dependency>
<groupId>org.apache.kafka</groupId>
<artifactId>kafka_2.12</artifactId>
<version>0.11.0.1</version>
<exclusions>
<exclusion>
<artifactId>log4j</artifactId>
<groupId>log4j</groupId>
</exclusion>
<exclusion>
<artifactId>slf4j-log4j12</artifactId>
<groupId>org.slf4j</groupId>
</exclusion>
</exclusions>
</dependency>
</dependencies>
這里需要把kafka中依賴的log4j去除,否則會報錯,如果使用的是老版本的storm-kafka,則啟動不了,是因為引入即有l(wèi)og4j,又有l(wèi)og4j2導(dǎo)致的。如果使用的storm-kafka-client,則會有以下
警告。
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/E:/repository/org/apache/logging/log4j/log4j-slf4j-impl/2.8.2/log4j-slf4j-impl-2.8.2.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/E:/repository/org/slf4j/slf4j-log4j12/1.7.25/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]
此外還有一個問題是,雖然配置什么都正確,但是不能獲取到kafka消息,最后發(fā)現(xiàn)是沒有在host里面配置域名,雖然代碼使用的是ip,但被解析后,再使用就不行了,增加host后解決。其原因應(yīng)該和上面一樣.
在此只從kafka中獲得消息,不需要把消息寫入到kafka,因此使用KafkaSpout
topology
如下:
import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.storm.Config;
import org.apache.storm.LocalCluster;
import org.apache.storm.StormSubmitter;
import org.apache.storm.kafka.spout.KafkaSpout;
import org.apache.storm.kafka.spout.KafkaSpoutConfig;
import org.apache.storm.topology.TopologyBuilder;
import org.apache.storm.utils.Utils;
public class DemoTopology {
private static TopologyBuilder builder = new TopologyBuilder();
public static void main(String[] args) {
Config config = new Config();
config.setDebug(true);
config.setNumWorkers(1);
KafkaSpoutConfig kafkaSpoutConfig = KafkaSpoutConfig.builder("192.168.101.176:9092",
"demolog1")
.setProp("client.id","hello")
.setProp("group.id", "storm")
.setProp(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, "true")
.build();
builder.setSpout("kafkaSpolt", new KafkaSpout<>(kafkaSpoutConfig), 1);
builder.setBolt("demoBolt", new DemoBolt(), 2).shuffleGrouping("kafkaSpolt");
if (args != null && args.length > 0) {
try {
config.setNumWorkers(1);
StormSubmitter.submitTopology(args[0], config,builder.createTopology());
} catch (Exception e) {
e.printStackTrace();
}
} else {
config.setMaxTaskParallelism(1);
LocalCluster cluster = new LocalCluster();
cluster.submitTopology("demo", config, builder.createTopology());
Utils.sleep(1000000000);
cluster.killTopology("demo");
cluster.shutdown();
}
}
}
則這時就可以在自己的Bolt中獲取到消息了。
參考文檔:http://storm.apache.org/releases/1.1.1/storm-kafka-client.html