文章详情页

python - 如何使用pykafka consumer进行数据处理并保存？

浏览：277日期：2022-07-29 10:47:55

问题描述

使用本地kafka bin/kafka-console-producer.sh --broker-list kafkaIP:port --topic topicName创建命令行生产数据，然后打开python

from pykafka import KafkaClientclient = KafkaClient(hosts='192.168.x.x:9092')topic = client.topics[’wr_test’]consumer = topic.get_balanced_consumer(consumer_group=’test-consumer-group’,auto_commit_enable=True,zookeeper_connect=’192.168.x.x:2121’)

然后自己编写了简单的一套处理函数，从外部引用。将数据处理后存入elasticsearch 或者数据库比如for msg in consumer:

if msg is not None: 外部引入的处理函数(msg.value)

在python命令行for msg in consumer:

print msg.offset, msg.value

这时候使用生产者敲入一些数据，在消费端就会就会立即打印出来但是写成py文件之后，每次运行只会处理最近的生产的一次内容，在生产者中再进行输入一些内容，py文件就不会再进行数据处理了。所以向问下如何编写能运行后能一直对消费者数据进行处理的函数？要注意哪些地方？

另外，get_balanced_consumer的方法，是连接zookeeper消费使用topic.get_simple_consumer是直接消费kafka，使用这种方式就提示No handler for...的错误

还有一个疑问，就是实际生产环境日志产生量很快，应该如何编写一个多线程处理方法？

问题解答

回答1：

在别人的博客看到一种替代的解决方案http://www.cnblogs.com/castle...从consumer中将msg.value读取到一个列表当中，然后从列表中读取数据进行数据处理，当这个流程结束后，再把列表中获取的数据pop掉。另外也要用try: ... except :... continue

Python 编程

上一条：python没入门，请教一个问题下一条：python - pip install出现下面图中的报错什么原因？

相关文章：

1. Docker for Mac 创建的dnsmasq容器连不上/不工作的问题2. 如何解决Centos下Docker服务启动无响应，且输入docker命令无响应？3. docker api 开发的端口怎么获取？4. 前端 - 类到底该如何去命名 .newsList 这种的命名难道真的不是过度语义化吗？~5. docker网络端口映射，没有方便点的操作方法么？6. docker images显示的镜像过多，狗眼被亮瞎了，怎么办？7. docker容器呢SSH为什么连不通呢？8. spring-mvc - spring-session-redis HttpSessionListener失效9. docker start -a dockername 老是卡住，什么情况？10. javascript - 关于用户登录和信息存储的问题

排行榜

					
					spring-mvc - spring-session-redis HttpSessionListener失效
Docker for Mac 创建的dnsmasq容器连不上/不工作的问题
docker容器呢SSH为什么连不通呢？
docker api 开发的端口怎么获取？
docker网络端口映射，没有方便点的操作方法么？
docker images显示的镜像过多，狗眼被亮瞎了，怎么办？
前端 - 类到底该如何去命名 .newsList 这种的命名难道真的不是过度语义化吗？~
如何解决Centos下Docker服务启动无响应，且输入docker命令无响应？
javascript - 关于用户登录和信息存储的问题
docker start -a dockername 老是卡住，什么情况？
docker gitlab 如何git clone？
				

热门标签