SparkStreaming做实时数据处理，新手常遇到的坑有哪些？求大佬指点

摘要

最近公司在搞实时数据大屏，老板非要我用Spark Streaming，说这玩意快🚀。但我之前只搞过批处理，这流处理一上来就报错，真是头大。Spark Streaming本质上是个微批处理框架，...

最近公司在搞实时数据大屏，老板非要我用Spark Streaming，说这玩意快🚀。但我之前只搞过批处理，这流处理一上来就报错，真是头大。Spark Streaming本质上是个微批处理框架，它把数据流切成小批次，然后像批处理一样跑，但有些朋友想要真正的逐条处理，该怎么办呢？

我目前使用的环境是Spark 4，配合Kafka收数据。关键配置里，批处理间隔（batch interval）特别重要，比如设成5秒或10秒，短了容易资源不足，长了实时性又不够。平常我是这样做的，先预估数据量，再定这个时间，一般从10秒开始调。详细的设置方法，一起看看吧：在创建StreamingContext时，用Seconds(10)来定义，这样每10秒攒一批数据一起算。但有时候数据突然涌进来，比如搞促销时，直接OOM（内存溢出）了，程序就崩了。这时候就得看背压机制（backpressure），开启spark.streaming.backpressure.enabled为true，让它自动调整接收速率，但有些集群环境权限卡得死，改配置还得走流程，等审批下来热点都凉了😂。

数据丢失和重复消费是最让人头疼的。特别是用Kafka的时候，偏移量（offset）管理不好，要么丢了数据，要么同一条算了好几次。我经常使用的办法是手动存偏移量到Redis或MySQL里，这样重启应用时能从上次断的地方接着读。但代码写起来挺啰嗦，得在foreachRDD里先处理数据，然后原子性地存偏移量。有一次我忘了加事务，结果数据处理了，偏移量没存上，重启后老数据又跑一遍，业务部门跑来抱怨说数字对不上。所以现在我都用checkpoint功能，让Spark自己存状态，不过checkpoint目录如果挂了，恢复起来也麻烦，而且会切断RDD的血缘关系，不利于追溯。

性能优化方面，序列化方式和内存设置是重点。默认的Java序列化慢还占地方，我后来换成了Kryo序列化，配置spark.serializer为org.apache.spark.serializer.KryoSerializer，速度能快不少。还有executor的内存分配，不能光堆给缓存，得留点给计算任务。我有回把spark.executor.memory设到8G，以为缓存多了就快，结果频繁Full GC，反而拖慢了。后来改用堆外内存（off-heap）存部分数据，才稳下来。但调试GC日志真是费眼，一看就是一整天。

说到调优，宽依赖和窄依赖的影响很大。比如用reduceByKey比groupByKey好，因为reduceByKey会在map端先合并一下（combiner），传出去的数据量小，网络压力小。但有些复杂逻辑不得不用groupByKey，结果shuffle时数据倾斜了，某个task跑特别久。这时候得加盐（salting）或者拆分key，把热点数据打散。不过业务逻辑耦合深，改起来可能牵一发动全身。

容错和高可用这块，Standalone模式有单点故障风险。我们测试环境用过，Master节点一挂全停摆。后来上生产就改用YARN模式了，配合ZooKeeper做Master的自动故障转移（HA）。但YARN的cluster模式和client模式也纠结过：cluster模式方便，driver在集群里跑，提交完客户端就能关；client模式呢，driver在提交端，日志好查，但客户端机器不能随便关。一般我是这样做，调试时用client，稳定跑了用cluster。

最后说说Structured Streaming这个新东西，它用DataFrame API，支持事件时间（event-time）处理和延迟数据容忍，写起来更像批处理的代码。但迁移过来要改不少习惯，比如输出模式得选Append、Update还是Complete。而且它对老项目兼容性，比如一些自定义的RDD操作，不能直接套用。希望能帮到你，但有些朋友想要更详细的例子，可以看看官方文档。

总之玩转Spark Streaming得耐心试错，从数据源、处理逻辑到输出，每个环节都可能藏坑。多利用Web UI监控作业动态，调整并行度，缓存频繁用的RDD。实在搞不定就去社区问问，大佬们通常挺热心💪。

SparkStreaming做实时数据处理，新手常遇到的坑有哪些？求大佬指点