一个高并发的需求，大家可以讨论讨论，集思广益

1. 需求

昨天接到一个需求，需要我把Jenkins运行完的任务日志（日志很大，有的几十M）存起来，到时候上游会有多个进程，不断的给我传数据，我需要把他们传的日志入库,他们请求的频率很高，可能每秒大几百次，然后这些日志后续还需要有查找功能 根据测试集id查找后 展示到前端，假如某个测试集正在运行，那么这个日志还需要和前端建立websocket连接，不断的把最新的日志推送到前端

这个其中一个进程的请求实例，每个info就是一次请求，我没有copy完整，可能存在多个进程请求。

TicketServiceFits_BC
2023-01-11 09:23:57,870 - INFO:     实际结果:P
2023-01-11 09:23:57,870 - INFO:         la
2023-01-11 09:23:57,870 - INFO:         设置
2023-01-11 09:23:57,871 - INFO:     label_
2023-01-11 09:23:57,871 - INFO:     实际结果:P
2023-01-11 09:23:57,871 - INFO:     userna
2023-01-11 09:23:57,871 - INFO: 设置变量：usern
2023-01-11 09:23:57,871 - INFO: 设置变量：获取用户信
2023-01-11 09:23:57,872 - INFO: 交易日 关键字-fl
2023-01-11 09:23:57,872 - INFO: 设置变量: {"ex
2023-01-11 09:23:57,872 - INFO:     exchan
2023-01-11 09:23:57,872 - INFO:     设置变量：e
2023-01-11 09:23:57,873 - INFO:     exchan
2023-01-11 09:23:57,873 - INFO:     实际结果:"
2023-01-11 09:23:57,873 - INFO:         ex
2023-01-11 09:23:57,873 - INFO:         设置
2023-01-11 09:23:57,874 - INFO:     交易日信息 
2023-01-11 09:23:57,906 - INFO: 设置变量：交易日信息
...

2.我的思考

我思考了下，这个每秒钟几百次请求，我们的机器是window server 2012,5核32G的内存。直接在laravel里做，估计扛不住，可能还会影响平台主要业务，然后日志这种大文件存储，mysql肯定不适合了，我这边打算用mongdb来存
因为涉及的功能很简单 我打算用一台新机器，直接用原生php来写，毕竟只涉及简单的入库，代码也简单，效果高。

然后我的方案就是 nginx+php+mongodb ,然后收到请求后把数据直接扔到队列里处理。
对于和前端交互的部分，我是打算每次前端请求的时候，查询当前测试集是否运行完了，如果没有运行完 则通知前端和我进行websocket连接，这时候把已经建立的websocket的测试集id存在缓存里，然后收到该测试集id的日志时 就调用gateaway-worker群发功能 把日志推送到群里组

大家有没有好的思路，可以讨论讨论！多多指教 谢谢大家

uuus007

10 声望

最佳答案

kafka+es。上游不在给你传而是直接存到kafka。你多开几个进程读取存到es。后面查在es里面查

2年前评论

xiao （楼主）

哈哈点评论点成选为答案了这么多大佬推荐应该是个不错的方案把~多谢了不过我们这个需求比较急，我没用过这2个担心来不及

讨论数量: 54

Mutoulee

课程读者 353 声望 / Developer @ Dobeen.Net

建议直接存文件吧，再次用这些日志的时候再读取分析。

shunjian_1

我也是这么觉得

Mutoulee （作者）

@xiao 如果不差钱并且有外网环境的话买个公有云的日志服务，采集、加工、查询分析都会方便很多。

wxfjamdc

@xiao 传递的数据不就是最新数据吗？岂不是要一直返回前端？

少说了个需求我去补上

这些日志后续还需要有查找功能根据测试集id查找后展示到前端，假如某个测试集正在运行，那么这个日志还需要和前端建立websocket连接，不断的把最新的日志推送到前端

zjason

27 声望

按照日期写到log里，一条一行，内容使用json形式存储

阿里云日志管理配置日志路径到日志目录下，过期时间配置一年

查询的时候在阿里云日志那边随便查

再找找看有没有相关接口可以取

实在不行就接收后入队列，队列写入mongo或es，给前端的话直接在mongo或es里查

zjason 老哥说的也有道理，不过我们这个日志有点特殊，不是普通的归档，我们这边的日志必须按照测试集 id 来存，后面找到也是根据测试集 id 来查

zjason （作者）

@xiao 可以的，mongo和es都能满足，就以数组的形式塞进去，查的时候使用id查，就返回结果集了

@xiao www.mianshigee.com/note/detail/149...

@xiao blog.51cto.com/u_15047490/4378296

@xiao 1000并发，写入可以做到两千吞吐，给id加个索引，然后配置一下热区内存大小就行

哈哈老哥太贴心了文档都给我找好了确实我是第一次用mongodb 多谢了

@xiao 不客气，相互帮助相互学习，laravel的话，有现成的包，使用方法和查询构造器一样

嗯刚才搜了下发现都是用 jenssegers/mongodb 包

@xiao 用的话一定要配置热区内存大小，windows和linux配置方式不同，可以百度一下，不然服务器内存会被占满

嗯多谢老哥提醒

douresources

97 声望

mysql 就可以 ,把日志丢到redis队列，然后慢慢写入mysql中，日志多就分表，

有点担心影响其他业务呢

@xiao 按照这个方案要分库分表，需要考虑千万级以上数据的查询速度，还有分表的写入和查询速度

xiao

见习助教 26 声望 / php工程师 @ 中国

回复 wxfjamdc 老哥确实是的所以还需要和前端建立 websocket 连接

hikki

96 声望

kafka+ELK

carter

5 声望

我们公司是一个支付系统里面日志也是特别多，我们的做法是日志先进队列，然后一台服务器专门处理r队列的信息进行消费（多进程 swoole），然后使用了seaslog 这个支持文件查找，日志查询的时候也比较方便，目前用起来还算可以，一般高并发主要还是要考虑异步和削峰。

大佬你们这个方案不错不过我们这还有几个额外的需求有点棘手就是需要实时展示假如是正在运行的测试集前端那边请求我得先查库把之前运行的日志查出来给他再把后续新进来的日志推送过去每秒几百条日志很容易这个过程中出现遗漏就是查完库后再把新的数据推送中间那一小会会漏点很多数据

carter （作者）

你这个需求你不知道是否是真的需求一秒几百条记录前端展示他是否有能力看的过来，讨论我们看的过来的话，我认为你是可以实现前端ajax定时请求你的信息然后做展示，当然这个每秒几百条我估计前端性能也是个优化的点

websocket这种也是可以就看你们熟悉的方案其实有点类似实现弹幕方案了

嗯目前是采用ws 多谢了

lufeijun1234

我觉得这个方案是可以的，后端使用 clickhouse 也不错，另外，运行中的测试集，信息可以暂存在 redis 中，前端轮询，应该可以满足需求的

JeffreyBool

课程读者 373 声望 / golang工程师 @ 映客直播

kafka + es

白小二

课程读者 145 声望 / 数据员 @ 牛头村民工

大兄弟有结果了吗？php-fpm如果是长期几百并发，4核4线程8g的centos服务器扛不住。想知道下你这个配置能不能扛得住

扛不住，webman go 来搞稳如老狗

编码中后续上线了会来结案

白小二（作者）

@zjason 我测试swoole+redis的websocket，4核4线程8g最多能扛到1w并发，如果是只是峰值流量估计还能大几倍

你好我发现扛不住，我的控制器逻辑很简单只是把调用队列，然后我在本地用ab压测每秒请求到了100的时候 cpu 100%了

yzbfeng

53 声望

期待结案

哈哈我的上游接口还没下来那哥们请假回家过年了

目前发现然后我在本地用ab压测每秒请求到了100的时候 cpu 100%了

yzbfeng （作者）

@xiao 用的啥方案？本地压测会不会不准？相当于一部分资源是作为客户端，一部分是服务端？

我提供一个api上游调用，该api的控制器只做一件事，上游每次调用，就把参数push到queue处理，然后我压测的是这个api接口

我公司的大佬让我把这个http的api改成 ws和上游通信不知道会不会好点我感觉应该用消息中级比较合理

renxiaotu

@xiao 既然都是push到queue里，那为何不直接让你的上游push？这样他的等待时间也短了，你的压力也小了，你只需要多开几个消费线程就可以了，一台机器不够还可以多开几台

@renxiaotu 我用的是laravel自带的队列不方便给上游直接调用我本来打算直接让上游给我存到mongodb的(上游那边有40台执行机)，这样我直接从库里拿就好了，上游说mongo扛不住40台机器多线程存储，我觉得是可以.的...后面这个无疾而终了目前还在原方案我这边做完了等上游那边调用后续看看能不能抗住

@xiao 我猜测你的数据结构并不复杂，你可以看一下你创建队列后队列驱动（比如redis）里的结构，然后自己手动拼装这个结构即可，不一定要laravel才能入列的

@xiao 不过如果你的上游语言不是php就不好做，因为laravel队列用serialize()序列化任务

@renxiaotu 对消息很简单上游那边是python3开发的除非改用比较常见的消息中间件就能让他那边直接push到队列

@yzbfeng 才看到哈哈我用的jmeter 压测我提供给上游的ws接口

@xiao 要简化开发可以直接上游push个json或者protobuf到redis的list里，你开多线程pop。

@xiao 如果是比较重要的业务，要保证数据可靠性最好用kafka之类，看你需求吧

@renxiaotu 消息倒不是很重要但是我这边不能开多进程去消费，因为我们这个日志是Jenkins的执行记录，需要保证先后顺序，如果多进度消费的话顺序没可能会乱

Larva

57 声望

kafka

esacpe

6 声望

MongoDB es

tanhongbin

1 声望

要是就用php写，webman框架就够用了，单机都不到1000的并发，日志会用MongoDB，就先用MongoDB，不会就用mysql先存上，按照每天分表，使用云mysql最佳，然后定时清理过期的不需要的日志，qps1000而且，webman玩一样

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

一个高并发的需求，大家可以讨论讨论，集思广益

1. 需求

2.我的思考

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

一个高并发的需求，大家可以讨论讨论，集思广益

1. 需求

2.我的思考

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录