每天新增8640w数据，怎么存储比较好

客户端每10秒产生一条数据（包含客户端的唯一ID/时间/业务数据)，每个客户端每天生成8640条数据。
共10000个客户端，每天新增8640w条数据

数据示例:

client_id	start_time	finish_time	video_id
1	2021-12-27 11:05:21	2021-12-27 11:05:31	11
2	2021-12-27 11:05:25	2021-12-27 11:05:35	11
2	2021-12-27 11:05:35	2021-12-27 11:05:45	12

后期查询需求

需要按客户端，指定时间范围查询，比如：

SELECT client_id,COUNT(video_id) FROM table WHERE video_id=11 start_time > 'xxxx' AND finish_time < 'xxx' GROUP BY client_id

也需要按业务数据查询，比如：

SELECT video_id, COUNT(client_id) FROM table WHERE  start_time > 'xxxx' AND finish_time < 'xxx' GROUP BY video_id

请问这种情况，数据应该怎么存储比较好？

mysql mongodb

本帖已被设为精华帖！

本帖由系统于 3年前自动加精

张三

48 声望

暂无个人描述~

21 人点赞

以构建论坛项目 LaraBBS 为线索，展开对 Laravel 框架的全面学习。应用程序架构思路贴近 Laravel 框架的设计哲学。

我们将带你从零开发一个项目并部署到线上，本课程教授 Web 开发中专业、实用的技能，如 Git 工作流、Laravel Mix 前端工作流等。

推荐文章：

更多推荐...

博客

冯老师的困惑 —— 一个跑了两年的 BUG 21 / 17 |

博客

手摸手带你使用 docker-compose 编排一个开发环境 21 / 15 |

MySQL 8.0 官方手册翻译征集 10 / 14 |

博客

Laravel 实用小技巧 —— 如何快速更新 20 万条 MySQL 数据？ 20 / 26 |

Mysql 的 varchar 字段最大长度真的是 65535 吗？ 35 / 10 |

博客

别让这样的定时任务拖垮你的网站 24 / 30 |

讨论数量: 50

Icy

Laravel 8.x 译者 153 声望

可以补充个数据结构出来。从现在的文字描述没办法理解你这个业务数据 指的是枚举字段还是一种数据结构。

3年前评论

张三（楼主）

补充了个示例

勇敢的心

见习助教 852 声望

关注学习一下 :+1:

3年前评论

arvin-hermit

170 声望

TIDB是你的不二选择

3年前评论

张三（楼主）

谢谢，我查查，没用过

kolin

tidb好是好但是成本高好多

Sunn

TIDB单表无上限,很适合这种场景.就是删除的时候麻烦.可以按月分表.删除的时候直接drop掉之前的分区即可

caijunduo

课程读者 90 声望

如果不需要修改或删除数据，可以考虑第三方日志服务

3年前评论

张三（楼主）

是日志类数据，只有查询需求，不需要修改和删除数据，目前再看阿里云日志服务

liaosp

@张三对，阿里有时序数据库

她来听我的演唱会

Laravel 9.x 译者 611 声望

这个数据量有点大，可以考虑一下使用mongodb来存储日志类的数据，设置保存一段时间数据，之前的数据做一个或者多个统计表，然后定期删除已经做过统计表的数据，减少数据存储的量。

3年前评论

张三（楼主）

嗯嗯，也是一种办法

pi_phq

nosql 可以做日期做搜索查询？

她来听我的演唱会（作者）

@pi_phq mongodb默认有两个时间字段，created_at和updated_at，使用laravel模型也是自动维护，不过是UTC格式，查询需要稍微转化一下，也还是可以像平时查询一样查询。当然为了查询方便可以自定义一个时间或者时间戳字段，这样更方便，还要注意一个，mongodb严格区分数据类型，尤其是int和string。

Aroad

课程读者 118 声望

hbase?

3年前评论

张三（楼主）

好的，谢谢，我看看

yzbfeng

53 声望

物联网行业？使用mongodb吧这种日志一般也只是查，甚至只是存档而已

3年前评论

张三（楼主）

嗯嗯是的，要记录客户端的相关业务数据，只要存储和查询的需求，不需要更新和删除

她来听我的演唱会

@张三如果是物联网行业，每10秒钟上报一次的数据都要记录，我猜还是使用的http，为何不改成MQTT？设置成定时上报，比如半小时上报一次，更新设备状态和插入一条上报记录。实时状态就用websocket去连MQTT服务端，选择性更新设备状态就行，没必要设置每10秒都上报一次，以及每次的数据都保存起来！

张三（楼主）

@她来听我的演唱会小公司，很多东西项目中都没用上，准备试试下面老兄说的TDengine，感觉很牛

Fell-boy

课程读者 140 声望 / php @ 一品仓

不知道楼主知道，时序性数据库不？这个是针对物联网海量数据设计的查询数据库。不过需要一定的学习难度。

3年前评论

张三（楼主）

嗯嗯，多谢，我看看

fatrbaby

274 声望 / 首席换水官 @ 名剑风流

clickhouse

3年前评论

梦想星辰大海

185 声望 / 划水师 @ 未来科技

楼主关注一下这个：www.taosdata.com/cn/ php的连接器是这个：github.com/Yurunsoft/php-tdengine

3年前评论

张三（楼主）

多谢，看着很牛，准备试试

laravelcc

1 声望

clickhouse

3年前评论

eddy8

124 声望

3年前评论

Larva

57 声望

es 或者阿里云sls 腾讯云日志服务

3年前评论

游离不2

181 声望 / 后端代码搬运工 @ 不二科技

怎么存不是问题，怎么用才是你的问题

3年前评论

skys215

课程读者 61 声望

只存不改的话，可以考虑下MySQL的Archive存储引擎

不过最终还是要看你要拿这些数据做什么

3年前评论

esacpe

6 声望

elk或者mongodb

3年前评论

陈先生

课程读者 651 声望 / PHP_EOL @ NaN

按照你这个数据量，不要使用关系型数据库，使用时序数据库吧。类似数据上报一样了

3年前评论

Rytia

Laravel 8.x 译者 28 声望 / 搬砖工 @ www.zzfly.net

1、楼上说时序性数据库可以，你可以试试 2、目前我自己在从事广告数据开发方向。这种场景下，如果数据只增不减，可以考虑直接采用 OLAP 列式的数据库，这点数据量还是很轻松的。楼上举得 clickhouse 就是个不错的选择，擅长做日志等明细数据

3年前评论

张三（楼主）

这几天学习了下clickhouse和TDengine，感觉这俩都很牛，目前还不知道怎么选

张三

48 声望

单客户端一天8640条数据，目前1w台客户端，一天8640*1w=8640w条数据，一年大概315亿条数据。

TDengine的超级表感觉很不错，可以按客户端存到子表里，但是TDengine的查询功能好像不如clickhouse支持的好。

但是不知道clickhouse单表(大概10列，都是id,datetime类型)存几百亿数据数据会不会有啥问题。

昨天自己的电脑测试了下clickhouse单表三列(id UInt32, name String, created Datetime)mergeTree引擎，10亿数据查询速度挺快（机器配置 AMD 2400G / 16G DDR4 3200 / 海康c2000pro NVME硬盘）

@Rytia @laravelcc @fatrbaby @梦想星辰大海

3年前评论

张三（作者）（楼主）

@Rytia @laravelcc @fatrbaby @梦想星辰大海怎么at不到各位 >_<

nion

influxdb 跟 clickhouse 有什么区别

梦想星辰大海

我没有clickhouse和TDengine的使用经验，只是关注过这两个数据库的信息。怎么选择还是得从你的业务复杂性和软件的sql查询能力考虑，数据体量这块，这两个软件应该问题不大。

BScantnotCn

8 声望

看了 TDengine 官网贴出的性能对比图，为啥说性能远超 clickhouse ？

3年前评论

ysxpark

课程读者 11 声望

有很多人推荐clickhouse类分析数据库,此类数据库适合多写少读,我认为这个场景作为多写多读的场景,更适合使用MongoDB分片实例,再根据读场景进行分表,比如说取某个视频下的开始结束时间,就根据视频id分表,然后记录开始,结束时间.用户id,极大减少每个表的数据量,根据用户id做一个索引,并且不用担心video_id增长带来的表过大问题,另外可以考虑删除过期数据,或者定期搬运数据到冷数据表

3年前评论

张三（楼主）

应该算是多写少读，目前用了clickhouse，查询效率很高

梦想星辰大海

185 声望 / 划水师 @ 未来科技

试试用bitmap存储你的数据，比如搜索条件作为key，业务数据作为value，这个value是个bitmap。这样做的前提是你的value部分的值必须是int

3年前评论

张三（楼主）

说的是redis吗，关键是做各种统计查询是个问题

Variable

Laravel 9.x 译者 57 声望 / 技术小组长 @ 某司

一天百万数据目前再用 influxdb

3年前评论

Lany

课程读者 108 声望

时序数据库

3年前评论

哪吒的狗腿子

139 声望

一天3亿数据。存mysql没问题、但是会定时清理、
分rds 分表分库没问题

2年前评论

yekern

19 声望

这种应该上时序数据了吧.. 搜索下吧

2年前评论

____Laravel

44 声望

如果都是这样的查询的话：

SELECT client_id,COUNT(video_id) FROM table WHERE video_id=11 start_time > 'xxxx' AND finish_time < 'xxx' GROUP BY client_id；
SELECT video_id, COUNT(client_id) FROM table WHERE  start_time > 'xxxx' AND finish_time < 'xxx' GROUP BY video_id；

是不是可以考虑按时间查询颗粒精确度建立一个汇总表，类似于

    insert into(client_id,log_day,log_hour,log_count) values (1,2022-12-29,10,100);

这样算一下能否提高效率

2年前评论

Friendship

0 声望

楼主，您好，我目前也在ClickHouse、TDengine中选型，想问下，您当时为什么选择了前者？

2年前评论

张三（楼主）

当时选clickhouse的原因好像是 clickhouse的查询比tdengine支持的好，而且测试了下单表十亿条数据，查询也很快就选了clickhouse

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

每天新增8640w数据，怎么存储比较好

数据示例:

后期查询需求

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

每天新增8640w数据，怎么存储比较好

数据示例:

后期查询需求

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录