Laravel ORM 中处理大量数据时的分表策略是怎么实现的呢？

问答 / 1014 / 33 / 创建于 1年前

大家好，

我目前在使用Laravel框架来处理一个物联网项目的数据存储需求。我们有一个传感器数据表，每天新增大约40万条记录，每条记录包含10个字段左右。由于数据量较大且查询频率很高，我正在考虑实施分表策略以提高数据库性能。

当前情况

每日新增数据量：约40万条
字段数量：10个
数据类型：物联网传感器返回的数据
查询频率：非常高
查询范围：通常不超过30天的数据

考虑的问题

分表方法
- 是否有推荐的Laravel插件或库可以帮助实现自动分表？
- 如果没有现成工具，手动实现分表的最佳实践是什么？
分表策略
- 按日期分表是否合适？例如，每月创建一个新表。
- 除了按日期分表外，还有哪些其他有效的分表策略适合这种场景？
跨表查询
- 如何高效地执行跨表查询（例如，查询最近30天的数据）？
- 是否有特定的技术或技巧可以用来优化这类查询？
社区经验
- 大家在类似情况下是如何处理的？
- 有没有遇到过什么坑或者有什么特别需要注意的地方？

非常感谢大家的经验分享和建议！

分表 laravel-orm

无与伦比

版主 2.2k 声望

不屑于功名之教，不拘于圣人之言

3 人点赞

你将学到如 RESTFul 设计风格、PostMan 的使用、OAuth 流程，JWT 概念及使用和 API 开发相关的进阶知识。

从小程序个人账户申请开始，带你一步步进行开发一个微信小程序，直到提交微信控制台上线发布。

推荐文章：

更多推荐...

博客

花了四个月打磨的 Laravel Plus 开源 35 / 104 |

试用 Laravel + 树莓派搭建视频监控，并支持线上访问 28 / 19 |

博客

Laravel 实用小技巧——缓存标签的小秘密（下） 12 / 11 |

博客

Laravel 实用小技巧——缓存标签的小秘密（上） 17 / 6 |

博客

你好，InnoCMS：一个 Laravel 社区老员的开源建站之旅 34 / 51 |

博客

PHP 中一次反射需要多长时间 28 / 9 |

PFinal南丞

Laravel 8.x 译者 150 声望

最佳答案

之前做一个大数据项目的时候, 分表是按照, 日期分表的,然后自动创建表之后, 又运行了一下创建视图,就这样的

CREATE VIEW device_data_view AS
SELECT * FROM data_202309
UNION ALL
SELECT * FROM data_202308
UNION ALL
SELECT * FROM data_202307;

然后 laravel 中查询的时候.

class DeviceDataView extends Model
{
    // 视图名
    protected $table = 'device_data_view';

    // 由于视图通常没有自增主键，因此可以禁用 Eloquent 的自动递增键
    public $incrementing = false;

    // 视图中不会有时间戳字段，因此禁用默认的时间戳功能
    public $timestamps = false;

    // 根据需要定义其他属性和关系
}

这样干的, 后来数据大了,有点慢又做了一次优化, 尝试了一次 分区表（Partition Table）

PARTITION BY RANGE (TO_DAYS(record_date)) (
    PARTITION p202309 VALUES LESS THAN (TO_DAYS('2023-10-01')),
    PARTITION p202310 VALUES LESS THAN (TO_DAYS('2023-11-01')),
    ...
);

查询也还行, 速度能跟上.

最后的最后, 上面的办法支撑了半年, 又有点卡顿了, 使用了 Mycat 来按月按设备进行了分库分表

1年前评论

无与伦比（楼主）

请问卡顿的时候数据量大概有多大呢？

PFinal南丞（作者）

@无与伦比半年左右,有1个亿左右的数据, 刚开始设备少,后来加设备加的点多了.

无与伦比（楼主）

@PFinal南丞好的感谢回复

讨论数量: 33

tsingyan

课程读者 21 声望

适合用nosql呀，时序数据库那种，这种一般不考虑事务

1年前评论

无与伦比（楼主）

但是现在公司买的是阿里云的rds mysql

tsingyan （作者）

@无与伦比，当前表只保留按需要留存的数据，其他数据按月或者用其他存储db，10个字段建好索引，还是能满足查询写入需求的，

无与伦比（楼主）

@tsingyan 现在就是这么做的，索引都加上了，速度还可以，就是数据增长的速度有点可怕。

tsingyan （作者）

这样就很好不错了，数据量增长过快，接着可以调整为只保留最近7天的，再接着增长就要考虑其他nosql

91it

Laravel 9.x 译者 454 声望

物联网项目数据采集，直接上TIDB不用考虑分表问题

1年前评论

无与伦比（楼主）

公司已经买好数据库了，小公司应该是不会买这个

cevin

320 声望

时序数据库（PostgreSQL+TimescaleDB）

分表，搭配中间件，程序无感。

1年前评论

yourself

205 声望 / 招聘 @ 你猜

按月分表被，重写一下规则

blog.csdn.net/a18132147899/article...

1年前评论

无与伦比（楼主）

这种分表跨月查询有性能问题吗？

yourself （作者）

@无与伦比没有问题啊。。。你不是查询30天数据么，最多跨1个表两条语句呀

无与伦比（楼主）

@yourself 好的感谢建议

W-W

课程读者 250 声望

你们这个是通过modbus tcp拿点位数据吗，我们最近也有这个需求

1年前评论

无与伦比（楼主）

对，差不多就是这个

W-W （作者）

@无与伦比你们是用php实现吗，会不会有效率问题，我们这边有1万多个点位，用go是不是会更好点

无与伦比（楼主）

@W-W 我们目前用的是webman，现在没发现问题

PFinal南丞

Laravel 8.x 译者 150 声望

之前做一个大数据项目的时候, 分表是按照, 日期分表的,然后自动创建表之后, 又运行了一下创建视图,就这样的

CREATE VIEW device_data_view AS
SELECT * FROM data_202309
UNION ALL
SELECT * FROM data_202308
UNION ALL
SELECT * FROM data_202307;

然后 laravel 中查询的时候.

class DeviceDataView extends Model
{
    // 视图名
    protected $table = 'device_data_view';

    // 由于视图通常没有自增主键，因此可以禁用 Eloquent 的自动递增键
    public $incrementing = false;

    // 视图中不会有时间戳字段，因此禁用默认的时间戳功能
    public $timestamps = false;

    // 根据需要定义其他属性和关系
}

这样干的, 后来数据大了,有点慢又做了一次优化, 尝试了一次 分区表（Partition Table）

PARTITION BY RANGE (TO_DAYS(record_date)) (
    PARTITION p202309 VALUES LESS THAN (TO_DAYS('2023-10-01')),
    PARTITION p202310 VALUES LESS THAN (TO_DAYS('2023-11-01')),
    ...
);

查询也还行, 速度能跟上.

最后的最后, 上面的办法支撑了半年, 又有点卡顿了, 使用了 Mycat 来按月按设备进行了分库分表

1年前评论

无与伦比（楼主）

请问卡顿的时候数据量大概有多大呢？

PFinal南丞（作者）

@无与伦比半年左右,有1个亿左右的数据, 刚开始设备少,后来加设备加的点多了.

无与伦比（楼主）

@PFinal南丞好的感谢回复

taobali32

课程读者 50 声望

那只眼睛看到题主写的数据上T了，每日新增数据量：约 40 万条，热数据一个月1200w数据叫多，回家种地吧。

至于题主问的查询频率：非常高， sql也不亮出来看看鬼知道怎么写的sql.

上面推荐mycat tidb之流。非蠢即坏，自己都用不熟就敢张嘴推荐。 tidb边缘性业务用， mycat都不维护了上来就分享。

题主都说了目前在用云数据库， cloud.tencent.com/product/dcdb sql写规范点买个云数据库读写分离配置下还瞎操什么心。折腾分库分表的没前途的。

1年前评论

无与伦比（楼主）

看见我问什么了，我问的是分表的解决方案，我每天40W难道业务就不能增长了，数据类型就是传感器返回的数据一个简单的select查询，这有啥好贴sql的，而且我也没说让大家帮我优化sql，你的脑子是咋想的？另外大佬你可以不说解决方案，有必要在这里冷嘲热讽吗？

PFinal南丞

啊,对对对,你说的都对, 分库分表的没前途的. 应该向大佬看齐, 回家种地

tingyuan

3 声望

可以做好分表的准备，等一张表明显感觉慢了才换也可以，当前看可以不分。也做过iot相关的，因为有saas需求，我们按租户维度分过数据表。还有项目按设备分过。因为我们业务对跨度较大的数据没好多要求。我们固定时间也会去清理，然后加了统计表对每个点位数据按照每天做了平均值存储。
从你说的：查询频率很高。要从业务分析下：是需要查跨度很大的数据，还是其他的，比如最新的数据、汇总统计之类的。
查跨度很大的数据、汇总统计：数据量很大了，索引效果不佳。分表就要根据时间、设备等维度考虑。这些上面上面的大佬说的可参考
读最新的数据：这个场景来说，个人有个经验处理，设备表存一个最新数据记录ID（符合设备数据同时采集在一个数据表的几个字段上）；或者：查询采集表各设备的数据最大ID,然后再通过最大ID去查询最新的数据

1年前评论

无与伦比（楼主）

感谢你的建议，现在数据有1000W了性能确实还没问题，等速度慢点了，我就按时间分表试一下。另外我读取最新的数据确实和你说的差不多，因为我这每台设备的传感器都不一样，我会用json的形式存储每个设备最新的数据。

lovewei

187 声望

每日40w热数据，一个月也就1200万，一年也就1.5亿数据，是否需要分库分表，是否结合分区和分库分表两种策略，分库分表采用什么策略，具体还是要看查询业务场景。

分区：如果查询业务以时间因子为主，按时间分区基本可以满足需求，查询表数据最多存储1-2年，超出期限的数据如果不需要可以删除，需要的话迁移至备份表存储，备份表可以按年和月分表进行存储。
分表：看你的需求有涉及最近30天时间维度查询，如果按月分表，必然涉及跨表查询，若存在聚合排序，大表之间连接查询IO必然不小，建议额外冗余一张查询主表，然后按月分表，查询主表保留最近X个月的数据，例如保留3个月，最近3个月数据以主表为准，超出3个月以上按月分表查询，建议不跨月，单独按月查询。

1年前评论

raybon

Laravel 8.x 译者 433 声望 / php @ 远程

这种采集数据如果不是非常必要入库，是不是考虑每天生成特定文件，并且上传至ES服务呢

1年前评论

无与伦比（楼主）

我这种得入库，雇主得随时比对历史数据

swatchion

课程读者 7 声望

这种类型的日志数据，直接用时间序列数据库。

1年前评论

changebeizhanyong

3 声望

可以用 ClickHouse

1年前评论

Hachiko

102 声望

问题核心点是设计好查询逻辑和冷热数据分离，实际 MySQL 挺能扛的（前提是得 SSD），这边一个月大概是六千万的数据量，按月分表，查询做了限制逻辑，只能查询一个月内数据，查询量不是非常大，热数据一天内查 MySQL（实际存了一个月的量，体积大概在二十几G），其他查 MongoDB，目前没遇到啥问题。冷热数据是写入的时候双写，自动建表，定期将热数据中的冷数据归档。

1年前评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

Laravel ORM 中处理大量数据时的分表策略是怎么实现的呢？

当前情况

考虑的问题

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

Laravel ORM 中处理大量数据时的分表策略是怎么实现的呢？

当前情况

考虑的问题

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录