千万级历史数据跑报表性能优化方案

各位社区的大佬：
小弟现在有个千万数据量的会员表，有注册时间及注册渠道。现在有个业务需求需要把这些数据清洗到数据报表（数据表）里面
数据报表格式如下

register_date	register_channel	count
2020-01-01	1	10
2020-01-01	2	13
2020-01-02	1	12
2020-01-02	2	11
…	…	…

目前我的做法是查询表里最早注册时间循环至当前时间，在循环里面查询日期下 ->groupBy('registered_channel')->selectRaw('registered_channel as register_channel, count(1) as register_num') 渠道及渠道注册人数；

不知各位还有什么更好的优化方案

kiti

Laravel 8.x 译者 93 声望

暂无个人描述~

1 人点赞

从零开发一个电商项目，功能包括电商后台、商品 & SKU 管理、购物车、订单管理、支付宝支付、微信支付、订单退款流程、优惠券等

以构建论坛项目 LaraBBS 为线索，展开对 Laravel 框架的全面学习。应用程序架构思路贴近 Laravel 框架的设计哲学。

推荐文章：

更多推荐...

分享创造

无需修改任何代码和扩展将你的Laravel项目性能提高20倍 101 / 101 |

博客

生产环境致命错误你还在等客户反馈吗？分享一下致命错误的自动告警方案 13 / 7 |

博客

PHP 中一次反射需要多长时间 28 / 9 |

工作

[求职]在郑州工作4年的程序媛的简历优化 15 / 184 |

博客

vim 入门级需要了解的一些快捷键 10 / 7 |

博客

国产系统级编程语言与编译器，轻松与 C 语言进行交互 15 / 15 |

讨论数量: 8

鸡排饭加蛋

课程读者 116 声望 / PHP搬运工 @ 厦门

新建一张表，把数据按格式导入到新表里，每日凌晨更新一次

PS ：发帖的时候，请检查几遍在发出来，你看下短短几个字，多少个错别字

5年前评论

kiti （楼主）

你这个方案我有点没懂

lar_cainiao

35 声望

你用循环就注定你的速度不会快

5年前评论

kiti （楼主）

有没有什么好的方案

lar_cainiao

35 声望

你先分批次清洗数据然后放入一个队列一次插入多条数据看你业务需求

5年前评论

cheer

课程读者 64 声望

不需要实时查询的话，将数据分批归档不就好了吗？而且归档过的数据不会变动的

5年前评论

GeorgeKing

L5.7 译者 761 声望

group by 数据库不会蹦么？给出如下伪代码：

$total = Register::count();
$limit = 1000;
$batch = ceil($total / $limit);
for ($i = 0; $i < $batch; $i ++) {
    $skip = $i * $limit;
    $items = Register::query()->skip($skip)->limit($limit)->get();
    foreach($items as $item) {
        $report = Report::query()->where('register_date', $item->date)->where('register_channel', $item->channel)->first();
        if ($report) {
            $report->count ++;
            $report->save();
        } else {
            Report::create(['register_date' => $item->date, 'register_channel' => $item->channel, 'count' => 1]);
        }
    }
}

5年前评论

lar_cainiao

你1000条一次性保存循环里的查询去掉可以一次性取出拼上去

GeorgeKing （作者）

@lar_cainiao 是的，可以这么做，但是要考虑到中途失败的问题，就要多写很多代码了……

kiti （楼主）

这种分页的做法越到后面越慢吧好像chunkById 好一点

不负岁月

57 声望

创建一个表记录已经清洗数据的id,清洗结果，失败原因，然后定时去执行脚本去刷(脚本取记录表里不存在id的分块)

5年前评论

戎码一生

3 声望

千万级的mysql还行啊，时间建个索引你可以按照月写个循环，按照insert into select 这种形式到个新表应该不是问题

5年前评论

LuminEe

58 声望

说一下我们项目当前的做法吧 (用户登录活跃统计)

要求: 每天凌晨统计昨天一天的数据，统计好放到 daily 中

实现:

前一天统计完会保存一个时间为 23:59:59 的记录id (例: 1000000)
凌晨用计划任务的方式调用脚本去统计， sql 大概是
```
select * from activity where id > 1000000 
and created_at between '2020-07-29 00:00:00' and '2020-07-29 23:59:59'
```
如需分块，则用 chunk() 或手动 limit 方式分块查询；如果可以在 sql 中计算，则视情况用 group by 等
统计好的数据 insert 到 daily 表中，然后再用 id > 1000000 和 created_at between 查出 max(id) 保存下来，方便用于明天第一步的使用。

注意项: 因为 created_at 是 timestamp 字段，加索引也不怎么管用，而主键索引很好用

5年前评论

kiti （楼主）

你这个是我们后面脚本上线之后的做法但是在这个脚本上线前我这边已经有了千万级的数据现在是要把这些一次性洗完

LuminEe （作者）

@kiti 那可以尝试多进程的脚本，以每月的数据分块，因为当前这个需求，瓶颈在查询和统计，而写入压力可以忽略。举例：三年的数据可以每半年一个进程，分六个进程，再把每个进程的数据块最大最小id 提前查出来，按 id 分块

LuminEe （作者）

@kiti 如果有从库的话，可以连接到不同的从库上，分摊查询的压力

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

千万级历史数据跑报表性能优化方案

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

千万级历史数据跑报表 性能优化方案

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录

千万级历史数据跑报表性能优化方案