分享一道昨天的面试题

问答 / 0 / 11 / 创建于 3年前

一个5G 的日志文件里面存的全部是请求的url地址，现在要用php读取文件统计前十访问的url，内存仅够代码运行，请问怎么处理，欢迎大神评论留言

晏南风

见习助教 149 声望

问题多，基础差

0 人点赞

以构建论坛项目 LaraBBS 为线索，展开对 Laravel 框架的全面学习。应用程序架构思路贴近 Laravel 框架的设计哲学。

从零开始带你一步步开发一个 Go 博客项目，让你在最短的时间内学会使用 Go 进行编码。项目结构很大程度上参考了 Laravel。

推荐文章：

更多推荐...

分享创造

价值千万的诊所saas项目正式开源 14 / 23 |

博客

Dcat-Plus-Admin：dcat-admin框架的超级增强版，开发效率提升200%！ 15 / 16 |

博客

用 Laravel12 Startkit 做了一个 composer 私有包托管平台 😂 点赞超过 20 个开源，看看需要的人多不多 28 / 20 |

如何打造令后端面试官印象深刻的简历？ 16 / 10 |

博客

花了四个月打磨的 Laravel Plus 开源 34 / 101 |

博客

冯老师的困惑 —— 一个跑了两年的 BUG 22 / 18 |

讨论数量: 11

xuchunyang

288 声望

上周遇到恶意刷流量，自己手动分析服务器日志（文件几百兆）找出可疑 IP，用的是传统命令行工具，比如：

$ shuf -r -i 1-100 | head -n 1000000 | sort | uniq -c | sort -n -r | head -n 10
10293 99
10286 18
10248 41
10220 16
10214 52
10202 81
10201 74
10180 30
10177 50
10168 42

3年前评论

晏南风（楼主）

额他的要求是php处理，实际场景当然命令行是可以的

鲜橙多

34 声望

定义个数组key为url，值为出现次数，逐行读取，然后统计。这么大的文件反正是不可能直接读入内存的

3年前评论

Tangqy

yield生成器读取

晏南风（楼主）

这个读取肯定是的，那统计呢

ncccc1

@晏南风可用redis

Tangqy

@晏南风我可能会这样做根据url长度分别存储到100个文件中 url如果在文件中存在了就累计，然后每个文件再做排序，再取每个文件的前10条，对1000条数据做个排序取前10条；redis：有序集合；es：aggs

btx2015

29 声望

我的方案如下，有不对的地方还忘指正。内存不能用，那就用硬盘。准备一个url统计文件夹，逐行读取日志中的url，然后以url命名在该文件夹中生成文件（如果过长可切割为缺省域名和get参数的url）,内容为1。相同url累加文件内容数量。统计结束后，遍历所有新生成的url文件和其余文件比较取出最大然后删除该文件，重复取出10个。

3年前评论

晏南风（楼主）

感觉貌似还挺靠谱

JinBB

153 声望

这个问题应该是分成两个部分：

如何存储（会涉及到如何查找，没有则新增）
如何排序（？？）

这应该是一个典型的数据结构和算法的问题。可以用树的数据结构。

每一个url都可以分解成几段：

https
www
baidu
com
8080
mp3/id

然后把每一段都用一个int值表示，这样每一个网址就变成了一个int的序列[2,5,7,8,9,10]，这个序列中int的数量是可变的，有的网址的多一些，有的少一些。

接下来就可以根据这些序列的集合生成一颗树，树的路径对应的是url的路径，树的叶子对应的就是这个url的访问数量。

再然后就是找出10片最大的叶子了。

具体怎么做我也不会，只是提供个思路。欢迎讨论。

3年前评论

javalaw

课程读者 93 声望

TopN问题啊，第一个想到的解法不应该是大小堆么，不过我上次刷题还是两年前找工作的时候，现在暂时没法一下子写出代码来，你可以找找最大堆、最小堆相关的资料看看。

3年前评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

分享一道昨天的面试题

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

分享一道昨天的面试题

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录