PHP 面试问答

mution 的个人博客 / 8 / 0 / 创建于 6年前 / 更新于 6年前

1. 数据库设计经验,为什么进行分表? 分库?一般多少数据量开始分表? 分库? 分库分表的目的? 什么是数据库垂直拆分? 水平拆分? 分区等等
一：为什么要分表
当一张表的数据达到几百万时，你查询一次所花的时间会变多，如果有联合查询的话，有可能会死在那儿了。分表的目的就在于此，减小数据库的负担，缩短查询时间。日常开发中我们经常会遇到大表的情况，所谓的大表是指存储了百万级乃至千万级条记录的表。这样的表过于庞大，导致数据库在查询和插入的时候耗时太长，性能低下，如果涉及联合查询的情况，性能会更加糟糕。分表和表分区的目的就是减少数据库的负担，提高数据库的效率，通常点来讲就是提高表的增删改查效率。数据库中的数据量不一定是可控的，在未进行分库分表的情况下，随着时间和业务的发展，库中的表会越来越多，表中的数据量也会越来越大，相应地，数据操作，增删改查的开销也会越来越大；另外，由于无法进行分布式式部署，而一台服务器的资源（CPU、磁盘、内存、IO等）是有限的，最终数据库所能承载的数据量、数据处理能力都将遭遇瓶颈。
二：分表的方案
1，做mysql集群，有人会问mysql集群，根分表有什么关系吗？虽然它不是实际意义上的分表，但是它启到了分表的作用，做集群的意义是什么呢？为一个数据库减轻负担，说白了就是减少sql排队队列中的sql的数量，举个例子：有10个sql请求，如果放在一个数据库服务器的排队队列中，他要等很长时间，如果把这10个sql请求，分配到5个数据库服务器的排队队列中，一个数据库服务器的队列中只有2个，这样等待时间是不是大大的缩短了呢？
linux mysql proxy 的安装，配置，以及读写分离
mysql replication 互为主从的安装及配置，以及数据同步
优点：扩展性好，没有多个分表后的复杂操作（php代码）
缺点：单个表的数据量还是没有变，一次操作所花的时间还是那么多，硬件开销大。
2.垂直分割就是按字段分.水平分割.就是按记录分

2. 数据库优化有哪些? 分别需要注意什么?

SQL优化的原则是：将一次操作需要读取的BLOCK数减到最低,即在最短的时间达到最大的数据吞吐量。
调整不良SQL通常可以从以下几点切入：
检查不良的SQL，考虑其写法是否还有可优化内容
检查子查询考虑SQL子查询是否可以用简单连接的方式进行重新书写
检查优化索引的使用
考虑数据库的优化器
避免出现SELECT * FROM table 语句，要明确查出的字段。
在一个SQL语句中，如果一个where条件过滤的数据库记录越多，定位越准确，则该where条件越应该前移。
查询时尽可能使用索引覆盖。即对SELECT的字段建立复合索引，这样查询时只进行索引扫描，不读取数据块。
在判断有无符合条件的记录时建议不要用SELECT COUNT （）和select top 1 语句。
使用内层限定原则，在拼写SQL语句时，将查询条件分解、分类，并尽量在SQL语句的最里层进行限定，以减少数据的处理量。
应绝对避免在order by子句中使用表达式。
如果需要从关联表读数据，关联的表一般不要超过7个。
小心使用 IN 和 OR，需要注意In集合中的数据量。建议集合中的数据不超过200个。
<> 用 < 、 > 代替，>用>=代替，<用<=代替，这样可以有效的利用索引。
在查询时尽量减少对多余数据的读取包括多余的列与多余的行。
对于复合索引要注意，例如在建立复合索引时列的顺序是F1，F2，F3，则在where或order by子句中这些字段出现的顺序要与建立索引时的字段顺序一致，且必须包含第一列。只能是F1或F1，F2或F1，F2，F3。否则不会用到该索引。
多表关联查询时，写法必须遵循以下原则，这样做有利于建立索引，提高查询效率。格式如下
select sum（table1.je） from table1 table1, table2 table2, table3 table3 where (table1的等值条件（=）) and(table1的非等值条件) and (table2与table1的关联条件) and (table2的等值条件) and (table2的非等值条件) and(table3与table2的关联条件) and (table3的等值条件) and (table3的非等值条件)。
注:关于多表查询时from 后面表的出现顺序对效率的影响还有待研究。
子查询问题。对于能用连接方式或者视图方式实现的功能，不要用子查询
在WHERE 子句中，避免对列的四则运算，特别是where 条件的左边，严禁使用运算与函数对列进行处理。比如有些地方 substring 可以用like代替。
如果在语句中有not in（in）操作，应考虑用not exists（exists）来重写,最好的办法是使用外连接实现。
对一个业务过程的处理，应该使事物的开始与结束之间的时间间隔越短越好，原则上做到数据库的读操作在前面完成，数据库写操作在后面完成，避免交叉。
请小心不要对过多的列使用列函数和order by,group by等，谨慎使用disti软件开发t。
用union all 代替 union，数据库执行union操作，首先先分别执行union两端的查询，将其放在临时表中，然后在对其进行排序，过滤重复的记录。
当已知的业务逻辑决定query A和query B中不会有重复记录时，应该用union all代替union，以提高查询效率。
20、选取最适用的字段属性，MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。
例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很好的完成任务了。同样的，如果可以的话，我们应该使用MEDIUMINT而不是BIGIN来定义整型字段。
另外一个提高效率的方法是在可能的情况下，应该尽量把字段设置为NOTNULL，这样在将来执行查询的时候，数据库不用去比较NULL值。
对于某些文本字段，例如“省份”或者“性别”，我们可以将它们定义为ENUM类型。因为在MySQL中，ENUM类型被当作数值型数据来处理，而数值型数据被处理起来的速度要比文本类型快得多。这样，我们又可以提高数据库的性能。

3. web开发方面会遇到哪些缓存? 分别如何优化?

浏览器缓存
在任何现代浏览器上(如IE, FireFox, Chrome)折腾清除隐私数据的对话框，你很可能会注意到“缓存”这个设置项。
代理服务器缓存
Web代理服务器使用同样的缓存原理，只是规模更大。代理以同样的方式服务千万用户，大公司和ISP经常在他们的防火墙或者单独的设备（也被称为中介(intermediaries)）上架设代理缓存。
网关缓存
也被称为“反向代理缓存”或“替代缓存”。网关缓存同样是起中介作用的，不过不是网络管理员部署的，而多半是网站管理员（公司专门的运维工程师、或UED或程序组某人Add）部署，这样更容易扩展与维护。

4. 给你256M的内存,统计10G文件每个关键字出现的次数如何实现？
思路

$handle = fopen("/tmp/uploadfile.txt", "r") or die("Couldn't get handle");
if ($handle) {
    while (!feof($handle)) {
        $buffer = fgets($handle, 4096);
        // Process buffer here..
    }
    fclose($handle);
}

5. PHP的生命周期/启动流程
完整的生命周期为模块初始化、请求初始化、请求处理、请求关闭、模块关闭五大阶段。
cli模式下，每个脚本都会完整的执行上面的五大阶段；对于fastcgi模式而言，只在启动时会执行模块初始化，之后的请求都走了请求初始化、处理请求、请求关闭三大阶段，在fastcgi关闭时执行模块关闭阶段。各个扩展的加载也是在模块初始化阶段完成的。

6. 说一下PHP的（内存）垃圾回收机制
每一个变量对应一个zval数据结构，在该结构内还有一个val结构体，该结构体内有一个引用计数（php7而言，对于php5，这个引用计数是保存在zval结构中的），标识该对象的引用数，当对象的引用计数为0时代表这个对象可被回收。
对象的refcount减少的时机：修改变量、函数返回（释放局部变量）、unset变量
对于数组和对象而言，可能存在变量中的成员引用变量本身的情况，也就是循环引用，这样会造成这个变量永远不会被内存回收，而成为垃圾。
PHP里对于这种情况给出了垃圾回收机制：如果数组、对象的引用计数减少而且不为零，则认为他们可能是垃圾，把他们放到垃圾收集器里。等垃圾收集器到了一定的数量之后，进行垃圾处理：对所有可能的垃圾refcount减1，如果为1，说明是垃圾，则进行内存回收；如果不为1，说明还有其他变量在使用，refcount重新加1；这种对象复用以及垃圾回收机制在其他语言中也有体现：redis中也使用了引用计数表示每个对象的引用数量。

7. PHP7与PHP5的区别

改进的性能 - 将PHPNG代码合并到PHP7中，速度是PHP 5的两倍。
降低内存消耗 - 优化的PHP 7使用较少的资源。
标量类型声明 - 现在可以强制执行参数和返回类型。
一致的64位支持 - 对64位体系结构机器的一致支持。
改进了异常层次 - 异常层次得到了改进
许多致命的错误转换为例外 - 例外范围增加，涵盖许多致命的错误转换为例外。
安全随机数发生器 - 增加新的安全随机数发生器API。
已弃用的SAPI和扩展已删除 - 各种旧的和不受支持的SAPI和扩展从最新版本中删除。
空合并运算符（？） - 添加了新的空合并运算符。
返回和标量类型声明 - 支持所添加的返回类型和参数类型。
匿名类 - 支持匿名添加。
零成本断言 - 支持零成本断言增加。

8. MongoDB应用场景
mongodb支持副本集、索引、自动分片，可以保证较高的性能和可用性。
更高的写入负载
默认情况下，MongoDB更侧重高数据写入性能，而非事务安全，MongoDB很适合业务系统中有大量“低价值”数据的场景。但是应当避免在高事务安全性的系统中使用MongoDB，除非能从架构设计上保证事务安全。
高可用性
MongoDB的复副集(Master-Slave)配置非常简洁方便，此外，MongoDB可以快速响应的处理单节点故障，自动、安全的完成故障转移。这些特性使得MongoDB能在一个相对不稳定（如云主机）的环境中，保持高可用性。
数据量很大或者未来会变得很大
依赖数据库(MySQL)自身的特性，完成数据的扩展是较困难的事，在MySQL中，当一个单达表到5-10GB时会出现明显的性能降级，此时需要通过数据的水平和垂直拆分、库的拆分完成扩展，使用MySQL通常需要借助驱动层或代理层完成这类需求。而MongoDB内建了多种数据分片的特性，可以很好的适应大数据量的需求。
基于位置的数据查询
MongoDB支持二维空间索引，因此可以快速及精确的从指定位置获取数据。
表结构不明确
在一些传统RDBMS中，增加一个字段会锁住整个数据库/表，或者在执行一个重负载的请求时会明显造成其它请求的性能降级。通常发生在数据表大于1G的时候（当大于1TB时更甚）。因MongoDB是文档型数据库，为非结构货的文档增加一个新字段是很快速的操作，并且不会影响到已有数据。另外一个好处当业务数据发生变化时，是将不在需要由DBA修改表结构。

9. PHP短信验证码防刷机制
1、时间限制：60秒后才能再次发送
从发送验证码开始，前端（客户端）会进行一个60秒的倒数，在这一分钟之内，用户是无法提交多次发送信息的请求的。这种方法虽然使用得比较普遍，但是却不是非常有用，技术稍微好点的人完全可以绕过这个限制，直接发送短信验证码。
2、手机号限制：同一个手机号，24小时之内不能够超过5条
对使用同一个手机号码进行注册或者其他发送短信验证码的操作的时候，系统可以对这个手机号码进行限制，例如，24小时只能发送5条短信验证码，超出限制则进行报错（如：系统繁忙，请稍后再试）。然而，这也只能够避免人工手动刷短信而已，对于批量使用不同手机号码来刷短信的机器，这种方法也是无可奈何的。
3、短信验证码限制：30分钟之内发送同一个验证码
网上还有一种方法说：30分钟之内，所有的请求，所发送的短信验证码都是同一个验证码。第一次请求短信接口，然后缓存短信验证码结果，30分钟之内再次请求，则直接返回缓存的内容。对于这种方式，不是很清楚短信接口商会不会对发送缓存信息收取费用，如果有兴趣可以了解了解。
4、前后端校验：提交Token参数校验
这种方式比较少人说到，个人觉得可以这种方法值得一试。前端（客户端）在请求发送短信的时候，同时向服务端提交一个Token参数，服务端对这个Token参数进行校验，校验通过之后，再向请求发送短信的接口向用户手机发送短信。
5、唯一性限制：微信产品，限制同一个微信ID用户的请求数量
如果是微信的产品的话，可以通过微信ID来进行识别，然后对同一个微信ID的用户限制，24小时之内最多只能够发送一定量的短信。
6、产品流程限制：分步骤进行
例如注册的短信验证码使用场景，我们将注册的步骤分成2步，用户在输入手机号码并设置了密码之后，下一步才进入验证码的验证步骤。
7、图形验证码限制：图形验证通过后再请求接口
用户输入图形验证码并通过之后，再请求短信接口获取验证码。为了有更好的用户体验，也可以设计成：一开始不需要输入图形验证码，在操作达到一定量之后，才需要输入图形验证码。具体情况请根据具体场景来进行设计。
8、IP及Cookie限制：限制相同的IP/Cookie信息最大数量
使用Cookie或者IP，能够简单识别同一个用户，然后对相同的用户进行限制（如：24小时内最多只能够发送20条短信）。然而，Cookie能够清理、IP能够模拟，而且IP还会出现局域网相同IP的情况，因此，在使用此方法的时候，应该根据具体情况来思考。
9、短信预警机制，做好出问题之后的防护
以上的方法并不一定能够完全杜绝短信被刷，因此，我们也应该做好短信的预警机制，即当短信的使用量达到一定量之后，向管理员发送预警信息，管理员可以立刻对短信的接口情况进行监控和防护。

10. 如何设计一个高并发的系统
① 数据库的优化，包括合理的事务隔离级别、SQL语句优化、索引的优化
② 使用缓存，尽量减少数据库 IO
③ 分布式数据库、分布式缓存
④ 服务器的负载均衡

11. PHP的控制反转(IOC)和依赖注入(DI)概念
IOC（inversion of control）控制反转模式；控制反转是将组件间的依赖关系从程序内部提到外部来管理；
DI（dependency injection）依赖注入模式；依赖注入是指将组件的依赖通过外部以参数或其他形式注入；

12. mySQL里有2000w数据，redis中只存20w的数据，如何保证redis中的数据都是热点数据
相关知识：redis 内存数据集大小上升到一定大小的时候，就会施行数据淘汰策略（回收策略）。redis 提供 6种数据淘汰策略：