PHP 详细面试总结 (三 Redis 基础详解)

Shine-x 的个人博客 / 15 / 7 / 创建于 7年前 / 更新于 4年前 / 3 个改进

简介

Redis是一个开源的key-value存储系统。
与Memcached类似，Redis将大部分数据存储在内存中

redis-系统文件说明

当mkae命令执行完成后,会在当前目录生成多个可执行文件,分别是

redis-server:redis服务器的daemon启动程序
redis-cli:redis命令行操作工具。当然，你也可以用telnet根据其纯文本协议来操作
redis-benchmark:redis性能测试工具,测试redis在你的系统及你的配置下的读写功能
redis-stat:redis状态检测工具,可以检测redis当前状态参数及延迟状况

数据类型

支持的数据类型包括：字符串、哈希表、链表、集合、有序集合以及基于这些数据类型的相关操作。
最为常用的数据类型主要由五种：String、Hash、List、Set和Sorted Set
除了多种数据结构的支持，Redis相比Memcached还提供了许多额外的特性，比如Subscribe/publish命令，以支持发布/订阅模式这样的通知机制等等，这些额外的特性同样有助于拓展它的应用场景
redis通过Multi / Watch /Exec等命令可以支持事务的概念，原子性的执行一批命令。在2.6以后的版本中由于添加了对Script脚本的支持，而脚本固有的是以transaction事务的方式执行的，并且更加易于使用，所以不排除将来取消Multi等命令接口的可能性

String数据

常用命令：set/get/decr/incr/mget等；
应用场景：String是最常用的一种数据类型，普通的key/value存储都可以归为此类；
实现方式：String在redis内部存储默认就是一个字符串，被redisObject所引用，当遇到incr、decr等操作时会转成数值型进行计算，此时redisObject的encoding字段为int。

Hash数据

常用命令：hget/hset/hgetall等
应用场景：我们要存储一个用户信息对象数据，其中包括用户ID、用户姓名、年龄和生日，通过用户ID我们希望获取该用户的姓名或者年龄或者生日；
实现方式：Redis Hash对应Value内部实际就是一个HashMap，实际这里会有2种不同实现，这个Hash的成员比较少时Redis为了节省内存会采用类似一维数组的方式来紧凑存储，而不会采用真正的HashMap结构，对应的value redisObject的encoding为zipmap,当成员数量增大时会自动转成真正的HashMap,此时encoding为ht

List

常用命令：lpush/rpush/lpop/rpop/lrange等；
应用场景：Redis list的应用场景非常多，也是Redis最重要的数据结构之一，比如twitter的关注列表，粉丝列表等都可以用Redis的list结构来实现；
实现方式：Redis list的实现为一个双向链表，即可以支持反向查找和遍历，更方便操作，不过带来了部分额外的内存开销，Redis内部的很多实现，包括发送缓冲队列等也都是用的这个数据结构。

Set数据

常用命令：sadd/spop/smembers/sunion等；
应用场景：Redis set对外提供的功能与list类似是一个列表的功能，特殊之处在于set是可以自动排重的，当你需要存储一个列表数据，又不希望出现重复数据时，set是一个很好的选择，并且set提供了判断某个成员是否在一个set集合内的重要接口，这个也是list所不能提供的；
实现方式：set 的内部实现是一个 value永远为null的HashMap，实际就是通过计算hash的方式来快速排重的，这也是set能提供判断一个成员是否在集合内的原因

Sorted Set数据

常用命令：zadd/zrange/zrem/zcard等；
应用场景：Redis sorted set的使用场景与set类似，区别是set不是自动有序的，而sorted set可以通过用户额外提供一个优先级(score)的参数来为成员排序，并且是插入有序的，即自动排序。当你需要一个有序的并且不重复的集合列表，那么可以选择sorted set数据结构，比如twitter 的public timeline可以以发表时间作为score来存储，这样获取时就是自动按时间排好序的。
实现方式：Redis sorted set的内部使用HashMap和跳跃表(SkipList)来保证数据的存储和有序，HashMap里放的是成员到score的映射，而跳跃表里存放的是所有的成员，排序依据是HashMap里存的score,使用跳跃表的结构可以获得比较高的查找效率，并且在实现上比较简单。

持久化

Redis可以以master-slave的方式配置服务器，Slave节点对数据进行replica备份，Slave节点也可以充当Read only的节点分担数据读取的工作。
Redis虽然是基于内存的存储系统，但是它本身是支持内存数据的持久化的，而且提供两种主要的持久化策略：RDB快照和AOF日志
Redis内建支持两种持久化方案，snapshot快照和AOF 增量Log方式。快照顾名思义就是隔一段时间将完整的数据Dump下来存储在文件中。AOF增量Log则是记录对数据的修改操作（实际上记录的就是每个对数据产生修改的命令本身），两种方案可以并存，也各有优缺点，具体参见
blog.chinaunix.net/uid-20682890-id-...
www.cnblogs.com/rollenholt/p/387444...

内存配置

/etc/sysctl.conf添加
vm.overcommit_memory=1
刷新配置使之生效
sysctl vm.overcommit_memory=1
补充介绍：
如果内存情况比较紧张的话，需要设定内核参数：
echo 1 > /proc/sys/vm/overcommit_memory
内核参数说明如下：

overcommit_memory文件指定了内核针对内存分配的策略，其值可以是0、1、2。
0，表示内核将检查是否有足够的可用内存供应用进程使用；如果有足够的可用内存，内存申请允许；否则，内存申请失败，并把错误返回给应用进程。
1，表示内核允许分配所有的物理内存，而不管当前的内存状态如何。
2，表示内核允许分配超过所有物理内存和交换空间总和的内存

编辑redis.conf配置文件（/etc/redis.conf），按需求做出适当调整，比如：
daemonize yes #转为守护进程，否则启动时会每隔5秒输出一行监控信息
save 60 1000 #减小改变次数，其实这个可以根据情况进行指定
maxmemory 256000000 #分配256M内存

Redis的7个应用场景

一：缓存——热数据

热点数据（经常会被查询，但是不经常被修改或者删除的数据），首选是使用redis缓存，毕竟强大到冒泡的QPS和极强的稳定性不是所有类似工具都有的，而且相比于memcached还提供了丰富的数据类型可以使用，另外，内存中的数据也提供了AOF和RDB等持久化机制可以选择，要冷、热的还是忽冷忽热的都可选。
结合具体应用需要注意一下：很多人用spring的AOP来构建redis缓存的自动生产和清除，过程可能如下：
Select 数据库前查询redis，有的话使用redis数据，放弃select 数据库，没有的话，select 数据库，然后将数据插入redis
update或者delete数据库前，查询redis是否存在该数据，存在的话先删除redis中数据，然后再update或者delete数据库中的数据
上面这种操作，如果并发量很小的情况下基本没问题，但是高并发的情况请注意下面场景：
为了update先删掉了redis中的该数据，这时候另一个线程执行查询，发现redis中没有，瞬间执行了查询SQL，并且插入到redis中一条数据，回到刚才那个update语句，这个悲催的线程压根不知道刚才那个该死的select线程犯了一个弥天大错！于是这个redis中的错误数据就永远的存在了下去，直到下一个update或者delete。

二：计数器

诸如统计点击数等应用。由于单线程，可以避免并发问题，保证不会出错，而且100%毫秒级性能！爽。
命令：INCRBY
当然爽完了，别忘记持久化，毕竟是redis只是存了内存！

三：队列

相当于消息系统，ActiveMQ，RocketMQ等工具类似，但是个人觉得简单用一下还行，如果对于数据一致性要求高的话还是用RocketMQ等专业系统。
由于redis把数据添加到队列是返回添加元素在队列的第几位，所以可以做判断用户是第几个访问这种业务
队列不仅可以把并发请求变成串行，并且还可以做队列或者栈使用

四：位操作（大数据处理）

用于数据量上亿的场景下，例如几亿用户系统的签到，去重登录次数统计，某用户是否在线状态等等。
想想一下腾讯10亿用户，要几个毫秒内查询到某个用户是否在线，你能怎么做？千万别说给每个用户建立一个key，然后挨个记（你可以算一下需要的内存会很恐怖，而且这种类似的需求很多，腾讯光这个得多花多少钱。。）好吧。这里要用到位操作——使用setbit、getbit、bitcount命令。
原理是：redis内构建一个足够长的数组，每个数组元素只能是0和1两个值，然后这个数组的下标index用来表示我们上面例子里面的用户id（必须是数字哈），那么很显然，这个几亿长的大数组就能通过下标和元素值（0和1）来构建一个记忆系统，上面我说的几个场景也就能够实现。用到的命令是：setbit、getbit、bitcount

五：分布式锁与单线程机制

验证前端的重复请求（可以自由扩展类似情况），可以通过redis进行过滤：每次请求将request Ip、参数、接口等hash作为key存储redis（幂等性请求），设置多长时间有效期，然后下次请求过来的时候先在redis中检索有没有这个key，进而验证是不是一定时间内过来的重复提交
秒杀系统，基于redis是单线程特征，防止出现数据库“爆破”
全局增量ID生成，类似“秒杀”

六：最新列表

例如新闻列表页面最新的新闻列表，如果总数量很大的情况下，尽量不要使用select a from A limit 10这种low货，尝试redis的 LPUSH命令构建List，一个个顺序都塞进去就可以啦。不过万一内存清掉了咋办？也简单，查询不到存储key的话，用mysql查询并且初始化一个List到redis中就好了。

七：排行榜

谁得分高谁排名往上。命令：ZADD（有续集，sorted set）

其他web应用场景

1．在主页中显示最新的项目列表。

redis使用的是常驻内存的缓存，速度非常快。lpush用来插入一个内容id，作为关键字存储在列表头部。ltrim用来限制列表中的项目数最多为5000。如果用户需要的检索的数据量超越这个缓存容量，这时才需要把请求发送到数据库。

2．删除和过滤。

如果一篇文章被删除，可以使用lrem从缓存中彻底清除掉。

3．排行榜及相关问题。

排行榜（leader board）按照得分进行排序。zadd命令可以直接实现这个功能，而zrevrange命令可以用来按照得分来获取前100名的用户，zrank可以用来获取用户排名，非常直接而且操作容易。

4．按照用户投票和时间排序。

这就像reddit的排行榜，得分会随着时间变化。lpush和ltrim命令结合运用，把文章添加到一个列表中。一项后台任务用来获取列表，并重新计算列表的排序，zadd命令用来按照新的顺序填充生成列表。列表可以实现非常快速的检索，即使是负载很重的站点。

5．过期项目处理。

使用unix时间作为关键字，用来保持列表能够按时间排序。对current_time和time_to_live进行检索，完成查找过期项目的艰巨任务。另一项后台任务使用zrange…withscores进行查询，删除过期的条目。

6．特定时间内的特定项目。

这是特定访问者的问题，可以通过给每次页面浏览使用sadd命令来解决。sadd不会将已经存在的成员添加到一个集合。

7．实时分析正在发生的情况，用于数据统计与防止垃圾邮件等。

使用redis原语命令，更容易实施垃圾邮件过滤系统或其他实时跟踪系统。

8．pub/sub

在更新中保持用户对数据的映射是系统中的一个普遍任务。redis的pub/sub功能使用了subscribe、unsubscribe和publish命令，让这个变得更加容易。

Redis与Memcache对比

网络IO模型性能对比：(占用的核数，线程数，网络模型)
由于Redis只使用单核，而Memcached可以使用多核，所以平均每一个核上Redis在存储小数据时比Memcached性能更高。而在100k以上的数据中，Memcached性能要高于Redis，虽然Redis最近也在存储大数据的性能上进行优化，但是比起 Memcached，还是稍有逊色。
Memcached是多线程，非阻塞IO复用的网络模型，分为监听主线程和worker子线程，监听线程监听网络连接，接受请求后，将连接描述字pipe 传递给worker线程，进行读写IO, 网络层使用libevent封装的事件库，多线程模型可以发挥多核作用，但是引入了cache coherency和锁的问题，比如，Memcached最常用的stats 命令，实际Memcached所有操作都要对这个全局变量加锁，进行计数等工作，带来了性能损耗。
Redis使用单线程的IO复用网络模型，自己封装了一个简单的AeEvent事件处理框架，主要实现了epoll、kqueue和select，对于单纯只有IO操作来说，单线程可以将速度优势发挥到最大，但是Redis也提供了一些简单的计算功能，比如排序、聚合等，对于这些操作，单线程模型实际会严重影响整体吞吐量，CPU计算过程中，整个IO调度都是被阻塞住的。

内存管理方面：

Memcached使用预分配的内存池的方式，使用slab和大小不同的chunk来管理内存，Item根据大小选择合适的chunk存储，内存池的方式可以省去申请/释放内存的开销，并且能减小内存碎片产生，但这种方式也会带来一定程度上的空间浪费，并且在内存仍然有很大空间时，新的数据也可能会被剔除
Redis使用现场申请内存的方式来存储数据，并且很少使用free-list等方式来优化内存分配，会在一定程度上存在内存碎片，Redis跟据存储命令参数，会把带过期时间的数据单独存放在一起，并把它们称为临时数据，非临时数据是永远不会被剔除的，即便物理内存不够，导致swap也不会剔除任何非临时数据（但会尝试剔除部分临时数据），这点上Redis更适合作为存储而不是cache。

数据一致性问题：

Memcached提供了cas命令，可以保证多个并发访问操作同一份数据的一致性问题。 Redis没有提供cas 命令，并不能保证这点，不过Redis提供了事务的功能，可以保证一串命令的原子性，中间不会被任何操作打断。由于需要使用cas方法，php的memcache客户端不支持该方法，所以改用php的memcached客户端。这个东西还是很强大的，它所使用的libmemcached库是各种语言都支持的。（需要额外安装编译，可以使用PECL装，或手动编译）
如果采用CAS（check and set）方式协议，则是如下的情景。
第一步，A取出数据对象X，并获取到CAS-ID1；
第二步，B取出数据对象X，并获取到CAS-ID2；
第三步，B修改数据对象X，在写入缓存前，检查CAS-ID与缓存空间中该数据的CAS-ID是否一致。结果是“一致”，就将修改后的带有CAS-ID2的X写入到缓存。
第四步，A修改数据对象Y，在写入缓存前，检查CAS-ID与缓存空间中该数据的CAS-ID是否一致。结果是“不一致”，则拒绝写入，返回存储失败。

Redis数据类型：

> *  Redis相比Memcached来说，拥有更多的数据结构和并支持更丰富的数据操作。
> * 通常在Memcached 里，你需要将数据拿到客户端来进行类似的修改再set回去。

这大大增加了网络IO的次数和数据体积。在Redis中，这些复杂的操作通常和一般的 GET/SET一样高效。所以，如果需要缓存能够支持更复杂的结构和操作，那么Redis会是不错的选择

存储方式及其它方面

> * Memcached基本只支持简单的key-value存储，不支持枚举，不支持持久化和复制等功能
> * Redis除key/value之外，还支持list,set,sorted set,hash等众多数据结构，提供了KEYS

进行枚举操作，但不能在线上使用，如果需要枚举线上数据，Redis提供了工具可以直接扫描其dump文件，枚举出所有数据，Redis还同时提供了持久化和复制等功能。

本作品采用《CC 协议》，转载必须注明作者和本文链接

本帖由系统于 7年前自动加精

PHP 详细面试总结 (三 Redis 基础详解)

简介

redis-系统文件说明

数据类型

持久化

内存配置

Redis的7个应用场景

一：缓存——热数据

二：计数器

三：队列

四：位操作（大数据处理）

五：分布式锁与单线程机制

六：最新列表

七：排行榜

其他web应用场景

1．在主页中显示最新的项目列表。

2．删除和过滤。

3．排行榜及相关问题。

4．按照用户投票和时间排序。

5．过期项目处理。

6．特定时间内的特定项目。

7．实时分析正在发生的情况，用于数据统计与防止垃圾邮件等。

8．pub/sub

Redis与Memcache对比

内存管理方面：

数据一致性问题：

Redis数据类型：

存储方式及其它方面

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

PHP 详细面试总结 (三 Redis 基础详解)

简介

redis-系统文件说明

数据类型

持久化

内存配置

Redis的7个应用场景

一：缓存——热数据

二：计数器

三：队列

四：位操作（大数据处理）

五：分布式锁与单线程机制

六：最新列表

七：排行榜

其他web应用场景

1．在主页中显示最新的项目列表。

2．删除和过滤。

3．排行榜及相关问题。

4．按照用户投票和时间排序。

5．过期项目处理。

6．特定时间内的特定项目。

7．实时分析正在发生的情况，用于数据统计与防止垃圾邮件等。

8．pub/sub

Redis与Memcache对比

内存管理方面：

数据一致性问题：

Redis数据类型：

存储方式及其它方面

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录