1. 概述
SCAN 命令以及比较相近的 SSCAN、HSCAN 和 ZSCAN 命令都用于增量迭代数据集元素:
SCAN 命令用于迭代当前数据库中的数据库键。 SSCAN 命令用于迭代集合(Set)中的元素。 HSCAN 命令用于迭代哈希(Hash)中的字段以及对应的值。 ZSCAN 命令用于迭代有序集合(Sorted Set)中的元素以及对应的得分。由于这些命令都可以增量迭代,每次调用都只会返回少量元素,所以这些命令可以用于生产环境中,不用担心像使用 KEYS、SMEMBERS 命令带来的问题。在键或元素的大数据集上调用这些命令可能会长时间(甚至几秒钟)阻塞服务器。像 SMEMBERS 这样的阻塞命令能够在给定的时间内提供数据集中所有的元素,但 SCAN 系列命令仅对返回的元素提供有限的保证,因为数据集在我们增量迭代时可能会发生改变。
SCAN,SSCAN,HSCAN 以及 ZSCAN 命令工作原理都非常类似,因此这篇文章会涵盖这四个命令。区别在于 SSCAN,HSCAN 以及 ZSCAN 命令,第一个参数是保存 Set,Hash或 Sorted Set 值的键的名称。SCAN命令不需要任何键名参数,因为它会迭代当前数据库中所有的键,因此迭代的对象是数据库本身。
2. 基本用法
SCAN 是基于游标的迭代器。这意味着在每次调用该命令时,服务器都会返回一个更新后的新游标,用户需要在下一次调用中将这个新游标作为 SCAN 命令的游标参数。当 SCAN 命令的游标参数被设置为 0 时, 服务器将开始一次新的迭代,而当服务器向用户返回的新游标为 0 时会终止迭代。以下是 SCAN 迭代的示例:
redis 127.0.0.1:6379> scan 0 1) "17" 2) 1) "key:12" 2) "key:8" 3) "key:4" 4) "key:14" 5) "key:16" 6) "key:17" 7) "key:15" 8) "key:10" 9) "key:3" 10) "key:7" 11) "key:1" redis 127.0.0.1:6379> scan 17 1) "0" 2) 1) "key:5" 2) "key:18" 3) "key:0" 4) "key:2" 5) "key:19" 6) "key:13" 7) "key:6" 8) "key:9" 9) "key:11"
在上面的示例中,第一次调用使用 0 作为游标来开始一次新的迭代。第二次调用时使用上一次调用返回的游标,即命令回复的第一个元素值,即17。从上面的示例可以看到,SCAN 命令返回值是两个值的数组:第一个值是下一次调用中将要使用的新游标,第二个值是包含返回元素的数组。
由于在第二次调用中返回的游标为 0,因此服务器向调用者发送信号,告知迭代已完成,并且遍历完数据集。从游标值 0 开始迭代,然后调用 SCAN 直到返回的游标再次为 0,表示一个完整迭代。
3. 保证
SCAN 命令,以及其他增量迭代命令,在整个完整迭代过程中可以为用户提供一系列的保证:
在完整迭代开始直到完整迭代结束期间内的所有元素都会被遍历返回;这意味着,如果某个给定元素在开始迭代时位于数据集内,并且在终止迭代时仍然存在,那么 SCAN 会在某次迭代时返回给用户。 在完整迭代开始直到完整迭代结束期间内不存在的元素永远都不会被返回;因此,如果某个元素在迭代开始之前就被删除,并且在后续的迭代过程中从未添加回数据集中,那么 SCAN 永远都不会返回该元素 。但是,由于 SCAN 只有很少的关联状态(仅有游标),因此具有以下缺点:
同一个元素可能会被返回多次。重复元素的问题需要我们自己的应用程序处理, 例如,可以考虑将迭代返回的元素用于幂等操作(可以重复执行多次操作)上。 如果一个元素是在迭代过程中被添加到数据集的,又或者是在迭代过程中从数据集中被删除的,那么这个元素可能会被返回,也可能不会。4. 每次执行返回数量
SCAN 系列的函数不能保证每次调用返回的元素数量会在给定范围内。每次调用可能会返回 0 个元素,但只要返回的游标不为 0,客户端就认为迭代没有结束(即使返回了 0 个元素也不能表示迭代的结束)。返回的元素数量会符合一定的规则: