• 4.8 跳过可迭代对象的开始部分
    • 问题
    • 解决方案
    • 讨论

    4.8 跳过可迭代对象的开始部分

    问题

    你想遍历一个可迭代对象,但是它开始的某些元素你并不感兴趣,想跳过它们。

    解决方案

    itertools 模块中有一些函数可以完成这个任务。首先介绍的是 itertools.dropwhile() 函数。使用时,你给它传递一个函数对象和一个可迭代对象。它会返回一个迭代器对象,丢弃原有序列中直到函数返回Flase之前的所有元素,然后返回后面所有元素。

    为了演示,假定你在读取一个开始部分是几行注释的源文件。比如:

    1. >>> with open('/etc/passwd') as f:
    2. ... for line in f:
    3. ... print(line, end='')
    4. ...
    5. ##
    6. # User Database
    7. #
    8. # Note that this file is consulted directly only when the system is running
    9. # in single-user mode. At other times, this information is provided by
    10. # Open Directory.
    11. ...
    12. ##
    13. nobody:*:-2:-2:Unprivileged User:/var/empty:/usr/bin/false
    14. root:*:0:0:System Administrator:/var/root:/bin/sh
    15. ...
    16. >>>

    如果你想跳过开始部分的注释行的话,可以这样做:

    1. >>> from itertools import dropwhile
    2. >>> with open('/etc/passwd') as f:
    3. ... for line in dropwhile(lambda line: line.startswith('#'), f):
    4. ... print(line, end='')
    5. ...
    6. nobody:*:-2:-2:Unprivileged User:/var/empty:/usr/bin/false
    7. root:*:0:0:System Administrator:/var/root:/bin/sh
    8. ...
    9. >>>

    这个例子是基于根据某个测试函数跳过开始的元素。如果你已经明确知道了要跳过的元素的个数的话,那么可以使用 itertools.islice() 来代替。比如:

    1. >>> from itertools import islice
    2. >>> items = ['a', 'b', 'c', 1, 4, 10, 15]
    3. >>> for x in islice(items, 3, None):
    4. ... print(x)
    5. ...
    6. 1
    7. 4
    8. 10
    9. 15
    10. >>>

    在这个例子中, islice() 函数最后那个 None 参数指定了你要获取从第3个到最后的所有元素,如果 None 和3的位置对调,意思就是仅仅获取前三个元素恰恰相反,(这个跟切片的相反操作 [3:][:3] 原理是一样的)。

    讨论

    函数 dropwhile()islice() 其实就是两个帮助函数,为的就是避免写出下面这种冗余代码:

    1. with open('/etc/passwd') as f:
    2. # Skip over initial comments
    3. while True:
    4. line = next(f, '')
    5. if not line.startswith('#'):
    6. break
    7.  
    8. # Process remaining lines
    9. while line:
    10. # Replace with useful processing
    11. print(line, end='')
    12. line = next(f, None)

    跳过一个可迭代对象的开始部分跟通常的过滤是不同的。比如,上述代码的第一个部分可能会这样重写:

    1. with open('/etc/passwd') as f:
    2. lines = (line for line in f if not line.startswith('#'))
    3. for line in lines:
    4. print(line, end='')

    这样写确实可以跳过开始部分的注释行,但是同样也会跳过文件中其他所有的注释行。换句话讲,我们的解决方案是仅仅跳过开始部分满足测试条件的行,在那以后,所有的元素不再进行测试和过滤了。

    最后需要着重强调的一点是,本节的方案适用于所有可迭代对象,包括那些事先不能确定大小的,比如生成器,文件及其类似的对象。

    原文:

    http://python3-cookbook.readthedocs.io/zh_CN/latest/c04/p08_skip_first_part_of_iterable.html