编程大神进阶之路：Python技巧小贴士-CDA数据分析师官网

编程大神进阶之路：Python技巧小贴士

2019-11-18

作者 | Martin Heinz

来源 | 机器之心

介绍 Python 炫酷功能（例如，变量解包，偏函数，枚举可迭代对象等）的文章层出不穷。但是还有很多 Python 的编程小技巧鲜被提及。因此，本文会试着介绍一些其它文章没有提到的小技巧，这些小技巧也是我平时会用到的的，让我们一探究竟吧！

整理字符串输入

整理用户输入的问题在编程过程中极为常见。通常情况下，将字符转换为小写或大写就够了，有时你可以使用正则表达式模块「Regex」完成这项工作。但是如果问题很复杂，可能有更好的方法来解决：

user_input = "This\nstring has\tsome whitespaces...\r\n"
character_map = {
 ord('\n') : ' ',
 ord('\t') : ' ',
 ord('\r') : None
}
user_input.translate(character_map) # This string has some whitespaces...

在本例中，你可以看到空格符「\ n」和「\ t」都被替换成了单个空格，「\ r」都被删掉了。这只是个很简单的例子，我们可以更进一步，使用「unicodedata」程序包生成大型重映射表，并使用其中的「combining()」进行生成和映射，我们可以

迭代器切片（Slice）

如果对迭代器进行切片操作，会返回一个「TypeError」，提示生成器对象没有下标，但是我们可以用一个简单的方案来解决这个问题：

import itertools
s = itertools.islice(range(50), 10, 20) # <itertools.islice object at 0x7f70fab88138>
for val in s:
 ...

我们可以使用「itertools.islice」创建一个「islice」对象，该对象是一个迭代器，可以产生我们想要的项。但需要注意的是，该操作要使用切片之前的所有生成器项，以及「islice」对象中的所有项。

跳过可迭代对象的开头

有时你要处理一些以不需要的行（如注释）开头的文件。「itertools」再次提供了一种简单的解决方案：

string_from_file = """
// Author: ...
// License: ...
//
// Date: ...
Actual content...
"""
import itertools
for line in itertools.dropwhile(lambda line: line.startswith("//"), string_from_file.split("\n")):
 print(line)

这段代码只打印初始注释部分之后的内容。如果我们只想舍弃可迭代对象的开头部分（本示例中为开头的注释行），而又不知道要这部分有多长时，这种方法就很有用了。

只包含关键字参数的函数 (kwargs)

当我们使用下面的函数时，创建仅仅需要关键字参数作为输入的函数来提供更清晰的函数定义，会很有帮助：

def test(*, a, b):
 pass
test("value for a", "value for b") # TypeError: test() takes 0 positional arguments...
test(a="value", b="value 2") # Works...

如你所见，在关键字参数之前加上一个「*」就可以解决这个问题。如果我们将某些参数放在「*」参数之前，它们显然是位置参数。

创建支持「with」语句的对象

举例而言，我们都知道如何使用「with」语句打开文件或获取锁，但是我们可以实现自己上下文表达式吗？是的，我们可以使用「__enter__」和「__exit__」来实现上下文管理协议:

class Connection:
 def __init__(self):
 ...
 def __enter__(self):
 # Initialize connection...
 def __exit__(self, type, value, traceback):
 # Close connection...
with Connection() as c:
 # __enter__() executes
 ...
 # conn.__exit__() executes

这是在 Python 中最常见的实现上下文管理的方法，但是还有更简单的方法:

from contextlib import contextmanager
@contextmanager
def tag(name):
 print(f"<{name}>")
 yield
 print(f"</{name}>")
with tag("h1"):
 print("This is Title.")

上面这段代码使用 contextmanager 的 manager 装饰器实现了内容管理协议。在进入 with 块时 tag 函数的第一部分（在 yield 之前的部分）就已经执行了，然后 with 块才被执行，最后执行 tag 函数的其余部分。

用「__slots__」节省内存

如果你曾经编写过一个创建了某种类的大量实例的程序，那么你可能已经注意到，你的程序突然需要大量的内存。那是因为 Python 使用字典来表示类实例的属性，这使其速度很快，但内存使用效率却不是很高。通常情况下，这并不是一个严重的问题。但是，如果你的程序因此受到严重的影响，不妨试一下「__slots__」：

class Person:
 __slots__ = ["first_name", "last_name", "phone"]
 def __init__(self, first_name, last_name, phone):
 self.first_name = first_name
 self.last_name = last_name
 self.phone = phone

当我们定义了「__slots__」属性时，Python 没有使用字典来表示属性，而是使用小的固定大小的数组，这大大减少了每个实例所需的内存。使用「__slots__」也有一些缺点：我们不能声明任何新的属性，我们只能使用「__slots__」上现有的属性。而且，带有「__slots__」的类不能使用多重继承。

限制「CPU」和内存使用量

如果不是想优化程序对内存或 CPU 的使用率，而是想直接将其限制为某个确定的数字，Python 也有一个对应的库可以做到：

import signal
import resource
import os
# To Limit CPU time
def time_exceeded(signo, frame):
 print("CPU exceeded...")
 raise SystemExit(1)
def set_max_runtime(seconds):
 # Install the signal handler and set a resource limit
 soft, hard = resource.getrlimit(resource.RLIMIT_CPU)
 resource.setrlimit(resource.RLIMIT_CPU, (seconds, hard))
 signal.signal(signal.SIGXCPU, time_exceeded)
# To limit memory usage
def set_max_memory(size):
 soft, hard = resource.getrlimit(resource.RLIMIT_AS)
 resource.setrlimit(resource.RLIMIT_AS, (size, hard))

我们可以看到，在上面的代码片段中，同时包含设置最大 CPU 运行时间和最大内存使用限制的选项。在限制 CPU 的运行时间时，我们首先获得该特定资源（RLIMIT_CPU）的软限制和硬限制，然后使用通过参数指定的秒数和先前检索到的硬限制来进行设置。最后，如果 CPU 的运行时间超过了限制，我们将发出系统退出的信号。在内存使用方面，我们再次检索软限制和硬限制，并使用带「size」参数的「setrlimit」和先前检索到的硬限制来设置它。

控制可以/不可以导入什么

有些语言有非常明显的机制来导出成员（变量、方法、接口），例如在 Golang 中只有以大写字母开头的成员被导出。然而，在 Python 中，所有成员都会被导出（除非我们使用了「__all__」）：

def foo():
 pass
def bar():
 pass
__all__ = ["bar"]

在上面这段代码中，我们知道只有「bar」函数被导出了。同样，我们可以让「__all__」为空，这样就不会导出任何东西，当从这个模块导入的时候，会造成「AttributeError」。

实现比较运算符的简单方法

为一个类实现所有的比较运算符（如 __lt__ , __le__ , __gt__ , __ge__）是很繁琐的。有更简单的方法可以做到这一点吗？这种时候，「functools.total_ordering」就是一个很好的帮手：

from functools import total_ordering
@total_ordering
class Number:
 def __init__(self, value):
 self.value = value
 def __lt__(self, other):
 return self.value < other.value
 def __eq__(self, other):
 return self.value == other.value
print(Number(20) > Number(3))
print(Number(1) < Number(5))
print(Number(15) >= Number(15))
print(Number(10) <= Number(2))

这里的工作原理究竟是怎样的呢？我们用「total_ordering」装饰器简化实现对类实例排序的过程。我们只需要定义「__lt__」和「__eq__」就可以了，它们是实现其余操作所需要的最小的操作集合（这里也体现了装饰器的作用——为我们填补空白）。

结语

并非本文中所有提到的功能在日常的 Python 编程中都是必需或有用的，但是其中某些功能可能会不时派上用场，而且它们也可能简化一些原本就很冗长且令人烦恼的任务。还需指出的是，所有这些功能都是 Python 标准库的一部分。而在我看来，其中一些功能似乎并不像标准库中包含的标准内容，所以当你使用 Python 实现本文提到的某些功能时，请先参阅 Python 的标准库，如果你不能找到想要的功能，可能只是因为你还没有尽力查找（如果真的没有，那它肯定也存在于一些第三方库）。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

正则表达式

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇物联网解决方案中的大数据处

下一篇2019年人工智能发展趋势一览

编程大神进阶之路：Python技巧小贴士

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...