概念
先抄一段八股文,虽然都是官话,但是说得还是很有道理。
线程和进程是操作系统中的两个基本概念,它们之间既有区别又有联系。 进程是操作系统资源分配的基本单位,每个进程都拥有独立的内存空间和系统资源,进程之间相互独立,而线程是操作系统中调度和执行的基本单位,一个进程内可以包含一个或多个线程,所有线程共享该进程的资源,包括内存空间和系统资源。 线程是进程内执行的子任务,可以并发执行,它们共享同一进程的资源,但拥有自己的执行堆栈和程序计数器,这使得线程在切换和调度时比进程更加高效,但同时也增加了同步和协作的复杂性。进程的创建、销毁和调度开销相对较大,而线程的开销较小,在多核CPU上,进程可以包含多个线程以实现并行执行,提高资源利用率和程序运行效率。
进程
进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位。每个进程都有自己的独立内存空间,不同进程通过进程间通信来通信。由于进程比较重量,占据独立的内存,所以上下文进程间的切换开销(栈、寄存器、虚拟内存、文件句柄等)比较大,但相对比较稳定安全。
线程
线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源。线程间通信主要通过共享内存,上下文切换很快,资源开销较少,但相比进程不够稳定容易丢失数据。
协程
协程是一种用户态的轻量级线程,协程的调度完全由用户控制。协程拥有自己的寄存器上下文和栈。协程调度切换时,将寄存器上下文和栈保存到其他地方,在切回来的时候,恢复先前保存的寄存器上下文和栈,直接操作栈则基本没有内核切换的开销,可以不加锁的访问全局变量,所以上下文的切换非常快。
区别
进程与线程比较
线程是指进程内的一个执行单元,也是进程内的可调度实体。线程与进程的区别:
1) 地址空间:线程是进程内的一个执行单元,进程内至少有一个线程,它们共享进程的地址空间,而进程有自己独立的地址空间
2) 资源拥有:进程是资源分配和拥有的单位,同一个进程内的线程共享进程的资源
3) 线程是处理器调度的基本单位,但进程不是
4) 二者均可并发执行
5) 每个独立的线程有一个程序运行的入口、顺序执行序列和程序的出口,但是线程不能够独立执行,必须依存在应用程序中,由应用程序提供多个线程执行控制
协程与线程进行比较
1) 一个线程可以多个协程,一个进程也可以单独拥有多个协程,这样python中则能使用多核CPU。
2) 线程进程都是同步机制,而协程则是异步
3) 协程能保留上一次调用时的状态,每次过程重入时,就相当于进入上一次调用的状态
进程和线程、协程的使用
1、多进程一般使用multiprocessing库,来利用多核CPU,主要是用在CPU密集型的程序上,当然生产者消费者这种也可以使用。多进程的优势就是一个子进程崩溃并不会影响其他子进程和主进程的运行,但缺点就是不能一次性启动太多进程,会严重影响系统的资源调度,特别是CPU使用率和负载。使用多进程可以查看文章《python 多进程使用总结》。注:python2的进程池在类中的使用会有问题,需要把类函数定义成全局函数。具体可参考 http://bbs.chinaunix.net/thread-4111379-1-1.html
2、多线程一般是使用threading库,完成一些IO密集型并发操作。多线程的优势是切换快,资源消耗低,但一个线程挂掉则会影响到所有线程,所以不够稳定。现实中使用线程池的场景会比较多,具体可参考《python线程池实现》。
3、协程一般是使用gevent库,当然这个库用起来比较麻烦,所以使用的并不是很多。相反,协程在tornado的运用就多得多了,使用协程让tornado做到单线程异步,据说还能解决C10K的问题。所以协程使用的地方最多的是在web应用上。
总结一下就是IO密集型一般使用多线程或者多进程,CPU密集型一般使用多进程,强调非阻塞异步并发的一般都是使用协程,当然有时候也是需要多进程线程池结合的,或者是其他组合方式。
yield
既然要说到协程,就不得不先提一下 yield 的用法了,yield 最主要的用法就两种。yield r 和 n = yield r ,
yield 简要理解:yield 就是 return 返回一个值,并且记住这个返回的位置,下次迭代就从这个位置后开始。
def foo():
print("starting...")
while True:
res = yield 4
print("res:", res)
g = foo()
print(next(g))
print("-" * 20)
print(next(g))
starting...
4
--------------------
res: None
4
n = yield r 和 r = c.send(n)
def foo():
print("starting...")
while True:
res = yield 4
print("res:", res)
g = foo()
print(next(g))
print("-" * 20)
# print(next(g))
print(g.send(7))
starting...
4
--------------------
res: 7
4
通过上面的例子不难理解,next(g) 和 g.send(param) 其实是比较类似的,只不过后面这个在进行下一步的时候传递了参数进去,或者你也可以认为 next(g) 也传递了参数进去,只不过传递的是 None 而已。g.send(param) 传递的参数赋值给了 yield 左边的变量。
所以,这也可以解释为什么 next(g) 也可以用 g.send(None) 来替换。
如果还有疑问的话,可以看看这篇博客:python中yield的用法详解——最简单,最清晰的解释_mieleizhi0522的博客-CSDN博客_yield,相信这篇博客看了之后,你再看下面例子的代码就不那么费劲了 。
协程
协程最大的优势就是极高的执行效率。因为子程序切换不是线程切换,而是由程序自身控制,因此,没有线程切换的开销,和多线程比,线程数量越多,协程的性能优势就越明显。
第二大优势就是不需要多线程的锁机制,因为只有一个线程,也不存在同时写变量冲突,在协程中控制共享资源不加锁,只需要判断状态就好了,所以执行效率比多线程高很多。
一般讲协程的时候喜欢用下面这个经典的生产者消费者的例子:
import time
def consumer():
r = ''
while True:
n = yield r
if not n:
return
print('[CONSUMER] Consuming %s...' % n)
time.sleep(1)
r = '200 OK'
def produce(c):
c.send(None)
n = 0
while n < 5:
n = n + 1
print('[PRODUCER] Producing %s...' % n)
r = c.send(n)
print('[PRODUCER] Consumer return: %s' % r)
c.close()
if __name__ == '__main__':
c = consumer()
produce(c)
执行结果:
[PRODUCER] Producing 1...
[CONSUMER] Consuming 1...
[PRODUCER] Consumer return: 200 OK
[PRODUCER] Producing 2...
[CONSUMER] Consuming 2...
[PRODUCER] Consumer return: 200 OK
[PRODUCER] Producing 3...
[CONSUMER] Consuming 3...
[PRODUCER] Consumer return: 200 OK
[PRODUCER] Producing 4...
[CONSUMER] Consuming 4...
[PRODUCER] Consumer return: 200 OK
[PRODUCER] Producing 5...
[CONSUMER] Consuming 5...
[PRODUCER] Consumer return: 200 OK
运行流程:
注意到consumer
函数是一个generator
,把一个consumer
传入produce
后:
-
首先调用
c.send(None)
启动生成器 (其实用 next(c) 启动也是可以的); -
然后,一旦生产了东西,通过
c.send(n)
切换到consumer
执行; -
consumer
通过yield
拿到消息,处理,又通过yield
把结果传回; -
produce
拿到consumer
处理的结果,继续生产下一条消息; -
produce
决定不生产了,通过c.close()
关闭consumer
,整个过程结束。
整个流程无锁,由一个线程执行,produce
和consumer
协作完成任务,所以称为“协程”,而非线程的抢占式多任务。
协程的几种状态
以协程计算滑动平均值为例,展示协程的几种常见状态。
from inspect import getgeneratorstate
def averager():
total = 0.0
count = 0
average = None
while True:
term = yield average
count += 1
total += term
average = total / count
if __name__ == '__main__':
avg = averager()
print(getgeneratorstate(avg)) # GEN_CREATED 等待开始执行
print(next(avg)) # None 激活协程
print(getgeneratorstate(avg)) # GEN_SUSPENDED 在 yield 处暂停
print(avg.send(10)) # 10.0
print(getgeneratorstate(avg)) # GEN_SUSPENDED 在 yield 处暂停
print(avg.send(12)) # 11.0
avg.close() # 关闭生成器
print(getgeneratorstate(avg)) # GEN_CLOSED 执行结束
预激协程装饰器
协程使用的时候,先要使用 next() 进行预激(也即让代码先执行到第一个 yied 的地方)。
from inspect import getgeneratorstate
def coroutine(func):
def wrap(*args, **kwargs):
gen = func(*args, **kwargs)
next(gen)
return gen
return wrap
@coroutine
def averager():
total = 0.0
count = 0
average = None
while True:
term = yield average
count += 1
total += term
average = total / count
if __name__ == '__main__':
avg = averager()
print(getgeneratorstate(avg)) # GEN_SUSPENDED 在 yield 处暂停
# print(next(avg)) # None 激活协程
print(getgeneratorstate(avg)) # GEN_SUSPENDED 在 yield 处暂停
print(avg.send(10)) # 10.0
print(getgeneratorstate(avg)) # GEN_SUSPENDED 在 yield 处暂停
print(avg.send(12)) # 11.0
avg.close() # 关闭生成器
print(getgeneratorstate(avg)) # GEN_CLOSED 执行结束
协程返回值
如果直接跳出循环使用 return 语句的话,会报 StopIteration 异常(因为生成器耗尽时会抛出 StopIteration 异常)。
def coroutine(func):
def wrap(*args, **kwargs):
gen = func(*args, **kwargs)
next(gen)
return gen
return wrap
@coroutine
def averager():
total = 0.0
count = 0
average = None
while True:
term = yield average
if term is None:
return total
count += 1
total += term
average = total / count
if __name__ == '__main__':
avg = averager()
print(avg.send(10)) # 10.0
print(avg.send(12)) # 11.0
print(avg.send(None))
avg.close() # 关闭生成器
10.0
11.0
Traceback (most recent call last):
File "E:\lky_project\tmp_project\test_project\test2.py", line 28, in <module>
print(avg.send(None))
^^^^^^^^^^^^^^
StopIteration: 22.0
所以需要自己添加捕获
def coroutine(func):
def wrap(*args, **kwargs):
gen = func(*args, **kwargs)
next(gen)
return gen
return wrap
@coroutine
def averager():
total = 0.0
count = 0
average = None
while True:
term = yield average
if term is None:
return total
count += 1
total += term
average = total / count
if __name__ == '__main__':
avg = averager()
print(avg.send(10)) # 10.0
print(avg.send(12)) # 11.0
try:
avg.send(None)
except StopIteration as exc:
result = exc.value
print(result) # 22.0
avg.close() # 关闭生成器