面试的时候,面试官问了一个问题:python的多线程有GIL锁,其实是伪并发,为什么线程还是比进程快?
刚听到这个问题其实很容易想到第一层,因为线程切换比进程切换快。紧接着面试官又问了:那为什么线程切换比进程切换快呢?
难住了,自己平时确实没有细细想过,于是下来赶紧查了资料,了解了相关知识点,如下:
首先需要知道一个概念,上下文切换
。当给了这个名词,我会有一个自己的初步定义,举个例子,我们正在洗衣服,衣服搓了一半,突然室友按门铃,你要过去给室友开门。这就好比进程切换,从洗衣服的进程切换到开门的进程。开完门,你还要切换回洗衣服的进程,切换回洗衣服的进程有什么条件呢?衣服还在盆里,盆里有水,有衣服,有洗衣液,衣服还处在你刚刚离开搓一半的状态,这一系列的条件就可以理解为上下文,相当于某一刻的状态快照。
回到计算机世界里,查到相关资料如下:
上下文切换,就是从一个可执行进程切换到另一个可执行进程,由定义在kernel/sched.c中的context_switch()函数负责处理。每当一个新的进程被选出来准备投入运行的时候,schedule()就会调用该函数。它完成了两项基本的工作:
- 调用声明在<asm/mmu_context.h>中的switch_mm(),该函数负责把虚拟内存从上一个进程映射切换到新进程中。
- 调用声明在<asm/system.h>中的switch_to(),该函数负责从上一个进程的处理器状态切换到新进程的处理器状态。这包括保存、恢复栈信息和寄存器信息,还有其他任何与体系结构相关的状态信息,都必须以每个进程为对象进行管理和保存。
–《Linux 内核设计与实现 第3版》p51-p52
由上面的资料可以看出,进程的切换就是上下文的切换,而上下文的切换要做两件事情:虚拟内存的切换
和处理器状态的切换
。程序要运行,最终还是要将虚拟内存映射到物理内存上的,这个映射过程就是页表查询机制,这个查询过程比较慢,所以使用cache缓存常用的地址映射,可以加速页表查询。每个进程都会维护这样一个虚拟内存映射到物理内存的表,切换一次,页表也要跟着切换,切换后cache里的地址映射相当于要重新建立一次,那么虚拟地址转换为物理地址就会变慢。
而线程切换和进程切换最主要的一个区别就是:每个进程都有自己的虚拟地址空间,进程内的线程共享进程的虚拟地址空间,不需要进行虚拟内存的切换,这就在一定程度上减少了时间消耗。
以上大部分为自己的理解,有什么理解错误的地方,可以一起讨论~