在面试中,经常会问到进程、线程、协程的问题。本节主要讲解进程、线程、协程的概念和之间的联系。
1.进程
进程是一种抽象的概念,没有统一的标准定义。进程是操作系统分配资源最小单位,进程使用独立的数据空间,由程序,数据和程序控制块三部分组成,进程之间的内存是相互隔离的,是具有独立功能的程序一次动态执行的过程。
- 程序,是控制进程的指令集。
- 数据,进程执行时所需要的数据和工作区。
- 程序控制块(Program Control Block,简称PCB),包含进程的描述信息和控制信息,是进程存在的唯一标志。
同样进程间也是可以通信(IPC)的,通过管道(Pipe)、命名管道(FIFO)、消息队列(Message Queue) 、信号量(Semaphore) 、共享内存(Shared Memory)、套接字(Socket)等方式进行通信。同样进程拥有自己的状态,这个不是本课程的重点,不做详细讲解。
大名鼎鼎的反向代理工具Nginx,实现高并发除了采用多路复用IO,还有通过多进程,而不是通过多线程,由于进程间内存都是独立的,所以不用担心并发问题。每个节点有一个master进程,fork出多个worker子进程,master进程负责管理,把指令传递给worker进程处理。worker进程数一般是cpu的核数。
2.线程
线程是处理器调度和分派的基本单位,是程序执行的最小单位,线程共享进程的数据空间,由线程ID、当前指令指针PC、寄存器和堆栈组成。进程中包含一个和多个线程,进程中线程内存是可见的,不同进程间的线程内存不可见。
2.1 任务调度
大部分操作系统的任务调度是采用时间片轮转的抢占式调度方式。那么什么是CPU时间片呢?
CPU时间片是分配给线程的执行时间,Linux一般是5~800ms,Windows一般20ms。
在同一个进程中,一个线程执行完一个时间片后,操作系统内核通过硬件的计数器中断处理器,让线程强制暂停,将该线程的寄存器存入内存,等待下次调度。
同理,下个线程怎么开始执行呢?操作系统内核通过查看线程列表决定执行哪个线程,从内存中恢复该线程的寄存器,恢复执行。这样就完成了线程的轮流执行。
线程和进程类似,也有自己的状态,正在执行的线程叫运行状态,暂停执行的叫做就绪状态。
CPU通过时间片分配算法不断的循环任务,每次线程切换都会伴随着一次线程上下文切换。线程上下文切换包含哪些操作呢?首先,切换前会保存上个线程的任务状态,便于下次切换会该线程,然后加在新的线程状态。这样线程从保存到再加载的过程就是一次上下文切换。
好比程序员写代码,从一个分支切换到另外一个分支,需要check in上一个分支的代码,然后check out新分支的代码。
线程上下文切换的代价很大,应该尽量避免。
3.协程
进程是重量级的对象,后来发明了线程,资源开销更小。但是线程也是一个重量级的对象,频繁的创建和、销毁、上下文切换成本都很高。
目前解决方案是协程(Coroutine),也被称为轻量级的线程。协程相比线程有如下区别:
- 占用内存大小不同。线程默认的stack一般是1M,协程一般是1k。
- 调度者不同。线程是通过操作系统调度,是内核态。协程是用户自己调度,是用户态,减少上下文切换,提高了效率。
- 协程是运行在同一个线程上,避免了竞争关系而使用锁。
很多开发语言都支持协程,比如Golang、Python、Lua、Kotlin等。很遗憾,Java不支持,Java有支持协程的框架实现,比如quasar和kotlin。
3.1 协程的应用场景
操作系统并不知道协程的存在,协程只是用户态的任务。
现在我们有促销的场景,假如有10000个请求过来,我们为每个请求建立一个线程去执行,包括查询扣库存、扣款等,假如每个线程占用4M大小,10000线程就是39G的内存。在执行的过程中,CPU通过时间片分配算法,使线程不断的切换。出现了两个问题,一是线程的占用非常多的内存,二是线程上下文切换占用了大量的系统时间。
现在有了协程,刚好解决以上两个问题。协程运行在线程上,一个协程执行完毕后,主动让出,让另一个协程去运行。避免了创建大量的线程和频繁的线程上下文切换。 协程并没有增加线程数量,只是在线程的基础之上通过分时复用的方式运行多个协程 ,而且协程的切换在用户态完成,切换的代价比线程从用户态到内核态的代价小很多。
那么什么场景不适合协程呢?
1.容易导致线程阻塞的操作。协程是运行在线程上,操作系统不知道协程的存在,当线程阻塞时,协程同样阻塞不能运行。比如阻塞IO。同理,协程适合异步IO。
2.协程不适合计算密集型的任务,计算密集型的任务本身不需要大量的线程切换,因此协程的作用也十分有限,反而还增加了协程切换的开销。
总结:
- 从重量级上依次从大到小,进程 > 线程 > 管程。
- 进程中包含多个线程,管程是运行在线程中。
- 进程是操作系统资源分配的最小单位,线程是CPU调度的基本单位。
- 线程创建、销毁、上下文切换的代价很大,可以用管程的方案解决。
- 协程属于用户态,操作系统并不知道协程的存在。
- 协程不适合容易导致线程阻塞的任务和计算密集型任务,比如阻塞IO,比如异步IO,才能发挥很大的作用。