0%

浏览器原理学习笔记-从输入URL到页面渲染

Start

完整示意图为:

整个过程需要进程的配合。结合之前的浏览器进程架构以及上面的示意图,整个过程的大概描述如下:

  • 首先,浏览器进程接收用户输入的 URL请求,浏览器进程便将该 URL 转发给网络进程。
  • 然后,在网络进程中发起真正的 URL 请求
  • 接着网络进程接收到了响应头数据,解析响应头数据,将数据转发给网络进程。
  • 浏览器进程接收到网络进程的响应头数据之后,发送“提交导航(CommitNavigation)”消息到渲染进程
  • 渲染进程接收到“提交导航”的消息之后,便开始准备接收 HTML 数据,接收数据的方式是直接和网络进程建立数据管道
  • 最后渲染进程会向浏览器进程“确认提交”,这是告诉浏览器进程:“已经准备好接受和解析页面数据”
  • 浏览器进程接收到渲染进程“提交文档”的消息之后,便开始移除之前旧的文档,然后更新浏览器进程中的页面状态

其中,用户发出 URL 请求到页面开始解析到这个过程,就叫做导航。

输入 URL 到页面显示

1.用户输入

用户在地址栏中输入一个查询关键字时,地址栏会判断输入到关键字是搜索内容,还是请求的 URL

  • 搜索内容,地址栏会使用浏览器默认的搜索引擎,来合成新的带关键字的 URL。
  • 如果判断输入内容符合 URL 规则,比如输入 time.geekbang.org,地址栏会根据规则,把这段内容加上协议,合成完成的 URL。

当用户输入关键字并键入回车之后,当前页面即将被替换为新的页面,不过在这个流程继续之前,浏览器还是给当前页面一次执行 beforeunload 事件的机会。

beforeunload事件允许页面在退出之前执行一些数据清理操作,还可以询问用户是否离开当前页面,比如表单当前还未完成,用户可以通过 beforeunload 事件来取消导航,让浏览器不再执行任何后序工作。

当前页面没有监听 beforeunload 事件或者同意了继续后续流程,那么浏览器便进入了下面状态:

image-20200524233018101

RT,浏览器刚开始加载一个地址之后,标签页上的图标就进入了加载状态。但此时图中页面显示的仍然是之前打开的页面内容,并没有立即替换掉。因为需要等待提交文档阶段,页面内容才会被替换。

2. URL请求流程

首先,网络线查找本地是否有缓存,如果有,返回缓存资源给浏览器进程;如果在缓存中没有该资源,那就进入网络请求流程,第一步是先进行 DNS 解析,以获取请求域名的服务器 IP 地址。如果请求协议是 HTTPS,那么还需要建立 TLS 连接。

接下来就是利用 IP 地址和服务器建立 TCP 连接。连接建立之后,浏览器端会构建请求行,请求头等信息,并把和该域名相关的 Cookie 等数据附加到请求头,然后向服务器发送构建的请求信息。

服务端收到后,会生成响应数据(包括响应头,响应行,响应体等信息),并发给网络进程。网络进程接收后,就开始解析响应头内容。

(1) 重定向

在接收到服务端返回响应头之后,网络进程开始解析响应头,如果返回到状态码是 301 或者 302,那么说明服务器需要浏览器重定向到其他 URL。这时网络进程会从响应头的 Location 字符里读取重定向地址,然后再发起新的 HTTP 或者 HTTPS 请求,一切又重新开始。

利用我们用curl去请求http://time.geekbang.org/ 会发现极客时间会通过重定向的方式把所有的 HTTP 请求转换为 HTTPS 请求。也就是说你用 HTTP 向极客时间服务器做请求时,服务器会返回一个包含有 301 或者 302 状态码响应头,并把响应头 location 字段换成 HTTPS 请求的地址。

如果请求 https 的,就会直接返回200了。

在导航过程中,如果服务器响应行的状态码包含了 301、302 一类的跳转信息,浏览器会跳转到新的地址继续导航;如果响应行是 200,那么表示浏览器可以继续处理该请求。

(2)响应数据类型处理

处理完跳转信息之后,浏览器会根据 Content-Type 来区分返回的数据类型(下载类型或者html页面)。

例如Content-Type字段是text/html,告诉浏览器服务器返回的数据是 HTML 格式。

不同 Content-Type 的后续处理流程也截然不同。如果 Content-Type 字段的值被浏览器判断为下载类型,那么该请求会被提交给浏览器的下载管理器,同时该 URL 请求的导航流程就此结束。但如果是 HTML,那么浏览器则会继续进行导航流程。由于 Chrome 的页面渲染是运行在渲染进程中的,所以接下来就需要准备渲染进程了。

(3)准备渲染进程

Chrome 会为每个页面分配一个渲染进程,意味着每开一个新页面都会配套创建一个新的渲染进程。

比如我从极客时间的首页里面打开了另外一个页面——算法训练营,我们看下图的 Chrome 的任务管理器截图:

image-20200525000749288

打开这三个页面都是运行在同一个渲染进程,进程 ID 是23601。

那什么情况下多个页面会同时运行在一个渲染进程中呢?

Chrome的默认策略是,每个标签对应一个渲染进程。但是如果从一个页面打开另一个页面,并且这两个页面属于同一站点(协议和根域名都相同)的话,那么新页面就会复用父页面的渲染进程。官方把这个默认策略叫 :process-per-site-instance

如果不属于同一个站点,那么新页面就会开一个新的渲染进程。

总结来说,打开一个新页面的渲染策略是:

  • 通常情况下,打开新的页面都会使用单独的渲染进程
  • 从A打开B,A、B同一站点,那么B复用A的渲染进程;如果是其他情况,浏览器会为B创建一个新的渲染进程

渲染进程准备好之后,还不能立即进入文档解析状态。因为文档还在网络进程中,还没提交给渲染进程。

(4)提交文档

提交文档指的是,浏览器进程将网络进程收到的 HTML数据提交给渲染进程,具体流程 :

  • 首先当浏览器进程接收到网络进程的响应头数据,会和网络进程建立传输数据的“管道”
  • 渲染进程接收到传输完成之后,渲染进程会返回“确认提交”的消息给浏览器进程
  • 览器进程在收到“确认提交”的消息后,会更新浏览器界面状态,包括了安全状态、地址栏的 URL、前进后退的历史状态,并更新 Web 页面。

浏览器确认提交之后,更新的内容如下:

image-20200525002733357

(5)渲染阶段

一旦文档被提交了,渲染进程便开始页面解析和子资源加载。一旦页面生成完成,渲染进程会发消息给浏览器进程,浏览器进程接收到消息后,会停止标签图标上的加载动画。

image-20200525003001342

总结

  • 服务器可以根据响应头来控制浏览器的行为,如跳转、网络数据类型判断。
  • Chrome 默认采用每个标签对应一个渲染进程,但是两个页面为同一站点,就会用一个渲染进程
  • 浏览器的导航过程覆盖了从用户发起请求到提交文档给渲染进程的中间所有阶段。