Python 爬虫入门课作业2－网页基础与结构分析

2017-07-12 本文已影响97人不忘初心2017

课堂作业要求

对html有一定基础，但有些元素不太熟悉，浏览页面源码时，摘录学习了下：

<!DOCTYPE>: 声明文档的类型，以便浏览器知道如何显示该文档。非Html标签。简书的声明是这样的：<!DOCTYPE html>，表示网页至少升级到[HTML5]的第一步。(http://www.w3school.com.cn/html/html5_intro.asp)。
HTML <meta> 标签：存放描述文档的元信息，比如作者、关键字、文档类型、编码等。简书的编码：<meta charset="utf-8">，支持各种语言显示。

这个页面由三大部分组成：

图片.png

根据页面三大部分，在chrome中通过开发者工具，查看各部分对应源码，分析各页面元素位置：

所有的页面内容均包含在 <body lang="zh-CN" class="reader-black-font">

图片.png

<nav class="navbar navbar-default navbar-fixed-top" role="navigation">

如要找到用户标签，可通过下面高亮的路径。

图片.png

全局图：

图片.png