爬虫——Web前端知识
2018-08-12 本文已影响1人
weifeng_genius
W3C标准
- W3C——万维网联盟,最具权威的技术标准机构。网页主要是由三部分组成:结构(structure)、表现(Presentation)、行为(Behavior)。
2.结构的标准语言——XHTML、XML
表现的标准语言——CSS
行为包括——ECMAScript(JS的标准)
HTML
- 文本标记语言
-
<html>content</html>
HTML文档标记,出现在网页开始儿和结束。 -
<head>conten</head>
头文件基本信息,此处的内容不会出现在浏览器中。 -
<meta>content</meta>
网页的元信息,存放一些关键词,必须放在<head></head>
之中。 -
<body>content<\body>
网页主题部分 里面还有很多·<p>
<br>
<hr>
等标记。 -
<title>content</title>
网页的标题。
更多标记可以参考W3school教程
CSS
- 层叠样式表(Cascading Style Sheets),用于定义如何显示HTML元素。该样式表的目的是为了解决内容与表现分离的问题。
- HTML中使用CSS的三种做法:
1.内联样式表:直接写进HTML标记中,使用style属性改变样式。例如:
<body style = "background-color:green;margin:0;padding:0;"></body>
2.嵌入样式表:把CSS样式代码写在<style type="text/css"></style>
之间,一般放在<head></head>
之间。
3.外部样式表:把CSS代码写在一个css文件中,然后在<head>
中使用<link>
标记引用过来。例如:
<link rel="StyleSheet"type="text/css"href="style.css">
- CSS规则主要构成:CSS选择器和一条或多条声明。
- CSS选择器有三种定义方式:
- HTML标记定义:CSS中定义:
p{属性:属性值;……}
,则p
可以成为选择器。 - ID选择器:HTML以ID属性来设置ID选择器,在CSS中以
#
来定义,比如#word{text-align:center;color:red}
,设置ID为word
的元素为居中,颜色为红色。 - class选择器:有别于ID选择器,它可以在多个元素中使用。在CSS中以
.
来表示,例如:.center{text-align:center}
将所有拥有center
类的HTML元素设为居中。
JavaScript
- 两种引用方式:
1.直接插入代码<script type="text/javascript">alert('hello world')</script>
2.外部引用js文件:<script src="js/jquery.js"></scrpit>
XPath
- XPath是被设计来搜寻XML文档的,不过它也能很好地用在HTML文档中工作。在Python爬虫开发中,经常使用XPath查找提取网页中地信息。
…