就像你当年光着脚连鞋都没得穿，在荒原上遇着骑马的姑娘，她对你说，要是勇敢我就带你上战场，你就真的跟着她的背影上了战场。很多年后你牛逼了，被各路过硬的妞儿包围着，其中有帝国公主有骑着魔龙的妖国女皇，一个个都比那个骑红马的女孩拉风。可在你心里最深处还是那片荒原那个骑红马的影子，你玩命地追，因为遇到她的时候你是个连鞋都没得穿的小屁孩，只有她对你伸出手来。

前言

PyQuery库也是一个非常强大又灵活的网页解析库，如果你有前端开发经验的，都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择，PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同，所以不用再去费心去记一些奇怪的方法了。

代码块和常用功能

import sys
from pyquery import PyQuery as pq
import requests
from lxml import etree
reload(sys)
sys.setdefaultencoding('utf-8')

传入网址

doc=pq(url='https://www.douban.com/photos/album/84559192/')//直接接上网址
doc=pq(requests.get(http://www.douban.com/photos/album/84559192/).content)//别的地方获取网址后传入

打印源代码

print doc

打印head标签

print doc('head')

常用css解析器

id的话就加上#号 class前面加上一个点标签就直接写标签名

print doc('#id .list li')

查找元素

寻找子元素的办法，先找到父元素赋予一个变量，在这个变量寻找子元素。比如我要找所有li标签里a标签

items = doc('li')
lis = items.find('a')
print lis

元素的遍历，同bs4可以用.text(获取内容)

lii = doc('li').items()
for x in lii:print x.text()

提取标签里面的属性信息,同bs4

li = doc('.sharing-icon__wechat')
print li.attr('href')

提取标签里面的标签内容,比如li标签里面还有一个a标签，html()结果就是只是a标签和内容

li = doc('.li')
print li.html()

Dom操作基于上面添加属性

li = doc('li')
print li.attr('name','link')
li.css('font-size','14px')

移除不要的属性

docc = pq(htmll)
warp = docc('.warp')
print warp.text()
warp.find('p').remove()
print warp.text()

自己选择第几个标签的用法

li = doc('li:first-child')
li = doc('li:last-child') //最后一个标签
print li
li = doc('li:nth-child(2)') //第二个标签
li = doc('li:gt(2)') //比2大的标签，第二个以后的标签

结语

在爬虫体系里面匹配元素不可能只局限于某个模块，多个模块功能配合在一起才能达到最简便的目的。所以关于正则，bs4，pyquery，xpath这几个库的功能都要熟记于心，才能达到信手拈来的境界。