requests 简单爬虫-白红宇

requests 简单爬虫

阅读量：7071 次

发布时间：2019-06-28

本文共 779 字，大约阅读时间需要 2 分钟。

import requests

data = {

'name'：lllll，

'password'：12324

}

res = requests.post(url,data=data,verify=False) #verify=False解决SSL问题。这里得url写登录得action提交得地址。以便得到网站得cookie。

cookies = res.headers.get('Set-Cookie') #获取到cookies带着这个cookies去爬取要登陆得页面

res1 = requests.post(url1,data=data,cookies=cookies,verify=False)

return res1.text # res1.content response

解析返回得html文件

pyquery

pip install pyquery #安装

from pyquery import PyQuery

formdata = PyQuery(html) #实例化

data = formdata('input').val() #通过标签取值

解析返回得xml文件

import xml.etree.ElementTree as ET

per = ET.fromstring(xml) #解析xml片段，str格式。打开文件有另一个方法。

PAGE_JOB = per.find('PAGE_JOB')  #per标签下名为PAGE_JOB的标签。

for child in PAGE_JOB_ONE.getchildren(): print child.tag,':',child.text  #打印出标签和标签里面的内容

转载于:https://www.cnblogs.com/helloxiaoyu/p/8406133.html

你可能感兴趣的文章

动态加载远程Jar的实现方式

查看>>

无线***笔记（一）-《***WPA-PSK加密无线网络》

查看>>

MyEclipse10.1集成SVN

查看>>

Sitemesh和Struts2结合时Filter的配制顺序

查看>>

【python】编程语言入门经典100例--19

查看>>

[tomcat7源码学习]ClassLoader加载Tomcat的依赖

查看>>

解决MySQL Master/Slave 同步出错

javascript 注入实现跨html跨浏览器传参

Spring3 MVC Login Interceptor

查看>>

linux的启动流程--

查看>>

centos镜像liveCD，liveDVD和DVD区别

查看>>

javascript variable's scope , 变量范围

CentOS7中firewall防火墙详解和配置，.xml服务配置详解

查看>>