博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
requests 简单爬虫
阅读量:7071 次
发布时间:2019-06-28

本文共 779 字,大约阅读时间需要 2 分钟。

import requests

data = {

'name':lllll,

'password':12324

}

res =  requests.post(url,data=data,verify=False)  #verify=False解决SSL问题。这里得url写登录得action提交得地址。以便得到网站得cookie。

cookies = res.headers.get('Set-Cookie')  #获取到cookies带着这个cookies去爬取要登陆得页面

 

res1 = requests.post(url1,data=data,cookies=cookies,verify=False)

return  res1.text  # res1.content   response

 

解析返回得html文件

pyquery

pip install pyquery #安装

from pyquery  import PyQuery

 

formdata = PyQuery(html)  #实例化

data = formdata('input').val() #通过标签取值

 

解析返回得xml文件

import xml.etree.ElementTree as ET

 

per = ET.fromstring(xml)  #解析xml片段,str格式。打开文件有另一个方法。

PAGE_JOB = per.find('PAGE_JOB')  #per标签下名为PAGE_JOB的标签。
for child in PAGE_JOB_ONE.getchildren(): print child.tag,':',child.text  #打印出标签和标签里面的内容

 

转载于:https://www.cnblogs.com/helloxiaoyu/p/8406133.html

你可能感兴趣的文章
动态加载远程Jar的实现方式
查看>>
无线***笔记(一)-《***WPA-PSK加密无线网络》
查看>>
MyEclipse10.1集成SVN
查看>>
Sitemesh和Struts2结合时Filter的配制顺序
查看>>
【python】编程语言入门经典100例--19
查看>>
[tomcat7源码学习]ClassLoader加载Tomcat的依赖
查看>>
解决MySQL Master/Slave 同步出错
查看>>
常用的主机监控Shell脚本
查看>>
CentOS历史版本下载方法
查看>>
[cocos2dx]斗地主制作之洗牌算法
查看>>
javascript 注入实现跨html跨浏览器传参
查看>>
linux 网络基本配置
查看>>
redis 主从配置,自动切换
查看>>
Spring3 MVC Login Interceptor
查看>>
linux的启动流程--
查看>>
centos镜像liveCD,liveDVD和DVD区别
查看>>
javascript variable's scope , 变量 范围
查看>>
selenium 远程连接超时
查看>>
android图片处理
查看>>
CentOS7中firewall防火墙详解和配置,.xml服务配置详解
查看>>