【控制】-Request网络爬虫

栏目:云苍穹知识作者:金蝶来源:金蝶云社区发布:2024-09-23浏览:1

【控制】-Request网络爬虫

1 功能说明

通过 get 或者 post 方法,直接获得网页文本并将其返回。

注: 1.requests.request(method,url,**kwargs)

2.需要连接网络使用

2 基本使用说明

1. 选择“GET”或“POST”的请求方式,输入所要爬取网页的网址。

2. 组件返回爬取网页的文本,可传入变量或以供后续步骤流程调用。

3 参数配置说明

  • “方式”参数:网页请求的方式,默认为“GET”,也可设置为“POST”。

  • “网址”参数:输入所要获取网站文本的网址,例如:'https://www.baidu.com/s?'。

在组件描述窗口中的这些输入参数,是控制访问的参数,详情如下。

  • “参数”参数 (可选) 可变个数参数,用以作为参数增加到网址中。 可直接对参数的赋值,例如 wd='哈哈',则网址变为https://www.baidu.com/s?wd=哈哈,也可以输入字典,例如{'ie':'utf-8', 'wd':'哈哈'}。

  • “数据”参数 (可选参数,只能用于POST方式下) 输入为字典、字节序列或文件对象,作为request请求的内容。 例如输入请求登录的账号和密码等。

  • “json”参数(可选):JSON格式的数据,作为request请求的内容。

  • “headers”参数(可选):通常在发送请求时都需要带上头,用以伪装成浏览器,防止被网站拒绝访问。 例如:User-Agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36

  • “cookies”参数(可选):字典或CookieJar,Request中的auth : 元组支持HTTP认证功能。

“超时时间”参数:用以设定超时时间,单位为秒,默认为60秒。

  • “返回值”:返回所请求网页的html。

【控制】-Request网络爬虫

1 功能说明通过 get 或者 post 方法,直接获得网页文本并将其返回。注: 1.requests.request(method,url,**kwargs) 2.需要连接网络...
点击下载文档
确认删除?
回到顶部
客服QQ
  • 客服QQ点击这里给我发消息