Python面试常见问题,Python爬虫常见面试问题

3个月前 (04-24 15:38)阅读46回复0
采编小助手
采编小助手
 • 注册排名10021
 • 经验值5
 • 级别作者
 • 主题1
 • 回复0
楼主

 Python爬虫面试常见问题

 一、项目问题:

 1.你写爬虫的时候都遇到过什么反爬虫措施,你是怎样解决的

 2.用的什么框架。为什么选择这个框架

 二、框架问题:

 1.scrapy的基本结构(五个部分都是什么,请求发出去的整个流程)

 2.scrapy的去重原理(指纹去重到底是什么原理)

 3.scrapy中间件有几种类,你用过哪些中间件

 4.scrapy中间件在哪里起的作业(面向切片编程)

 三、代理问题:

 1.为什么会用到代理

 2.代理怎么使用(具体代码, 请求在什么时候添加的代理)

 3.代理失效了怎么处理

 四、验证码处理:

 1.登陆验证码处理

 2.爬取速度过快出现的验证码处理

 3.如何用机器识别验证码

 五、模拟登陆问题:

 1.模拟登陆流程

 2.cookie如何处理

 3.如何处理网站传参加密的情况

 六、分布式:

 1.分布式原理

 2.分布式如何判断爬虫已经停止了

 3.分布式的去重原理

 七、数据存储和数据库问题:

 1.关系型数据库和非关系型数据库的区别

 2.爬下来数据你会选择什么存储方式,为什么

 3.各种数据库支持的数据类型,和特点

 八、Python基础问题:

 ps:基础问题是非常多的,因为是爬虫性质,所以抽了一些问的比较多的,总结如下:

 1.Python2与Python3的区别,如何实现python2代码迁移到Python3环境

 2.Python2和Python3的编码方式有什么差别

 3.迭代器,生成器,装饰器

 4.Python的数据类型

 九、协议问题:

 1.http协议,请求由什么组成,每个字段分别有什么用,https和http有什么差距

 2.证书问题

 3.TCP,UDP各种相关问题

 十、数据提取问题:

 1.主要使用什么样的结构化数据提取方式,可能会写一两个例子

 2.正则的使用

 3.动态加载的数据如何提取

 4.json数据如何提取

 十一、算法问题:

 算法:你们要善用Python的数据类型,对Python的数据结构深入了解

本文可能转载于网络公开资源,如果侵犯您的权益,请联系我们删除。

本文地址:https://www.pyask.cn/info/3424.html

0
收集分享互联网Python相关的学习教程
回帖

Python面试常见问题,Python爬虫常见面试问题 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息