南开大学21秋《网络爬虫与信息提取》复习考核试题库答案参考套卷10

资源描述

南开大学21秋网络爬虫与信息提取复习考核试题库答案参考1. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;，则Objcet.get(&39;boj_1&39;,&39;3&39;)是( )Python中Object=obj_1:1,obj_2:2，则Objcet.get(boj_1,3)是( )A.1B.2C.3D.无输出参考答案：A2. Python中条件语句在使用or连接的多个表达式中，只要有一个表达式为真，那么后面的表达式就不会执行。( )Python中条件语句在使用or连接的多个表达式中，只要有一个表达式为真，那么后面的表达式就不会执行。( )A.正确B.错误参考答案：A3. 可以通过( )绕过网站登录。A.sessionB.cookiesC.moonpiesD.localstorage参考答案：B4. Python中列表生成以后还可以往里面继续添加数据，也可以从里面删除数据。( )Python中列表生成以后还可以往里面继续添加数据，也可以从里面删除数据。( )A.正确B.错误参考答案：A5. PyMongo中逻辑查询表示小于的符号是( )A.$gtB.$ltC.$gte$lte参考答案：B6. 一个可行的自动更换代理的爬虫系统，应该下列哪些功能?( )A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证，将可以使用的代理IP保存到数据库中B.在发现某个请求已经被设置过代理后，什么也不做，直接返回C.在ProxyMiddlerware的process_request中，每次从数据库里面随机选择一条代理IP地址使用D.周期性验证数据库中的无效代理，及时将其删除参考答案：ACD7. 下列关于在IOS上配置charles的说法正确的是( )下列关于在IOS上配置charles的说法正确的是( )A.不同ios设备之间会有比较大的差别，所以配置的时候需要找到对应的安装证书的入口B.手机和电脑需要在同一个局域网下C.HTTP代理可以使用“自动”选项D.安装好证书以后，打开iOS设备上的任何一个App，可以看到Charles中有数据包在流动参考答案：BD8. Python中字符串切片以后的结果还是字符串。( )Python中字符串切片以后的结果还是字符串。( )A.正确B.错误参考答案：A9. Cookies一般包含在请求头Headers中。( )T.对F.错参考答案：T10. MongoDB是一个关系数据库产品。( )A.正确B.错误参考答案：B11. 通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。( )T.对F.错参考答案：T12. 网站返回的Headers中经常有Cookies，可以用mitmdump脚本使用print函数把Cookies打印出来。( )T.对F.错参考答案：F13. Python中有哪些实现多线程方法?( )A.multiprocess.dummyB.threading.ThreadC.processD.PyMongoDB参考答案：AB14. process_spider_output(response， result， output)是在下载器中间件处理完成后，马上要进入某个回调函数parse_xxx( )前调用。( )process_spider_output(response， result， output)是在下载器中间件处理完成后，马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案：B15. 下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统，使用Homebrew安装mitmproxy，命令为：brew install mitmproxyB.在Ubuntu中，要安装mitmproxy，首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令，只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 installmitmproxy 进行安装参考答案：C16. 最常见的HTTP请求类型有( )最常见的HTTP请求类型有( )A.GETB.POSTC.SENDD.RECEIVE参考答案：AB17. Python中跳过本次循环应用关键字( )A.breakB.continueC.exitD.return参考答案：B18. lxml库中etree模块的( )方法把Selector对象转换为bytes型的源代码数据。A.etree.tostringB.etree.convertBytesC.etree.toBytesD.etree.convertstring参考答案：A19. Scrapy作为一个爬虫的框架，它在单机环境下运行时就可以获得最大性能优势。( )Scrapy作为一个爬虫的框架，它在单机环境下运行时就可以获得最大性能优势。( )A.正确B.错误参考答案：B20. 中间人爬虫就是利用了中间人攻击的原理来实现数据抓取的一种爬虫技术。( )A.正确B.错误参考答案：A21. Python正则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含( )Python正则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案：B22. xpath中extract方法返回值类型是( )xpath中extract方法返回值类型是( )A.列表B.元组C.字典D.集合参考答案：A23. 当使用Scarpy创建爬虫时，当爬取网易云音乐首页信息时，scrapy genspider的第二个参数直接输入就可以了。( )T.对F.错参考答案：F24. MongoDB中可以将( )数据结构插入集合中A.列表B.元组C.字典D.集合参考答案：C25. requests中post请求方法的第二个参数可以为( )requests中post请求方法的第二个参数可以为( )A.字典B.列表C.json数据D.字符串参考答案：AC26. 在安装Scarpy的依赖库时，由于Visual C+ Build Tools的安装速度很慢，为了节省时间，可以和安装Twisted同时进行。( )T.对F.错参考答案：F27. 一般来说在页面都通过GET将用户登录信息传递到服务器端。( )一般来说在页面都通过GET将用户登录信息传递到服务器端。( )A.正确B.错误参考答案：B28. HTTP常用状态码表明服务器正忙的是( )。A.500B.503C.403D.404参考答案：B29. 当需要把Python里面的数据发送给网页时，应先将其转换成( )当需要把Python里面的数据发送给网页时，应先将其转换成( )A.Json字符串B.GETC.POSTD.Request参考答案：A30. Python中退出循环应用关键字( )。A.breakB.continueC.exitD.return参考答案：A31. Redis是( )数据库。A.关系数据库B.键值数据库C.列存数据库D.图数据库参考答案：B32. 在Linux的终端使用apt-get命令安装一系列依赖库时，其中如果存在有已经安装的库，会覆盖掉之前的库重新安装。( )在Linux的终端使用apt-get命令安装一系列依赖库时，其中如果存在有已经安装的库，会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案：B33. 使用Nginx反向代理到Scrapyd以后，Scrapyd本身只需要开通内网访问即可，不许经过输入密码。( )A.正确B.错误参考答案：A34. PyMongo中逻辑查询表示小于等于的符号是( )A.$gtB.$ltC.$gte$lte参考答案：C35. 虽然MongoDB相比于MySQL来说，速度快了很多，但是频繁读写MongoDB还是会严重拖慢程序的执行速度。( )A.正确B.错误参考答案：A36. 如果很多爬虫同时对一个网站全速爬取，那么其实就是对网站进行了( )攻击。A.XSSB.DOSC.DDOSD.跨域参考答案：C37. 插入数据时，MongoDB会自动添加一列“_id”，也就是自增ID，每次自动加1。( )插入数据时，MongoDB会自动添加一列“_id”，也就是自增ID，每次自动加1。( )A.正确B.错误参考答案：B38. HTTP状态码302表示资源永久重定向。( )T.对F.错参考答案：F39. 请问按哪个键可以打开Chrome自带的开发者工具( )请问按哪个键可以打开Chrome自带的开发者工具( )A.F10B.F1C.F11D.F12参考答案：D40. 在Scrapy的目录下，哪个文件负责存放爬虫文件?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案：A41. 下面Python代码输出为：( )def default_para_without_trap(para=，value=0):if not para:par下面Python代码输出为：( )def default_para_without_trap(para=，value=0):if not para:para=para.append(value)return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100第二步:100，50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案：B42. 在有spiders何setting.py这两项的情况下，可以写出爬虫并且保存数据，items.py和pipelines.py文件是原作者的失误而导致的冗余文件。( )T.对F.错参考答案：F43. BS4可以用来从( )中提取数据A.HTMLB.XMLC.数据库D.JSON参考答案：AB44. 下列关于mitmproxy的安装说法错误的是( )下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统，使用Homebrew安装mitmproxy，命令为：brew install mitmproxyB.在Ubuntu中，要安装mitmproxy，首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令，只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 install mitmproxy 进行安装参考答案：C45. Python中列表生成以后还可以往里面继续添加数据，也可以从里面删除数据。( )T.对F.错参考答案：T46. 在中间人攻击中，攻击者可以拦截通信双方的通话，并插入新的内容或者修改原有内容。( )在中间人攻击中，攻击者可以拦截通信双方的通话，并插入新的内容或者修改原有内容。( )A.正确B.错误参考答案：A47. Python中通过Key来从字典object中读取对应的Value的方法有( )Python中通过Key来从字典object中读取对应的Value的方法有( )A.objectkeyB.object.get(key)C.object.pop(key)D.object.pop( )参考答案：AB48. Selenium必须加载对应的webdriver才能模拟浏览器访问。( )Selenium必须加载对应的webdriver才能模拟浏览器访问。( )A.正确B.错误参考答案：A49. 自己能查看的数据，允许擅自拿给第三方查看。( )T.对F.错参考答案：F50. 如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好。于是将数据或者分析结果出售给某基金公司，从而获得销售收入。这是合法的。( )A.正确B.错误参考答案：A

展开阅读全文

南开大学21秋《网络爬虫与信息提取》复习考核试题库答案参考套卷10

最新文档