南开大学22春《网络爬虫与信息提取》综合作业一答案参考73

资源描述

南开大学22春网络爬虫与信息提取综合作业一答案参考1. 参数headers=( )，把请求头添加到Scrapy请求中，使爬虫的请求看起来像是从浏览器发起的。A.HEADERB.HEADERSC.HEADD.BODY参考答案：B2. Redis插入数据都是插入到列表右侧，因此读取数据也是从右侧读取。( )A.正确B.错误参考答案：B3. 开源库pytesseract的作用是将图像中文字转换为文本。( )A.正确B.错误参考答案：A4. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务 src/redis-server。( )在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务 src/redis-server。( )A.正确B.错误参考答案：B5. MongoDB中获取名字为db的库的语句为( )A.client.dbB.client(db)C.clientdbD.clientdb参考答案：AC6. Redis中从集合中查看有多少个值，用关键字( )。A.scardB.cardC.countD.distinct参考答案：A7. 对Charles设置代理时，Ip可以设置为127.0.0.1，端口为8888。( )T.对F.错参考答案：T8. requests中post请求方法的使用为requests.post(网址， data=data)中的data为( )。A.列表B.元组C.字典D.集合参考答案：C9. 在请求头中设置User-Agent即可正常请求网站。( )在请求头中设置User-Agent即可正常请求网站。( )A.正确B.错误参考答案：B10. 以下哪些可以独立成为Python编译器( )以下哪些可以独立成为Python编译器( )A.PycharmB.IDLEC.EclipseD.Visual Studio 2010参考答案：AB11. 以下哪个HTML标签表示定义文档的主体( )以下哪个HTML标签表示定义文档的主体( )A.divB.bodyC.headD.footer参考答案：B12. 当爬虫创建好了之后，可以使用scrapy( )命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案：D13. 在Linux的终端使用apt-get命令安装一系列依赖库时，其中如果存在有已经安装的库，会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案：B14. 在安装Scarpy的依赖库时，由于Visual C+ Build Tools的安装速度很慢，为了节省时间，可以和安装Twisted同时进行。( )T.对F.错参考答案：F15. 下面Python代码输出为( ): def default_para_without_trap(para=, value=0): if not para:下面Python代码输出为( ): def default_para_without_trap(para=, value=0): if not para: para = para.append(value) return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100 第二步:100,50B.第一步:100 第二步:50C.第一步:100 第二步:D.第一步:100 第二步:100参考答案：B16. Python正则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含( )Python正则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案：B17. 通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。( )T.对F.错参考答案：T18. Python可以将列表或字典转换成Json字符串。( )T.对F.错参考答案：T19. 使用xpath方法的返回类型是( )。A.列表B.元组C.字典D.集合参考答案：A20. 网站返回的Headers中经常有Cookies，可以用mitmdump脚本使用print函数把Cookies打印出来。( )网站返回的Headers中经常有Cookies，可以用mitmdump脚本使用print函数把Cookies打印出来。( )A.正确B.错误参考答案：B21. 如果把网络上发送与接收的数据包理解为快递包裹，那么在快递运输的过程中取出查看更改里面的内容，就是类似抓包的过程。( )T.对F.错参考答案：F22. 使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令( )。A.swipeB.moveC.scrollD.fly参考答案：A23. ( )是Scrapy官方开发的，用来部署、运行和管理Scrapy爬虫的工具。( )是Scrapy官方开发的，用来部署、运行和管理Scrapy爬虫的工具。A.ScrapydB.ScrapyDeployC.DeployD.Scrapy_Deploy参考答案：A24. 引用中间件时后面的数字代表的是中间件的执行顺序，例如 &39;AdvanceSpider.middlewares.ProxyMiddleware&39;: 543中的543。( )T.对F.错参考答案：T25. 浏览器用来记录用户状态信息的数据叫( )浏览器用来记录用户状态信息的数据叫( )A.sessionB.cookiesC.moonpiesD.selenium参考答案：B26. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务src/redis-server。( )T.对F.错参考答案：F27. 如果目标网站有反爬虫声明，那么对方在被爬虫爬取以后，可以根据( )来起诉使用爬虫的公司。A.服务器日志B.数据库日志记录C.程序日志记录D.服务器监控参考答案：ABCD28. Python中哪种容器一旦生成就不能修改?( )A.列表B.元组C.字典D.集合参考答案：B29. 为了在安卓手机上安装证书，需要先发送证书到手机里面。在Charles中选择“Help”-“SSL Proxying”-“Save Charles Root Certificate”命令，可以将Charles的证书保存到计算机桌面。( )T.对F.错参考答案：T30. 所有的异步加载都会向后台发送请求。( )T.对F.错参考答案：F31. 通常使用( )工具来模拟浏览器进行爬虫请求A.SeleniumB.ChromeC.ChromeDriverD.WebDriver参考答案：A32. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;，则Objcet.get(&39;boj_1&39;,&39;3&39;)是( )Python中Object=obj_1:1,obj_2:2，则Objcet.get(boj_1,3)是( )A.1B.2C.3D.无输出参考答案：A33. 如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好，于是买入该公司股票并赚了一笔钱。这是合法的。( )如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好，于是买入该公司股票并赚了一笔钱。这是合法的。( )A.正确B.错误参考答案：A34. Redis中的值可以支持( )。A.列表B.哈希C.集合D.有序集合参考答案：ABCD35. 在Linux的终端使用apt-get命令安装一系列依赖库时，其中如果存在有已经安装的库，会覆盖掉之前的库重新安装。( )在Linux的终端使用apt-get命令安装一系列依赖库时，其中如果存在有已经安装的库，会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案：B36. HTTP常用状态码表明服务器正忙的是( )。A.500B.503C.403D.404参考答案：B37. 网络爬虫的用途有( )。A.收集数据B.尽职调查C.提高流量D.攻击服务器参考答案：ABC38. Redis中列表读取数据命令lrange中l代表left，即从左侧开始读取。( )Redis中列表读取数据命令lrange中l代表left，即从左侧开始读取。( )A.正确B.错误参考答案：B39. 下列说法错误的是( )。A.小程序的请求极其简单，基本上没有验证信息B.用Python来请求小程序的后台接口从而获取数据，比请求异步加载网页的后台接口要复杂很多C.如果目标网站有微信小程序，那么一定要优先调查能否通过小程序的接口来抓取数据D.小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据，能极大提高爬虫的开发效率参考答案：D40. 爬虫中间件的激活需要另外写一个文件来进行。( )A.正确B.错误参考答案：B41. 下列哪项不是HTTP的请求类型( )下列哪项不是HTTP的请求类型( )A.GETB.POSTC.PUTD.SET参考答案：D42. 以下表示请求资源找不到的HTTP状态码为( )以下表示请求资源找不到的HTTP状态码为( )A.200B.301C.404D.500参考答案：C43. PyMongo更新操作有( )PyMongo更新操作有( )A.updateB.update_allC.update_oneD.update_many参考答案：CD44. 为了保证数据插入效率，在内存允许的情况下，应该一次性把数据读入内存，尽量减少对MongoDB的读取操作。( )T.对F.错参考答案：T45. Redis插入数据都是插入到列表右侧，因此读取数据也是从右侧读取。( )T.对F.错参考答案：F46. 可以通过( )绕过网站登录。A.sessionB.cookiesC.moonpiesD.localstorage参考答案：B47. 爬虫的源代码通过公开不会对被爬虫网站造成影响。( )A.正确B.错误参考答案：B48. requests中get请求方法的使用为requests.get(网址, data=data)。( )T.对F.错参考答案：F49. Redis若要进入交互环境，需要打开终端输入( )。A.redis-cliB.redisC.redis-cmdD.redis-start参考答案：A50. 如果爬虫爬取的是商业网站，并且目标网站使用了反爬虫机制，那么强行突破反爬虫机制可能构成( )。A.非法侵入计算机系统罪B.非法获取计算机信息系统数据罪C.非法获取计算机数据罪D.非法获取系统罪参考答案：AB51. process_spider_input(response，spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )A.正确B.错误参考答案：B52. MongoDB中获取名字为set1的集合的语句为( )MongoDB中获取名字为set1的集合的语句为( )A.database.set1B.database(set1)C.databaseset1D.databaseset1参考答案：AC53. Python中列表生成以后还可以往里面继续添加数据，也可以从里面删除数据。( )Python中列表生成以后还可以往里面继续添加数据，也可以从里面删除数据。( )A.正确B.错误参考答案：A54. Charles是一个收费软件，如果没有注册，安装以后的前30天可以正常使用。30天以后，虽然功能不会缩水，但每过30分钟Charles会自动关闭一次。( )A.正确B.错误参考答案：A55. HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )。A.403B.404C.500D.503参考答案：AB56. RoboMongo是MongoDB的管理软件。( )T.对F.错参考答案：T57. Python中使用下面代码打开文件也需要对文件进行close关闭操作 with open(文件路径，文件操作方式，encoding=utf-8)as f。( )A.正确B.错误参考答案：B58. 常用的会话跟踪技术是( )A.sessionB.cookiesC.moonpiesD.localstorage参考答案：AB59. Redis是遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库。( )T.对F.错参考答案：T60. Scrapy_redis是Scrapy的“( )”，它已经封装了使用Scrapy操作Redis的各个方法。Scrapy_redis是Scrapy的“( )”，它已经封装了使用Scrapy操作Redis的各个方法。A.组件B.模块C.控件D.单元参考答案：A

展开阅读全文

南开大学22春《网络爬虫与信息提取》综合作业一答案参考73

最新文档