南开大学21秋《网络爬虫与信息提取》在线作业三答案参考91

资源描述

南开大学21秋网络爬虫与信息提取在线作业三答案参考1. 如果使用Python的数据结构来做类比的话，MongoDB中库相当于一个大字典，大字典里面的每一个键值对都对应了一个集合，Key为集合的名字，Value就是一个( )。A.字典B.集合的名字C.集合D.文档参考答案：C2. cookies的缺点是( )。A.实现自动登录B.跟踪用户状态C.http中明文传输D.增加http请求的流量参考答案：CD3. requests中get请求方法的使用为requests.get(网址, data=data)。( )T.对F.错参考答案：F4. Redis中的值可以支持( )。A.列表B.哈希C.集合D.有序集合参考答案：ABCD5. 查看网站请求一般在Chrome开发者模式下的( )选项卡中查看查看网站请求一般在Chrome开发者模式下的( )选项卡中查看A.ConsoleB.SourcesC.NetworkD.Perance参考答案：C6. HTTP常用状态码表明服务器正忙的是( )。A.500B.503C.403D.404参考答案：B7. requests中post请求方法的第二个参数可以为( )requests中post请求方法的第二个参数可以为( )A.字典B.列表C.json数据D.字符串参考答案：AC8. Python中( )容器有推导式。Python中( )容器有推导式。A.列表B.元组C.字典D.集合参考答案：ACD9. 当Charles抓包以后，在Mac OS系统下可以按Command+F组合键，在Windows系统下按Ctrl+F组合键打开Charles进行搜索。( )T.对F.错参考答案：T10. 爬虫中间件的作用对象是请求request和返回response。( )爬虫中间件的作用对象是请求request和返回response。( )A.正确B.错误参考答案：B11. 中间人爬虫就是利用了中间人攻击的原理来实现数据抓取的一种爬虫技术。( )A.正确B.错误参考答案：A12. HTTP常用状态码表明表明服务器本身发生错误的有( )HTTP常用状态码表明表明服务器本身发生错误的有( )A.403B.404C.500D.503参考答案：CD13. Selenium必须加载对应的webdriver才能模拟浏览器访问。( )Selenium必须加载对应的webdriver才能模拟浏览器访问。( )A.正确B.错误参考答案：A14. Scrapy的工程名字不能使用scrapy，否则爬虫会无法运行。除此以外工程名不受限制。( )T.对F.错参考答案：F15. 当需要把Python里面的数据发送给网页时，应先将其转换成( )当需要把Python里面的数据发送给网页时，应先将其转换成( )A.Json字符串B.GETC.POSTD.Request参考答案：A16. 网络爬虫的用途有( )。A.收集数据B.尽职调查C.提高流量D.攻击服务器参考答案：ABC17. Python中条件语句在使用or连接的多个表达式中，只要有一个表达式为真，那么后面的表达式就不会执行。( )T.对F.错参考答案：T18. Charles是一个收费软件，如果没有注册，安装以后的前30天可以正常使用。30天以后，虽然功能不会缩水，但每过30分钟Charles会自动关闭一次。( )T.对F.错参考答案：T19. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务src/redis-server。( )T.对F.错参考答案：F20. “curl http:/爬虫服务器IP地址:6800/cancel.json-d project=工程名-d job=爬虫JOBID”该命令的作用是启动爬虫。( )A.正确B.错误参考答案：B21. 如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好，于是买入该公司股票并赚了一笔钱。这是合法的。( )如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好，于是买入该公司股票并赚了一笔钱。这是合法的。( )A.正确B.错误参考答案：A22. Scrapy_redis是Scrapy的“( )”，它已经封装了使用Scrapy操作Redis的各个方法。Scrapy_redis是Scrapy的“( )”，它已经封装了使用Scrapy操作Redis的各个方法。A.组件B.模块C.控件D.单元参考答案：A23. 以下哪些方法属于Python写CSV文件的方法?( )A.writeheadersB.writeheaderC.writerrowsD.writerow参考答案：ACD24. Redis插入数据都是插入到列表右侧，因此读取数据也是从右侧读取。( )T.对F.错参考答案：F25. 虽然MongoDB相比于MySQL来说，速度快了很多，但是频繁读写MongoDB还是会严重拖慢程序的执行速度。( )A.正确B.错误参考答案：A26. 网站返回的Headers中经常有Cookies，可以用mitmdump脚本使用print函数把Cookies打印出来。( )网站返回的Headers中经常有Cookies，可以用mitmdump脚本使用print函数把Cookies打印出来。( )A.正确B.错误参考答案：B27. 以下哪个命令是利用URL语法在命令行下工作的文件传输工具( )以下哪个命令是利用URL语法在命令行下工作的文件传输工具( )A.curlB.tar -zxvfC.mkdirD.cp参考答案：A28. 数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )A.正确B.错误参考答案：A29. Python中退出循环应用关键字( )。A.breakB.continueC.exitD.return参考答案：A30. 当需要把Python里面的数据发送给网页时，应先将其转换成( )。A.Json字符串B.GETC.POSTD.Request参考答案：A31. 下面Python代码输出为：( )def default_para_without_trap(para=，value=0):if not para:par下面Python代码输出为：( )def default_para_without_trap(para=，value=0):if not para:para=para.append(value)return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100第二步:100，50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案：B32. Redis中的值可以支持( )Redis中的值可以支持( )A.列表B.哈希C.集合D.有序集合参考答案：ABCD33. cookies在http请求中是明文传输的。( )cookies在http请求中是明文传输的。( )A.正确B.错误参考答案：A34. PyMongo中逻辑查询表示大于等于的符号是( )PyMongo中逻辑查询表示大于等于的符号是( )A.$gtB.$ltC.$gteD.$lte参考答案：C35. Python中以下哪个容器里的元素不能重复( )A.列表B.元组C.字典D.集合参考答案：D36. Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据，在Redis中把这个Key删除即可。( )A.正确B.错误参考答案：A37. 如果目标网站本身就是提供公众查询服务的网站，那么使用爬虫是合法合规的。( )A.正确B.错误参考答案：A38. Python中一个函数可以有( )个return语句。Python中一个函数可以有( )个return语句。A.0B.1C.多个D.2参考答案：ABCD39. Redis的集合与Python的集合一样，没有顺序，值不重复。( )Redis的集合与Python的集合一样，没有顺序，值不重复。( )A.正确B.错误参考答案：A40. 当使用Scarpy创建爬虫时，当爬取网易云音乐首页信息时，scrapy genspider的第二个参数直接输入就可以了。( )T.对F.错参考答案：F41. 使用python定制mitmproxy，下面的语句请求的是( )。req.headersUser-AgentA.headersB.文本内容C.目标网站D.user-agent参考答案：D42. device.sleep( )方法是使用UI Automatorr关闭屏幕的命令。( )A.正确B.错误参考答案：A43. Python并导入uiautomator来操作设备的语句是from uiautomator import( )Python并导入uiautomator来操作设备的语句是from uiautomator import( )A.DeviceB.DevicesC.JobsD.Job参考答案：A44. Charles能截获HTTP和HTTPS的数据包，如果网站使用websocket就可以截获。( )A.正确B.错误参考答案：B45. Charles是一个收费软件，如果没有注册，安装以后的前30天可以正常使用。30天以后，虽然功能不会缩水，但每过30分钟Charles会自动关闭一次。( )A.正确B.错误参考答案：A46. 通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。( )T.对F.错参考答案：T47. 下列关于在IOS上配置charles的说法正确的是( )。A.不同ios设备之间会有比较大的差别，所以配置的时候需要找到对应的安装证书的入口B.手机和电脑需要在同一个局域网下C.HTTP代理可以使用“自动”选项D.安装好证书以后，打开iOS设备上的任何一个App，可以看到Charles中有数据包在流动参考答案：BD48. 下列关于mitmproxy的安装说法错误的是( )下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统，使用Homebrew安装mitmproxy，命令为：brew install mitmproxyB.在Ubuntu中，要安装mitmproxy，首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令，只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 install mitmproxy 进行安装参考答案：C49. 如果爬虫爬取的是商业网站，并且目标网站使用了反爬虫机制，那么强行突破反爬虫机制可能构成( )。A.非法侵入计算机系统罪B.非法获取计算机信息系统数据罪C.非法获取计算机数据罪D.非法获取系统罪参考答案：AB50. 如果很多爬虫同时对一个网站全速爬取，那么其实就是对网站进行了( )攻击。A.XSSB.DOSC.DDOSD.跨域参考答案：C51. Python中若定义object=“12345”，则print(object:-1)输出( )。A.1B.5C.54321D.程序报错参考答案：C52. 自己能查看的数据，允许擅自拿给第三方查看。( )T.对F.错参考答案：F53. process_spider_input(response， spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )T.对F.错参考答案：F54. Python中条件语句在使用or连接的多个表达式中，只要有一个表达式为真，那么后面的表达式就不会执行。( )Python中条件语句在使用or连接的多个表达式中，只要有一个表达式为真，那么后面的表达式就不会执行。( )A.正确B.错误参考答案：A55. Redis中查询列表长度命令llen中l代表left，即从左侧开始数。( )A.正确B.错误参考答案：B56. MongoDB中可以将( )数据结构插入集合中A.列表B.元组C.字典D.集合参考答案：C57. Python中列表生成以后还可以往里面继续添加数据，也可以从里面删除数据。( )T.对F.错参考答案：T58. 在Windows中下若要运行Redis可以运行redis-server/usr/local/etc/redis.conf。( )T.对F.错参考答案：F59. Python中定义函数关键字为( )。A.defB.defineC.funcD.function参考答案：A60. ( )是Scrapy官方开发的，用来部署、运行和管理Scrapy爬虫的工具。( )是Scrapy官方开发的，用来部署、运行和管理Scrapy爬虫的工具。A.ScrapydB.ScrapyDeployC.DeployD.Scrapy_Deploy参考答案：A

展开阅读全文

南开大学21秋《网络爬虫与信息提取》在线作业三答案参考91

最新文档