南开大学21秋《网络爬虫与信息提取》平时作业二参考答案96

资源描述

南开大学21秋网络爬虫与信息提取平时作业二参考答案1. PyMongo更新操作有( )PyMongo更新操作有( )A.updateB.update_allC.update_oneD.update_many参考答案：CD2. 参数headers=( )，把请求头添加到Scrapy请求中，使爬虫的请求看起来像是从浏览器发起的。A.HEADERB.HEADERSC.HEADD.BODY参考答案：B3. Python正则表达式模块的findall方法如果没有匹配到结果，则返回结果为( )Python正则表达式模块的findall方法如果没有匹配到结果，则返回结果为( )A.空B.空列表C.空元组D.不返回参考答案：B4. 常用的会话跟踪技术是( )A.sessionB.cookiesC.moonpiesD.localstorage参考答案：AB5. Redis中的值可以支持( )Redis中的值可以支持( )A.列表B.哈希C.集合D.有序集合参考答案：ABCD6. BS4可以用来从( )中提取数据。BS4可以用来从( )中提取数据。A.HTMLB.XMLC.数据库D.JSON参考答案：AB7. Python中若定义object=1， 2， 3， 4， 5，则print(object：3)输出( )Python中若定义object=1， 2， 3， 4， 5，则print(object：3)输出( )A.12B.123C.23D.234参考答案：B8. Scrapy作为一个爬虫的框架，它在单机环境下运行时就可以获得最大性能优势。( )Scrapy作为一个爬虫的框架，它在单机环境下运行时就可以获得最大性能优势。( )A.正确B.错误参考答案：B9. Python中定义函数关键字为( )。A.defB.defineC.funcD.function参考答案：A10. Python正则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含( )Python正则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案：B11. Redis的集合与Python的集合一样，没有顺序，值不重复。( )Redis的集合与Python的集合一样，没有顺序，值不重复。( )A.正确B.错误参考答案：A12. Python中Object=obj_1:1，obj_2:2，则Objcet.get(boj_3，3)是( )。A.1B.2C.3D.无输出参考答案：C13. robots.txt是一种规范，在法律范畴内。( )A.正确B.错误参考答案：B14. Scrapy_redis是Scrapy的“( )”，它已经封装了使用Scrapy操作Redis的各个方法。Scrapy_redis是Scrapy的“( )”，它已经封装了使用Scrapy操作Redis的各个方法。A.组件B.模块C.控件D.单元参考答案：A15. 下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统，使用Homebrew安装mitmproxy，命令为：brew install mitmproxyB.在Ubuntu中，要安装mitmproxy，首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令，只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 installmitmproxy 进行安装参考答案：C16. Cookies一般包含在请求头Headers中。( )T.对F.错参考答案：T17. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。( )A.正确B.错误参考答案：B18. 以下哪个命令是linux下解压缩命令?( )A.curlB.tar-zxvfC.mkdirD.cp参考答案：B19. 在Linux的终端使用apt-get命令安装一系列依赖库时，其中如果存在有已经安装的库，会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案：B20. 虽然MongoDB相比于MySQL来说，速度快了很多，但是频繁读写MongoDB还是会严重拖慢程序的执行速度。( )T.对F.错参考答案：T21. 如果使用Python的数据结构来做类比的话，MongoDB中库相当于一个大字典，大字典里面的每一个键值对都对应了一个集合，Key为集合的名字，Value就是一个( )。A.字典B.集合的名字C.集合D.文档参考答案：C22. cookies在http请求中是明文传输的。( )T.对F.错参考答案：T23. 在Scrapy的目录下，哪个文件负责存放爬虫文件?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案：A24. 以下表示请求资源找不到的HTTP状态码为( )以下表示请求资源找不到的HTTP状态码为( )A.200B.301C.404D.500参考答案：C25. Redis若要进入交互环境，需要打开终端输入( )Redis若要进入交互环境，需要打开终端输入( )A.redis-cliB.redisC.redis-D.redis-start参考答案：A26. Python可以将列表或字典转换成Json字符串。( )T.对F.错参考答案：T27. MongoDB是一个关系数据库产品。( )A.正确B.错误参考答案：B28. 使用Selennium获取网页中元素的方法有( )。A.find_element_by_nameB.find_element_by_idC.find_elements_by_nameD.find_elements_by_id参考答案：ABCD29. 当使用Scarpy创建爬虫时，当爬取网易云音乐首页信息时，scrapy genspider的第二个参数直接输入就可以了。( )当使用Scarpy创建爬虫时，当爬取网易云音乐首页信息时，scrapy genspider的第二个参数直接输入就可以了。( )A.正确B.错误参考答案：B30. Python并导入uiautomator来操作设备的语句是from uiautomator import( )Python并导入uiautomator来操作设备的语句是from uiautomator import( )A.DeviceB.DevicesC.JobsD.Job参考答案：A31. Python中哪种容器一旦生成就不能修改?( )A.列表B.元组C.字典D.集合参考答案：B32. Python中相比于findall方法，search方法对于从超级大的文本里面只找第1个数据特别有用，可以大大提高程序的运行效率。( )T.对F.错参考答案：T33. Python中列表生成以后还可以往里面继续添加数据，也可以从里面删除数据。( )T.对F.错参考答案：T34. Charles能截获HTTP和HTTPS的数据包，如果网站使用websocket就可以截获。( )A.正确B.错误参考答案：B35. 当运行爬虫代码后，出现“Forbidden by robots.txt”提示后，说明当前时间段被爬取的网站无法访问。( )当运行爬虫代码后，出现“Forbidden by robots.txt”提示后，说明当前时间段被爬取的网站无法访问。( )A.正确B.错误参考答案：B36. HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )。A.403B.404C.500D.503参考答案：AB37. 在charles中使用CTRL+F搜索，JSON里面的中文是可以直接搜索到的。( )T.对F.错参考答案：F38. 当Charles抓包以后，在Mac OS系统下可以按Command+F组合键，在Windows系统下按Ctrl+F组合键打开Charles进行搜索。( )T.对F.错参考答案：T39. 在安装Scarpy的依赖库时，由于Visual C+ Build Tools的安装速度很慢，为了节省时间，可以和安装Twisted同时进行。( )T.对F.错参考答案：F40. 带上通过Chrome浏览器从评论页面复制而来的( )再发起请求，可以减少爬虫被网站封锁的概率A.CookieB.HtmlC.HeadersD.CSS参考答案：C41. HTTP常用状态码表明表明服务器本身发生错误的有( )HTTP常用状态码表明表明服务器本身发生错误的有( )A.403B.404C.500D.503参考答案：CD42. Python正则表达式模块的findall方法如果没有匹配到结果，则返回结果为( )A.空B.空列表C.空元组D.不返回参考答案：B43. 在Mac OS下安装MongoDB使用命令( )install mongodb。A.brewB.apt-getC.sudoD.apt参考答案：A44. 使用Charles，可以轻松截获手机App和微信小程序的数据包，从而开发出直接抓取App后台和小程序后台的爬虫。( )使用Charles，可以轻松截获手机App和微信小程序的数据包，从而开发出直接抓取App后台和小程序后台的爬虫。( )A.正确B.错误参考答案：A45. 如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好，于是买入该公司股票并赚了一笔钱。这是合法的。( )A.正确B.错误参考答案：A46. 在Linux中哪个命令是添加权限的( )A.chmodB.sudoC.cpD.mkdir参考答案：A47. Python中列表生成以后还可以往里面继续添加数据，也可以从里面删除数据。( )Python中列表生成以后还可以往里面继续添加数据，也可以从里面删除数据。( )A.正确B.错误参考答案：A48. 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致，因为这样才能隐藏好自己达到获取数据的目的。( )T.对F.错参考答案：F49. cookies在http请求中是明文传输的。( )cookies在http请求中是明文传输的。( )A.正确B.错误参考答案：A50. 下面Python代码输出为( )：def default_para_trap(para=, value=0):para.append(value)return下面Python代码输出为( )：def default_para_trap(para=, value=0):para.append(value)return paraprint(第一步:.format(default_para_trap(value=100)print(第二步:.format(default_para_trap(value=50)A.第一步:100第二步:100,50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案：A51. 在Linux的终端使用apt-get命令安装一系列依赖库时，其中如果存在有已经安装的库，会覆盖掉之前的库重新安装。( )在Linux的终端使用apt-get命令安装一系列依赖库时，其中如果存在有已经安装的库，会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案：B52. 为了保证数据插入效率，在内存允许的情况下，应该一次性把数据读入内存，尽量减少对MongoDB的读取操作。( )T.对F.错参考答案：T53. Python中条件语句在使用or连接的多个表达式中，只要有一个表达式为真，那么后面的表达式就不会执行。( )T.对F.错参考答案：T54. Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据，在Redis中把这个Key删除即可。( )A.正确B.错误参考答案：A55. Redis中的值可以支持( )。A.列表B.哈希C.集合D.有序集合参考答案：ABCD56. 使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )A.settextB.setC.set_textD.text参考答案：C57. 使用python定制mitmproxy，下面的语句请求的是( )。req.headersUser-Agent使用python定制mitmproxy，下面的语句请求的是( )。req.headersUser-AgentA.headersB.文本内容C.目标网站D.user-agent参考答案：D58. 通常使用( )工具来模拟浏览器进行爬虫请求A.SeleniumB.ChromeC.ChromeDriverD.WebDriver参考答案：A59. 在Scrapy的目录下，哪个文件负责存放爬虫的各种配置信息?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案：D60. 要使用tesseract来进行图像识别，需要安装两个第三方库( )要使用tesseract来进行图像识别，需要安装两个第三方库( )A.requestsB.beautifulsoupC.PillowD.pytesseract参考答案：CD

展开阅读全文

南开大学21秋《网络爬虫与信息提取》平时作业二参考答案96

最新文档