南开大学21秋《网络爬虫与信息提取》复习考核试题库答案参考套卷24

资源描述

南开大学21秋网络爬虫与信息提取复习考核试题库答案参考1. 通常使用( )工具来模拟浏览器进行爬虫请求通常使用( )工具来模拟浏览器进行爬虫请求A.SeleniumB.ChromeC.ChromeDriverD.WebDriver参考答案：A2. ( )是Scrapy官方开发的，用来部署、运行和管理Scrapy爬虫的工具。( )是Scrapy官方开发的，用来部署、运行和管理Scrapy爬虫的工具。A.ScrapydB.ScrapyDeployC.DeployD.Scrapy_Deploy参考答案：A3. 如果使用Python的数据结构来做类比的话，MongoDB中库相当于一个大字典，大字典里面的每一个键值对都对应了一个集合，Key为集合的名字，Value就是一个( )。A.字典B.集合的名字C.集合D.文档参考答案：C4. 如果使用Python的数据结构来做类比的话，MongoDB中集合相当于一个( )如果使用Python的数据结构来做类比的话，MongoDB中集合相当于一个( )A.列表B.元组C.字典D.集合参考答案：A5. Robo 3T与RoboMongo是完全不一样的软件。( )Robo 3T与RoboMongo是完全不一样的软件。( )A.正确B.错误参考答案：B6. XPath提取出来的内容是一个SelectorList对象，它的第0个元素就是网页的源代码。( )T.对F.错参考答案：F7. Python可以将列表或字典转换成Json字符串。( )T.对F.错参考答案：T8. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案：A9. 当爬虫创建好了之后，可以使用scrapy( )命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案：D10. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;，则Objcet.get(&39;boj_1&39;,&39;3&39;)是( )Python中Object=obj_1:1,obj_2:2，则Objcet.get(boj_1,3)是( )A.1B.2C.3D.无输出参考答案：A11. PyMongo删除操作有( )PyMongo删除操作有( )A.deleteB.delete_allC.delete_oneD.delete_many参考答案：CD12. Python中条件语句在使用or连接的多个表达式中，只要有一个表达式为真，那么后面的表达式就不会执行。( )T.对F.错参考答案：T13. mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本。( )A.正确B.错误参考答案：A14. MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为：handler.find( ).sort(&39;列名&39;, 1或-1或0)。( )MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为：handler.find( ).sort(列名, 1或-1或0)。( )A.正确B.错误参考答案：B15. 网站返回的Headers中经常有Cookies，可以用mitmdump脚本使用print函数把Cookies打印出来。( )网站返回的Headers中经常有Cookies，可以用mitmdump脚本使用print函数把Cookies打印出来。( )A.正确B.错误参考答案：B16. 最常见的HTTP请求类型有( )最常见的HTTP请求类型有( )A.GETB.POSTC.SENDD.RECEIVE参考答案：AB17. HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源。( )A.正确B.错误参考答案：B18. 下面Python代码输出为：( )def default_para_without_trap(para=，value=0):if not para:par下面Python代码输出为：( )def default_para_without_trap(para=，value=0):if not para:para=para.append(value)return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100第二步:100，50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案：B19. 通用搜索引擎的目标是尽可能大的网络覆盖率，搜索引擎服务器资源与网络数据资源互相匹配。( )A.正确B.错误参考答案：B20. Python中字符串切片以后的结果还是字符串。( )Python中字符串切片以后的结果还是字符串。( )A.正确B.错误参考答案：A21. Redis中往集合中读数据，使用关键字( )A.popB.spopC.lpopD.range参考答案：B22. HTTP常用状态码表明请求被正常处理的有( )。A.200B.301C.302D.204参考答案：AD23. Python中有哪些实现多线程方法( )Python中有哪些实现多线程方法( )A.multiprocess.dummyB.threading.ThreadC.processD.PyMongoDB参考答案：AB24. 对Charles设置代理时，Ip可以设置为127.0.0.1，端口为8888。( )T.对F.错参考答案：T25. 在有spiders何setting.py这两项的情况下，可以写出爬虫并且保存数据，items.py和pipelines.py文件是原作者的失误而导致的冗余文件。( )T.对F.错参考答案：F26. Python正则表达式模块的findall方法如果没有匹配到结果，则返回结果为( )Python正则表达式模块的findall方法如果没有匹配到结果，则返回结果为( )A.空B.空列表C.空元组D.不返回参考答案：B27. 如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好。于是将数据或者分析结果出售给某基金公司，从而获得销售收入。这是合法的。( )A.正确B.错误参考答案：A28. 开源库pytesseract的作用是将图像中文字转换为文本。( )A.正确B.错误参考答案：A29. Redis中使用lrange读取数据后数据也会删除。( )A.正确B.错误参考答案：B30. BS4可以用来从( )中提取数据A.HTMLB.XMLC.数据库D.JSON参考答案：AB31. Python中把集合转换为列表需要使用( )函数。A.setB.listC.convertD.change参考答案：B32. 使用Nginx反向代理到Scrapyd以后，Scrapyd本身只需要开通内网访问即可，不许经过输入密码。( )A.正确B.错误参考答案：A33. 下面关于Charles使用说法错误的是( )A.在数据包非常多的情况下，使用Charles的过滤功能来对数据包进行过滤从而减少干扰B.通过单击图中方框框住的各个选项卡，可以非常直观地观察到请求和返回的各种信息C.如果浏览器是Chrome，在没有安装第三方代理插件的情况下，Chrome的HTTP流量都会经过CharlesD.Charles无法支持计算机上除了浏览器之外的其他软件参考答案：D34. 使用异步加载技术的网站，被加载的内容可以在源代码中找到。( )T.对F.错参考答案：F35. 查看网站请求一般在Chrome开发者模式下的( )选项卡中查看查看网站请求一般在Chrome开发者模式下的( )选项卡中查看A.ConsoleB.SourcesC.NetworkD.Perance参考答案：C36. process_spider_input(response，spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )A.正确B.错误参考答案：B37. Redis中往集合中添加数据，使用关键字( )Redis中往集合中添加数据，使用关键字( )A.saddB.addC.appendD.sappend参考答案：A38. UI Automator Viewer与Python uiautomator可以同时使用。( )A.正确B.错误参考答案：B39. MongoDB是一个关系数据库产品。( )MongoDB是一个关系数据库产品。( )A.正确B.错误参考答案：B40. Python中使用下面代码打开文件也需要对文件进行close关闭操作 with open(文件路径，文件操作方式，encoding=utf-8)as f。( )A.正确B.错误参考答案：B41. 当使用Scarpy创建爬虫时，当爬取网易云音乐首页信息时，scrapy genspider的第二个参数直接输入就可以了。( )当使用Scarpy创建爬虫时，当爬取网易云音乐首页信息时，scrapy genspider的第二个参数直接输入就可以了。( )A.正确B.错误参考答案：B42. 通常使用( )工具来模拟浏览器进行爬虫请求A.SeleniumB.ChromeC.ChromeDriverD.WebDriver参考答案：A43. Python中把列表转换为集合需要使用( )函数Python中把列表转换为集合需要使用( )函数A.setB.listC.convertD.change参考答案：A44. 要实现Charles对Android抓包，其过程比iOS稍微复杂一点。这是因为不同的Andorid设备，安装证书的入口可能不一样。( )要实现Charles对Android抓包，其过程比iOS稍微复杂一点。这是因为不同的Andorid设备，安装证书的入口可能不一样。( )A.正确B.错误参考答案：A45. 使用UI Automatorr让屏幕向右滚动的操作是得到相应控件后使用命令scroll.horiz.forward( )。( )T.对F.错参考答案：F46. Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )A.正确B.错误参考答案：B47. 用Xpathh获取第二个div标签应该是( )用Xpathh获取第二个div标签应该是( )A.dvi(1)B.div(2)C.div1D.div2参考答案：D48. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。( )A.正确B.错误参考答案：B49. Python中通过Key来从字典object中读取对应的Value的方法有( )Python中通过Key来从字典object中读取对应的Value的方法有( )A.objectkeyB.object.get(key)C.object.pop(key)D.object.pop( )参考答案：AB50. 一个可行的自动更换代理的爬虫系统，应该下列哪些功能?( )A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证，将可以使用的代理IP保存到数据库中B.在发现某个请求已经被设置过代理后，什么也不做，直接返回C.在ProxyMiddlerware的process_request中，每次从数据库里面随机选择一条代理IP地址使用D.周期性验证数据库中的无效代理，及时将其删除参考答案：ACD

展开阅读全文

南开大学21秋《网络爬虫与信息提取》复习考核试题库答案参考套卷24

最新文档