南开大学22春《网络爬虫与信息提取》离线作业1答案参考100

资源描述

南开大学22春网络爬虫与信息提取离线作业1答案参考1. 下面关于Charles使用说法错误的是( )A.在数据包非常多的情况下，使用Charles的过滤功能来对数据包进行过滤从而减少干扰B.通过单击图中方框框住的各个选项卡，可以非常直观地观察到请求和返回的各种信息C.如果浏览器是Chrome，在没有安装第三方代理插件的情况下，Chrome的HTTP流量都会经过CharlesD.Charles无法支持计算机上除了浏览器之外的其他软件参考答案：D2. Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )A.正确B.错误参考答案：B3. HTTP常用状态码表明请求被正常处理的有( )。A.200B.301C.302D.204参考答案：AD4. 使用Nginx反向代理到Scrapyd以后，Scrapyd本身只需要开通内网访问即可，不许经过输入密码。( )A.正确B.错误参考答案：A5. PyMongoDB中排序方法sort第二个参数1表示降序。( )T.对F.错参考答案：F6. 在Scrapy的目录下，哪个文件负责定义需要爬取的数据?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案：B7. 通用搜索引擎的目标是尽可能大的网络覆盖率，搜索引擎服务器资源与网络数据资源互相匹配。( )A.正确B.错误参考答案：B8. Python中通过Key来从字典object中读取对应的Value的方法有( )Python中通过Key来从字典object中读取对应的Value的方法有( )A.objectkeyB.object.get(key)C.object.pop(key)D.object.pop( )参考答案：AB9. Python中若定义object=12345，则print(object:-1)输出( )Python中若定义object=12345，则print(object:-1)输出( )A.1B.5C.54321D.程序报错参考答案：C10. cookies在http请求中是明文传输的。( )cookies在http请求中是明文传输的。( )A.正确B.错误参考答案：A11. Python操作CSV文件可通过( )容器的方式操作单元格。A.列表B.元组C.字典D.集合参考答案：C12. 爬虫中间件的激活需要另外写一个文件来进行。( )A.正确B.错误参考答案：B13. 爬虫登录需要识别验证码可以先把程序关闭，肉眼识别以后再重新运行。( )A.正确B.错误参考答案：B14. Python中Object=obj_1:1，obj_2:2，则Objcet.get(boj_3，3)是( )。A.1B.2C.3D.无输出参考答案：C15. 当Charles抓包以后，在Mac OS系统下可以按Command+F组合键，在Windows系统下按Ctrl+F组合键打开Charles进行搜索。( )T.对F.错参考答案：T16. PyMongo中逻辑查询表示大于的符号是( )PyMongo中逻辑查询表示大于的符号是( )A.$gtB.$ltC.$gte$lte参考答案：A17. 使用UI Automatorr让屏幕向右滚动的操作是得到相应控件后使用命令scroll.horiz.forward( )。( )T.对F.错参考答案：F18. 如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好，于是买入该公司股票并赚了一笔钱。这是合法的。( )如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好，于是买入该公司股票并赚了一笔钱。这是合法的。( )A.正确B.错误参考答案：A19. 数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )T.对F.错参考答案：T20. Python中字符串切片以后的结果还是字符串。( )Python中字符串切片以后的结果还是字符串。( )A.正确B.错误参考答案：A21. Charles能截获HTTP和HTTPS的数据包，如果网站使用websocket就可以截获。( )A.正确B.错误参考答案：B22. 使用BeautifulSoup对象后可以使用( )来查找内容A.find_allB.findC.searchD.search_all参考答案：AB23. 使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )A.settextB.setC.set_textD.text参考答案：C24. XPath提取出来的内容是一个SelectorList对象，它的第0个元素就是网页的源代码。( )T.对F.错参考答案：F25. Python中线程池map( )方法第二个参数是( )Python中线程池map( )方法第二个参数是( )A.列表B.元组C.字典D.集合参考答案：A26. UI Automator Viewer与Python uiautomator可以同时使用。( )A.正确B.错误参考答案：B27. Python中定义函数关键字为( )。A.defB.defineC.funcD.function参考答案：A28. 使用UI Automatorr点亮屏幕的操作是得到相应控件后使用命令( )。A.wakeupB.lightC.brightD.sleep参考答案：A29. 使用UI Automatorr操作实体键的命令为device.press.实体按键名称。( )使用UI Automatorr操作实体键的命令为device.press.实体按键名称。( )A.正确B.错误参考答案：A30. Redis若要进入交互环境，需要打开终端输入( )。A.redis-cliB.redisC.redis-cmdD.redis-start参考答案：A31. Redis中列表读取数据命令lrange中l代表left，即从左侧开始读取。( )Redis中列表读取数据命令lrange中l代表left，即从左侧开始读取。( )A.正确B.错误参考答案：B32. Redis中往集合中添加数据，使用关键字( )Redis中往集合中添加数据，使用关键字( )A.saddB.addC.appendD.sappend参考答案：A33. 当运行爬虫代码后，出现“Forbidden by robots.txt”提示后，说明当前时间段被爬取的网站无法访问。( )当运行爬虫代码后，出现“Forbidden by robots.txt”提示后，说明当前时间段被爬取的网站无法访问。( )A.正确B.错误参考答案：B34. process_spider_output(response， result， output)是在下载器中间件处理完成后，马上要进入某个回调函数parse_xxx( )前调用。( )process_spider_output(response， result， output)是在下载器中间件处理完成后，马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案：B35. Python中条件语句在使用or连接的多个表达式中，只要有一个表达式为真，那么后面的表达式就不会执行。( )T.对F.错参考答案：T36. 当需要把Python里面的数据发送给网页时，应先将其转换成( )。A.Json字符串B.GETC.POSTD.Request参考答案：A37. 下面Python代码输出为( ): def default_para_without_trap(para=, value=0): if not para:下面Python代码输出为( ): def default_para_without_trap(para=, value=0): if not para: para = para.append(value) return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100 第二步:100,50B.第一步:100 第二步:50C.第一步:100 第二步:D.第一步:100 第二步:100参考答案：B38. Redis插入数据都是插入到列表右侧，因此读取数据也是从右侧读取。( )A.正确B.错误参考答案：B39. charles配置中，安装完成证书以后，在设置中打开“关于本机”，找到最下面的“证书信任设置”，并在里面启动对Charles证书的完全信任。( )T.对F.错参考答案：T40. 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致，因为这样才能隐藏好自己达到获取数据的目的。( )T.对F.错参考答案：F41. 为了保证数据插入效率，在内存允许的情况下，应该一次性把数据读入内存，尽量减少对MongoDB的读取操作。( )T.对F.错参考答案：T42. PyMongo更新操作有( )PyMongo更新操作有( )A.updateB.update_allC.update_oneD.update_many参考答案：CD43. 如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好。于是将数据或者分析结果出售给某基金公司，从而获得销售收入。这是合法的。( )A.正确B.错误参考答案：A44. BS4可以用来从( )中提取数据。BS4可以用来从( )中提取数据。A.HTMLB.XMLC.数据库D.JSON参考答案：AB45. Scrapyd可以同时管理多个Scrapy工程里面的多个爬虫的多个版本。( )T.对F.错参考答案：T46. HTTP状态码302表示资源永久重定向。( )T.对F.错参考答案：F47. 使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令( )。A.swipeB.moveC.scrollD.fly参考答案：A48. Python中使用下面代码打开文件也需要对文件进行close关闭操作 with open(文件路径，文件操作方式，encoding=utf-8)as f。( )A.正确B.错误参考答案：B49. chrome开发者工具没法对数据进行搜索。如果想知道一个特定的异步加载内容来自哪个请求，必须在“Network”选项卡里面一个请求一个请求地进行查看。( )T.对F.错参考答案：T50. 查看网站请求一般在Chrome开发者模式下的( )选项卡中查看查看网站请求一般在Chrome开发者模式下的( )选项卡中查看A.ConsoleB.SourcesC.NetworkD.Perance参考答案：C

展开阅读全文

南开大学22春《网络爬虫与信息提取》离线作业1答案参考100

最新文档