南开大学21春《网络爬虫与信息提取》在线作业一满分答案26

上传人:住在****她 文档编号:97129940 上传时间:2022-05-26 格式:DOCX 页数:13 大小:13.70KB
返回 下载 相关 举报
南开大学21春《网络爬虫与信息提取》在线作业一满分答案26_第1页
第1页 / 共13页
南开大学21春《网络爬虫与信息提取》在线作业一满分答案26_第2页
第2页 / 共13页
南开大学21春《网络爬虫与信息提取》在线作业一满分答案26_第3页
第3页 / 共13页
点击查看更多>>
资源描述
南开大学21春网络爬虫与信息提取在线作业一满分答案1. 使用xpath方法的返回类型是( )。A.列表B.元组C.字典D.集合参考答案:A2. 以下表示请求资源找不到的HTTP状态码为( )以下表示请求资源找不到的HTTP状态码为( )A.200B.301C.404D.500参考答案:C3. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )T.对F.错参考答案:T4. 虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。( )T.对F.错参考答案:T5. 如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据( )来起诉使用爬虫的公司。A.服务器日志B.数据库日志记录C.程序日志记录D.服务器监控参考答案:ABCD6. PyMongo中的查找方法的参数是哪种数据结构( )A.列表B.元组C.字典D.集合参考答案:C7. Redis是遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库。( )T.对F.错参考答案:T8. MongoDB在频繁读写方面优于Redis。( )MongoDB在频繁读写方面优于Redis。( )A.正确B.错误参考答案:B9. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案:A10. Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为( )A.空B.空列表C.空元组D.不返回参考答案:B11. Redis中列表读取数据命令lrange中l代表left,即从左侧开始读取。( )Redis中列表读取数据命令lrange中l代表left,即从左侧开始读取。( )A.正确B.错误参考答案:B12. 当爬虫创建好了之后,可以使用scrapy( )命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案:D13. 爬虫的源代码通过公开不会对被爬虫网站造成影响。( )A.正确B.错误参考答案:B14. 使用异步加载技术的网站,被加载的内容可以在源代码中找到。( )T.对F.错参考答案:F15. Cookies一般包含在请求头Headers中。( )T.对F.错参考答案:T16. 一个可行的自动更换代理的爬虫系统,应该下列哪些功能?( )A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中B.在发现某个请求已经被设置过代理后,什么也不做,直接返回C.在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用D.周期性验证数据库中的无效代理,及时将其删除参考答案:ACD17. ( )是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具。A.ScrapydB.ScrapyDeployC.DeployD.Scrapy_Deploy参考答案:A18. XPath提取出来的内容是一个SelectorList对象,它的第0个元素就是网页的源代码。( )T.对F.错参考答案:F19. Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。( )A.正确B.错误参考答案:B20. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案:A21. 浏览器用来记录用户状态信息的数据叫( )浏览器用来记录用户状态信息的数据叫( )A.sessionB.cookiesC.moonpiesD.selenium参考答案:B22. 一般来说在页面都通过GET将用户登录信息传递到服务器端。( )A.正确B.错误参考答案:B23. Python中包含字典的列表页可以转换成JSON字符串。( )Python中包含字典的列表页可以转换成JSON字符串。( )A.正确B.错误参考答案:A24. Python中Object=(1,2,3,4,5),则Objcet是( )。A.列表B.元组C.字典D.集合参考答案:B25. 下列哪项不是HTTP的请求类型( )下列哪项不是HTTP的请求类型( )A.GETB.POSTC.PUTD.SET参考答案:D26. Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取。( )A.正确B.错误参考答案:B27. PyMongo中逻辑查询表示不等于的符号是( )。A.$neB.$ltC.$gtD.$eq参考答案:A28. Redis中使用lrange读取数据后数据也会删除。( )A.正确B.错误参考答案:B29. 参数headers=( ),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。A.HEADERB.HEADERSC.HEADD.BODY参考答案:B30. 如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了( )攻击。A.XSSB.DOSC.DDOSD.跨域参考答案:C31. 使用UI Automatorr点亮屏幕的操作是得到相应控件后使用命令( )。A.wakeupB.lightC.brightD.sleep参考答案:A32. Redis若要进入交互环境,需要打开终端输入( )。A.redis-cliB.redisC.redis-cmdD.redis-start参考答案:A33. Python中退出循环应用关键字( )。A.breakB.continueC.exitD.return参考答案:A34. 爬虫中间件的激活需要另外写一个文件来进行。( )A.正确B.错误参考答案:B35. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )A.正确B.错误参考答案:A36. 在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案:B37. 插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1。( )插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1。( )A.正确B.错误参考答案:B38. 对Charles设置代理时,Ip可以设置为127.0.0.1,端口为8888。( )T.对F.错参考答案:T39. MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为:handler.find( ).sort(&39;列名&39;, 1或-1或0)。( )MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为:handler.find( ).sort(列名, 1或-1或0)。( )A.正确B.错误参考答案:B40. chrome开发者工具没法对数据进行搜索。如果想知道一个特定的异步加载内容来自哪个请求,必须在“Network”选项卡里面一个请求一个请求地进行查看。( )T.对F.错参考答案:T41. Redis中的值可以支持( )Redis中的值可以支持( )A.列表B.哈希C.集合D.有序集合参考答案:ABCD42. 使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )A.settextB.setC.set_textD.text参考答案:C43. 某些网站在发起Ajax请求时会携带( )字符串用于身份验证某些网站在发起Ajax请求时会携带( )字符串用于身份验证A.TokenB.CookieC.ReqTimeD.sum参考答案:A44. Redis中查询列表长度命令llen中l代表left,即从左侧开始数。( )A.正确B.错误参考答案:B45. cookies在http请求中是明文传输的。( )T.对F.错参考答案:T46. Cookies一般包含在请求头Headers中。( )A.正确B.错误参考答案:A47. PyMongo中逻辑查询表示大于等于的符号是( )PyMongo中逻辑查询表示大于等于的符号是( )A.$gtB.$ltC.$gteD.$lte参考答案:C48. Python中Object=obj_1:1,obj_2:2,则Objcet.get(boj_3,3)是( )。A.1B.2C.3D.无输出参考答案:C49. 采用以下( )技术可以实现异步加载A.HTMLB.AJAXC.CSSD.HTTP参考答案:B50. scrapy与selenium结合可以实现直接处理需要异步加载的页面。( )T.对F.错参考答案:T51. 爬虫中间件的作用对象是请求request和返回response。( )爬虫中间件的作用对象是请求request和返回response。( )A.正确B.错误参考答案:B52. 要使用Python来操作UI Automator从而控制手机,需要安装一个第三方库( )A.uiautomatorB.automatorC.ui_automatorD.pyautomator参考答案:A53. PyMongo中逻辑查询表示大于的符号是( )PyMongo中逻辑查询表示大于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:A54. 要使用tesseract来进行图像识别,需要安装两个第三方库( )要使用tesseract来进行图像识别,需要安装两个第三方库( )A.requestsB.beautifulsoupC.PillowD.pytesseract参考答案:CD55. 下面Python代码输出为:( )def default_para_without_trap(para=,value=0):if not para:par下面Python代码输出为:( )def default_para_without_trap(para=,value=0):if not para:para=para.append(value)return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100第二步:100,50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案:B56. 如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个( )。A.列表B.元组C.字典D.集合参考答案:C57. mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本。( )A.正确B.错误参考答案:A58. process_spider_output(response,result,output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案:B59. PyMongo更新操作有( )PyMongo更新操作有( )A.updateB.update_allC.update_oneD.update_many参考答案:CD60. Python中直接对浮点数进行计算有print(0.1+0.2),则结果为0.3。( )T.对F.错参考答案:F
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 考试试卷


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!