南开大学21春《网络爬虫与信息提取》在线作业三满分答案11

上传人:住在****她 文档编号:95672077 上传时间:2022-05-24 格式:DOCX 页数:14 大小:13.84KB
返回 下载 相关 举报
南开大学21春《网络爬虫与信息提取》在线作业三满分答案11_第1页
第1页 / 共14页
南开大学21春《网络爬虫与信息提取》在线作业三满分答案11_第2页
第2页 / 共14页
南开大学21春《网络爬虫与信息提取》在线作业三满分答案11_第3页
第3页 / 共14页
点击查看更多>>
资源描述
南开大学21春网络爬虫与信息提取在线作业三满分答案1. 当运行爬虫代码后,出现“Forbidden by robots.txt”提示后,说明当前时间段被爬取的网站无法访问。( )当运行爬虫代码后,出现“Forbidden by robots.txt”提示后,说明当前时间段被爬取的网站无法访问。( )A.正确B.错误参考答案:B2. 下面代码一共执行循环多少次( ): for i in range(10): print(i * i)A.9B.10C.11D.0参考答案:B3. 在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:D4. HTTP常用状态码表明请求被正常处理的有( )。A.200B.301C.302D.204参考答案:AD5. 通用网络爬虫通常采用串行工作方式。( )A.正确B.错误参考答案:B6. Python中若定义object=12345,则print(object:-1)输出( )Python中若定义object=12345,则print(object:-1)输出( )A.1B.5C.54321D.程序报错参考答案:C7. Python中Object=(1,2,3,4,5),则Objcet是( )。A.列表B.元组C.字典D.集合参考答案:B8. Python中哪种容器一旦生成就不能修改?( )A.列表B.元组C.字典D.集合参考答案:B9. Python中( )与元组由类似的数据读取方式。Python中( )与元组由类似的数据读取方式。A.字符串B.列表C.字典D.集合参考答案:AB10. 最常见的HTTP请求类型有( )最常见的HTTP请求类型有( )A.GETB.POSTC.SENDD.RECEIVE参考答案:AB11. 在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案:B12. 以下哪个HTML标签表示定义文档的主体( )以下哪个HTML标签表示定义文档的主体( )A.divB.bodyC.headD.footer参考答案:B13. 如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。( )A.正确B.错误参考答案:A14. Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。( )A.正确B.错误参考答案:B15. 爬虫中间件的作用对象是请求request和返回response。( )爬虫中间件的作用对象是请求request和返回response。( )A.正确B.错误参考答案:B16. Python中把集合转换为列表需要使用( )函数。A.setB.listC.convertD.change参考答案:B17. 在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案:B18. Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案:B19. 运行MongoDB以后,不会在终端打印任何Log。( )运行MongoDB以后,不会在终端打印任何Log。( )A.正确B.错误参考答案:B20. Selenium必须加载对应的webdriver才能模拟浏览器访问。( )Selenium必须加载对应的webdriver才能模拟浏览器访问。( )A.正确B.错误参考答案:A21. 为了在安卓手机上安装证书,需要先发送证书到手机里面。在Charles中选择“Help”-“SSL Proxying”-“Save Charles Root Certificate”命令,可以将Charles的证书保存到计算机桌面。( )T.对F.错参考答案:T22. 当需要把Python里面的数据发送给网页时,应先将其转换成( )。A.Json字符串B.GETC.POSTD.Request参考答案:A23. 以下哪个HTML标签表示定义 HTML 表格中的行( )以下哪个HTML标签表示定义 HTML 表格中的行( )A.B.C.D.参考答案:C24. 插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1。( )插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1。( )A.正确B.错误参考答案:B25. process_spider_output(response,result,output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案:B26. PyMongo删除操作有( )PyMongo删除操作有( )A.deleteB.delete_allC.delete_oneD.delete_many参考答案:CD27. 使用UI Automatorr操作实体键的命令为device.press.实体按键名称。( )使用UI Automatorr操作实体键的命令为device.press.实体按键名称。( )A.正确B.错误参考答案:A28. 引用中间件时后面的数字代表的是中间件的执行顺序,例如 &39;AdvanceSpider.middlewares.ProxyMiddleware&39;: 543中的543。( )T.对F.错参考答案:T29. 中间人爬虫就是利用了中间人攻击的原理来实现数据抓取的一种爬虫技术。( )A.正确B.错误参考答案:A30. Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )A.正确B.错误参考答案:B31. XPath提取出来的内容是一个SelectorList对象,它的第0个元素就是网页的源代码。( )T.对F.错参考答案:F32. Python中退出循环应用关键字( )。A.breakB.continueC.exitD.return参考答案:A33. 当需要把Python里面的数据发送给网页时,应先将其转换成( )当需要把Python里面的数据发送给网页时,应先将其转换成( )A.Json字符串B.GETC.POSTD.Request参考答案:A34. 带上通过Chrome浏览器从评论页面复制而来的( )再发起请求,可以减少爬虫被网站封锁的概率A.CookieB.HtmlC.HeadersD.CSS参考答案:C35. ( )是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具。( )是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具。A.ScrapydB.ScrapyDeployC.DeployD.Scrapy_Deploy参考答案:A36. requests中post请求方法的使用为requests.post(网址, data=data)中的data为( )。A.列表B.元组C.字典D.集合参考答案:C37. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案:A38. 在Scrapy的目录下,哪个文件负责存放爬虫文件?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:A39. 下面Python代码输出为:( )def default_para_without_trap(para=,value=0):if not para:par下面Python代码输出为:( )def default_para_without_trap(para=,value=0):if not para:para=para.append(value)return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100第二步:100,50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案:B40. PyMongo更新操作有( )。A.updateB.update_allC.update_oneD.update_many参考答案:CD41. Charles是一个收费软件,如果没有注册,安装以后的前30天可以正常使用。30天以后,虽然功能不会缩水,但每过30分钟Charles会自动关闭一次。( )A.正确B.错误参考答案:A42. 爬虫中间件的激活需要另外写一个文件来进行。( )A.正确B.错误参考答案:B43. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。( )A.正确B.错误参考答案:B44. 使用Selennium获取网页中元素的方法有( )。A.find_element_by_nameB.find_element_by_idC.find_elements_by_nameD.find_elements_by_id参考答案:ABCD45. 通用搜索引擎的目标是尽可能大的网络覆盖率,搜索引擎服务器资源与网络数据资源互相匹配。( )A.正确B.错误参考答案:B46. Charles和Chrome开发者工具相比,只是多了一个搜索功能。( )A.正确B.错误参考答案:B47. 通常使用( )工具来模拟浏览器进行爬虫请求A.SeleniumB.ChromeC.ChromeDriverD.WebDriver参考答案:A48. requests中post请求方法的第二个参数可以为( )requests中post请求方法的第二个参数可以为( )A.字典B.列表C.json数据D.字符串参考答案:AC49. 使用UI Automator使屏幕向上滚动一屏的操作是得到相应控件后使用命令scroll.vert.forward。( )A.正确B.错误参考答案:B50. 下列关于在IOS上配置charles的说法正确的是( )下列关于在IOS上配置charles的说法正确的是( )A.不同ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口B.手机和电脑需要在同一个局域网下C.HTTP代理可以使用“自动”选项D.安装好证书以后,打开iOS设备上的任何一个App,可以看到Charles中有数据包在流动参考答案:BD51. 开源库pytesseract的作用是将图像中文字转换为文本。( )A.正确B.错误参考答案:A52. Python中跳过本次循环应用关键字( )A.breakB.continueC.exitD.return参考答案:B53. Python中包含字典的列表页可以转换成JSON字符串。( )Python中包含字典的列表页可以转换成JSON字符串。( )A.正确B.错误参考答案:A54. HTTP常用状态码表明服务器正忙的是( )。A.500B.503C.403D.404参考答案:B55. Python中直接对浮点数进行计算有print(0.1+0.2),则结果为0.3。( )A.正确B.错误参考答案:B56. 如果把网络上发送与接收的数据包理解为快递包裹,那么在快递运输的过程中取出查看更改里面的内容,就是类似抓包的过程。( )T.对F.错参考答案:F57. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;,则Objcet.get(&39;boj_3&39;,&39;3&39;)是( )A.1B.2C.3D.无输出参考答案:C58. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务src/redis-server。( )T.对F.错参考答案:F59. Python中( )容器有推导式。Python中( )容器有推导式。A.列表B.元组C.字典D.集合参考答案:ACD60. MongoDB URI的格式为:mongodb:/服务器IP或域名:端口用户名:密码。( )MongoDB URI的格式为:mongodb:/服务器IP或域名:端口用户名:密码。( )A.正确B.错误参考答案:B
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 考试试卷


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!