南开大学21秋《网络爬虫与信息提取》在线作业二满分答案52

上传人:住在山****ck 文档编号:95575119 上传时间:2022-05-24 格式:DOCX 页数:13 大小:13.58KB
返回 下载 相关 举报
南开大学21秋《网络爬虫与信息提取》在线作业二满分答案52_第1页
第1页 / 共13页
南开大学21秋《网络爬虫与信息提取》在线作业二满分答案52_第2页
第2页 / 共13页
南开大学21秋《网络爬虫与信息提取》在线作业二满分答案52_第3页
第3页 / 共13页
点击查看更多>>
资源描述
南开大学21秋网络爬虫与信息提取在线作业二满分答案1. 开源库pytesseract的作用是将图像中文字转换为文本。( )A.正确B.错误参考答案:A2. 在中间人攻击中,攻击者可以拦截通信双方的通话,并插入新的内容或者修改原有内容。( )在中间人攻击中,攻击者可以拦截通信双方的通话,并插入新的内容或者修改原有内容。( )A.正确B.错误参考答案:A3. Selenium必须加载对应的webdriver才能模拟浏览器访问。( )Selenium必须加载对应的webdriver才能模拟浏览器访问。( )A.正确B.错误参考答案:A4. 要使用tesseract来进行图像识别,需要安装两个第三方库( )要使用tesseract来进行图像识别,需要安装两个第三方库( )A.requestsB.beautifulsoupC.PillowD.pytesseract参考答案:CD5. 运行MongoDB以后,不会在终端打印任何Log。( )运行MongoDB以后,不会在终端打印任何Log。( )A.正确B.错误参考答案:B6. Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。( )A.正确B.错误参考答案:A7. RoboMongo是MongoDB的管理软件。( )T.对F.错参考答案:T8. HTTP常用状态码表明服务器正忙的是( )。A.500B.503C.403D.404参考答案:B9. 在安装Scarpy的依赖库时,由于Visual C+ Build Tools的安装速度很慢,为了节省时间,可以和安装Twisted同时进行。( )T.对F.错参考答案:F10. HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )。A.403B.404C.500D.503参考答案:AB11. 用Xpathh获取第二个div标签应该是( )用Xpathh获取第二个div标签应该是( )A.dvi(1)B.div(2)C.div1D.div2参考答案:D12. 当爬虫创建好了之后,可以使用scrapy( )命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案:D13. chrome开发者工具没法对数据进行搜索。如果想知道一个特定的异步加载内容来自哪个请求,必须在“Network”选项卡里面一个请求一个请求地进行查看。( )T.对F.错参考答案:T14. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )A.正确B.错误参考答案:A15. 使用异步加载技术的网站,被加载的内容可以在源代码中找到。( )T.对F.错参考答案:F16. 下列哪项不是HTTP的请求类型( )下列哪项不是HTTP的请求类型( )A.GETB.POSTC.PUTD.SET参考答案:D17. 引用中间件时后面的数字代表的是中间件的执行顺序,例如 AdvanceSpider.middlewares.ProxyMiddleware:543 中的543。( )A.正确B.错误参考答案:A18. MongoDB是一个关系数据库产品。( )MongoDB是一个关系数据库产品。( )A.正确B.错误参考答案:B19. Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。( )A.正确B.错误参考答案:B20. Redis是( )数据库。A.关系数据库B.键值数据库C.列存数据库D.图数据库参考答案:B21. Charles是一个收费软件,如果没有注册,安装以后的前30天可以正常使用。30天以后,虽然功能不会缩水,但每过30分钟Charles会自动关闭一次。( )T.对F.错参考答案:T22. 以下哪个HTML标签表示定义 HTML 表格中的行( )以下哪个HTML标签表示定义 HTML 表格中的行( )A.B.C.D.参考答案:C23. Python中函数返回值的个数可以是多个。( )A.正确B.错误参考答案:A24. 通常使用( )工具来模拟浏览器进行爬虫请求A.SeleniumB.ChromeC.ChromeDriverD.WebDriver参考答案:A25. Python中线程池map( )方法第二个参数是( )Python中线程池map( )方法第二个参数是( )A.列表B.元组C.字典D.集合参考答案:A26. MongoDB是一个关系数据库产品。( )A.正确B.错误参考答案:B27. 在Mac OS下安装MongoDB使用命令( )install mongodb。A.brewB.apt-getC.sudoD.apt参考答案:A28. Python中把列表转换为集合需要使用( )函数Python中把列表转换为集合需要使用( )函数A.setB.listC.convertD.change参考答案:A29. 网络爬虫的用途有( )。A.收集数据B.尽职调查C.提高流量D.攻击服务器参考答案:ABC30. PyMongo中逻辑查询表示小于等于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:C31. PyMongo中逻辑查询表示不等于的符号是( )。A.$neB.$ltC.$gtD.$eq参考答案:A32. Python中( )容器有推导式Python中( )容器有推导式A.列表B.元组C.字典D.集合参考答案:ACD33. 浏览器用来记录用户状态信息的数据叫( )浏览器用来记录用户状态信息的数据叫( )A.sessionB.cookiesC.moonpiesD.selenium参考答案:B34. Redis中的值可以支持( )Redis中的值可以支持( )A.列表B.哈希C.集合D.有序集合参考答案:ABCD35. 下面Python代码输出为( ): def default_para_without_trap(para=, value=0): if not para:下面Python代码输出为( ): def default_para_without_trap(para=, value=0): if not para: para = para.append(value) return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100 第二步:100,50B.第一步:100 第二步:50C.第一步:100 第二步:D.第一步:100 第二步:100参考答案:B36. 在请求头中设置User-Agent即可正常请求网站。( )在请求头中设置User-Agent即可正常请求网站。( )A.正确B.错误参考答案:B37. Python中直接对浮点数进行计算有print(0.1+0.2),则结果为0.3。( )T.对F.错参考答案:F38. MongoDB中获取名字为db的库的语句为( )A.client.dbB.client(db)C.clientdbD.clientdb参考答案:AC39. Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。( )A.正确B.错误参考答案:A40. process_spider_input(response, spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )T.对F.错参考答案:F41. 数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )A.正确B.错误参考答案:A42. BS4可以用来从( )中提取数据A.HTMLB.XMLC.数据库D.JSON参考答案:AB43. Python中( )与元组由类似的数据读取方式。A.字符串B.列表C.字典D.集合参考答案:AB44. 自己能查看的数据,允许擅自拿给第三方查看。( )T.对F.错参考答案:F45. 当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入就可以了。( )T.对F.错参考答案:F46. 以下哪个HTML标签表示定义文档的主体( )以下哪个HTML标签表示定义文档的主体( )A.divB.bodyC.headD.footer参考答案:B47. Python中Object=(1,2,3,4,5),则Objcet是( )。A.列表B.元组C.字典D.集合参考答案:B48. 为了在安卓手机上安装证书,需要先发送证书到手机里面。在Charles中选择“Help”-“SSL Proxying”-“Save Charles Root Certificate”命令,可以将Charles的证书保存到计算机桌面。( )T.对F.错参考答案:T49. 微信小程序的反爬虫能力要比网页的高很多。( )微信小程序的反爬虫能力要比网页的高很多。( )A.正确B.错误参考答案:B50. 爬虫中间件的作用对象是请求request和返回response。( )爬虫中间件的作用对象是请求request和返回response。( )A.正确B.错误参考答案:B51. MongoDB中获取名字为set1的集合的语句为( )MongoDB中获取名字为set1的集合的语句为( )A.database.set1B.database(set1)C.databaseset1D.databaseset1参考答案:AC52. “curl http:/爬虫服务器IP地址:6800/cancel.json-d project=工程名-d job=爬虫JOBID”该命令的作用是启动爬虫。( )A.正确B.错误参考答案:B53. 某些网站在发起Ajax请求时会携带( )字符串用于身份验证某些网站在发起Ajax请求时会携带( )字符串用于身份验证A.TokenB.CookieC.ReqTimeD.sum参考答案:A54. PyMongo中逻辑查询表示不等于的符号是( )PyMongo中逻辑查询表示不等于的符号是( )A.$gtB.$ltC.$eqD.$ne参考答案:C55. 为了保证数据插入效率,在内存允许的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。( )T.对F.错参考答案:T56. charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )A.正确B.错误参考答案:A57. 在Scrapy的目录下,哪个文件负责存放爬虫文件?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:A58. HTTP常用状态码表明请求被正常处理的有( )。A.200B.301C.302D.204参考答案:AD59. process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案:B60. MongoDB在频繁读写方面优于Redis。( )MongoDB在频繁读写方面优于Redis。( )A.正确B.错误参考答案:B
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 考试试卷


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!