南开大学2021年12月《网络爬虫与信息提取》期末考核试题库及答案参考19

上传人:住在山****ck 文档编号:85088450 上传时间:2022-05-05 格式:DOCX 页数:13 大小:14.18KB
返回 下载 相关 举报
南开大学2021年12月《网络爬虫与信息提取》期末考核试题库及答案参考19_第1页
第1页 / 共13页
南开大学2021年12月《网络爬虫与信息提取》期末考核试题库及答案参考19_第2页
第2页 / 共13页
南开大学2021年12月《网络爬虫与信息提取》期末考核试题库及答案参考19_第3页
第3页 / 共13页
点击查看更多>>
资源描述
南开大学2021年12月网络爬虫与信息提取期末考核试题库及答案参考1. 当运行爬虫代码后,出现“Forbidden by robots.txt”提示后,说明当前时间段被爬取的网站无法访问。( )当运行爬虫代码后,出现“Forbidden by robots.txt”提示后,说明当前时间段被爬取的网站无法访问。( )A.正确B.错误参考答案:B2. 通用网络爬虫通常采用串行工作方式。( )A.正确B.错误参考答案:B3. PyMongo中逻辑查询表示大于的符号是( )PyMongo中逻辑查询表示大于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:A4. process_spider_input(response, spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )T.对F.错参考答案:F5. 为了保证数据插入效率,在内存允许的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。( )T.对F.错参考答案:T6. Python中有哪些实现多线程方法?( )A.multiprocess.dummyB.threading.ThreadC.processD.PyMongoDB参考答案:AB7. Python中若定义object=1, 2, 3, 4, 5,则print(object:3)输出( )Python中若定义object=1, 2, 3, 4, 5,则print(object:3)输出( )A.12B.123C.23D.234参考答案:B8. 请问按哪个键可以打开Chrome自带的开发者工具( )请问按哪个键可以打开Chrome自带的开发者工具( )A.F10B.F1C.F11D.F12参考答案:D9. 爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行。( )A.正确B.错误参考答案:B10. 服务器端记录信息确定用户身份的数据是( )。A.sessionB.cookiesC.moonpiesD.localstorage参考答案:A11. 下列关于mitmproxy的使用说法正确的是( )A.mitmproxy的端口为8080端口B.设置好代理以后,在手机上打开一个App或者打开一个网页,可以看到mitmproxy上面有数据滚动C.用鼠标在终端窗口上单击其中的任意一个请求,可以显示这个数据包的详情信息D.如果要访问HTTPS网站,还需要安装mitmproxy的证书参考答案:ABCD12. Python可以将列表或字典转换成Json字符串。( )T.对F.错参考答案:T13. 以下哪个命令是linux下解压缩命令?( )A.curlB.tar-zxvfC.mkdirD.cp参考答案:B14. 要使用Python来操作UI Automator从而控制手机,需要安装一个第三方库( )A.uiautomatorB.automatorC.ui_automatorD.pyautomator参考答案:A15. 以下哪个HTML标签表示定义文档的主体( )以下哪个HTML标签表示定义文档的主体( )A.divB.bodyC.headD.footer参考答案:B16. MongoDB中获取名字为set1的集合的语句为( )MongoDB中获取名字为set1的集合的语句为( )A.database.set1B.database(set1)C.databaseset1D.databaseset1参考答案:AC17. 下面关于Charles使用说法错误的是( )A.在数据包非常多的情况下,使用Charles的过滤功能来对数据包进行过滤从而减少干扰B.通过单击图中方框框住的各个选项卡,可以非常直观地观察到请求和返回的各种信息C.如果浏览器是Chrome,在没有安装第三方代理插件的情况下,Chrome的HTTP流量都会经过CharlesD.Charles无法支持计算机上除了浏览器之外的其他软件参考答案:D18. 使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令( )。A.swipeB.moveC.scrollD.fly参考答案:A19. Python中直接对浮点数进行计算有print(0.1+0.2),则结果为0.3。( )T.对F.错参考答案:F20. 在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:D21. 在Windows中下若要运行Redis可以运行redis-server/usr/local/etc/redis.conf。( )T.对F.错参考答案:F22. 使用UI Automatorr点亮屏幕的操作是得到相应控件后使用命令( )。A.wakeupB.lightC.brightD.sleep参考答案:A23. 在Linux中哪个命令是添加权限的( )A.chmodB.sudoC.cpD.mkdir参考答案:A24. 某些网站在发起Ajax请求时会携带( )字符串用于身份验证某些网站在发起Ajax请求时会携带( )字符串用于身份验证A.TokenB.CookieC.ReqTimeD.sum参考答案:A25. 在Mac OS下安装MongoDB使用命令( )install mongodb。A.brewB.apt-getC.sudoD.apt参考答案:A26. 使用异步加载技术的网站,被加载的内容可以在源代码中找到。( )T.对F.错参考答案:F27. PyMongo更新操作有( )。A.updateB.update_allC.update_oneD.update_many参考答案:CD28. 在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。( )T.对F.错参考答案:F29. 开源库pytesseract的作用是将图像中文字转换为文本。( )A.正确B.错误参考答案:A30. PyMongo更新操作有( )PyMongo更新操作有( )A.updateB.update_allC.update_oneD.update_many参考答案:CD31. 如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成( )。A.非法侵入计算机系统罪B.非法获取计算机信息系统数据罪C.非法获取计算机数据罪D.非法获取系统罪参考答案:AB32. 通常使用( )工具来模拟浏览器进行爬虫请求A.SeleniumB.ChromeC.ChromeDriverD.WebDriver参考答案:A33. Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。( )A.正确B.错误参考答案:A34. 虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。( )T.对F.错参考答案:T35. scrapy与selenium结合可以实现直接处理需要异步加载的页面。( )T.对F.错参考答案:T36. MongoDB 是一个基于分布式文件存储的数据库,速度远快过Redis。( )A.对B.错参考答案:B37. 可以通过( )绕过网站登录。A.sessionB.cookiesC.moonpiesD.localstorage参考答案:B38. 插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1。( )T.对F.错参考答案:F39. HTTP常用状态码表明请求被正常处理的有( )。A.200B.301C.302D.204参考答案:AD40. Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为( )A.空B.空列表C.空元组D.不返回参考答案:B41. Python并导入uiautomator来操作设备的语句是from uiautomator import( )Python并导入uiautomator来操作设备的语句是from uiautomator import( )A.DeviceB.DevicesC.JobsD.Job参考答案:A42. 爬虫中间件的作用对象是请求request和返回response。( )爬虫中间件的作用对象是请求request和返回response。( )A.正确B.错误参考答案:B43. 以下哪些方法属于Python写CSV文件的方法?( )A.writeheadersB.writeheaderC.writerrowsD.writerow参考答案:ACD44. 带上通过Chrome浏览器从评论页面复制而来的( )再发起请求,可以减少爬虫被网站封锁的概率A.CookieB.HtmlC.HeadersD.CSS参考答案:C45. 下列关于在IOS上配置charles的说法正确的是( )。A.不同ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口B.手机和电脑需要在同一个局域网下C.HTTP代理可以使用“自动”选项D.安装好证书以后,打开iOS设备上的任何一个App,可以看到Charles中有数据包在流动参考答案:BD46. 下列哪项不是HTTP的请求类型( )下列哪项不是HTTP的请求类型( )A.GETB.POSTC.PUTD.SET参考答案:D47. 以下HTTP状态码表示服务器没有正常返回结果的是( )。A.200B.301C.404D.500参考答案:BCD48. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案:A49. charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )T.对F.错参考答案:T50. 如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是买入该公司股票并赚了一笔钱。这是合法的。( )如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是买入该公司股票并赚了一笔钱。这是合法的。( )A.正确B.错误参考答案:A51. 如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据( )来起诉使用爬虫的公司。A.服务器日志B.数据库日志记录C.程序日志记录D.服务器监控参考答案:ABCD52. 在请求头中设置User-Agent即可正常请求网站。( )在请求头中设置User-Agent即可正常请求网站。( )A.正确B.错误参考答案:B53. 网络爬虫的用途有( )。A.收集数据B.尽职调查C.提高流量D.攻击服务器参考答案:ABC54. HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源。( )A.正确B.错误参考答案:B55. 对Charles设置代理时,Ip可以设置为127.0.0.1,端口为8888。( )T.对F.错参考答案:T56. 以下哪个HTML标签表示定义 HTML 表格中的行( )以下哪个HTML标签表示定义 HTML 表格中的行( )A.B.C.D.参考答案:C57. 以下哪个命令是利用URL语法在命令行下工作的文件传输工具( )以下哪个命令是利用URL语法在命令行下工作的文件传输工具( )A.curlB.tar -zxvfC.mkdirD.cp参考答案:A58. Redis中使用lrange读取数据后数据也会删除。( )A.正确B.错误参考答案:B59. Python中把集合转换为列表需要使用( )函数。A.setB.listC.convertD.change参考答案:B60. 采用以下( )技术可以实现异步加载A.HTMLB.AJAXC.CSSD.HTTP参考答案:B
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!