南开大学22春《网络爬虫与信息提取》离线作业一及答案参考75

上传人:住在****她 文档编号:87853122 上传时间:2022-05-10 格式:DOCX 页数:14 大小:13.76KB
返回 下载 相关 举报
南开大学22春《网络爬虫与信息提取》离线作业一及答案参考75_第1页
第1页 / 共14页
南开大学22春《网络爬虫与信息提取》离线作业一及答案参考75_第2页
第2页 / 共14页
南开大学22春《网络爬虫与信息提取》离线作业一及答案参考75_第3页
第3页 / 共14页
点击查看更多>>
资源描述
南开大学22春网络爬虫与信息提取离线作业一及答案参考1. MongoDB中可以将( )数据结构插入集合中A.列表B.元组C.字典D.集合参考答案:C2. 如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是买入该公司股票并赚了一笔钱。这是合法的。( )A.正确B.错误参考答案:A3. 要使用Python来操作UI Automator从而控制手机,需要安装一个第三方库( )A.uiautomatorB.automatorC.ui_automatorD.pyautomator参考答案:A4. Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为( )Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为( )A.空B.空列表C.空元组D.不返回参考答案:B5. 一般来说在页面都通过GET将用户登录信息传递到服务器端。( )一般来说在页面都通过GET将用户登录信息传递到服务器端。( )A.正确B.错误参考答案:B6. 以下HTTP状态码表示服务器没有正常返回结果的是( )。A.200B.301C.404D.500参考答案:BCD7. 下面Python代码输出为( ):def default_para_without_trap(para=, value=0): if not para: p下面Python代码输出为( ):def default_para_without_trap(para=, value=0): if not para: para = para.append(value) return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100 第二步:100,50B.第一步:100 第二步:50C.第一步:100 第二步:D.第一步:100 第二步:100参考答案:B8. 最常见的HTTP请求类型有( )最常见的HTTP请求类型有( )A.GETB.POSTC.SENDD.RECEIVE参考答案:AB9. Python中有哪些实现多线程方法?( )A.multiprocess.dummyB.threading.ThreadC.processD.PyMongoDB参考答案:AB10. 以下哪些方法属于Python写CSV文件的方法?( )A.writeheadersB.writeheaderC.writerrowsD.writerow参考答案:ACD11. Python中哪种容器一旦生成就不能修改?( )A.列表B.元组C.字典D.集合参考答案:B12. Redis若要进入交互环境,需要打开终端输入( )Redis若要进入交互环境,需要打开终端输入( )A.redis-cliB.redisC.redis-D.redis-start参考答案:A13. MongoDB是一个关系数据库产品。( )A.正确B.错误参考答案:B14. Scrapy的工程名字不能使用scrapy,否则爬虫会无法运行。除此以外工程名不受限制。( )T.对F.错参考答案:F15. process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案:B16. Python中把列表转换为集合需要使用( )函数。A.setB.listC.convertD.change参考答案:A17. Python中若定义object=“12345”,则print(object:-1)输出( )。A.1B.5C.54321D.程序报错参考答案:C18. Cookies一般包含在请求头Headers中。( )A.正确B.错误参考答案:A19. Python操作CSV文件可通过( )容器的方式操作单元格。A.列表B.元组C.字典D.集合参考答案:C20. Python中直接对浮点数进行计算有print(0.1+0.2),则结果为0.3。( )T.对F.错参考答案:F21. 如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。( )A.正确B.错误参考答案:A22. 浏览器用来记录用户状态信息的数据叫( )浏览器用来记录用户状态信息的数据叫( )A.sessionB.cookiesC.moonpiesD.selenium参考答案:B23. Python中直接对浮点数进行计算有print(0.1+0.2),则结果为0.3。( )A.正确B.错误参考答案:B24. Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取。( )T.对F.错参考答案:F25. 爬虫的源代码通过公开不会对被爬虫网站造成影响。( )A.正确B.错误参考答案:B26. cookies在http请求中是明文传输的。( )cookies在http请求中是明文传输的。( )A.正确B.错误参考答案:A27. 开源库pytesseract的作用是将图像中文字转换为文本。( )A.正确B.错误参考答案:A28. 下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统,使用Homebrew安装mitmproxy,命令为:brew install mitmproxyB.在Ubuntu中,要安装mitmproxy,首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令,只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 installmitmproxy 进行安装参考答案:C29. 下列关于mitmproxy的安装说法错误的是( )下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统,使用Homebrew安装mitmproxy,命令为:brew install mitmproxyB.在Ubuntu中,要安装mitmproxy,首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令,只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 install mitmproxy 进行安装参考答案:C30. Python中列表可以用( )方法在末尾添加元素。A.addB.appendC.plusD.+参考答案:B31. Scrapy作为一个爬虫的框架,它在单机环境下运行时就可以获得最大性能优势。( )Scrapy作为一个爬虫的框架,它在单机环境下运行时就可以获得最大性能优势。( )A.正确B.错误参考答案:B32. Redis中往集合中读数据,使用关键字( )A.popB.spopC.lpopD.range参考答案:B33. 使用xpath方法的返回类型是( )。A.列表B.元组C.字典D.集合参考答案:A34. Python中有哪些实现多线程方法( )Python中有哪些实现多线程方法( )A.multiprocess.dummyB.threading.ThreadC.processD.PyMongoDB参考答案:AB35. 在Windows中下若要运行Redis可以运行redis-server/usr/local/etc/redis.conf。( )T.对F.错参考答案:F36. 请问按哪个键可以打开Chrome自带的开发者工具( )请问按哪个键可以打开Chrome自带的开发者工具( )A.F10B.F1C.F11D.F12参考答案:D37. 要使用tesseract来进行图像识别,需要安装两个第三方库( )要使用tesseract来进行图像识别,需要安装两个第三方库( )A.requestsB.beautifulsoupC.PillowD.pytesseract参考答案:CD38. mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本。( )A.正确B.错误参考答案:A39. 当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入就可以了。( )T.对F.错参考答案:F40. MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为:handler.find( ).sort(&39;列名&39;, 1或-1或0)。( )MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为:handler.find( ).sort(列名, 1或-1或0)。( )A.正确B.错误参考答案:B41. Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。( )Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。( )A.正确B.错误参考答案:A42. 网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。( )网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。( )A.正确B.错误参考答案:B43. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;,则Objcet.get(&39;boj_1&39;,&39;3&39;)是( )Python中Object=obj_1:1,obj_2:2,则Objcet.get(boj_1,3)是( )A.1B.2C.3D.无输出参考答案:A44. xpath中extract方法返回值类型是( )xpath中extract方法返回值类型是( )A.列表B.元组C.字典D.集合参考答案:A45. 以下哪个命令是linux下解压缩命令?( )A.curlB.tar-zxvfC.mkdirD.cp参考答案:B46. 以下表示请求资源找不到的HTTP状态码为( )以下表示请求资源找不到的HTTP状态码为( )A.200B.301C.404D.500参考答案:C47. 下面代码一共执行循环多少次( ): for i in range(10): print(i * i)A.9B.10C.11D.0参考答案:B48. HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源。( )A.正确B.错误参考答案:B49. 使用UI Automatorr让屏幕向右滚动的操作是得到相应控件后使用命令scroll.horiz.forward( )。( )T.对F.错参考答案:F50. “curl http:/爬虫服务器IP地址:6800/cancel.json-d project=工程名-d job=爬虫JOBID”该命令的作用是启动爬虫。( )A.正确B.错误参考答案:B51. 运行MongoDB以后,不会在终端打印任何Log。( )运行MongoDB以后,不会在终端打印任何Log。( )A.正确B.错误参考答案:B52. 通用搜索引擎的目标是尽可能大的网络覆盖率,搜索引擎服务器资源与网络数据资源互相匹配。( )A.正确B.错误参考答案:B53. 为了在安卓手机上安装证书,需要先发送证书到手机里面。在Charles中选择“Help”-“SSL Proxying”-“Save Charles Root Certificate”命令,可以将Charles的证书保存到计算机桌面。( )T.对F.错参考答案:T54. 当需要把Python里面的数据发送给网页时,应先将其转换成( )当需要把Python里面的数据发送给网页时,应先将其转换成( )A.Json字符串B.GETC.POSTD.Request参考答案:A55. Python中字符串切片以后的结果还是字符串。( )Python中字符串切片以后的结果还是字符串。( )A.正确B.错误参考答案:A56. 在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案:B57. charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )T.对F.错参考答案:T58. Python可以将列表或字典转换成Json字符串。( )T.对F.错参考答案:T59. 通用网络爬虫通常采用串行工作方式。( )A.正确B.错误参考答案:B60. Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。( )T.对F.错参考答案:T
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!