首页最新资讯

全部 常见问题 新闻动态 技术文章 技术问答

    • 写爬虫是用多进程还是多线程?

      一般情况下,在选择是使用多进程还是多线程时,主要考虑的业务到底是IO密集型(多线程)还是计算密集型(多进程)。在爬虫中,请求的并发业务属于是网络的IO类型业务,因此网络并发适宜使用多线程;但特殊需求下,比如使用phantomjs 或者chrome-headless来抓取的爬虫,应当是多进程的,因为每一个phan/chro实例就是一个进程了,并发只能是多进程。查看全文>>

      技术文章2021-05-21 |黑马程序员 |写爬虫是用多进程还是多线程
    • Python爬虫使用哪个数据库好?为什么?

      如果抓取的数据之间的耦合性很高,关系比较复杂的话,那么mysql可能会是更好的选择。如果抓取的数据是分版块的,并且它们之间没有相似性或关联性不强,那么可能mongodb 会更好。查看全文>>

      技术文章2021-05-21 |黑马程序员 |Python爬虫使用哪个数据库好
    • 事实表和维度表分别是什么?

      每个数据仓库都包含一个或者多个事实数据表,事实表是对分析主题的度量,它包含了与各维度表相关联的外键,并通过连接(Join)方式与维度表关联。查看全文>>

      技术文章2021-05-21 |黑马程序员 |事实表和维度表
    • 如何入门自动化测试?五种Python自动化测试框架

      自动化测试是为了节约时间成本和人力成本进行的,本来就是和手工测试相辅相成的。本文我们主要是汇总了现在比较流行常用的自动化测试框架。查看全文>>

      技术文章2021-05-21 |黑马程序员 |自动化测试,五种Python自动化测试框架
    • 相比Hive,Spark处理数据的速度为什么更快?

      Spark SQL比Hadoop Hive快,是有一定条件的,而且不是Spark SQL的引擎比Hive的引擎快,相反,Hive的HQL引擎还比Spark SQL的引擎更快。其实,关键还是在于Spark 本身快。那么Spark为什么快呢?查看全文>>

      技术文章2021-05-20 |黑马程序员 |Spark处理数据,Hive,大数据面试题
    • Python os.listdir()函数用法介绍

      os.listdir() 用于返回一个由文件名和目录名组成的列表 下面我们通过一个案例来展示os.lsitdir()方法的用法:查看全文>>

      技术文章2021-05-19 |黑马程序员 |os.listdir()函数