日记大全

日记大全 > 句子大全

用一句话描述Scrapy(三秋道果说python)

句子大全 2014-09-11 16:07:19
相关推荐

这句话是:Scrapy经仅仅是抽取数据!!

好了这一讲结束,明天见,哈哈~

没走的话,听我再说详细一点,新手确实很容易很容易误解 Scrap可以为你做什么,主要是因为数据抓取这个术语与其相关术语有些模糊,很多术语是交替使用的。我将尝试使这些方面更加清楚,以防止混淆,为你节省一些时间。

Sapy不是 Apache Nutch,也就是说,它不是一个通用的网络爬虫。如果 Scrap访问一个一无所知的网站,它将无法做出任何有意义的事情。 Scrap是用于提取结构化信息的,需要人工介入,设置合适的Ⅺa或CSS表达式。而 Apache Nutch则是获取通用页面并从中提取信息,比如关键字。它可能更适合于一些应用,但对另一些应用则又更不适合

Scrap不是 Apache Solr、 Elasticsearch或 Lucene,换句话说,就是它与搜索引擎无关。 Scrap并不打算为你提供包含“ Einstein"或其他单词的文档的参考。你可以使用 Scrap抽取数据,然后将其插入到So或 Elasticsearch当中,我们会在后面分享讲解这一做法,不过这仅仅是使用 Scrap的一个方法,而不是嵌入在 Scrap内的功能。

最后, Scrap不是类似MSQL、 MongoDB或Reds的数据库。它既不存储数据,也不索引数据。它只用于抽取数据。即便如此,你可能会将 Scrap抽取得到的数据插入到数据库当中,而且它对很多数据库也都有所支持,能够让你的生活更加轻松。然而 Scrap终究不是个数据库,其输出也可以很容易地更改为只是磁盘中的文件,甚至什么都不输出——虽然我不确定这有什么用。

Scrap的介绍部分就都分享完了,大致给出了它能够帮你做什么的概述,并描述了我们]认为和我分享学习的正确方式。还提供了几种自动化数据抓取的方式,通过帮你快速开发能够与现有生态系统更好融合的高质量应用而获益。明天将介绍HTML和 XPath,这是两个非常重要的Web语言,我们在每个 Scrap项目中都将用到它们。

后期预告,后面真正进入爬虫的实战讲解,就没有理论分享了,明天就从理解HTML和 XPath开了。为了从网页中抽取信息,你必须对其结构有更多了解。我们将快速浏览HTML、HTML的树状表示,以及在网页上选取信息的一种方式 XPath,具体明天在说吧。

本文由三秋道果分享,如有不当请联系三秋道果,不吝指出,谢谢~

阅读剩余内容
网友评论
相关内容
拓展阅读
最近更新