数据抽取

阅读 / 问答 / 标签

数据采集、数据抓取和数据抽取

个人理解: 数据采集分为多种,如从纸质的或非结构化资料中整理成可以存入数据库的结构化数据的过程可以算一种数据采集;再如将已有的某数据库中数据导出到另一个数据库中也可以算一种数据采集;还如通过观察记录获得某些环境指标(空气质量、温度、湿度、人体体温、机器cpu占用率等等)变化的过程也可以算一种数据采集等等。总之,就是一种数据存在形式经过“某种处理”转变成另一种数据存在形式,我个人认为所谓的“某种处理”都统称为数据采集。 数据抓取一词用的较多的就是如网页内容数据抓取等,从某种意义上说与数据采集有部分含义雷同,但性质上貌似数据主体有一种主动和被动的区别。当然,数据抓取更多的是指,从已有的某结构化数据中获得数据的过程。 数据抽取就是根据你的具体目标从某数据库中取出或归纳出你想要的信息。 个人认为三者有雷同的地方,但绝对不是一个概念。大体用法上,数据采集的使用面最宽,数据抽取偏数据库方面,数据抓取用的最少。