服务总机(7X24小时) 4006-151-661
官方微信
扫一扫关注我们

当前位置:首页 > 新闻动态 > 业界新闻 > 详情

大数据产业的基石——数据采集

  发布时间:2018-04-25  作者:兴乾盛科技

1.jpeg

前言:

经过60多年的演进特别是移动互联网、大数据、超级计算、传感网、脑科学等新理论新技术的引领再加上经济社会发展强烈需求的驱动人工智能正更加广泛地应用到人们的生活中。人类已经迈入了波澜壮阔的人工智能时代。说到人工智能,我们今天就不得不说说人工智能算法了,人工智能算法是一个开源的领域,拥有数据就像是拥有了金矿,数据是AI界最根本的竞争力,并且数据的“采集”、“清洗”、“标注”成为了行业内部的刚需任务。

1.jpeg

数据采集才是大数据产业的基石

都在说大数据应用、大数据价值挖掘,却不想,没有数据何来应用、价值一说。就好比不开采石油,一味想得到汽油。当然,石油开采并不容易,各行各业包括政府部门的信息化建设都是封闭式进行,海量数据被封在不同软件系统,数据源多种多样,数据量大、更新快。

大数据时代最不缺的就是数据,但是最缺的却也是数据,面对数据资源,如何开采、用什么工具开采、如何以最低成本的开采成为了重中之重的解决问题。

数据采集可以分两种

(1)网络上用网络爬虫进行数据采集,比如爬取图片、新闻、公司等等互联网上的信息;

应用实例:网上图片采集、舆情系统的文章采集等;

(2)通过传感器或者其他设备进行数据的采集;

应用实例:电子地图地点采集、声音、人脸采集等。

1.jpeg

网络爬虫数据采集

所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些网址加入到爬虫的抓取队列中,然后进入到新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样。

爬虫数据采集方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。

1.jpeg

传感器数据采集

传感器是一种检测装置,能感受到被测量的信息,并能将感受到的信息,按一定规律变换成为电信号或其他所需形式的信息输出,以满足信息的传输、处理、存储、显示、记录和控制等要求。在工作现场,我们会安装很多的各种类型的传感器,如压力的、温度的、流量的、声音的、电参数的等等,传感器对环境的适应能力很强,可以应对各种恶劣的工作环境。

在日常生活中,如温度计、麦克风、DV录像、手机拍照功能等都属于传感器数据采集的一部分,支持图片、音频、视频等文件或附件的采集工作。