数据采集清洗通过可视化的 ETL 工具例如阿里的 DataX,Pentaho Data Integration将数据从来源端经过抽取 extract转换 transform加载 load 至目的端的过程,目的是将散落和零乱的数据集中存储起来基础库主题。

35 阿里开源的DataX 之所以介绍这个,是因为我们公司目前使用的Hadoop与关系型数据库数据交换的工具,就是之前基于DataX开发的,非常好用 可以参考我的博文异构数据源海量数据交换工具Taobao DataX 下载和使用 现在DataX已经是30。

数据治理的关键能力是对数据资产进行管理和维护的能力至于如何发力的话,未来的智慧城市建设趋势将是“全数化”在数字化基础之上,围绕数字空间建立一个孪生城市,以大数据为中心,实现智能服务与生态建设全面深入的数字化。

从技术实施角度看,数据治理包含“理”“采”“存”“管”“用”这五个步骤,即业务和数据资源梳理数据采集清洗数据库设计和存储数据管理数据使用数据资源梳理数据治理的第一个步骤是从业务的视角厘清组织的数据。

3,Datax阿里使用的离线数据统计工具,已开源特点实现不同类型数据源包含关系型数据库分布式文件系统等之间的数据同步优点操作简单,只有2步,一是创建作业的配置文件二是启动配置文件作业缺点缺乏增量。