大数据搬站step by step

  • 时间:
  • 浏览:7

1.34  数据同步

配置MySQL数据同步节点

2.13 IDC自建Hadoop数据源连接

Dataworks数据集成-数据源管理-新增数据源-HDFS



   

使用“独享数据集成资源组”,绑定都还都可不能否 连通用户IDC的用户VPC,否则提工单,由阿里云数据集成开发人员在独 享数据集成资源组上配置路由,使独享数据集成资源组都还都可不能否 访问IDC内数据源。

2.14 在EMR的Hadoop上创建目录来存放ECS集群同步过来的数据

新增MySQL数据源

(6) 以项目管理员身份登录DataWorks控制台,单击相应工作空间后的进入数据集成。

(7) 单击左侧导航栏中的数据源,即可跳转至工作空间管理 > 数据源管理页面。

(8) 单击数据源管理页面右上角的新增数据源。

(9) 在新增数据源对话框中,取舍数据源类型为MySQL。

(10) 填写MySQL数据源的各配置项。

MySQL数据源类型包括阿里云实例模式和连接串模式。

以新增MySQL > 阿里云实例模式类型的数据源为例。



配置MongoDB的数据同步节点。(不支持向导模式,此例为脚本模式)

1.12  前期准备

为验证写入数据生效,您都还都可不能否 共同再打开另一个多 SSH窗口,执行如下命令,模拟消费者验证数据是有无已成功写入Kafka。当数据写入成功时,您都还都可不能否 看到已写入的数据。

1.21  环境准备

IDC集群测试数据准备,本例中HIVE建表的话如下:

确认数据是有无成功导入MaxCompute

 

1.24  数据同步

       a. 在您的业务流程中右键单击数据集成,取舍新建 > 数据集成 > 离线同步。

       b. 新建数据同步节点后,您还要取舍数据来源的数据源为kafka,数据去向的数据源为kafka,完成上述配置后,请单击下图框中的按钮,转换为脚本模式

       c. 完成脚本配置后,请首先切换任务资源组为您创建的独享资源组,否则单击运行。

EMR的Hadoop数据源连接

Dataworks数据集成-数据源管理-新增数据源-HDFS

MongoDB数据源类型包括实例模式(阿里云数据源)和连接串模式。

实例模式(阿里云数据源):通常使用经典网络类型,同地区的经典网络都还都可不能否 连通,跨地区的经典网络不保证都还都可不能否 连通。

连接串模式:通常使用公网类型,不可能 产生一定的费用。

以新增MongDB > 实例模式(阿里云数据源)类型的数据源,经典网络为例。



配置数据集成任务时,将默认资源组配置为还要的独享数据集成资源。

通过向导模式配置任务时,在通道控制 > 任务资源组下拉框中,取舍相应的独享数据集成资源。

查看EMR集群hdfs数据是有无同步成功:hadoop fs -cat /emr_test/*

【HDFS读取】:https://help.aliyun.com/knowledge_detail/137721.html

【HDFS写入】https://help.aliyun.com/knowledge_detail/137759.html

插入测试数据:

2.16 脚本按需求配置并保存,运行节点:

2.12  数据准备

2.14 在EMR的Hadoop上创建目录来存放ECS集群同步过来的数据

1.32  数据埋点

本文通过开通数据网关资源,使用DMS来管理IDC的MySQL。通过数据集成-数据源-新增数据源MySQL JDBC Url连接。

为保证您都还都可不能否 顺利登录EMR集群Header主机,及DataWorks都还都可不能否 顺利和EMR集群Header主机通信,请您首 先配置EMR集群Header主机安全组,放行TCP 22及TCP 9092端口。

本文中在华北2(北京)区域创建项目,共同启动DataWorks相关服务。通过独享集成资源组绑定到与Kafka对应的VPC,点击专有网络绑定,取舍与Kafka对应的交换机进行连接。

查看EMR集群hdfs数据是有无同步成功:hadoop fs -cat /emr_test/*

配置MySQL数据同步节点

插入测试数据:

2.23 在MaxCompute中建立数据表,存放数据同步过来的数据。本次同步建表:test_tab。

配置数据集成任务时,将默认资源组配置为还要的独享数据集成资源。

(5) 单击测试连通性。

(6)测试连通性通完后 ,单击完成。

EMR的Hadoop数据源连接

Dataworks数据集成-数据源管理-新增数据源-HDFS



【方案】:使用“独享数据集成资源组”,绑定都还都可不能否 自建数据源所在用户VPC,否则提工单,由阿里云数据集成开发人员在独享数据集成资源组上配置路由,使独享数据集成资源组都还都可不能否 访问ESC内数据源。

2.15 在DataWorks中创建数据同步节点

    配置数据同步节点并点击转换为脚本模式,配置MaxCompute Reader 和 HDFS Writer 脚本可参考官方文档:配置HDFS Reader 和 配置HDFS Writer

本文档中配置如下:

配置独享资源组:

1.23  在EMR kafka创建topic来放同步过来的数据:

使用“独享数据集成资源组”,绑定都还都可不能否 自建数据源所在用户VPC,否则提工单,由阿里云数据集成开发人员在独享数据集成资源组上配置路由,使独享数据集成资源组都还都可不能否 访问ESC内数据源。

1.22  准备IDC kafka测试数据

创建测试Topic

执行如下命令创建测试所使用的Topic testkafka。

确认当前节点的配置无误后,单击左上角的保存。

关闭当前任务,返回业务流程配置面板。

2.22 数据埋点

(1)以项目管理员身份登录DataWorks控制台,单击相应工作空间后的进入数据集成。

(2)单击左侧导航栏中的数据源,即可跳转至工作空间管理 > 数据源管理页面。

(3)单击数据源管理页面右上角的新增数据源。

(4)在新增数据源对话框中,取舍数据源类型为MySQL。

(5)填写MySQL数据源的各配置项。 

MySQL数据源类型还要用连接串模式。



(6)单击测试连通性。

(7)连通性测试通完后 ,单击完成。

写入测试数据

您都还都可不能否 执行如下命令,模拟生产者向Topic testkafka中写入数据。不可能 Kafka用于解决流式数据,您都还都可不能否 持续不断的向其中写入数据。为保证测试结果,建议您写入10条以上的数据。

2.12  数据准备

ECS集群测试数据准备

本例中HIVE建表的话如下:

1.35 运行业务流程

右键单击rds_数据同步节点,取舍查看日志。

当日志中出現如下字样,表示同步节点运行成功,并成功同步数据。



否则在数据开发页面,单击左侧导航栏中的临时查询,进入临时查询面板,再确认数据是有无不可能 导入MaxCompute中。

(6)  单击测试连通性。

(7)  连通性测试通完后 ,单击完成。

【MySQL读取】

https://help.aliyun.com/knowledge_detail/137725.html【MaxCompute写入】

2.15 在DataWorks中创建数据同步节点

配置数据同步节点并点击转换为脚本模式, 配置MaxCompute Reader 和 HDFS Writer 脚本可参考官方文档:配置HDFS Reader 和 配置HDFS Writer

本文档中配置如下:

完成上述配置后,单击运行即可。运行成功日志示累似 下所示。

2.13 ECS自建Hadoop数据源连接

Dataworks数据集成-数据源管理-新增数据源-HDFS

新增MongoDB数据源

(1) 单击左侧导航栏中的数据源,即可跳转至工作空间管理 > 数据源管理页面。

(2) 单击数据源管理页面右上角的新增数据源。

(3) 在新增数据源对话框中,取舍数据源类型为MongoDB。

(4) 填写MongoDB数据源的各配置项。

1.25  确认数据导入    

       a. 完成运行后,您都还都可不能否 在运行日志中查看运行结果,如下为成功运行的日志。

       b. 查看EMR Kafka数据是有无成功写入。

【MySQL读取】

https://help.aliyun.com/knowledge_detail/137725.html  

【MaxCompute写入】

https://help.aliyun.com/knowledge_detail/137466.html

3.15 完成上述配置后,单击运行即可。运行成功日志示累似 下所示。

配置独享资源组:

1.31  环境准备

2.11  前提条件

【Kafka读取】:https://help.aliyun.com/knowledge_detail/137745.html

【Kafka写入】https://help.aliyun.com/knowledge_detail/145510.html

3.15 新建数据同步任务

在DataWorks上新建数据同步节点,详情请参见数据同步节点。

【方案】直接创建云上DB数据源,否则向导模式配置同步任务即可

2.25  确认数据是有无成功导入MaxCompute

2.16 脚本按需求配置并保存,运行节点:

本文以在华北2(北京)区域创建项目为例,共同启动Dataworks的相关服务。

【方案】:使用“独享数据集成资源组”,绑定都还都可不能否 连通用户IDC的用户VPC,否则提工单,由阿里云数据集成开发人员在独享数据集成资源组上配置路由,使独享数据集成资源组都还都可不能否 访问IDC内数据源。

本文以在华北2(北京)区域创建项目为例,共同启动Dataworks的相关服务。

1.33 在MaxCompute中创建数据表存放同步过来的数据。本实例建表:idc_my。

【创建RDS数据源】:https://help.aliyun.com/knowledge_detail/137690.html

【创建MongoDB数据源】:https://help.aliyun.com/knowledge_detail/137675.html

【MaxCompute写入】

https://help.aliyun.com/knowledge_detail/137466.html

2.24 新建数据同步任务

在DataWorks上新建数据同步节点,详情请参见数据同步节点。

执行如下命令查看已创建的Topic。

3.14 新建表

(1)在数据开发页面打开新建的业务流程,右键单击MaxCompute,取舍新建 > 表。

(2)在新建表对话框中,输入表名,单击提交。

此处还要创建2张表(msl_maxc和mon_maxc),分别存储同步过来的MySQL日志数据和MongoDB日志数据。

3.13 登录MongoDB的DMS控制台,本示例使用的数据库为admin,集合为abc。

3.11  环境准备

2.21 环境准备