H2O.ai 对接FusionInsight

适用场景

H2O.ai 3.24.0.2 ↔ FusionInsight HD 6.5 (HDFS/GaussDB)

H2O.ai 3.24.0.2 ↔ FusionInsight MRS 8.0 (HDFS)

环境准备

H2o使用

  • 启动H2O
      cd /opt/h2o-3.24.0.2-cdh6.0
      hadoop jar h2odriver.jar -Dmapreduce.map.log.level=DEBUG -JJ "-Djava.security.krb5.conf=/opt/huawei/Bigdata/common/runtime/krb5.conf" -nodes 1 -mapperXmx 8g -network 172.16.4.131/24
    
    > -nodes 指定H2o集群中节点数量 > -mapperXmx 指定H2O集群使用内存大小 > -network 指定H2Oweb界面访问的IP地址范围

  • 在浏览器地址栏输入http://172.16.4.21:54321,即可访问H2O

连接HDFS

  • 在H2O的web界面上,使用Import Files,填入HDFS文件的路径,点击import即可

  • 在下面可以看到执行结果

    * 可以对文件进行一些转换,预处理

连接GaussDB

  • 获取GaussDB的驱动包gsjdbc4.jar,上传至节点,例如/opt/h2o-3.24.0.2-cdh6.0目录下
  • 连接GaussDB 需要加载JDBC驱动包,需在启动H2O集群时指定,使用以下语句启动H2O集群

    cd /opt/h2o-3.24.0.2-cdh6.0
    hadoop jar h2odriver.jar -libjars gsjdbc4.jar -nodes 1 -mapperXmx 2g -network 172.16.4.21/32
    
    * 在H2O的web界面,使用import SQL Table,填入以下信息,点击import

  • 点击view Data,可以预览表中的数据