跳转至

数据集概述

1 功能概述

点击【数据集】,进入数据集设计模块,为下一步数据分析或报表制作进行相关的数据准备;
目前支持创建的数据集类型有数据库数据集、SQL 数据集、Excel 数据集、关联数据集、API 数据集五种:

  • 数据库数据集指直接选择数据库中某一表作为数据集;
  • SQL 数据集可通过编写 SQL 语句后将其查询结果作为数据集;
  • Excel 数据集指通过导入本地 Excel 数据文件生成数据集;
  • 关联数据集可灵活关联多个数据集并按需求选择数据集中的字段;
  • API 数据集是 API 数据源里的接口数据形成的数据集。

2 连接方式

DataEase 数据链接方式支持直连与定时同步,定时同步模式需要 Doris 与 Kettle 组件的支持,由于默认安装的系统均为精简模式,系统不会额外安装 Doris 与 Kettle 组件,故定时同步的按钮为灰色不可点击状态,若需配置定时同步模式,可参考安装模式,切换部署模式为本地模式或集群模式使用。

需注意两种连接方式的差异:

  1. 【直连】:直接访问数据源配置的数据库,数据实时性高,数据压力在所对接的数据库上;
  2. 【定时同步】:DataEase 通过 Kettle 将数据抽取转换并存储在 Doris 中,数据实时性稍差,数据压力在 Doris 中,性能更好。
    提示:定时同步模式下有两个概念,立即更新和稍后同步,立即更新即此次操作会即时更新数据,稍后同步需要设置定时任务或手动去更新数据。

新建定时同步类型的数据集时,支持设置主键,设置主键后支持修改主键。 设置主键后,添加增量更新任务时可以通过主键自动判断对 Doris 中的数据进行增量 insert 或 update。
注意:不支持对已同步的数据进行主键更新。

定时任务

数据源 直连 定时同步
MySQL 支持 支持
Oracle 支持 支持
SQL Server 支持 支持
PostgreSQL 支持 支持
Elasticsearch 支持 不支持
ClickHouse 支持 不支持
MongoDB 支持 不支持
AWS RedShift 支持 支持
MariaDB 支持 支持
Apache Doris 支持 支持
Apache Hive 支持 不支持
Db2 支持 支持
API 不支持 支持
TiDB 支持 支持
Apache Impala 支持 不支持
StarRocks 支持 支持
MaxCompute 支持 不支持
Presto 支持 不支持
达梦数据库 支持 不支持
Apache Kylin 支持 不支持
KingbaseES 支持 不支持