数据集概述
1 功能概述¶
点击【数据集】,进入数据集设计模块,为下一步数据分析或报表制作进行相关的数据准备;
目前支持创建的数据集类型有数据库数据集、SQL 数据集、Excel 数据集、关联数据集、API 数据集五种:
- 数据库数据集指直接选择数据库中某一表作为数据集;
- SQL 数据集可通过编写 SQL 语句后将其查询结果作为数据集;
- Excel 数据集指通过导入本地 Excel 数据文件生成数据集;
- 关联数据集可灵活关联多个数据集并按需求选择数据集中的字段;
- API 数据集是 API 数据源里的接口数据形成的数据集。
2 连接方式¶
DataEase 数据链接方式支持直连与定时同步,定时同步模式需要 Doris 与 Kettle 组件的支持,由于默认安装的系统均为精简模式,系统不会额外安装 Doris 与 Kettle 组件,故定时同步的按钮为灰色不可点击状态,若需配置定时同步模式,可参考安装模式,切换部署模式为本地模式或集群模式使用。
需注意两种连接方式的差异:
- 【直连】:直接访问数据源配置的数据库,数据实时性高,数据压力在所对接的数据库上;
- 【定时同步】:DataEase 通过 Kettle 将数据抽取转换并存储在 Doris 中,数据实时性稍差,数据压力在 Doris 中,性能更好。
提示:定时同步模式下有两个概念,立即更新和稍后同步,立即更新即此次操作会即时更新数据,稍后同步需要设置定时任务或手动去更新数据。
新建定时同步类型的数据集时,支持设置主键,设置主键后支持修改主键。 设置主键后,添加增量更新任务时可以通过主键自动判断对 Doris 中的数据进行增量 insert 或 update。
注意:不支持对已同步的数据进行主键更新。
数据源 | 直连 | 定时同步 |
---|---|---|
MySQL | 支持 | 支持 |
Oracle | 支持 | 支持 |
SQL Server | 支持 | 支持 |
PostgreSQL | 支持 | 支持 |
Elasticsearch | 支持 | 不支持 |
ClickHouse | 支持 | 不支持 |
MongoDB | 支持 | 不支持 |
AWS RedShift | 支持 | 支持 |
MariaDB | 支持 | 支持 |
Apache Doris | 支持 | 支持 |
Apache Hive | 支持 | 不支持 |
Db2 | 支持 | 支持 |
API | 不支持 | 支持 |
TiDB | 支持 | 支持 |
Apache Impala | 支持 | 不支持 |
StarRocks | 支持 | 支持 |
MaxCompute | 支持 | 不支持 |
Presto | 支持 | 不支持 |
达梦数据库 | 支持 | 不支持 |
Apache Kylin | 支持 | 不支持 |
KingbaseES | 支持 | 不支持 |