加入收藏 | 设为首页 | 会员中心 | 我要投稿 汽车网 (https://www.0577qiche.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

听到 Teradata退出中国的消息,想到了轻声经历过的一桩数仓项目

发布时间:2023-03-06 12:44:24 所属栏目:大数据 来源:
导读:昨日, Teradata将中国撤出,我想起了我20年前设计的数据仓库项目。想当年Teradata是数据仓库的代名词啊,就如同现在搜索东西好多人说百度一下一样。

(1)

不少来自Excel,那就ETL抽进来
有些想要采集的数据没有
昨日, Teradata将中国撤出,我想起了我20年前设计的数据仓库项目。想当年Teradata是数据仓库的代名词啊,就如同现在搜索东西好多人说百度一下一样。

(1)

不少来自Excel,那就ETL抽进来
有些想要采集的数据没有应用软件,那就用OA-无代码表单做个简单应用录入进来,然后再ETL抽进来
有些数据是专门的应用软件沉淀下来的,ETL抽进来
所以第一个需要的就是ETL工具。我是2013年以前用SQLServer套件,记得SQLServer的ETL工具被命名为Integration Services。

(2)

多种数据来源的数据抽进来,因为他们都来自不同系统,所以有些公用的数据事实上是主数据,但是过去企业上应用都是一块块上的应用,财务部门上财务软件供本部门的财务人员内部使用,销售部门上销售软件供本部门的销售人员内部使用,采购部门上采购部门供本部门的采购人员内部使用,所以事实上的主数据都是不统一的,事实上的同一个东西,在不同系统有不同名字、不同编码、不同字段。在日常应用软件各自部门使用时没啥问题,但是这次要做企业整体的决策支持系统,要给老板看数据,这就必须要做统一。所以必须要有主数据管理系统,这就涉及到了MDM(Master Data Mgt.)。

(3)

主数据要人为地定义下来标准,然后做清洗-整合-统一,或者以谁为主做互相映射,那么这就必然涉及包含到主数据的数据项的复制信息的分发或同步。我记得SQLServer有一个专门的Replication Services。现在在新一代大数据技术中,大家更经常使用Kafka。

(4)

除了主数据放在MDM里,那些业务数据ETL来-清洗好,就放在事实表里。这就涉及到ODS服务(Operational Data Store),以便下一步在数据仓库里建立模型-建立模型维度,然后把数据从ODS里再抽取到数据仓库里,按照维度存储取来,以后好做多维分析。

企业数据往往是文本型、结构性的,所以过去的ODS最擅长处理这类数据。互联网公司的数据更加多样化,博客文章、邮件、IM消息、文档、图片、视频,所以才发明了Hadoop来充当数据湖。不过Hadoop数据湖擅长处理非结构化、多媒体数据,反而又不擅长处理文本型、结构性数据,所以现在人们又在探索湖上架仓、湖仓一体,如Delta、Hudi、Iceberg就是这么探索着。

(5)

好,下一步这就涉及到了数据仓库。我学习到的数据仓库都是列式多维数据仓库。但是现在很多人说数据仓库就是个虚拟概念,不需要非得用多维数据仓库,普通的行式关系数据库就能搞数据仓库。这就让我比较懵啊,这和我的经历不一样啊。我想最起码你也得用OLAP型数据库啊,而不能用OLTP型数据库啊。

所以对于中国客户,目前的现状主要是出复杂的二维报表,而不是做多维分析,我的建议是不要搞多维数据仓库,不要用真正的数据仓库产品,用OLAP型数据库搞就行了。所以我更建议推荐类似Greenplum、ClickHouse、Apache Doris就可以。但是我坚决反对用OLTP关系数据库搞数据仓库。有的人是直接在OLTP SQLServer行式关系数据库或者MySQL行式关系数据库上搞所谓的数据仓库,把所谓的数据仓库、报表、商业智能都混为一谈,要么都叫数据仓库、要么都叫商业智能,真是偷梁换柱的可以啊。

(6)

按照领域-按照主题-按照模型-按照维度,把数据从ODS入仓。但是入仓过程中还有一个小插曲。因为有些复杂分析指标需要复杂计算出来,还得保存起来,以便以后做历史对比。

所以,需要专门的多维计算编程语言来做某些指标的复杂计算,计算出来结果再放进数仓里。像SQLServer里有DMX(多维扩展开发语言)就是干这事用的。现在在开源新一代大数据技术中,其实Flink或Spark它们干的就是这个事。

(7)

数据终于全都按维度条状入了仓后,人们做的最常见的事情就是出复杂分析报表,需要很多关联性的指标都配比出现在同一张报表里。所以这里就涉及到SQLServer的Rerport Service。

很多人不搞多维数仓,在OLTP关系数据库上直接出复杂配比综合分析报表,我见过有人写了1000多行的存储过程来出一张报表,根本很难阅读看懂、修改、调试跟踪。

在90年代用Powerbuilder出复杂报表时有个工具叫Cross Table,我们叫交叉报表,我看在Excel里叫Pivotal叫透视表。这都是做复杂配比综合分析平面报表的常见工具。

(8)

我用Analysis Services做过分类算法、聚类算法、决策树算法、线性回归算法、时序算法。当时微软还没提供神经网络算法。现在新一代大数据技术Spark套件中,也有MLLib,就是机器学习算法库,也是这些。不过现在人工智能Tensorflow平台和Pytorch平台上的,都已经是深度学习的各种算法和模型了,这和机器学习算法库是另外的路数了。

(9)

我几乎把SQLServer商业智能套件里的产品都用了遍,不过事实结果是:

实施很复杂,要做很多SQL编写工作。过去的实施顾问还会数据库结构和SQL,现在的实施顾问只会功能界面配置了。虽然已经内置了不少业务分析模板,但是总要做一些从展示修改到数据计算修改到数据ETL抽取修改的东西。

客户使用过程中,倒是出了很多内置的复杂的配比指标报表可视化和图表可视化,但是很不幸,客户业务专业能力水平比较低,看不懂这么复杂的配比综合报表。我们的产品是基于互联网技术开发的,所以我们的产品都是通过互联网进行销售的,这样就避免了传统营销模式的弊端。

 

(编辑:汽车网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章