对话数据虚拟化之父 Angel Viña：未来查询数据的过程将不再需要程序员这个角色

2024-05-20 18:06:28 - AI科技大本营

步入2024年，全球数据的增长规模和速度已达到前所未有的水平。据IDC预测，全球今年将生成159.2ZB数据，到2028年数据量将增加一倍以上，其膨胀速度远超历史上任何时期。数据不仅量级惊人，其生成、处理与分析的速度也实现了质的飞跃，催生出一个由数据驱动的新经济时代。

《大数据时代》的作者ViktorMayer-Schönberger曾将数据比作“智能时代的原材料”，还有些科学家视数据为石油或黄金。在这一背景下，各行各业纷纷挖掘数据宝藏，其中，金融领域尤为突出。

北美的金融心脏——加拿大多伦多，曾经发生过一次数据整合的变革。加拿大最大的银行坐拥1600万客户、业务覆盖全球40余国的金融巨擘，他们面临一个棘手问题：由于资产规模庞大，全球各地的风险经理对于市场风险的认知存在差异，且依赖于各自独立的数据源，这导致风险数据的整合及报告生成流程冗长低效，成为制约业务发展的瓶颈。

在数据治理实践中，平衡管理和控制、风险评估、及合规性这三个关键领域至关重要，它们共同支撑起一个高效的数据管理体系。任何一方面的不平衡都可能引发连锁反应，影响整个系统的稳健性。为了寻找全新的数据治理方案，这家银行引入了Denodo的数据虚拟化（DV），有效地构建了一个数据的“汇聚中心”，将数据准备时间缩短80%，集成成本降低50%，查询速度提高10倍，满足更多用户同时访问的需求，无需直接引用具体数值。

对话数据虚拟化之父 Angel Viña：未来查询数据的过程将不再需要程序员这个角色

在被誉为硅谷心脏的圣克拉拉，还发生过另一起故事。知名的半导体巨人英特尔在这座城市扎根，2019年，它麾下已汇聚了超过十万名精英，创造了高达700亿美元的辉煌业绩。然而，在这光鲜数字的背后，却隐藏着一个棘手的问题：产品上市时间的延误，如同一场悄无声息的风暴，每月让公司承受着十亿美元的损失。

“业务逻辑内嵌在30个不同的报告工具中，可使相同的数据产生不同的结果。更多时间花在争论这个问题上，然后才是将产品推向市场……”

团队花费大量时间在无休止的辩论上，而非推进产品的上市进程。决策者们常常深陷于信息迷雾之中，难以快速找到正确的数据支撑决策。

对话数据虚拟化之父 Angel Viña：未来查询数据的过程将不再需要程序员这个角色

Denodo在这时带来了其独特的数据虚拟化技术，斩断了困扰英特尔的信息乱麻。数据虚拟化绕过了繁琐的数据抽取、转换和加载（ETL）过程，实现从源头实时抓取数据，为决策提供了即时而准确的依据。不仅仅于此，它还将原先散落在各处的业务逻辑统一到了数据虚拟化层，确保不论使用何种报告工具，结论都是一致的。

英特尔的数据仓库依旧保存着宝贵的历史数据，但经过优化，存储量大幅减少，效率显著提升；其业务部门获取数据的时间被奇迹般地缩短了90%，产品上市的时间也因此减少了数日，公司的收入激增，增长幅度在5000万到1亿美元之间……

无数的案例使Denodo如今成为了数据管理领域的全球领导者，他们的服务横跨了金融、医疗、汽车、能源、消费与零售等30个行业。数据虚拟化历经了超1000家行业头部客户的工程化打磨，不仅为所有风险管理岗位确保了一个统一且可靠的资料入口，还大幅度简化了信息获取和安全控制程序，促进了效率的大幅提升。Denodo现支持连接200+数据源，实时处理高达5PB数据，提供毫秒级查询响应，并支持数千并发用户访问。

为了进一步了解数据虚拟化，我们采访了这一技术的发明者——Denodo 创始人&CEOAngelViña。20世纪90年代，数据架构变革至传统的数据仓库，AngelViña的一个大学项目在这一时期孕育了 Denodo的数据虚拟化技术，他也因此被誉为“数据虚拟化之父”、“逻辑数据编织之父”。

对话数据虚拟化之父 Angel Viña：未来查询数据的过程将不再需要程序员这个角色

随着AIGC（生成式人工智能）时代的到来，数据被赋予了全新的生命力，成为了创意与价值创造的源泉。Denodo在时代的洪流下将何去何从？Viña会在本文为我们一一解答。本篇专访还将呈现Denodo的另外两位高管：高级副总裁兼CMORaviShankar 以及Denodo大中华区总裁 BillHe（何巍）的独到见解，共同揭示数据虚拟化如何引领未来金融行业的数据治理革命。

对话数据虚拟化之父 Angel Viña：未来查询数据的过程将不再需要程序员这个角色

过去是人找数，将来是数找人

问：在创始人AngelViña 决定创立Denodo并将重心放在数据虚拟化上时，市场中是否已存在相似的技术理念或竞争者？当时你是如何精准预见到该领域未来的发展趋势及市场需求？

Viña:我们于90年代末创立公司时，正值大数据概念兴起，数据处理方案主要围绕数据仓库建立，侧重于数据库的构建。彼时的做法基于数据的采集与物理存储系统的创建。

全球范围内，少数几所大学的研究团队正尝试将实时处理技术应用到这一流程中，旨在实现数据从采集到使用的直接转换，跳过通过ETL过程将数据存储于物理媒介的中间环节。我们是这股探索力量中的一员，且较早地掌握了成熟技术，能够实现实时构建高效逻辑数据库，这些数据库能够即时整合来自多个分布式数据源的信息，并具备对数据源的高适应性。

公司成立之初，在欧洲我们是独树一帜的，因我们的创新在于——提供了一种新的数据集成视角。而在美国，当时也有一批初创企业在探索类似的技术路径。这就是1990年代末的行业背景。

问：数据虚拟化技术的诞生有哪些关键时刻？

Viña：我认为有几个关键时期，在我们的研究中起到了决定性作用。

这个过程是从探讨如何实时管理数据开始的。我们在大学做科研项目的时候，做的是实时系统的研究，旨在加速实时收集数据的利用，力求消除从数据采集到最终计算过程中繁琐的中间处理环节。我们当时尝试将实时数据访问与加速数据至消费端的流程结合起来，并且保留查询数据的能力。随后，我们意识到理想的模式是采用一种贴近用户需求的数据库设计，它能够在读取数据仓库信息的同时自动生成，类似于物理数据库的结构，但更为灵活即时。

这便是现今被称为“数据虚拟化”的核心技术理念。它涉及从分布式数据生态中抽取数据，实时地在内存中动态构建数据结构，使得数据可被即时查询，并高效地服务于数据消费者。当时欧洲有几个不同的机构也在做这样的研究，但显然不是所有人都能坚持下来。

问：最开始是遇到了什么问题和契机，让您选择开始研究数据虚拟化？

Viña：当时我们的核心工作就是建立实时系统来管理大量的数据流，因为在从数据获取到数据可视化的过程中，数据流量非常大。

比如，有个项目是在电信网络中利用物联网数据进行网络状态可视化试验，项目面临的核心问题就是数据碎片化，数据来自各种各样的网络。

还有个项目是关于核电厂安全，具体就是为确保核电站安全进行的实时数据采集实验，该实验旨在监测核反应堆容器的情况。在这些工业情境下，数据通过多种系统收集，极其零散。

还有一项应用场景推动了技术的发展，即整合网页数据，为在线银行应用中的金融产品提供统一视图。

这三个案例共有的特点是：均需快速访问分布式的数据资源，且需整合源自不同碎片化系统的数据。我们经常会遇到的情况就是数据分布在不同的系统里，非常碎片化、非常分散。我们的目标是实现实时地将这些数据碎片整合成业务层面可理解的数据实体，从多样化的数据存储直接到应用层展示数据。

何巍：这三个案例实际上是两个例子——一个是工业，一个是金融。我们经常会遇到的情况就是数据分布在了不同的系统里，非常碎片化、非常分散。但企业面对的需求却是实时管理数据，所以传统的办法做不了。

对话数据虚拟化之父 Angel Viña：未来查询数据的过程将不再需要程序员这个角色

我们的研究实际就是在不通过移动数据的情况下如何实时获取统一数据，答案就是建立虚拟层。这解决了两个问题，一是实时连接数据，是「连接」而不是「拷贝」；二是给上层应用提供单一的视图，既在这一层里，用户不需要知道数据在哪。

Viña：所以，我们实现了一项革命性的突破，将实时处理能力赋予原本不具备此特性的领域，即整合数据片段并即时形成可消费的业务数据实体，统一不同数据系统间的语义差异，而这恰是多数企业内部的常态。关键词是实时性，这是我们解决的一大主要问题，另外一个主要问题在于，我们处理的这个挑战里一定会涉及到多个数据源。因为单个数据源无论数据量多大都不适合我们的场景。

二十年前，这被视为一场颠覆性变革，而今其重要性有增无减，尤其考虑到大数据的兴起、企业需管理的庞大数据量、企业生态系统内繁多的数据源，以及数据使用者群体的多样化——数据不再局限于IT人员，还包括所有组织内的业务用户。

问：数据平台的性能优化一直是很大的挑战，在做这种数据查询和分析速度的提升的时候，Denodo是怎么做的，能不能分享一下具体的优化策略？最后产生的效果有没有具体的数据？

Viña：这个问题非常重要，因为我们技术的核心就是性能。

我们会首先分析接收的查询请求，收到信息之后由后端计算将查询的内容进行重写，分析出其中的核心元素。查询优化的首要步骤是解读查询，并根据特定执行场景重写以优化执行效率。其次，在查询适应特定执行器配置后，我们会运用基于AI的优化技术。随着产品迭代，我们依据查询配置、执行器配置、从数据源获取的信息类型，以及过往执行类似查询的经验，采取多样的优化手段。这些技术自动合成查询执行计划，充分考虑多种因素，确保优化措施的有效实施。

何巍：这个过程实际上是把请求重写，并在重写过程中融入优化机制，其中融入人工智能自动化技术，实现自我学习与适应。所以我们的系统有一个学习的过程，它会在重写根据过去的一些经验学习，随时间逐步提升效率与准确性。

Viña：重写后的查询会依据所选执行器类型生成执行计划，然后根据不同的执行者生成优化策略。为什么执行者会不同？不同公司的后端系统是不一样的。此外，有两大要素对性能优化至关重要：一是高级缓存技术的运用，数据处理层广泛采用高效缓存策略；二是将特定计算任务上移至执行层处理，该层基于大规模并行处理技术，尤其在处理复杂分析查询时，借助我们采用的高性能技术（Presto），进一步提升了效率。正是这些综合技术的应用，构成了执行引擎的核心优势，成就了我们技术的独特价值。

何巍：我想再补充一下，不论面对何种查询请求，系统都能通过优化进程有效应对。我们经常会说一句话：“过去是人找数，将来是数找人”，以后用户无需关注数据来源或处理的具体细节，系统能主动且智能地完成任务。

对话数据虚拟化之父 Angel Viña：未来查询数据的过程将不再需要程序员这个角色

AIGC时代，需要把多元的数据连接起来

问：刚刚提到处理数据时会加入人工智能的技术，这个决策是怎么做出的？此外，AI技术肯定是在不断演进的，以前你们是怎么结合的，未来又将如何？

Viña：我们的平台在过去四年多时间载入人工智能，这里面的技术基于符号AI（SymbolicAI），而非依赖机器学习的逻辑。AI嵌入于我们如何生成和优化执行计划的逻辑中，这些计划考虑了虚拟层中成千上万次执行的日志，以此学习并优化决策过程，比如如何执行查询、重写策略等。这些决策默认由系统自动执行，但数据平台管理员可以干预。

在大约一年半前发布的Denodo8中，我们引入了强大的AI功能，以协领用户体验平台。这对我们的自助服务平台、数据目录以及导航数据生态系统至关重要，同时在决定哪些数据集应通过摘要实现物理化时也发挥着关键作用。我们对AI技术的运用旨在提供基于历史数据使用的推荐，类似于现今普遍采用的辅助工具，在构建新数据视图或物理化数据集时提供帮助。

何巍：让我简要说明一下。在我们的第八版和第九版Denodo中，我们实际应用了生成式AI技术，因为我们经常提到数据消费端——即谁来使用数据？我们认为自助服务是主要的消费场景，还有商业智能（BI）等。然而，无论是自助服务还是BI，都会遇到许多非技术用户。我们希望通过自然语言的方式，让用户无需编程即可操作，因此在第八版和第九版产品中，我们集成了自然语言查询功能。

Denodo与AI的融合主要体现在两个方面：一是将AI技术直接应用到我们的产品中，包括自然语言处理等功能；二是通过中间层进行优化，引入人工智能技术。另一方面，关于如何将大型模型应用到企业内部，众所周知，AI的基础是数据。但在企业内部，如何将内部数据与通用模型相结合，这就需要构建一个中间层，因为企业往往不愿意直接公开内部数据，却又希望利用通用模型的优势。因此，要兼顾两者，就需要一个中间层来桥接这些数据。我们的工作重点就集中在如何构建和优化这一中间层，以便更好地结合内外部数据资源。

问：全球数据管理市场正在发生很大的转变，你们是怎么区别于竞争对手的？

Shankar：市场上我们的竞争者依然是传统的数据管理方式，他们将分散在各系统中的数据汇总至集中式系统，随后向所有用户提供。我们主张数据原地保留，无须迁移或集中。用户可直接连接至数据源头，并构建信息的虚拟视图供消费使用。

对话数据虚拟化之父 Angel Viña：未来查询数据的过程将不再需要程序员这个角色

传统数据收集方法存在诸多弊端：首先，将数据从不同来源和格式迁移至中心存储耗时较长，且需进行繁琐的数据转换工作，再加载至另一系统，这一系列过程大大延迟了数据到达消费者手中的时间；其次，当数据被复制至另一系统时，会与源系统中的实时更新产生差异，导致数据质量问题。数据虚拟化技术的引入，旨在即时捕获最新数据，一旦数据生成，即可通过虚拟视图迅速呈现给用户，确保数据的新鲜度、快速响应及即时性，同时避免了增设系统及存储数据带来的额外成本。

问：未来几年，受AI浪潮影响，在数据管理和分析领域预计将发生哪些变化？

Shankar：数据管理正经历转型，趋向自动化，因为传统的数据管理流程极为依赖人力，涉及大量编程工作及后续维护。

我们正探索利用人工智能减少手工操作，加速数据获取。Denodo现在会采用人工智能来实时理解数据用途，并向用户提出建议，告诉他们“你应当执行这项操作。”

举个例子，比如说Bill（何巍）在用某项数据时，AI 就会给我提示，提醒我有人在用这个数据，其合理性或者合法性是怎么样，并给我相应的建议和提示。

再比如说以医疗行业为例，我们都知道医药发现或者制成新药的过程中，研究者或相关的科学家研究一款药可能需要分析 1 万个药分子。如果市场上有人已经做过相关的工作了，AI实际上可以通过向其他研究人员提供某人已经完成的研究建议，减少重复研究，从而缩短药品上市的时间。

何巍：我们利用人工智能，目的是将手动操作转变为自动化，尤其是在数据获取环节提升效率。我们的人工智能模型具备两大核心功能：一是理解数据，即在数据使用过程中动态解析；二是向用户实时提供操作建议。

Shankar：我们讨论的这些变革对数据管理领域意义深远，其不仅体现在Denodo的产品规划上，更关键的是，数据管理在新兴生成式AI时代扮演着不可或缺的角色。初期的AI模型依赖公开的遗传学和互联网数据，而下一波生成式AI应用将与行业数据紧密融合，前面提到的药物临床试验这种特定领域数据将用于训练大型模型，使其能在特定情境下发挥效用，而这就需要跨多个分布式的数据源进行高效访问。

何巍：确实，正如Shankar指出的那样，数据管理的这些变革是划时代的，尤其在生成式AI时代，数据管理变得尤为重要。传统上，大型模型基于公共互联网数据训练，但在生成式AI应用的下一阶段，我们将致力于结合工业数据与行业数据，包括工业、医疗临床研发药物等相关的数据，结合起来训练大模型，使大模型能够在纵向的行业特定背景下能够起到作用。我们实际上做的就是把多元的数据连接，使其为生成式人工智能时代做出贡献。

问：现在技术更新如此迅速，你们未来会采取哪些措施来保持创新?

Viña：正如我前面所讲的一样，当前市场上诸多创新焦点集中在人工智能领域，尤其是生成式AI，它在多种行业应用中日益凸显其重要性。Denodo正位于这一技术创新浪潮的前沿，我们已经将人工智能融入我们的体系中。

自去年起，我们就已具备生成式AI功能，主要应用于两个场景：首先，我们正在将生成式AI整合进自身产品中。以往，用户需通过SQL（结构化查询语言）这种专业编程语言来提取Denodo中的数据，而今，即便不具备SQL知识的用户，也能通过自然语言（如英语、汉语等）提出问题，如询问“去年在中国谁是我们的最盈利客户?”，生成式AI即可将其转化为SQL查询，执行后返回所需数据。这意味着，用户无需求助于程序员编写查询语句，直接输入自然语言即可即时获取数据。这是第一点。

其次，针对构建生成式AI模型的用户，他们往往需要海量数据，且要求数据来源广泛、高度可信。我们快速整合各系统数据，为这些大型语言模型提供可靠数据源，进而帮助模型输出更高质量的智能服务。我们曾与中国官员交流，他们反映，某些中国企业相较于政府倡导的标准，在生成式AI能力方面尚存差距。Denodo的技术恰好能为这些企业提供支持，帮助他们获取高信赖度的数据，从而为中国乃至国际市场提供更优质的服务。这是第二点。

Shankar：我想从技术创新的视角补充第三点，即我们如何通过技术手段支持数据管理的持续创新，特别是对大规模、分布式部署的支持。这对跨国公司而言尤为重要，跨国公司往往面临跨国数据流动的挑战，需确保遵守各司法管辖区的数据本地存储规定。我们的独特技术支持在不同司法管辖区的地理分布部署，通过数据虚拟化手段，用户能够在不跨越国界移动数据的前提下合规使用数据，满足企业各个部门对于跨国家数据孤岛中的数据需求或持续性报告需求。