川观智库资讯丨生成式AI发挥作用的关键前提，数据要到位

2024-08-01 18:15:00 - 四川在线

川观智库研究员　饶雪琪

近日，知名咨询公司埃森哲发布文章《数据就绪：生成式AI发挥作用的关键前提》，认为随着AI技术的飞速发展，对数据量和种类的需求正在发生变化，企业需要找准方向。其中，专有数据将奠定企业竞争优势，非结构化数据潜力巨大，合成数据填补数据空白。

埃森哲认为，公司内部生成的专有数据（如客户信息、产品细节、运营流程）是企业竞争优势的核心。如何开发内部专有数据，有两个关键考虑因素：一是价值导向的数据资产管理。数据资产管理已不再是企业的纯支出，而是对于一种全新生产资料的开发和维护。企业需要像开发产品那样，采取积极措施保证数据质量（如准确性与相关性），确保其能有效支撑关键的投资决策；通过投资于数据的收集、清洗、分析及应用等过程来增值。

二是多元化数据源的整合与利用。企业应当识别在不同业务流程阶段生成的独特数据，无论它们是源自于自身、合作伙伴还是其他第三方机构。在对其进行区分、筛选的基础上，这些多维度的数据来源将共同构建一个全面而立体的信息网络，为企业带来更广阔的战略视野和更深入的市场洞察。

同时，非结构化数据蕴藏巨大潜力。非结构化数据包括文本、图像、音频和视频等多种形式，通常包含丰富的上下文信息。尽管这些数据不容易被传统的数据库处理，但它们却蕴含着大量关于用户行为、情感和环境的细节。生成式AI特别擅长处理这类数据，能够将其转化为对业务有实际价值的洞察和应用。例如，它可以将一个教学视频转换成产品功能列表，总结电话会议的内容，或者生成营销文案。当非结构化数据与结构化数据（如表格、数字等）结合使用时，可以提供更加人性化和情境化的沟通体验。非结构化数据中的语调、个性、外观和感觉等信号，能丰富人机交互的层次，使交流更加自然和深入。在应用时，关键考虑因素是数据可访问性。即企业可以通过扩展数据架构、加强安全性并完善治理策略，使其更易于访问和使用。

合成数据能填补数据空白。AI的系统性能和准确度往往取决于其训练数据的数量和多样性。随着任务的复杂度增加，对数据量的要求也随之上升。合成数据能解决现实世界中数据不足的问题，又避免了直接使用大规模真实数据所带来的高成本和潜在的法律、商业、道德等风险。合成数据还可以用于风险管理，设计假设情景，以及消除模型中的偏见。这对于确保AI系统公平性和可靠性至关重要。此外，它还能在不侵犯隐私的情况下训练AI模型，避免了真实数据可能带来的隐私泄露风险。其中，关键考虑因素是成本效益。生成式AI本身就能用于创造合成数据，通过使用大语言模型（LLM）来生成小模型所需的训练数据，是一种成本效益高、不影响准确性的方法。