川观智库资讯丨生成式AI发挥作用的关键前提,数据要到位

2024-08-01 18:15:00 - 四川在线

川观智库研究员 饶雪琪

近日,知名咨询公司埃森哲发布文章《数据就绪:生成式AI发挥作用的关键前提》,认为随着AI技术的飞速发展,对数据量和种类的需求正在发生变化,企业需要找准方向。其中,专有数据将奠定企业竞争优势,非结构化数据潜力巨大,合成数据填补数据空白。

埃森哲认为,公司内部生成的专有数据(如客户信息、产品细节、运营流程)是企业竞争优势的核心。如何开发内部专有数据,有两个关键考虑因素:一是价值导向的数据资产管理。数据资产管理已不再是企业的纯支出,而是对于一种全新生产资料的开发和维护。企业需要像开发产品那样,采取积极措施保证数据质量(如准确性与相关性),确保其能有效支撑关键的投资决策;通过投资于数据的收集、清洗、分析及应用等过程来增值。

二是多元化数据源的整合与利用。企业应当识别在不同业务流程阶段生成的独特数据,无论它们是源自于自身、合作伙伴还是其他第三方机构。在对其进行区分、筛选的基础上,这些多维度的数据来源将共同构建一个全面而立体的信息网络,为企业带来更广阔的战略视野和更深入的市场洞察。

同时,非结构化数据蕴藏巨大潜力。非结构化数据包括文本、图像、音频和视频等多种形式,通常包含丰富的上下文信息。尽管这些数据不容易被传统的数据库处理,但它们却蕴含着大量关于用户行为、情感和环境的细节。生成式AI特别擅长处理这类数据,能够将其转化为对业务有实际价值的洞察和应用。例如,它可以将一个教学视频转换成产品功能列表,总结电话会议的内容,或者生成营销文案。当非结构化数据与结构化数据(如表格、数字等)结合使用时,可以提供更加人性化和情境化的沟通体验。非结构化数据中的语调、个性、外观和感觉等信号,能丰富人机交互的层次,使交流更加自然和深入。在应用时,关键考虑因素是数据可访问性。即企业可以通过扩展数据架构、加强安全性并完善治理策略,使其更易于访问和使用。

合成数据能填补数据空白。AI的系统性能和准确度往往取决于其训练数据的数量和多样性。随着任务的复杂度增加,对数据量的要求也随之上升。合成数据能解决现实世界中数据不足的问题,又避免了直接使用大规模真实数据所带来的高成本和潜在的法律、商业、道德等风险。合成数据还可以用于风险管理,设计假设情景,以及消除模型中的偏见。这对于确保AI系统公平性和可靠性至关重要。此外,它还能在不侵犯隐私的情况下训练AI模型,避免了真实数据可能带来的隐私泄露风险。其中,关键考虑因素是成本效益。生成式AI本身就能用于创造合成数据,通过使用大语言模型(LLM)来生成小模型所需的训练数据,是一种成本效益高、不影响准确性的方法。

今日热搜