国际统计学会候任主席：ChatGPT等大模型非常依赖数据质量，要大家联手

2023-04-26 16:58:16 - 澎湃新闻

近期ChatGPT等人工智能火爆出圈，人工智能需要对数据进行训练，数据质量一定程度上决定了AI水平。对于AI等新科技领域的数据使用与监管，应有怎样的考虑？

4月26日，在第四届联合国世界数据论坛期间，国际统计学会（ISI）候任主席、密歇根大学统计系教授何旭铭接受澎湃新闻（www.thepaper.cn）记者采访时表示，像ChatGPT这样的人工智能模型需要大量的数据，通过高效的算法得出结果，实际还是非常依赖数据本身的质量以及全面性的。当前，全世界关于数据问题的讨论越来越多，大家都逐渐意识到，要得到好的结果，必须在每一个环节都要做好，而且大家联手。

“我们要知道数据是怎么来的，如果数据只是从一个地方来，不具有更多代表性，就算把这些数据全部用上，所得到的结论不一定对所有人都合适。”何旭铭表示，数据的生产最好要具有代表性，如果在并不完全有代表性的情况下，也要弄清楚数据里面对哪些人采样比较多，哪些人采样比较少，在分析阶段要把这些情况进行调整，这也涉到数据设计和分析方法的更新与发展，多方面结合才能够保证最后得到的结论更加智能，更加准确。

数据本是微观个体行为形成的，随着数据集约，价值也就显现了出来。但针对数据权利的归属，历来有不同主张的争论，一定程度上影响了数据开发利用。该如何看待数据权利的归属问题？

谈到这个问题，何旭铭表示，最好的情况是所有的数据都能够实现共享。“数据就人一样，同一个人，不同的人去看得到不同的结论是，同一个人去看的时间不同，角度也不一样，所以数据共享会让更多的人来研究数据，能去挖掘数据里面挖掘潜力和知识。”

然而，这种理想的情况并不容易实现，现实中数据共享、共治面临重重阻力。何旭铭指出，包括政府、企业在内的不同数据拥有者会有自身利益的不同考量，政府或会更加在意国家安全问题，企业的数据可能会包含隐私和商业利益。何旭铭建议，应该建立一个公共的共享信息平台，除了敏感信息，其他数据都可以进行共享，并说明所共享数据与原始数据的区别，这样能让使用者在不掌握原始数据的情况下也能对数据进行利用，从数据挖掘知识也就更加容易了。

在确保统计数据真实性方面，何旭铭建议，一方面在采集时要有一定的投资来保障准确性。另一方面在采集数据和分析数据过程中要进行相互制约的交叉验证。