企业如何衡量AI应用程序的成功

AI区别于传统软件的一个基本特征是它的非确定性。即使使用相同的输入，不同轮的计算也会产生不同的结果。虽然这一特征极大地促进了AI令人兴奋的技术潜力，但它也带来了挑战，特别是在衡量基于AI的应用程序的有效性方面。

下面是这些挑战的一些错综复杂的部分，以及战略研发管理可以起到一些作用的方法。

AI应用程序的性质

与传统软件系统不同，在传统软件系统中，重复和可预测性对功能既是预期的，也是至关重要的，AI应用程序的非确定性性质意味着它们不会从相同的输入产生一致的、可预测的结果。他们也不应该——如果ChatGPT一遍又一遍地进行相同的脚本响应，而不是每次都有新的东西，它就不会引起如此大的轰动。

(资料图片仅供参考)

这种不可预测性源于ML和深度学习中使用的算法，这些算法依赖于统计模型和复杂的神经网络。这些AI系统旨在不断从数据中学习并做出明智的决策，从而根据上下文、训练输入和模型配置产生不同的输出。

衡量是否成功时面临的挑战

由于其概率结果、针对不确定性而编程的算法以及对统计模型的依赖，AI应用程序使基于预定预期定义明确的成功衡量标准变得具有挑战性。换句话说，从本质上讲，AI可以以类似于人类思维的方式思考、学习和创造。但我们怎么知道它认为什么是正确的呢?

另一个关键的复杂因素是数据质量和多样性的影响。AI模型在很大程度上依赖于它们所训练的数据的质量、相关性和多样性——它们从这些信息中“学习”。为了使这些应用程序获得成功，它们必须接受包含各种场景(包括边缘案例)的代表性数据的培训。评估训练数据的充分性和准确表示对于确定AI应用程序的整体成功至关重要。然而，考虑到AI的相对新颖性，以及它所使用的数据的质量和多样性的标准尚未确定，结果的质量在不同的应用程序中波动很大。

然而，有时是人类思维的影响——更具体地说，是语境解释和人类偏见——让衡量AI的成功变得复杂。AI工具通常需要这种人工评估，因为这些应用程序需要适应不同的情况、用户偏见和其他主观因素。

因此，在这种情况下衡量成功成为一项复杂的任务，因为它涉及到获取用户满意度、主观评估和特定于用户的结果，而这些结果可能不容易量化。

如何克服挑战

了解这些复杂情况背后的背景是提出改进成功评估和使AI工具更好地工作所需战略的第一步。以下是三个可以帮助你的策略：

1、定义概率成功指标

鉴于AI应用结果固有的不确定性，那些负责评估其成功的人必须拿出专门为捕捉概率结果而设计的全新指标。可能对传统软件系统有意义的成功模式与AI工具配置根本不兼容。

与其只关注确定性的绩效指标，如准确度或精确度，不如将可信区间或概率分布等概率指标纳入其中——这些统计指标评估特定参数内不同结果的概率——可以提供更全面的成功图景。

2、更强大的验证和评估

建立严格的验证和评估框架对AI应用至关重要。这包括全面测试、对照相关样本数据集进行基准测试，以及进行敏感性分析以评估系统在不同条件下的性能。定期更新和再培训模型，以适应不断变化的数据模式，有助于保持准确性和可靠性。

3、以用户为中心的测评

AI的成功不仅仅存在于算法的范围内。从接受产出的人的角度来看，产出的有效性同样重要。

因此，在衡量AI应用程序的成功时，尤其是针对面向消费者的工具，纳入用户反馈和主观评估是至关重要的。通过调查、用户研究和定性评估收集见解，可以提供有关用户满意度、信任度和感知效用的宝贵信息。平衡客观的绩效指标和以用户为中心的产出评估，将产生更全面的成功视角。

评估是否成功

衡量任何给定AI工具的成功需要一种微妙的方法，承认其输出的概率性质。那些参与创造和微调任何能力的AI的人，特别是从研发角度来看，必须认识到这种固有的不确定性带来的挑战。

只有定义适当的概率指标，进行严格的验证，并纳入以用户为中心的评估，该行业才能有效地驾驭AI激动人心的潜在能力。

推荐内容

企业如何衡量AI应用程序的成功

2.4 GHz与5GHz：物联网设备连接问题背后的科学

枣庄公积金政策：支持老旧小区加装电梯提取

虚拟号在转转实践与应用

如何选择楼宇自动化控制系统：避免常见错误

流程图&时序图绘制小tips

一个注解，两种实现方式完美解决重复提交问题

三分钟白话RocketMQ系列—— 如何消费消息

公摊问题，关键还在预售制

重要信号！首家券商加入回购大军，3天又有22家"参军"

工厂出货在增长但家电终端却卖不动，货去哪里了？

苹果十年磨一剑的产品大变！外观轻薄功能巨增...这次有理由换新了！

回顾英伟达的坑害史, 从微软索老任到玩家无一幸免

苹果M芯片Mac运行Linux系统，已获游戏性能更新

比利时一男子占卜自己将死于空难，回家闭门不出，被失控飞机砸死

快评：正视ECFA问题　留给台湾时间不多

宁浩新作《红毯先生》将于多伦多电影节举行世界首映主演刘德华获特别贡献奖

辽宁大连先后发生 4.6 级和 2.8 级地震，多地网友表示有震感

男人三十五岁后感觉身体越来越差（男人三十五）

边缘计算与物联网：提升互联网连接的效率和安全性

推荐内容

企业如何衡量AI应用程序的成功

2.4 GHz与5GHz：物联网设备连接问题背后的科学

枣庄公积金政策：支持老旧小区加装电梯提取

虚拟号在转转实践与应用

如何选择楼宇自动化控制系统：避免常见错误

流程图&时序图绘制小tips

一个注解，两种实现方式完美解决重复提交问题

三分钟白话RocketMQ系列—— 如何消费消息

公摊问题，关键还在预售制

重要信号！首家券商加入回购大军，3天又有22家"参军"

工厂出货在增长但家电终端却卖不动，货去哪里了？

苹果十年磨一剑的产品大变！外观轻薄功能巨增...这次有理由换新了！

回顾英伟达的坑害史, 从微软索老任到玩家无一幸免

苹果M芯片Mac运行Linux系统，已获游戏性能更新

比利时一男子占卜自己将死于空难，回家闭门不出，被失控飞机砸死

快评：正视ECFA问题 留给台湾时间不多

宁浩新作《红毯先生》将于多伦多电影节举行世界首映 主演刘德华获特别贡献奖

辽宁大连先后发生 4.6 级和 2.8 级地震，多地网友表示有震感

男人三十五岁后感觉身体越来越差（男人三十五）

边缘计算与物联网：提升互联网连接的效率和安全性

快评：正视ECFA问题　留给台湾时间不多

宁浩新作《红毯先生》将于多伦多电影节举行世界首映主演刘德华获特别贡献奖