人工智能测试验证的工作是干什么的？

solidworks | PHP | c4d | 细胞生物学 | HTML | 冬奥会 | 基因 | 营销策划 | 扫地机器人 | 武侠 | 大学生就业 | 电学 | 国航 | 电子技术研发 | 几何学 | 外星人 | 语言学 | 秦时明月之天行九歌 | 金融数学 | 三国人物 | 休学 | 小店区 | 杨紫 | 植保无人机 | CSS | 陶渊明 | 少数民族 | AutoCAD | 3d打印机 | 香港购物 | 日语语法 | 对联 | matlab | 按键精灵 | 粉丝（Fans） | 语言学习 | 总决赛 | 驾驶经验 | Spss数据分析 | 日本漫画 | 数学建模 | 道德 | 项目管理 | 背景音乐（bgm） | 云主机 | 3D Max | onenote | 游戏原画 | 科学 | 网站建设 | 热血传奇（游戏） | 身高 | 网站运营 | 道教 | 社会学 | 迅雷（软件） | 爬虫（计算机网络） | O2O | 运载火箭 | 遗传学 | 率土之滨 | 百度输入法 | 极限挑战(综艺节目) | 电梯 | 女性主义 | Adobe After Effects | mysql | 办公软件 | 法国 | ps3 | 化学实验 | QQ群 | 中国中央电视台 | 前女友 | 性格 | 免费软件 | 分子生物学 | 金庸小说 | 留学生 | Microsoft SQL Server | 龙珠 | 设计院 | C#编程 | 虚拟机 | 字幕 | 微信群 | 创业项目 | 祛痘 | 图形处理器（gpu） | Microsoft Visual Studio | 动物保护 | C/C++ | facebook | 秦岭 | 燕窝 | 人性 | 下载 | 驾驶技术 | 大学数学 | 封神演义 | 整容 | 西装 | 马克思主义哲学 | 计算机专业 | pdf | thinkpad | 代理 | 参考文献 | 江苏大学 | 游戏手柄 | 城市规划 | 黑洞 | 旅行 | CAD制图 | 风水 | 直播 | 快捷键 | 编辑器 | 机器学习 | 暴走大事件 | 球球大作战 | unity（游戏引擎） | 永恒之塔 | DJI大疆创新 | 传统文化 | wordpress | 仙剑奇侠传（游戏） | 国际物流 | 安徽 | 配音 | 猎头公司 | 在线教育 | 欧洲冠军联赛 | ios游戏 | 洛奇英雄传 | 暗恋 | 网盘 | 星座爱情 | 剧场版 | 面相 | 讯飞输入法 | 记忆力 | 超级战队 | stm32 | 亚马逊中国 | Apple ID | 服装设计 | 网络主播 | 品牌营销 | 情侣 | 新加坡 | 调酒 | 雷欧奥特曼 | 花样姐姐 | 物联网 | 任天堂3ds | 易经 | 户型 | 流氓软件 | 圣经 | 进化 | 垃圾分类 | 函数 | 星际穿越（电影） | 山东工艺美术学院 | 优酷视频 | github | 舰队 Collection | 流行音乐 | 进击的巨人 | playstation vita | 科学研究 | 欢乐麻将 | 史莱姆 | 海关 | Internet Explorer | 刑事案件 | 取名 | 江苏银行 | eDonkey网络 | 表情包 | mfc | 大学军训 | 诸葛亮 | Apple WATCH | 嵌入式系统 | 私募证券投资基金 | iOS应用 | 对外经贸大学 | 最强大脑（电视节目） | 青蛙 | 日本代购 | 巧克力 | 天涯明月刀ol（游戏） | 食用油 | 曹操 | SEO | 生命 | 乌贼 | 我的英雄学院 |

你的位置：网站首页 >> 频道首页 >>人工智能 >>人工智能测试验证的工作是干什么的？

人工智能测试验证的工作是干什么的？

来源：蜘蛛抓取(WebSpider) 时间：2022-09-27 14:20 标签：啥叫人工智能

来源：软件测试资源分享

随着技术的进步，再也不是之前像测试网页那么简单，现在面临着新的挑战，比如人工智能、VR、AR等，面对人工智能，我们之前所用的所有测试手段都过时了吗?面对人工智能，我们该从哪里开始进行测试?

人工智能(AI)经常成为头条新闻，它提供各种各样的可能性，使我们的生活更容易，并且它也能推动我们生活中各个领域的创新。在几乎所有领域都有人工智能应用的机会，包括家庭自动化、个人虚拟助理、自动化服务代理、欺诈检测、预防性维护、个性化体验、财务咨询、医疗保健建议等等。许多研究报告都预测人工智能和相关技术具有巨大的市场潜力。

但就像大多数新兴领域一样，人工智能的发展也并非一帆风顺——比如说无人驾驶汽车的致命交通事故、人工智能系统的种族主义反应、图像标签软件不恰当的标签等。这就提出了一个至关重要的问题——这些系统是如何进行测试的?更重要的是，我们是否已经准备好测试这些软件，并且让大家对使用人工智能进行一些重大决定时保持信心?

那么为什么我们需要担心测试策略呢?软件测试是一个先进并且是在不断进步的领域，已经存在了几十年。测试人工智能应用程序与其他传统应用程序有何不同?

答案是：基本的区别是很少的。

人工智能应用程序的特点是是不确定性和概率性、对大数据具有依赖性、随机性的输入/输出、难以预测所有应用场景、需要从过去的行为中不断自我学习。传统的方法和测试工具将不能满足测试这些系统的需要。

在了解需要测试的内容之前，让我们先了解基于AI的应用程序的基础组件。

所有人工智能系统都是由巨大而多样的数据驱动的，在做出任何决定之前都需要进行处理。这些数据可以是任何格式——文本、语音、图像、视频……来源也各不相同。这些数据可能是一次性摄入的，也可能是一个连续的过程。数据极其重要，是人工智能系统所采取的任何预测、决定或行动的基础。

接下来是机器学习系统或核心算法——这构成了人工智能系统的核心，因为系统是在这里训练来执行某些动作的。根据需要和上下文，这些算法可能在种类和复杂性上有所不同，可以组合多个算法来给出特定的期望输出。

最后，还有与第三方系统的接口。人工智能系统将被应用于其他更大的应用程序以满足最终的业务目标。

举一个例子：某个推荐系统可能无法实时地独立地工作，它将集成到一个互联网应用程序之中，为用户提供实时产品推荐。

现在，让我们看看在各个层级我们将如何进行测试。

1、在数据摄取层，验证系统能够接受来自各种来源和各种格式的数据是很重要的。其次，需要验证所摄入的数据是否按照目标系统所期望的格式转换。很少有查询来验证正确的数据和数据类型的摄入，但这将是有很用的，并且可以防止由于数据而出现的异常。

2、在选择算法时验证系统的准确性(在这里，对选择使用哪种算法不做讨论)。作为至关重要的一步，将基础数据七三开，用于培训和测试。它使用训练数据集来理解和建模系统行为，并使用测试数据来验证系统的准确性或响应。对于分类算法，可以通过计算分类精度或混淆指标来获得模型的准确性。像平均平方误差(MSE)、均方根误差(或RMSE)或R方可以用来评估回归算法的预测。

3、需要测试第三方接口。测试人工智能系统如何满足总体业务目标是很重要的。为了验证这一点，需要结束业务驱动的测试。

这些指导原则将帮助测试人员从这个方向开始。需要大量的努力来生成正确的测试数据，构建适当的测试模型，并确定正确的度量标准集，以将其与正在测试的系统相关联。机会是巨大的，我们准备得多么好，这一切都是不同的!

感谢您的阅读，无论是传统的软件测试还是对于人工智能的测试，其实思路是相通的，只是你要对你所要测试的事物足够的了解，其实就跟线上线下的销售似的，渠道不一样，思想一样，都是要抓住用户痛点，解决用户问题，然后顺理成章地售卖自己的产品，说到这里，我想你应该理解了，你要测试的人工智能只是更复杂一些罢了，但它依然拥有UI、性能......它依然是要满足相应的用户需求，所以不要畏惧。好了，更多软件测试相关的内容尽在培训，敬请关注!

免责声明：内容和图片源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

填写下面表单即可预约申请免费试听！怕钱不够？可就业挣钱后再付学费！怕学不会？助教全程陪读，随时解惑！担心就业？一地学习，可全国推荐就业！

本文作者@Jasmine ，文章主要分享我们该如何在对AI行业一无所知的情况下，快速了解到它的流程运作，并找准机会转行。

Hi，我是@Jasmine，一位AI产品经理。在正式内容之前，我想跟大家简单分享一下我的经历：我大学本科不是IT相关，甚至在我工作之前，我没有做过任何与互联网相关的实习工作。

而现在我能负责公司的重点项目，证明了进入AI行业并不是你们想象中的那么困难。直至今天，我仍在这条道路上不断学习，也希望有更多的朋友给予我指点。

现在我就来说说，如何在对AI行业一无所知的情况下，快速了解到它的流程运作，并找准机会转行。

一、简单了解AI应用范围

（上图，来自智能玩咖）

AI的应用领域非常非常广，上图只是大家相对熟悉的几个，而且每一个领域用到的算法都不一样。有很多想转型的产品，第一个考虑的点就是：不懂技术就做不了AI，我是不是学完算法才能入行？

不仅算法重要，很多时候数据可能更重要；有保质保量的数据，才可能有好的训练效果。
数据可分为两种类型：“被标记过”的数据和“未被标记过”的数据。什么是标记呢？意同“贴标签”，当你看到一个西瓜，你知道它是属于水果。那么你就可以为它贴上一个水果的标签。算法同事用“有标签的数据”去训练模型，这里就有了“监督学习”。

重点就是这里：只要是跟“监督学习”沾边的产品/技术，比如图像识别、人脸识别、自然语言理解等等，他们都有一个必走的流程——

不断地用标注后的数据去训练模型，不断调整模型参数，得到指标数值更高的模型。

数据的质量直接会影响到模型的质量，因此数据标注在整个流程中绝对是非要重要的一点。

1）一般来说，数据标注部分可以有三个角色

标注员：标注员负责标记数据。
审核员：审核员负责审核被标记数据的质量。
管理员：管理人员、发放任务、统计工资。

只有在数据被审核员审核通过后，这批数据才能够被算法同事利用。

任务分配：假设标注员每次标记的数据为一次任务，则每次任务可由管理员分批发放记录，也可将整个流程做成“抢单式”的，由后台直接分发。
标记程序设计：需要考虑到如何提升效率，比如快捷键的设置、边标记及边存等等功能都有利于提高标记效率。

3）进度跟踪：程序对标注员、审核员的工作分别进行跟踪，可利用“规定截止日期”的方式淘汰怠惰的人。

4）质量跟踪：通过计算标注人员的标注正确率和被审核通过率，对人员标注质量进行跟踪，可利用“末位淘汰”制提高标注人员质量。

这部分基本交由算法同事跟进，但产品可依据需求，向算法同事提出需要注意的方面；

背景：一个识别车辆的产品对大众车某系列的识别效果非常不理想，经过跟踪发现，是因为该车系和另外一个品牌的车型十分相似。那么，为了达到某个目标（比如，将精确率提高5%），可以采用的方式包括：

补充数据：针对大众车系的数据做补充。值得注意的是，不仅是补充正例（“XXX”应该被识别为该大众车系），还可以提供负例（“XXX”不应该被识别为该大众车系），这样可以提高差异度的识别。
优化数据：修改大批以往的错误标注。

产品将具体的需求给到算法工程师，能避免无目的性、无针对性、无紧急程度的工作。

测试同事（一般来说算法同事也会直接负责模型测试）将未被训练过的数据在新的模型下做测试。

如果没有后台设计，测试结果只能由人工抽样计算，抽样计算繁琐且效率较低。因此可以考虑由后台计算。

一般来说模型测试至少需要关注两个指标：

精确率：识别为正确的样本数/识别出来的样本数
召回率：识别为正确的样本数/所有样本中正确的数

举个栗子：全班一共30名男生、20名女生。需要机器识别出男生的数量。本次机器一共识别出20名目标对象，其中18名为男性，2名为女性。则

而且，模型的效果，需要在这两个指标之间达到一个平衡。

测试同事需要关注特定领域内每个类别的指标，比如针对识别人脸的表情，里面有喜怒哀乐等分类，每一个分类对应的指标都是不一样的。测试同事需要将测试的结果完善地反馈给算法同事，算法同事才能找准模型效果欠缺的原因。同时，测试同事将本次模型的指标结果反馈给产品，由产品评估是否满足上线需求。

“评估模型是否满足上线需求”是产品必须关注的，一旦上线会影响到客户的使用感。

因此，在模型上线之前，产品需反复验证模型效果。为了用数据对比本模型和上一个模型的优劣，需要每次都记录好指标数据。

假设本次模型主要是为了优化领域内其中一类的指标，在关注目的的同时，产品还需同时注意检测其他类别的效果，以免漏洞产生。

产品经理的工作，不止是产品评估——除了流程控制，质量评估，还有针对分类问题，由产品经理制定边界；这是非常重要的，直接影响模型是否满足市场需求。

产品制定分类规则：例如，目的是希望模型能够识别红色，那产品需要详细描述“红色”包含的颜色，暗红色算红色吗？紫红色算红色吗？紫红色算是红色还是紫色？这些非常细节的规则都需要产品设定。

如果分类细，那么针对某一类的数据就会少。如果分类大，那么一些有歧义的数据就会被放进该分类，也会影响模型效果。分类问题和策略问题道理是一样的，都需要产品对需求了解得非常深刻。

以上内容，都只是AI行业一个小领域内可梳理的工作内容。

总之，针对刚刚入行的朋友，如果没有算法基础、没有工程基础，可考虑在流程、平台等职责角度做过渡；在工作内容中不断总结学习，往自己最终的方向目标不断前进！

作者：黄钊hanniman，图灵机器人-人才战略官，前腾讯产品经理，5年AI实战经验，8年互联网背景，微信公众号/知乎/在行ID“hanniman”。

本文由 @Jasmine 原创发布于人人都是产品经理。未经许可，禁止转载。