973 B
973 B
能力与效果评估
评估体系
介绍评估体系各个标准,含示例和介绍文字等
图灵测试
- 操作方法 从知识库以外的比赛与应用案例中整理出问题与数据,让LInkTool与GIS专业的同学同时完成题目,并将两者的答案进行整理。寻找一定数量的GIS专业学生参与本次图灵测试,本次测试的内容为分别为两者的答案进行打分以及选择哪一份是人思考得出的答案,最终整理出图灵测试的结果。
- 问卷
评估结果
介绍当前智能体的评估结果、与竞品对比、与人工操作对比、不同迭代版本的智能体对比等
| 问题1 | 问题2 | 问题3 | 问题4 | 问题5 | 平均得分 | |
|---|---|---|---|---|---|---|
| 人得分 | 49/55 | 46/55 | 55/55 | 51/55 | 53/55 | 4.62 |
| LinkTool得分 | 43/55 | 50/55 | 55/55 | 54/55 | 45/55 | 4.49 |
| 被认为人的次数 | 2/11 | 4/11 | 11/11 | 3/11 | 10/11 | 0.5454 |