中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Multimodal Information Fusion

Efficiency evaluation of speech and gesture interaction based on GOMS model

  • LI Jia-ying ,
  • HUO Jia-dao ,
  • LI Dong ,
  • HUANG Ke
Expand
  • Jiangsu Automation Research Institute, Lianyungang 222061, China

Received date: 2022-12-20

  Revised date: 2023-01-03

  Online published: 2023-04-17

Abstract

Aiming at the problem that it is difficult to evaluate the interaction efficiency of new interaction means such as voice and gesture in the application of command and control system, based on the analysis of the interaction efficiency evaluation of traditional 2D graphical user interface GOMS, a human-computer interaction GOMS model oriented to augmented reality command is proposed. The model combines the features of 3D interface and multi-modal interaction in the augmented reality environment to improve the design. By analyzing the use time of different interaction modes and the influence of different interaction scenarios on the interaction operation time, the model predicts the time required by users to complete a certain task, quantifies the performance of different interaction modes, and provides basis and reference for the optimization design of the interaction system.

Cite this article

LI Jia-ying , HUO Jia-dao , LI Dong , HUANG Ke . Efficiency evaluation of speech and gesture interaction based on GOMS model[J]. Command Control and Simulation, 2023 , 45(2) : 94 -100 . DOI: 10.3969/j.issn.1673-3819.2023.02.015

指控系统是指挥机构和人员对作战武器装备和有关作战人员进行指挥控制的信息系统[1],人机交互是指挥员与信息装备进行双向信息交换的过程,当前舰艇指控系统主要基于图形用户界面进行人机交互,采用摸球、键盘、触摸屏等进行信息输入,界面复杂,嵌套多,指挥人员需要在不同的操控界面之间反复切换,才能完成某一操控任务,这增加了操作响应时间。在舰艇实际作战过程中,指挥人员和指控系统操作人员一般严格按照作战条令条例执行作战任务。繁杂的操作界面和种类繁多的操作指令给操作人员带来认知负担和心理压力,使其难以适应紧张、快节奏的操作负荷。随着信息技术的高速发展,虚拟、增强现实以及语音、手势、体感等新型自然人机交互技术在指控系统的应用成为可能,依靠多通道自然人机交互的指挥手段[2],将指挥员从繁杂的操作中解脱出来,对于减轻指挥和操作人员认知负担和操作压力,提高作战指挥效率,具有重要意义。
交互效率广泛应用于人机交互和工效学研究中,主要包括用户在执行任务时的时间和准确率。近年来,国内外结合虚拟、增强现实技术,将语音、手势、体感等人机交互技术应用到电子沙盘[3-4]、指挥控制系统[5-6]等领域,并优化各项交互技术以提高交互准确率,但没有对交互时间的预测与分析,缺少针对这些场景的交互效率评估研究。执行语音手势的交互时间、交互方式都与使用摸球、键盘交互有所不同,需要定性定量的分析方法对此进行交互效率评估。针对这一问题,本文在分析传统二维图形用户界面GOMS交互效率评估的基础上,提出了一种面向增强现实指挥的人机交互GOMS模型,该模型结合增强现实环境下三维界面、语音交互、手势交互等特点进行改进设计,建立与作战指挥任务相适应的分析模型,分析不同阶段人机交互方式使用时间及不同交互场景对交互操作时间的影响,预测用户完成任务所需的时间,量化不同交互方式的绩效,为交互系统优化设计提供依据和参考。

1 GOMS模型

在二维人机交互环境下,面向任务展开交互效率评估最广泛使用的是GOMS模型[7],最早由Card等在《人-计算机交互心理学》中提出,是关于用户在与系统软件交互时使用的认知过程模型。后来,Jef Raskin[8]将GOMS模型最早应用于预测交互时间,从而评估交互效率,为人们提供了一种定性定量的分析方法。使用该模型进行效率评估的基本流程如图1,选定具体场景下的交互任务,根据模型中的内容即可预测出交互时间。
图1 使用GOMS模型进行交互效率评估的流程

Fig.1 Process for interactive efficiency evaluation using the GOMS model

GOMS模型建立的框架如图2,主要由目标、操作、方法以及选择规则四部分构成。目标是指用户在进行交互行为时要达到的目的。操作是使用户为实现目标所进行的具体动作,不能再继续分解。方法原本是指为了达到目标而采用的具体步骤。选择规则是在完成操作时选择通道的规则,选择规则是判断当前条件下更适合选取哪种交互方式的依据。
图2 GOMS模型框架

Fig.2 GOMS model framework

GOMS模型将交互动作分解为认知、感知和运动三个阶段,在给出交互动作的同时,也给出了完成每个交互动作的时间,交互动作的含义与时间见表1。计算交互时间最基本的原则是,完成一项交互任务的时间是完成该任务的各个动作时间的总和[8]。在实际使用过程中,用户何时进行心理准备难以确定,需要制定规则便于计算,GOMS模型制定心理准备的插入和删除规则见表2。通过这种方法就可以得到量化数据,对人机交互效率进行评估,方便后期进行优化设计。
表1 GOMS模型的交互动作及时间

Tab.1 GOMS model interaction and time

阶段 动作 含义 时间
认知 心理准备M 用户进入下一步所做的心理准备 1.35 s
感知 系统响应R 等待系统的响应 与系统有关
运动 归位动作H 手从键盘移到鼠标或从鼠标移到键盘 0.4 s
指向动作P 手指向显示屏中某一位置 1.1 s
击键动作K 手敲击键盘上一个键 0.2 s
表2 GOMS模型时间计算规则

Tab.2 GOMS model time calculation rules

内容
M的插入 击键K前插入M,用于选择命令的指向P前插入M
M的删除 如果M前面的操作能够完全预期M后面的一个操作,删除该M
如果一串MK是同一认知单元,第一个M保留,删除其余M
如果K是一个认知单元后的多余分隔符,删除前面的M
如果K是分隔符,且后面是常量字符,删除之前的M
使用GOMS模型进行交互效率评估主要适用于在传统的基于摸球和键盘交互的用户界面中,但是在增强、虚拟现实场景中,在三维界面下的交互动作与二维界面有所不同,用时也有不同,用户可以做出系统预定义的手势或是说出预定义的语音指令完成任务,在手势交互的过程中,手的静态动作、手的运动轨迹都可以用来完成交互任务,做出一个手势动作的时间需要进行测试,完成一段运动轨迹则需要根据相应的时间函数来分析;在语音交互过程中,用户带入过多口语习惯,不规范发出指令会导致时间无法确定,还要进行语音交互的时间测试。同时,GOMS模型以串行方式制定时间计算规则,而增强现实多通道交互技术允许语音手势并行使用,相应的时间计算规则也应有所改变。

2 语音手势交互效率评估GOMS模型改进

2.1 框架建立

本文将原模型中的方法改为交互过程中所选择的通道,改进后的GOMS模型框架如图3。使用此框架分析任务的流程是:根据选择规则确定交互通道,并执行相应的操作,完成这些步骤后方可实现交互目标。
图3 改进GOMS模型框架

Fig.3 Improved GOMS model framework

2.2 动作分解

在认知与感知阶段,三维环境的交互动作与二维环境一致,但在运动阶段却有很大不同,分解了指挥员在指挥过程中执行任务的8个基本交互动作及含义如表3
表3 交互动作与语义

Tab.3 Interaction action and semantics

阶段 动作 含义
认知 心理准备M 用户进入下一步所做的心理准备
感知 系统响应R 等待系统的响应
运动 归位动作H 手移入或移出交互区
点击动作C 手指点击三维场景中某一位置
指向动作P 手指向三维场景中某一位置
滑动动作S 手在三维场景中滑动一段距离
手势动作G 做出预定义的手势动作
语音动作V 发出预定义的语音指令

2.3 时间确定

其中,心理准备M、系统响应R、归位动作H的时间,都可以查表1。点击动作C的时间与GOMS模型中击键动作类似,可取一致。
指向动作P的时间常用费茨定律[9]来估计。该定律指出,用户执行指向任务所需的移动时间T与目标宽度W和指向目标时移动的距离D有关,公式如下:
T=a+b·log2 1 + D W
ab是系数,主要是经验参数。费茨定律最初应用于二维界面上评估键盘鼠标的交互,也被验证可以用在三维环境中评估指向动作,不同的是,时间还受深度E,方位角θ的影响[10],二者与D有如下关系:
cos θ= E E 2 + D 2
费茨定律各参数在三维交互环境中的表示如图4。文献[11]经过实验测出,可将指向动作时间TP的函数表示为
图4 费茨定律各参数在交互场景中的表示

Fig.4 Representation of the parameters of Fitts' Law in the interaction scenario

TP=0.835+0.1×log2 D W + 1+0.899×E-0.844×cos θ
滑动动作S时间TS可以用以下时间函数表示:
TS=0.nD+0.lD
nD代表所滑动的直线段的段数,lD代表所滑动的直线所有段的总长度[8]
手势动作G的时间需要根据定义的手势进行测试。本文以移动军标任务为例展开讨论,预定义需要用到的选中手势G1和放置手势G2,手势动作与语义对应关系如表4。选中手势象征着移动任务的开始,表示将当前点击的图标拿起,并使其跟随手移动。放置手势象征移动任务的结束,当图标随手移动到目的位置时,就可以执行放置动作,表示图标不再处于被选中状态,不再跟随手移动。本实验邀请十位参与者,记录他们选中和放置动作所用的时间。对于选中动作的测定是以手伸入空中开始,对于放置动作的测定是选中动作开始。经过记录的数据进行异常值剔除处理后,所记录数据见表5,可得执行一次选中手势所用的时间 T G 1为1.83 s,执行一次放置手势所用的时间 T G 2为1.02 s。
表4 自定义手势的动作与语义

Tab.4 Action and semantics of custom gestures

手势动作 手势描述 手势图示 交互语义
选中G1 右手大拇指和食指捏合,
其余三指握拳
选中当前位置的图标
放置G2 右手大拇指和食指张开,
其余三指握拳
在当前位置放置选中的图标

语音动作V的时间也根据预定义的语音指令进行测试。为减少不同用户使用习惯产生的偏差,预定义的语音指令是关键词。在移动军标任务中,定义语音指令“移动”。本实验邀请十位参与者,测试每人发出“移动”口令的时间,每人测试十次。对记录的数据进行异常值剔除处理后,所记录数据如表5,可得发出一次“移动”指令所用的时间TV为0.72 s。

表5 手势和语音时间

Tab.5 Gesture and voice time

最大值 最小值 平均值 标准差
选中手势所用的时间 T G 1 2.18 1.36 1.83 0.24
放置手势所用的时间 T G 2 1.47 0.88 1.02 0.16
“移动”口令时间TV 0.81 0.66 0.72 0.074
综上,执行各交互动作时间如表6
表6 执行每个交互动作的时间

Tab.6 Time to perform each interaction

动作名称 动作时间
心理准备M 1.35 s
系统响应R 与系统有关
归位动作H 0.4 s
点击动作C 0.2 s
指向动作P 0.835+0.1×log2 D W + 1+0.899×E-0.844×cos θ
滑动动作S 0.nD+0.16×lD
选中手势G1 1.83 s
放置手势G2 1.02 s
移动口令V 0.72 s

2.4 规则制定

针对语音手势可并行使用的特点,本文为增强现实多通道交互下的任务制定以下交互规则:
1) M的插入
在所有的C、G、V之前都插入M,在所有用于选择命令的P之前插入M。但是对于用于选择命令参数的P,不要插入M。
2) M的删除
① 若M前面的动作能完全预期M后面的那个动作,则将该M删除。
② 如果一串MP/C/S/G属于同一个认知单元,则保留第一个M,其他的M删除。
③ 如果C是一个认知单元后的多余分隔符,则将此C前的M删除。
④ 如果C是分隔符,且后面紧跟一个常量字符串,则将之前的C删除。但如果C是一个命令参数的分隔符,则保留之前的M。
3) 语音通道与手势通道的并行处理
在执行同一任务过程中,当语音与手势表达同一语义时是同时发生的,在表达不同语义时,则是按照顺序先后发生。因此提出规则如下:
在同一任务下,当V与C、S、G相临时,判断语音发出的指令与手势指代的命令是否同一语义,若是,则将两者看作同时发生,判断两者的时间,删除用时更少的动作。若不是同一语义,不做删除。具体流程如图5
图5 语音通道与手势通道的并行处理规则

Fig.5 Parallel processing rules of voice channel and gesture channel

3 改进GOMS模型在指挥任务中的应用

为了验证使用改进GOMS模型进行效率评估的有效性,接下来对具体任务进行分析。以常用的移动军标任务为例,可以评估不同交互方式的绩效,在具体的交互场景中,还可以预测出交互时间,通过具体参数对交互时间的影响分析,得出交互效率更高的方案,为交互系统优化设计提供依据和参考。

3.1 移动军标任务的时间预测

使用GOMS模型分析移动军标任务如图6,完成该任务时,指挥员有两种交互方式,一种是使用手势,另一种是使用手势和语音,接下来分别分析两种方式。
图6 移动军标任务的改进GOMS模型

Fig.6 Improved GOMS model for the move military flag task

3.1.1 使用手势交互通道

用户仅使用手势交互通道时,将手势移入交互区后,移向所要选择的军标位置,选中军标,并拖动其至目标位置,放置军标。
具体交互动作有H、P、G1、S、G2
根据时间计算规则
1) M的插入:H、M、P、M、G1、M、S、M、G2
2) M的删除:H、M、P、G1、S、G2
TP1表示用户在选中军标过程中(第一次)指向动作的时间,用户仅使用手势交互通道完成移动军标任务的时间T1可表示为
T1=0.4+1.35+TP1+1.83+TS+1.02

3.1.2 使用手势和语音交互通道

用户将手移到交互区,用手指向要移动的军标的位置,点击该军标,然后用语音发出命令“移动”,接下来将手指指向目标位置,点击该位置。
具体交互动作有H、P、C、V、P、C
根据时间计算规则
1) M的插入:H、M、P、M、C、M、V、M、P、M、C
2) M的删除:H、M、P、C、M、V、M、P、C
3) 通道并行处理:图5中,V与其前后两个C表达的不是同一语义,因此不做删除处理。
TP1表示用第一次指向动作的时间,TP2表示第二次指向动作的时间,用户使用手势和语音交互通道完成移动军标任务的时间T2可表示为
T2=0.4+1.35+TP1+0.2+1.35+0.72+1.35+TP2+0.2

3.2 具体场景对指向动作时间影响

完成移动军标任务的用时随指向和滑动动作时间改变,由公式(4),滑动动作用时只随着滑动的距离和线段数改变,不受场景深度、目标宽度等的影响。因此在分析交互总时间之前,应先分析不同交互场景中指向动作的时间。如图7所示,用深色小正方体代表将要移动的三维军标,浅色小正方体表示军标接下来将要移动的位置,假设将要移动的军标初始位置在人的右侧。分析改变场景深度E、目标宽度W和指向目标时移动的距离D,移动距离lD、移动方向对指向动作时间的影响。
图7 移动军标任务的俯视图

Fig.7 Top view of the mobile military flag task

3.2.1 第一次指向动作时间

图8a)知,指向距离近的军标用时更少。由图8b)知,指向宽度更大的军标用时更少。由图8c)知,在深度小的场景中完成指向动作用时更少,符合费茨定律。
图8 第一次指向动作时间与指向目标时移动的距离D(a), 目标宽度W(b),场景深度E(c)关系

Fig.8 The relationship between the time of the first pointing action and the distance D(a), the width of the target W(b), and the depth of the scene E(c)

3.2.2 第二次指向动作时间TP2

图9展示了第二次指向动作时间在不同深度和不同移动方向的随移动距离变化的关系。图中不同颜色代表不同深度,从不同深度的对比可以看出,当移动距离lD相同时,深度越大,移动所需要用的时间整体更长。其中存在一个特殊的情况,移动距离为0.1 m时,深度较大,用时却比另外二者更小,这是因为移动距离较小时,深度更大的场景方位角更小,用时更短。随着移动距离增大,方位角对移动时间的影响减弱,深度成为影响时间的主要因素,深度更大的场景的交互效率更容易受移动距离的长短影响。
图9 第二次指向动作时间与移动距离关系折线图

Fig.9 Line graph of the relationship between the second pointing action time and moving distance

图9中,由不同移动方向的对比可以看出,深度相同的情况下,移动相同的距离时,朝着不同方向移动相同距离的用时也不同,当目标位于人的右侧时,向右移动目标的用时会比向左移动目标用时更长。进一步分析认为,这是由于移动目标时方位角θ会产生变化,目标移动方向与所在位置同侧时,移动过程中θ增大;目标移动方向与所在位置异侧时,移动过程中θ减小,因此即使移动距离相同,将目标移近的任务更省时。

3.3 两种交互方式效率评估

根据前文对指向动作用时的分析可知,交互场景和任务都会影响时间。接下来对比两种交互方式在具体场景下的用时,评估两种方式的交互效率。对于滑动动作的时间TS,尽可能少地使用折线完成此动作更省时,但在实际交互过程中,很难用一条直线完成,因此取nD=2来预测所需要的时间。
军标初始位置D=0.2 m,军标宽度W=0.025 m时,使用不同方式完成移动军标任务所需要的时间如图10。可以看出不管是哪种交互方式,随着移动距离lD增加,交互时间必然也会随之增加。仅使用手势的交互方式所用的时间受移动距离的影响较小,在移动距离改变时,用时改变不大。而同时使用手势和语音的交互方式,尤其是向右移动,在移动距离增大时,则需要花费更多的时间。
在手势语音一起使用时,向左和向右移动相同的距离用时却不同,正如上文分析,在移动距离相同时,将目标移远比移近更耗时。因此,在将目标移近的任务中,同时使用手势与语音更为高效。在将目标移远的任务中,移动距离较小时,同时使用手势与语音更为高效;移动距离较大时,仅使用手势完成任务更为高效。
通过对图10中a)、b)、c)的对比也可发现,不管采取哪种交互方式,深度更小的场景用时更短。因此研究人员在设计过程中,在不影响交互体验的情况下,尽可能地把深度设置小一点,有助于提高人机交互的效率。
图10 不同交互方式完成移动军标所需时间在场景深度E=0.35 m(a)、E=0.4 m(b)、E=0.45 m(c)与移动距离的关系图

Fig. 10 The time required to complete the mobile military standard in different interaction modes is the relationship between the scene depth(a) E=0.35 m(a)、E=0.4 m(b)、E=0.45 m(c) and the moving distance

4 结束语

本文结合增强现实环境下三维界面、多通道交互的特点,在分析传统二维图形用户界面GOMS模型效率评估的基础上,提出了一种语音、手势等新型交互手段交互效率评估方法,并结合应用场景,验证了该方法的可行性,这种基于改进GOMS模型的效率评估方法科学直观,模型中所涉及的时间值可测性强,可以量化不同交互方式的绩效,为交互系统优化设计提供依据和参考。
[1]
李文举. 指挥控制系统的发展与展望[J]. 现代导航, 2018, 9(6): 462-465.

LI W J. Development and outlook of command and control system[J]. Modern Navigation, 2018, 9(6): 462-465.

[2]
陈建华, 崔东华, 罗荣, 等. 军事指控系统多通道人机交互技术[J]. 指挥控制与仿真, 2019, 41(4): 110-113.

DOI

CHEN J H, CUI D H, LUO R, et al. Multi-modal interaction technology of military command and control system[J]. Command Control & Simulation, 2019, 41(4): 110-113.

[3]
张玉军, 孟晓军, 王刚. 基于手势交互的三维电子沙盘系统设计与实现[J]. 指挥控制与仿真, 2016, 38(2): 110-114.

ZHANG Y J, MENG X J, WANG G. Design and implementation of 3D electronic sand table system based on gesture interaction[J]. Command Control & Simulation, 2016, 38(2): 110-114.

[4]
李勇, 张梦骏, 仇栋, 等. 数据驱动的指控系统增强现实电子沙盘设计与开发[J]. 空天防御, 2021, 4(2): 27-33.

LI Y, ZHANG M J, QIU D, et al. Design and development of data-driven augmented reality electronic sand table for command and control system[J]. Air & Space Defense, 2021, 4(2): 27-33.

[5]
宁云晖, 杨雪飞, 徐建平, 等. 舰载指控系统多通道交互集成技术研究[J]. 舰船电子工程, 2017, 37(3): 26-30.

NING Y H, YANG X F, XU J P, et al. Multimodel interaction integration technique in shipborne command and control system[J]. Ship Electronic Engineering, 2017, 37(3): 26-30.

[6]
CHEN L, WANG W, QU J, et al. A command and control system for air defense forces with augmented reality and multimodal interaction[J]. Journal of Physics: Conference Series, 2020, 1627(1): 012002.

DOI

[7]
CARD S K, MORAN T P, NEWELL A. The Psychology of Human-Computer Interaction[M]. CRC Press, 2018.

[8]
RASKIN J. The humane interface: new directions for designing interactive systems[M]. Reading, Mass.: Addison Wesley, 2000.

[9]
MACKENZIE I S. Fitts' law as a research and design tool in human-computer interaction[J]. Human-Computer Interaction, 1992, 7(1): 91-139.

DOI

[10]
I M H. Extending Fitts' law to a three-dimensional pointing task[J]. Human Movement Science, 2001, 20(6): 791-805.

PMID

[11]
李佳芮. 基于手指点触交互的虚拟现实界面工效学评价方法研究[D]. 南京: 东南大学, 2021.

LI J R. Research on ergonomics evaluation method of virtual reality interface based on finger touch interaction[D]. Nanjing: Southeast University, 2021.

Outlines

/