当今数字化转型浪潮下,人机交互领域不断拓展,草图指令识别愈发关键。传统人机交互多依赖文本输入、鼠标点击,繁琐低效,难以满足人们快速捕捉灵感、即时传达复杂设计理念的诉求
[1]。手绘草图凭借直观、便捷的优势,成为各行业创意萌发、方案初拟的得力工具。设计师能迅速勾勒服装样式、室内布局;工程师现场手绘机械零件轮廓辅助维修;教师借学生草图洞察知识掌握情况。随着智能设备普及,电子草图兴起,亟待精准、高效的自动识别技术将手绘内容转化为数字指令,驱动后续流程。
早期草图识别聚焦几何特征提取,基于边缘检测、形状描述来剖析草图
[2],虽能识别简单图形,但面对稍复杂的交叉、重叠图形就漏洞百出。模板匹配是将草图与预设标准模板对比,可一旦手绘偏离模板,准确率骤降,灵活性极差。伴随机器学习发展,支持向量机(SVM)用于草图分类,通过寻找最优分类超平面划分不同图形类别,但人工特征选取耗时费力,且对大规模、多风格草图适应性弱。隐马尔可夫模型(HMM)尝试解析草图绘制顺序、线条走向规律
[3],用于手势、笔画识别,却因手绘随机性强,模型假设条件常难契合实际,效果受限。深度学习兴起后,CNN崭露头角。初期研究多套用通用图像识别 CNN 架构,虽精度优于传统方法,但未深挖草图特质,手绘抖动、风格多变问题未妥善解决;后续改进聚焦定制化,依草图特点调参、改结构,结合循环神经网络(RNN)捕捉笔画顺序信息,拓展时间维度特征
[4];有的研究用生成对抗网络(GAN)生成草图扩充样本,强化模型泛化力,为 CNN 草图识别持续注入活力,但以上研究对草图指令识别准确率仍没有明显提升。
本文提出了一种基于卷积神经网络草图指令识别技术。通过构建与优化卷积神经网络模型,利用大量草图指令样本训练,训练全程紧密监测验证集准确率,以此为依据实时、动态调整学习率。搭配L2正则化与Dropout双保险策略,协同抑制过拟合。L2正则化约束权重规模,Dropout随机失活神经元,两者相辅相成,能够提升模型对不同草图指令识别的准确率,提高了人机交互体验。