[LLM] Google使用大模型与Mobile UI交互(CH

2023-08-19  本文已影响0人  nlpming

1.整体框架

Agent主动发起的任务有:
1)屏幕问题生成:a)当前屏幕信息:Home screen of a hotel search app;b) Agent发起问题:Which hotel do you want to search for your trip?
2)屏幕总结:a)当前屏幕信息:A list of hotel room options; b) Agent发起总结:The current screen shows the details of hotel rooms available;

用户主动发起的任务有:
3)屏幕问答:a) 当前屏幕信息:A list of hotel room options;b) 用户发起问题:What's the rate per night for the Fabulous King room?c) Agent回答:It's 330 dollars per night
4)指令到动作映射:a) 当前屏幕信息:A list of hotel room options;b) 用户指令:Click on the reserve buttom to book the the Fabulous King room;

人机交互4大任务分类.png 基于Gmail邮箱4个任务的可行性举例.png

2. 关键模块说明

2.1 屏幕信息表示

2.2 基于COT的提示

2.3 Prompt组成结构

Prompt组成举例.png

2.3.1 Screen Question-Generation

屏幕问题生成.png

2.3.2 Screen Summarization

屏幕摘要总结.png

2.3.3 Screen Question-Answering(QA)

屏幕问答.png
image.png

2.3.4 Mapping Instruction to UI Action

指令到动作映射.png
image.png

参考资料

上一篇 下一篇

猜你喜欢

热点阅读