FUSE:迈向基于人工智能的未来增强现实体验服务
立即解锁
发布时间: 2025-08-27 02:36:55 阅读量: 3 订阅数: 36 


增强现实与人工智能:先进科技的融合
### FUSE:迈向基于人工智能的增强现实体验未来服务
#### 1. 引言
创建智能 AR 服务的关键挑战之一是确保其具有足够的泛化能力。例如,用于翻译外语的 AR 系统,要能翻译印在各种表面(如交通标志、显示屏、纸张、产品包装)上的非预定义文本,且文本字体和大小各异。又如智能数码相机,需在无需了解人物数量、种族、年龄等外貌信息的情况下,自动判断何时拍出最佳照片,比如所有人都微笑的时候。
AI 增强的 AR 服务在支持各类学习场景方面潜力巨大,包括专业培训和语言学习。以“关键字法”学习外语词汇为例,人们利用外语单词在母语中的发音,建立两者间的视觉联想。如日语“书”是“hon”,发音像“honey”,可联想“一本沾满蜂蜜的书”。AR 系统能在现实场景中标注外语的记忆联想,但如果同时展示联想的可视化图像,效果会更好。然而,关键挑战在于如何将该技术推广到未准备的任意环境中,自动检测、识别和分割场景物体,以便系统自动标注场景,还需确定合适的记忆联想集,自动生成并放置合成图像辅助外语单词记忆。
一个成功的 AR 应用需要实现如图 1 所示的渲染流程:
```mermaid
graph LR
A[传感器] --> B[处理信息]
B --> C1[计算相机外参]
B --> C2[理解环境]
C1 --> D[渲染器]
C2 --> D
D --> E[生成 2D 图像显示]
```
流程开始时,可选的传感器(如 RGB 相机、深度相机、IMU、红外相机等)收集环境信息。信息处理有两个目标:一是计算相机外参(定义相机的位置和方向);二是理解环境,以便生成文本、图像、3D 对象或神经场景表示等增强内容。外参和增强内容准备好后,输入渲染器生成可在设备上显示的 2D 图像。相机外参计算通常逐帧进行,而环境理解一般按需响应。
定义相机外参是一个研究充分的问题,现有系统在无准备环境中进行相机位姿跟踪表现良好,能较好地泛化到各种现实场景。但生成增强内容的方法通常局限于预定义环境,难以在多个原型场景之外实现良好泛化,不过这也为未来 AR 领域的 AI 服务提供了发展动力和机遇。
#### 2. 理解环境
系统理解环境的技术包括检测用户视野内的物体、理解环境(如理解城镇广场上的建筑),并为获取的信息提供额外语义知识。
##### 2.1 对象检测、识别和分割
检测和识别场景中的对象是 AR 应用的重要组成部分,通常在相机提供的 2D 图像上进行。对象检测仅进行粗略分割,可能限制场景理解的灵活性,可通过语义分割解决。如图 2 所示,对象检测为检测到的对象绘制粗略边界,语义分割提供对象的精确轮廓,实例分割则结合两者,精确识别图像中每个对象的实例。
| 分割类型 | 特点 |
| ---- | ---- |
| 对象检测 | 绘制粗略边界 |
| 语义分割 | 提供精确轮廓 |
| 实例分割 | 结合两者,精确识别实例 |
如果这些检测、识别和分割技术能在不同现实场景(如光照条件、环境、对象数量和类别)中良好泛化,将为生成有意义的 AR 应用提供有价值的信息。虽然这些信息本身未在 3D 空间中注册,但通过视频透视系统渲染时,可实现自动标注等有趣的 AR 应用,如支持外语学习,标注用户周围物体的外语标签。
识别还可聚焦于
0
0
复制全文
相关推荐










