划重点:
- 研究生在斯坦福大学开发了一个 AI 可以通过查看模型 Google 具体位置由街景图像确定,准确性令人印象深刻。
- 这款名为 PIGEON 可以在很大程度上准确地确定应用程序 Google 对于街景的具体位置,预测国家的准确率达到92%,位置可以在目标位置的25公里范围内定位在40%的猜测中。
- 该模型基于 OpenAI 开发的神经网络 CLIP,以及 GeoGuessr 训练游戏数据集,取得了令人印象深刻的成绩。
站长之家(ChinaZ.com)12月20日 消息:斯坦福大学的研究生开发了一种叫做斯坦福大学的研究生 PIGEON 只能通过查看应用程序 Google 具体位置由街景图像或其他图像确定,其准确性令人印象深刻。
根据预印本论文的数据,PIGEON 在目标位置的25公里范围内,可以以92%的准确率预测拍摄国家,位置可以在40%的猜测中定位。该论文指出,PIGEON 在 GeoGuessr 在游戏中排名前0.01%的玩家中,游戏要求用户根据拍摄情况拍摄 Google 街景图像猜测位置,这也是这个项目的灵感来源。
那么,PIGEON 是怎么工作的?
学生们使用它 OpenAI 开发的神经网络 CLIP,通过训练视觉类别名称,它可以连接文本和图像。然后,他们的基础 GeoGuessr 训练了数据集,包括10万个原始随机采样地点和四个图像,以覆盖整个给定位置 共有40万张“全景”图像。与其他 AI 与模型训练的图像数量相比,PIGEON 训练图像数量相对较少。例如,OpenAI 流行的图像生成模型 DALL-E2是基于数亿张图像训练的。
此外,学生们还开发了一个名字 PIGEOTTO 这个模型是通过训练来自的单独模型 Flickr 以及维基百科的400万张照片,从单个图像中识别位置。根据论文的数据,PIGEOTTO 在图像地理定位基准测试中取得了令人印象深刻的成绩,在城市准确性方面超过了以往最新7.7%的技术成果,超过29.8%的国家准确性。
本文还讨论了与该模型相关的伦理考虑,包括其好处和风险。一方面,图像地理定位有许多积极的用途,如自动驾驶、视觉调查和对照片拍摄地点的好奇心。然而,其负面影响包括对隐私的最直接侵犯。因此,学生决定不公开发布模型权重,只在学术验证时发布代码。
这项研究向我们展示了它 AI 图像地理定位的巨大潜力也引起了一些隐私和伦理问题。在未来的发展中,我们必须更加关注这些问题,并确保实施适当的保护措施。
论文网址:https://arxiv.org/abs/2307.05845
Copyright © 2013-2025 bacaiyun.com. All Rights Reserved. 八彩云 版权所有 八彩云(北京)网络科技有限公司 京ICP备2023023517号
本站文章全部采集于互联网,如涉及版权问题请联系我们删除.联系QQ:888798,本站域名代理为阿里云