2024, 16(4): 7-13. doi: 10.16670/j.cnki.cn11-5823/tu.2024.04.02



华中科技大学 土木与水利工程学院,武汉 430074


国家数字建造技术创新中心,武汉 430074

通讯作者: 陈维亚,

网络出版日期: 2024-08-20

作者简介: 袁嘉梦(1999-),女,硕士,主要研究方向:计算机视觉及历史建筑保护

基金项目: 国家自然科学基金项目 72001086

Research on Multimodal Retrieval Methods for Historical Buildings


School of Civil and Hydraulic Engineering, Huazhong University of Science and Technology, Wuhan 430074, China


National Digital Construction Technology Innovation Center, Wuhan 430074, China

Corresponding author: Weiya Chen,

Available Online: 2024-08-20

引用本文: 袁嘉梦, 陈浪, 陈维亚, 骆汉宾. 历史建筑多模态检索方法研究[J]. 土木建筑工程信息技术, 2024, 16(4): 7-13. doi: 10.16670/j.cnki.cn11-5823/tu.2024.04.02

Citation: Jiameng Yuan, Lang Chen, Weiya Chen, Hanbin Luo. Research on Multimodal Retrieval Methods for Historical Buildings[J]. Journal of Information Technologyin Civil Engineering and Architecture, 2024, 16(4): 7-13. doi: 10.16670/j.cnki.cn11-5823/tu.2024.04.02

摘要:在HBIM (Historic Building Information Modeling) 数据库中进行信息查询面临三个问题:一是没有普适性的规则判断建筑之间的相似性;二是未考虑建筑本身所包含的历史文化信息;三是查询文本多基于关键词,难以检索到关键词未包含的信息。针对以上问题,提出了一种面向历史建筑的多模态检索方法,用户能通过输入图像或自然语言文本数据,检索到与输入特征相符的建筑,并以列表形式进行排序。在以图像检索建筑时,利用“dino_vit16”模型对图像进行特征提取,所提出的图像-建筑检索方法检索精度达90.08%;在文本检索建筑时则基于CLIP(Contrastive Language-Image Pre-training)模型建立图像和文本的关联,研究了图文相似度和文本相似度权重的取值,选择m =0.6,n =0.4作为权重的最佳配置。实验证明所提出的文本-建筑检索算法对于包含某种外观特征查询语句的检索效果最好,对于描述某种功能和建筑风格的查询语句检索效果最差,而当查询语句中包含4个以上的混合特征,能够描述出建筑的基本面貌时,可以准确地检索到符合条件的建筑。

关键词: 历史建筑, HBIM, ViT, 相似性度量, 多模态检索

