Classification of Structural Design Specification Based on Natural Language Processing
-
摘要: 规范转译是BIM模型合规性审查的重要步骤,也是实现设计审查自动化和智能化的技术基础和前提条件。规范转译第一步是将设计规范自动分类为预定义类别,以便为后续文本分析和规则提取做准备。然而,由于结构设计领域语料库缺乏,导致设计规范自动分类技术有待开发,因此,依据《混凝土结构设计规范》和《建筑抗震设计规范》,创建结构设计语料库,按照IFC实体名称目录,通过Python语言编程,基于机器学习的文本分类算法,提出一种结构设计规范自动分类方法。过程的实现包括:数据准备和文本预处理;特征提取和选择;分类器的训练、测试和评估。结果表明:该分类方法可以有效实现结构设计规范的自动分类,分类器对测试规范的精确率和召回率可达到75%和83%。Abstract: Specification translation is an important step of BIM compliance checking, and it is also the technical basis and prerequisite for realizing automatic and intelligent code compliance checking. The first step of specification translation is to automatically classify design specifications into predefined categories for preparing the subsequent text analysis and rule extraction. However, due to the lack of corpus in the field of structural design, the automatic classification technology of design specifications needs to be developed. Therefore, based on the "Code for Concrete Structure Design" and "Code for Seismic Design of Buildings", a structural design corpus is created. According to IFC entity name catalog, an automatic classification method of structural design code is proposed by Python language programming and text classification algorithm based on machine learning. The process can be divided into three steps: data preparation and text preprocessing; feature extraction and selection; training, testing and evaluation of classifiers. The results show that the classification method can effectively realize the automatic classification of structural design specifications, and the accuracy and recall rate of the classifier to the test specifications can reach 75%and 83%.
-
引言
BIM技术是推动建筑业向数字化、网络化和智能化发展的重要载体,对促进传统建设行业转型升级发挥着越来越重要的作用。住建部在近些年发布一系列BIM模型审查标准,推进BIM审图模式,提高信息化监管能力和审查效率,提升建筑业信息化水平。基于BIM模型的审查(施工图审查)是确保建筑设计质量、保障设计工程建造的关键环节,是进行BIM模型审查的发展趋势[1]。
目前,在世界范围内能够支持或部分支持BIM合规性审查的系统和软件平台[2]包括:Solibri Model Checker(SMC)、EXPRESS Data Manager(EDM)、SMARTcodes、DesignCheck、LicA、CORENET和广州的BIM审图系统等。国内外关于BIM自动化审查的科研方法包括:基于决策表[3]、基于对象表示法[4]、基于规则的语言方法[5]、基于逻辑的方法[6]以及基于语义规则语言的方法[7]等。尽管存在以上各种方法,但是目前还没有一个特别有效且被广泛接受的方法。Eastman及其团队[4]将基于BIM的合规性审查大致分为四个阶段:规范转译、模型准备、规则执行和报告生成,其中规范转译是关键环节之一,在实现BIM自动化审查中扮演重要角色。
规范转译是指将设计规范中的文本、表格、公式等内容转换为计算机可识别、可处理的特定格式,以便计算机推理。规范转译的第一步是将设计规范自动分类,以便为后续文本转译、规则提取和编码做准备。规范转译的方法有很多,包括基于XML方法[8]、基于形式语言[9]、基于语义网方法[10]、基于自然语言处理(Natural Language Processing,NLP)[11]的方法等。一般情况下,NLP有两种处理方式[12]:一种是基于规则来理解自然语言,另一种是基于统计方法的机器学习来理解自然语言。其中,基于机器学习的各种算法可以很好地实现文本的自动分类。
目前,国内外采用基于机器学习进行文本分类的研究较多。Hanika等人[13]利用最大熵分类器与朴素贝叶斯分类器相结合,通过对两个分类器的结果进行线性组合的算子来预测查询中的文档类别;朱文峰[14]利用传统的文本特征提取方法和支持向量机(Support Vector Machine,SVM)进行数据挖掘与分析,同时为减少人为因素的影响,在充分考虑文本的语义信息的基础上,利用神经网络学习的特点进行文本分类;Mursitama等人[15]根据提出的量化方法,将使用Nave-Bayes方法获得的准确度值的结果与其它方法进行比较,以查看所用方法的有效性,从而来描述新闻文本分类机器学习的准确性;Salama[16]提出了一种基于语义的机器学习文本分类算法,将不同的文件和部分文件(如合同条款)用于支持自动化合规检查结构的一般条件分类子句中,将多标签分类问题转化为一组二分类问题;R. Kiran[17]等人提出一种将CNN与双向LSTM的特性相结合的方法,从而解决情感极性分类的问题。尽管以上算法基本实现了文本的自动分类,但是在建筑设计领域中,国内结构设计规范有其自身的特点和复杂性以及语料库的缺乏,故在此方面基于自然语言处理的结构设计规范分类研究相对较少。
为了实现人工智能化结构设计规范审查,本文基于国内外BIM模型合规性审查的研究现状,结合国内外结构审计规范的实际情况,建立了建筑结构设计领域语料库。采用Python语言对结构设计规范条文分类进行处理,提出了一种基于自然语言处理的设计规范自动分类的方法。本研究的分类目录采用了基于IFC((Industry Foundation Classes,工业基础类)的实体名称,对《混凝土结构设计规范》[18](GB 50010—2010,以下简称《混规》)与《建筑抗震设计规范》[19](GB 50011—2010,以下简称《抗规》)这两本结构设计规范进行分类。研究过程如下:首先,进行数据准备和文本预处理;其次,进行特征提取和选择;最后,进行分类器的训练、测试和评估。本研究为BIM模型审查中规范转译的自动分类提供了一种参考方法。
1. 数据准备与文本处理
本文采用Python语言对结构设计规范进行分类,原因如下:
(1) Python语言设计风格上清晰简约,语法简单,具有开放软件和代码;
(2) 编写程序时无需考虑如何管理程序使用的内存一类的底层细节;
(3) 可以被移植到Linux、Windows、Macintosh等众多平台;
(4) 不仅支持面向过程编程,还支持面向对象编程;
(5) 标准库庞大,包括正则表达式、文档生成等,以及其他与系统有关的操作;
(6) Python解释器把源代码转换为字节码的中间形式,然后再把它翻译成计算机使用的机器语言。在模型测试的开发环境中,为了更好地调试Python语言代码和运行,本研究的运行环境采用Pycharm作为使用Python语言开发平台,用Anaconda作为管理Python运行环境和工具包下载的平台,如表 1所示。同时,下文所述的文本数据以及代码操作等,都将所有目录存储在计算机的硬盘中。
表 1 文本分类运行环境实验环境 环境配置 操作系统 Windows 10 64位(DirectX 12) 开发环境 Python3.85、Pycharm2020、Anaconda3 CPU 英特尔Core i5-6300HQ@2.30GHz四核 IFC是一种非专有的、开放的数据模型技术规范,旨在实现建筑领域中建模软件应用程序之间的互操作性,进而实现工程项目中不同信息系统之间的信息共享。IFC最新版本包括大约850多个实体(Entity),358个属性集和121种数据类型。通过了解国内外BIM合规性审查的研究中发现,Eastman[20]、Kang[21]、Pauwels[22]等人采用的方法都是基于分析IFC或数据结构为基础实现。因此,为了测试设计规范自动分类的可行性,本研究将IFC部分实体的名称作为结构设计规范条文的分类目录,如梁(IfcBeam)、板(IfcSlab)、柱(IfcColumn)、墙(IfcWall)等。
1.1 文本数据收集
由于目前国内现存的语料库并没有专门针对结构设计领域的语料库,因此,对该领域语料库的建立进行了初步的尝试,手动将其按照实体进行分类(即将文本按照类别分成多个Txt纯文本文档)作为语料库。《混规》与《抗规》根据相关实体类别的章节与规范内容,按照材料(IfcMaterialList)、钢筋(IfcReinforcingBar)等各自分成6个相同的实体类别(如图 1所示),每个类别包含一个Txt文档,文档里面是该分类方面的内容。文本手动分类时具有以下几个原则:
(1) 根据每条规范内容描述的实体分类;
(2) 当一条规范具有多个实体时,按照实体出现次数进行分类。例如《混规》11.3.6条第二款“框架梁梁端截面的底部和顶部纵向受力钢筋截面面积的比值,除按计算确定外,一级抗震等级不应小于0.5,二、三级抗震等级不应小于0.3”,该规范文本可分到类别“梁(IfcBeam)”内或分到类别“钢筋”内,但是“梁”出现的次数高,因此分到类别“梁”内;
(3) 选取相关实体特征的内容进行分类,对于不属于任何类别的内容(无用的特征)不进行选取,例如表格、图片、公式等无特征信息。按照以上原则,将分类后的《混规》作为训练集;《抗规》作为测试集进行语料库构建。在建筑结构设计领域,本文建立的语料库是一个初步的尝试,语料库中的规范只提取了《混规》和《抗规》中的各自6个实体类别,共1 080条规范,数据库较小。
1.2 中文分词
结构设计规范是由若干个章节构成,章节是由很多款条文组成,条文是由很多个词汇组成的,也就是规范条文的主要信息是词汇。从这个角度来看,用一些关键词来描述文档方式是可行的。提取文档中的关键词,就得先对文档进行分词。分词方式一般有两种:第一种是字符串匹配;第二种是统计和机器学习。分词的精准度会对文本后续特征提取和选择、训练分类过程有很大的影响。所以选择一种准确、快速的分词算法极其重要。目前,在国际上支持分词的工具中,有Jieba、HanLP、Jcseg、Sego、FoolNLTK、NLTY、SpaCy和StanfordcoreNLP等。其中Jieba分词库相较于其它分词库在中文分词方面具有更加准确、使用简单等特点。因此本文将1.1小节得到的原始语料文本采用统计和机器学习的分词方式,通过下载Jieba分词工具库,导入相应的Python环境,将各个文本内容的文字序列切分成一个个单独的词汇或字,这样才能在词汇的基础上,对文本进行分词。
运行Python语言,读取语料库中所有Txt文本,将6个实体分类的文本分别进行分词;通过Python语言来获取每个目录(类别)下的所有文件,将原文本多余的空格、空行、回车等无关紧要的字符去掉,变成只有标点符号做间隔的紧凑文本内容;最后通过Jieba库中的算法对文本内容进行分词,最终得到分词后的语料库。以实体柱(IfcColumn)部分内容为例,如图 2所示。
本研究选择Sklearn中Datas储存数据方式,将分词后的语料库数据集通过创建Bunch实例,在Bunch对象中创建了四个成员Target-name、Label、Filenames和Contents,对文本数据集进行储存。通过代码运行,最终将训练集与测试集进行数据转化分别存储在文件Train_word_bag和Test_word_bag中。
2. 特征提取和选择
2.1 构建向量空间模型
一般情况下,文本特征向量化的方法包括;
(1) 词集模型:One-Hot编码向量化;
(2) 词袋模型和IDF结合:TF-IDF向量化文本;
(3) 哈希向量化文本。
本研究选用第二种方法即词袋模型与和TF-IDF结合。用向量空间模式对文本进行表示,所谓词向量空间模型就是将文本表示为标识符向量的代数模型,是用来信息过滤、索引以及相关排序的过程。
对分词后的训练集文本中的词统一到同一个词向量空间中,为节省空间,首先将训练集中每个文本中一些垃圾词汇去掉,调用相关函数进行去噪、删减,训练集中不规范且没有意义的文本、标点符号及去掉标点符号和没有意义的符号或数字等。本文采用词作为特征项,对训练集中的各个文本进行归一化和权重赋值等处理,从而转化为所需的词向量模型。
2.2 构建TF-IDF模型
TF-IDF(词频—逆文档频率)算法[23]是一种评估字词对语料库中一份文件重要程度的统计方法。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比减少。该算法在数据挖掘、文本处理和信息检索等领域得到了广泛应用,能够经过滤后保留出影响整个文本的关键字词。TF(Term Frequency,词频),即一个单词在文档中出现的次数越多,次数越重要。IDF(Inverse Document Frequency,逆向文档词频),即一个单词在文档中的区分度,一个单词出现在文档的次数越少,其对该文档就越重要,就越能通过它把该文档和其它文档区分开。在规范分类中,一个单词或字的TF-IDF实际上就是TF×IDF。TF-IDF越大,说明这个名词对这篇文章的区分度就越高,TF-IDF值较大的几个词,就作为特征或关键词。其中公式(2)为了避免分母为0(有些单词不在文档中出现),所以在分母上加1。
TF与IDF计算公式如下:
$ \mathrm{TF}=\text { 单词出现次数/文档中总字数 } $
(1) $ \text { IDF }=\log (\text { 总文档数/含该单词文档数 }+1 \text { ) } $
(2) 通过以上TF-IDF方式进行权重矩阵构建,实现训练集和测试集的所有文本词向量空间统一。构建权重矩阵语言编程的部分代码图 3所示。在此代码中,定义函数创建TF-IDF词向量空间过程中读取停用词文件(Stopword_path),导入分词后的词向量Bunch对象,通过TfidfVectorizer函数设定阈值(Max_df)描述单词在文档中的最高频率,构建结构设计规范文本中的特征词频,用Vectorizer.fit_transform(bunch.contents)语句得到TF-IDF权重矩阵,最后将计算得到的TF-IDF权重矩阵以.dat文件格式存放在Train_word_bag文件夹中。
3. 分类器的训练、测试与评估
3.1 分类器模型选择
传统机器学习的文本分类方法主要包括基于概率的朴素贝叶斯分类器、基于实例可用非线性分类的K近邻分类器、基于擅长处理二分类问题的统计学理论支持向量机分类器、基于处理两分类问题的Logistic回归线性分类器以及基于适合处理有缺失属性值文本的决策树分类器等。朴素贝叶斯分类器是贝叶斯方法中最常用的一种条件概率独立的统计方法,朴素贝叶斯分类器简单有效,在处理类似结构设计规范类这种多属性多特征数据集文本时,有着良好的应用效果,在文本分类领域表现出了优越的性能。因此,本文主要采用朴素贝叶斯分类算法来实现结构设计规范的自动分类。
3.2 贝叶斯原理及其朴素贝叶斯算法
3.2.1 贝叶斯原理
贝叶斯原理是英国数学家托马斯·贝叶斯于18世纪提出,即“不能直接计算一件事情(A)发生的可能性大小,间接计算与这件事情有关的事情(X,Y,Z)发生的可能性大小,从而间接判断事情(A)发生的可能性大小”。
贝叶斯公式:
$ P\left(B_i \mid A\right)=\frac{P\left(B_i\right) P\left(A \mid B_i\right)}{\prod\limits_{i=1}^n P\left(B_i\right) P\left(A \mid B_i\right)} $
(3) 等号右边分子部分,P(Bi)为先验概率,P(A|Bi)为条件概率;等号右边整个分母部分为边缘概率;等号左边P(Bi|A)为后验概率,它是由先验概率、条件概率与边缘概率计算得出。
3.2.2 朴素贝叶斯方法
朴素贝叶斯[24]在贝叶斯的基础上做了一个假设,它假设多个特征之间互不影响、相互独立,即事件A与事件B的发生互不干扰,相互独立。用数学公式表示如下:
$ P(A, B)=P(A) \times P(B) $
(4) 朴素贝叶斯分类模型表示方法如图 4所示。
图中表示(A,B,C……)为类别节点,ABC等是类别节点(A,B,C……)下文本表示的n个属性结点,充分表明各个文本的独立性,基于这一简化算法,能够大幅度降低运算时间,减少运算复杂程度,提高运算效率,从而降低成本。
基于朴素贝叶斯算法的文本分类中,首先需要构造的是每个类别的特征向量空间。有一个属性为m的待分类文档Di(x1,x2,x3,……,xm),其中文本的m个属性描述为Xi(i=1,2,……,m)。如果A为类别集合,训练集分成n类特征向量空间,即A={A1,A2,……,An},因此每个文本类别就有一个表示该类别文本的特征向量空间。然后将文本D属于类别Ai的概率表示为P(Ai|D),寻找使P(Ai|D)最大的类别Ai(其中i=1,2,……,n)是分类的主要任务。根据公式式(3)用P(Ai|D)(i=1,2,……,n)计算得到每个类别的条件概率。最后,对得出的众多后验概率进行比较大小,找到的最大的那个概率的类别则是该文档所属的类别。通过公式表示得出:P(Ak|D)=max{P(A1|D),……,P(An|D)},则D∈Ak。因此,基于朴素贝叶斯算法的文本分类关键步骤是P(Ak)和P(Ak|D)的计算,这个过程也是模型训练的过程。
3.3 朴素贝叶斯的实现
Sklearn(全称Scikit-Learn)是基于Python语言的机器学习工具,具有简单高效的数据挖掘与分析、在复杂环境中可重复使用等特点。Sklearn包括六大任务模块,分别是分类、回归、聚类、降维、模型选择和预处理。本研究将用到分类模块进行操作。Sklearn库中的Naive_Bayes模块实现了4种朴素贝叶斯算法:
(1) 伯努利朴素贝叶斯(Naive_Bayes.BernoulliNB类):适用于离散型数据,适合特征变量是布尔变量,符合0/1分布,在文档分类中特征是单词是否出现;
(2) 高斯朴素贝叶斯(Naive_Bayes.GaussianNB类):适用于特征变量是连续型数据,符合高斯分布;
(3) 多项式朴素贝叶斯(Naive_Bayes.MultinomialNB类):适用于特征变量是离散型数据,符合多项分布。在文档分类中特征变量体现在一个单词出现的次数,或者是单词的TF-IDF值等;
(4) 补充朴素贝叶斯(Naive_Bayes.Complement NB类):多项式朴素贝叶斯算法的一种改进。
本文结合结构审计规范与4种朴素贝叶斯的特点相比较,最终选取多项式朴素贝叶斯函数获取训练集的权重矩阵和标签,进行训练,然后获取测试集的向量化空间,进行预测(给出预测标签)。在朴素贝叶斯应用中,首先导入多项式贝叶斯,然后读取Bunch对象,导入训练集和测试集,通过在训练分类器中输入词袋向量和分类标签。如果一个单词在训练样本中没有出现,这个单词的概率就会是0。但训练集样本只是整体的抽样情况,不能因为没有观察到,就认为整个事件的概率为0。为了解决这个问题,需要做平滑处理:在0 < alpha < 1时,使用的是Lidston平滑;对于Lidstone平滑来说,alpha越小,迭代次数越多,精度越高。因此,引入alpha平滑参数,本模型alpha设置为0.01,最后通过运行得出预测分类结果,其核心代码如图 5所示。
3.4 模型的评估和预测
分类结果采用精确率、召回率和F1分数作为实验结果的衡量标准,如公式(5)~(7)所示。其中TP为是将正类预测为正类数、TN是将负类预测为负类数、FP是将负类预测为正类数(误报)、FN是将正类预测为负类数(漏报)。
精确率:是针对预测结果,其含义是在被所有预测为正的样本中实际为正样本的概率,表达式如下:
$ \text { 精确率 }=\frac{T P}{T P+F P} $
(5) 召回率:是针对原样本,其含义是在实际为正的样本中被预测为正样本的概率,表达式如下:
$ \text { 召回率 }=\frac{T P}{T P+F N} $
(6) F1分数(F1-score):同时考虑精确率和召回率,让两者同时达到最高,取得平衡,表达式如下:
$ F 1 \text { 分数 }=\frac{2 \times \text { 精确率 } \times \text { 召回率 }}{\text { 精确率 }+\text { 召回率 }} $
(7) 为评估本文研究模型在结构设计规范文本分类中的效果,分别与支持向量机、K邻近法的模型进行对比。在对比实验中,训练和测试时的各项参数保持一致,评价指标采用精确率、召回率、F1分数值,为方便对比,指标结果全部选取6个类别的平均值,得出各模型的评价结果,如表 2所示。
表 2 文本分类测试结果模型类型 精确率% 召回率% F1分数% 朴素贝叶斯 75.0 83.3 77.8 支持向量机 58.3 66.7 61.1 K邻近法 38.9 50.0 41.7 将其它两种相关模型与本文提出的方法进行比较,通过测试结果发现:朴素贝叶斯算法相比于支持向量机,F1分数值提高了16.7%;K邻近算法,F1分数值提高了36.1%;采用朴素贝叶斯算法得到预测的评价指标,平均精度为75.0%、平均召回率为83.3%、F1分数为77.8%,测试结果优于其他对比实验,具有较好的分类效果,验证了本文思路的有效性。
4. 结论
很多年来,手动进行施工图合规性检查通常耗时、主观易错且耗费资源,BIM技术的出现使得未来实现自动化和智能化合规性检查成为可能。规范转译和规则提取是BIM模型合规性审查的重要步骤,而充分实现规范转译和规则提取的第一步是设计条款的自动分类。由于IFC是目前世界各国普遍采用的BIM交换格式,因此,基于IFC的设计规范自动分类是重要的基础工作。
本研究通过Jieba分词库对语料库进行分词,利用TF-IDF模型进行空间特征权重矩阵的构建,通过朴素贝叶斯分类器对语料库进行分类,从而对模型进行评估与预测。根据测试结果表明,本文基于机器学习的文本分类算法,提出的结构设计规范自动分类方法,在实现结构设计规范文本自动分类的过程中取得了较好的效果。同时,本研究只是一个初步的尝试,今后还需要进行更深入的研究和完善,主要包括:
(1) 目前国内现存的语料库并没有结构设计领域的语料库,本文根据IFC实体名称,对结构设计中最常用的《混规》和《抗规》两本规范进行整理,初步建立了建筑结构设计领域的语料库。由于《混规》和《抗规》仅是众多结构设计规范中的两本,在以后的研究中,可以考虑扩展到其余结构设计规范以及规范内容的全面性,例如图表信息、其它描述性语言等。在大规模的结构设计语料库上进行训练,对训练结果进行综合分析,从而最终实现所有结构设计规范的自动分类。
(2) 关于论文1.2小节中文分词,是文本分类前的一项关键步骤,对后面分类器的构建起着至关重要的作用。因此,在以后的分词研究中,应提高此方面的分词效果,从而提高算法的准确率。Jieba对于未登录词,采用隐马尔科夫(HMM)和Viterbi算法,在今后可以尝试更多方法(例如N-gram)进行词向量训练。同时,特征提取和选择是文本分类最为关键的步骤之一,除了以计数向量和TF-IDF向量作为特征以外,今后还可以采用词嵌入作为特征(例如Word2vec,GloVe等)、基于文本的特征和以主体模型作为特征来进行特征识别。
(3) 在机器学习中,可以用作本文分类的算法有很多,例如逻辑回归、K-临近(KNN)、支持向量机(SVM)、朴素贝叶斯和决策树等等。本文主要描述了朴素贝叶斯算法,该算法是通过统计特征项频率来计算特征项的权重方法,但是它建立在独立条件和独立位置假设的基础上,在现实文本中,这两个假设是不成立的。因此,在以后的测试中,可以加强特征间可能存在的依赖关系,采用Bigram或N-gram等模型相结合的方式来削弱朴素贝叶斯的条件独立假设从而进行优化。同时,将今后更多的算法可以应用到结构设计规范的分类中,以便探寻最优的方法。
(4) 从本研究的结果来看,精确率和召回率虽然能够满足一定要求,但仍然有较大的提升高空间。这个现象的原因是多方面的,(例如语料库、和算法选择和,特征识别等原因),其中一个重要原因是,机器学习本身的查准率问题。然而,深度学习需要大量的文本数据作为支撑,在未来可以尝试在深度学习中使用迁移学习,以便更适用于专业领域的小样本数据问题(例如结构设计规范分类)。
-
表 1 文本分类运行环境
实验环境 环境配置 操作系统 Windows 10 64位(DirectX 12) 开发环境 Python3.85、Pycharm2020、Anaconda3 CPU 英特尔Core i5-6300HQ@2.30GHz四核 表 2 文本分类测试结果
模型类型 精确率% 召回率% F1分数% 朴素贝叶斯 75.0 83.3 77.8 支持向量机 58.3 66.7 61.1 K邻近法 38.9 50.0 41.7 -
[1] 林佳瑞, 郭建锋. 基于BIM的合规性自动审查[J]. 清华大学学报(自然科学版), 2020, 60(10): 873-879. https://www.cnki.com.cn/Article/CJFDTOTAL-QHXB202010010.htm [2] 刘洪. 基于BIM的结构设计规范审查方法研究[D]. 重庆大学, 2017. [3] FENVES S.J. Tabular decision logic for structural design[J]. Journal of Structural Engineering, 1966, 92(ST6): 473-490.
[4] EASTMAN C, LEE J-M, JEONG Y-S, et al. Automatic rule-based checking of building designs[J]. Automation in Construction, 2009, 18(2009): 1011-1033.
[5] SALAMA D M, EL-GOHARY N M. Semantic modeling for automated compliance checking[C]//. Internation-al Workshop on Computing in Civil Engineering. Miami, USA: ASCE, 2011, 641-648.
[6] PARK S, LEE H, LEE S, et al. Rule checking method-centered approach to represent building permit require-ments[C]//. Proceedings of the 32nd International Symposium on Autom-ation and Robotics in Construction. 2015.
[7] SIJIE ZHANG, FRANK BOUKAMP, JOCHEN TEIZER. Ontology-based semantic modeling of construction safety knowledge: Towards automated safety planning for job hazard analysis(JHA)[J]. Automation in Construction. 2015.
[8] ZANNI M A, SOETANTO R, RUIKAR K. Defining the sustainable building design process: Methods for BIM execution planning in the UK[J]. International Journal of Energy Sector Management, 2014, 8(4): 562-587. DOI: 10.1108/IJESM-04-2014-0005
[9] YURCHYSHYAN A, ZARLI A. An ontology-based approach for forma-lisation and semantic organisation of conformance requirements in construction[J]. Automation in Con-struction, 2009, 18(2009): 1084-1098.
[10] ISMAILA, STRUGB, LUSARCYKG. Building Knowledge Extraction from BIM/IFC Date for Analysis in Graph Databases[M]. Springer, Cham, 2018.
[11] LIS. CAIHB. KAMATVR. Integrating natural language processing an spatial reasoning for utility compliance checking[J]. Journal of Construction Engineering and Management, 2016, 142(12): 4016074. DOI: 10.1061/(ASCE)CO.1943-7862.0001199
[12] TIWARY U S, SIDDIQUI T. Natural language processing and information retrieval[M]. New York: Oxford University Press, 2008, 3-21.
[13] HANIKA KASHYAP, BALA BUKSH. Combining Naive Bayes and Modified Maximum Entropy Classifiers for Text Classification[J]. International Journal of Information Technology and Computer Science(IJITCS), 2016, 8(9).
[14] 朱文峰. 基于支持向量机与神经网络的文本分类算法研究[D]. 南京邮电大学, 2019. [15] YING YI, MURSITAMA TN, Shidarta, et al. Effectiveness of the News Text Classification Test Using the Naive Bayes' Classification Text Mining Method[J]. Journal of Physics: Conference Series, 2021, 1764(1): 012105. DOI: 10.1088/1742-6596/1764/1/012105
[16] SALAMA D M, EL-GOHARY N M. Semantic text classification for supporting automated compliance checking in construction[J]. Journal of Computing in Civil Engineering, 2013, 30(1): 04014106.
[17] KIRAN R, KUMAR P, BHASKER B. OSLCFit(Organic Simultaneous LSTM and CNN Fit): A Novel Deep Learning Based Solution for Sentiment Polarity Classification of Reviews[J]. Expert Systems With Applications, 2020, 157: 113488. DOI: 10.1016/j.eswa.2020.113488
[18] 中华人民共和国住房和城乡建设部. 混凝土结构设计规范: GB 50010—2010[S]. 北京: 中国建筑工业出版社, 2011. [19] 中华人民共和国住房和城乡建设部, 中华人民共和国国家质量监督检验检疫总局. 建筑抗震设计规范: GB 50011—2010[S]. 北京: 中国建筑工业出版社, 2010. [20] AUWELS P and TERKAJ W, EXPRESS to OWL for construction industry: Towards a remommendable and usable ifcOWL ontology[J]. Automation in Construction, 2016, 63(2016): 100-133.
[21] You S-J, Yang D, Eastman C M. Relational DB implementation of STEP based product model[C]//. CIB World Building Congress 200 4, 2004.
[22] KANG H-S, LEE G. Development of an object-relational IFC server[C]//. ICCEM/ICCP M, 2009.
[23] 许晓昕, 李安贵. 一种基于TFIDF的网络聊天关键词提取算法[J]. 计算机技术与发展, 2006, 16(3): 122-123. https://www.cnki.com.cn/Article/CJFDTOTAL-WJFZ200603042.htm [24] 李航. 统计学习方法[M]. 北京: 清华大学出版社, 2012. -
期刊类型引用(0)
其他类型引用(3)