Skip to main content


前言

GPT-3 大语言模型发布以来,大语言模型(LLM)步入公众视野,后续发布的 GPT,AutoGPT 等众多应用展现出了越来越强大且综合的能力。凭借其强大的理解能力与语言组织能力,GPT类模型 进一步拓展了人们对于 AI 能力边界的想象,甚至有人表示,这些智能模型的出现预示着理想中的强人工智能的出现已经距离我们不再遥远。这种宣称可能略显夸张,但是大语言模型的成功应用确实告诉我们,基于海量的已有知识语料,我们可以利用大语言模型训练产生一个具有专业级水准的人工智能助手。现在,各行各业的人都不得不开始思考自己的领域应该如何有效地利用上大语言模型的强大能力。

大语言模型的发展历程。图片来自论文 A Survey of Large Language Models

品览长期关注智能建筑设计领域的发展。建筑,可以说是人类在集成电路的大发展之前人类能够构建的最为复杂的系统之一,围绕着建筑领域的建筑、结构、水、暖、电等几大专业,长期以来行业积累了海量的专业知识和语料数据。基于这些语料数据,结合大语言模型的强大理解能力,我们可以训练出具有建筑专业知识背景,充分了解各种国家、地方、企业规范体系的智能建筑设计助手,进一步完善智能建筑设计软件的用户体验。同时,在建筑项目中,设计师也经常需要给出文本形式的设计资料,例如结构计算书等。基于大语言模型的智能建筑设计助手我们可以更高高效准确地完成这些通常是重复性的繁琐工作。

但仅止于此吗?事实上,真正的建筑设计的核心工作是重复理解甲方需求,结合外部条件实况,绘制出高质量的建筑设计方案,并最终落实具体的施工图纸。这一过程不仅涉及到对于丰富的专业知识的积累,对于多模态输入数据的理解,和众多现有的工具栈的交互,并生成高度结构化的数据。以下是我们对于这些挑战的思考。


用 GPT 背后的AI前沿技术拓展智能设计的边界

更强大的感知能力

事实上,经过长期的行业积累,关于建筑设计行业的规范文本,图纸资料以及的其他媒体形态的资料是海量的,在过去的人工智能技术体系下,传统模型强烈依赖于标注数据样本。而由于建筑数据的多模态、高度结构化、高度专业化等特点,对建筑数据进行大规模的标注的成本是非常高昂的(试想一下,从一张动物的图片中标注出猫和狗的难度,和从一张复杂的建筑图纸中标注出成千上万个构件的难度与时间成本是不可同日而语的)。现在,支持 GPT 技术革新的各种自监督、半监督和无监督方法, 可以让我们基于非常有限的标注样本,来利用数量庞大的非标注样本来进行复杂模型的训练。

可以设想,能够感知数十万甚至上百万几何图元特征的神经网络必然具有海量的参数和复杂的层级结构,GPT 训练所使用的人类反馈强化学习 (RLHF) 技术,是训练此等复杂神经网络的强大助力。

建筑领域的数据结构具有明显的多模态特点,建筑图纸数据本身就包含了像素位图、几何矢量以及文本特征等多模态的特征,同时需要结合自然语言形态的规范文本输入与结构化的用户输入等异质数据的输入。得益于特征工程技术在过去十几年间的发展,针对不同模态的数据输入,我们可以针对性地采用最适宜的网络架构进行特征提取,例如对于图像输入我们可以采用基于卷积神经网络的模型来提取特征,对于文本输入我们可以使用基于前馈神经网络的word2vec 模型处理,对于更加复杂的一般意义上的图结构数据,我们也可以使用图卷积神经网络来学习其节点层次、边层次、子图层次和全图层次的多维度特征。在独立要素的特征提取能力外,更重要的是如何发掘不同要素之间的内在关联,实现有效的特征聚合以反映高层次逻辑关联。这是建立起 AI 对复杂业务逻辑的理解能力的基础。Transformer 技术是让 GPT 类模型大放异彩的关键,而Transformer 的关键贡献就是让人工智能模型具备了发现这些高层次内在联系的能力。事实上研究人员早已开始尝试将 Transformer 应用到图像处理领域,以及更加一般意义上的基于图数据结构输入的任务中。2022 年的论文 CADTransformer: Panoptic Symbol Spotting Transformer for CAD Drawings 就尝试利用 Transformer 技术来发掘 CAD 图元之间的内在联系,并实现对于复杂图纸场景下的图元识别。

CADTransfomer 的网络架构。网络使用了 CNN 神经网络来提取单个图元的特征,并利用 Transformer 技术来发掘不同图元之间的内在联系。


围绕 AI 展开的新工具链生态

在建筑设计领域已经存在众多软件工具体系,包括广泛使用的设计工具 CAD,Revit, Rhino,SketchUp 等,以及特定领域的计算软件等。人工智能应用要想在建筑智能设计领域大显身手,就必然需要具备同这些的软件工具及相应的数据格式之间交互的能力。近期发布的 AutoGPT 模型就是一个人工智能模型同已有工具进行交互以解决复杂问题的例子。AutoGPT 可以自动访问网页内获取信息,根据用户需求编写符合规范的代码并完成调试。HuggingGPT 模型可以调用外部模型库,针对特定任务挑选最佳的模型。得益于建筑设计软件的插件设计生态,主流设计软件都留外部编程接口,这使得大语言模型能够以较低的成本完成接入。

HuggingGPT 使用外部模型工具来解决复杂问题。图片来自论文 HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face

事实上我们认为,人工智能本身的突破式发展展现出来的巨大的应用前景,足以为具体场景中的工具软件的发展产生重大的影响,让这些软件工具逐步地从面向人类用户的接口设计,转变为面向智能助手和人类的复合接口设计。未来,能够更加容易被强大的 AI 模型使用的工具将能够最大程度地发挥价值。因此,品览在设计的筑绘通智能建筑平台就着重考虑了平台与智能助手对接的机制,我们实现了专有的建筑模型数据格式,其中抽象并提取了便于AI理解的不同建筑要素之间的复杂关系,并使得 AI 能够较容易地操作这些建筑模型数据。


复合任务能力

目前我们所看到的 GPT 类模型展现出来的都是自然语言处理模型,其输入一般是自然语言,其输出一般也是自然语言数据。GPT-4 模型扩展了这一能力边界,使得大语言模型在一定程度上突破了“语言模型”的边界,使得 ChatGPT 能够处理图像等多种形态的数据输入,并输出包含多媒体形式的数据。除了 GPT 类模型之外,以 Stable Diffusion 为代表的更多的新出现的 AI 模型可以根据更加丰富的多媒体输入生成多媒体形式的输出。而在建筑设计领域,AI通常需要生成的是高度结构化的数据,其形式同具有明显线性特征的多媒体数据具有显著的区别。让 AI 具备生成结构化数据的能力能够使得 AI 可以具备更加复合的任务能力。

近年来围绕这一话题,众多研究者进行了广泛的研究。这些研究的主要目标一般是能够训练一个自动编解码系统,此系统可以完成结构化数据的组成要素向特征空间的双向检测。一方面这样的编解码系统可以让不同形态的异质数据可以被投射到统一的同质特征空间中为神经网络所理解和处理。另一方面,这样的编解码系统也可以将我们对于数据的结构的先验性知识整合到生成式 AI 的输出中,使得 AI 生成的结果能够符合先验性知识的格式约束,并使得 AI 模型能够聚焦于业务逻辑本身而非维持格式约束,进而提高模型的性格并降低训练的难度。针对建筑智能设计领域,如何训练符合各项规范要求的编解码系统是为智能设计助手引入大语言模型的强大能力的必要条件,品览正在此领域进行积极探索。

基于 VAE 架构进行面向高度结构化的几何数据的生成式模型。图片来自论文 SCENEHGN: Hierarchical Graph Networks for 3D Indoor Scene Generation with Fine-Grained Geometry

结语

在这篇文章中,我们探讨了以 GPT 为代表的大语言模型的突破式进展对于建筑智能设计领域的影响,并讨论了将大语言模型引入建筑智能设计领域存在的机会和挑战。今年来特征工程技术与人工智能训练技术的进步可以使得我们可以利用部分标注的海量建筑数据训练出具有强大感知能力的人工智能模型,但是如何让人工智能理解复杂的建筑设计规范并适应建筑设计任务的复杂输出形式,仍然存在众多挑战。

目前,品览已经在筑绘通平台上集成了包含图纸空间感知,建筑要素的智能排布等智能能力。品览近期发布的智能楼梯间模块可以完成对图纸的智能识别并对梯段进行智能排布,以满足合规性和美观性的需求。接下来,品览将充分挖掘大模型的智能能力,将这些能力引入筑绘通将要推出的各种智能助手之中,让前沿 AI 技术的发展能够进一步扩展智能建筑设计的边界。


本篇文章来源于微信公众号:%品览pinlan%

Leave a Reply