Skip to main content

已来:图像生成的寒武纪大爆发

大爆发背后的技术浪潮

最近设计界已经被层出不穷的人工智能技术进展轰炸了。几乎每家公司、每个设计团队都在讨论人工智能对设计工作流程的影响。尤其最近大火的Midjourney和Stable Diffusion模型,已经正在改写平面设计的行业格局。二者在建筑效果图生成上的优异表现,同样让建筑设计师眼前一亮。这一切的背后都依托于CLIP及扩散模型在图文语义理解及图像生成方面的卓越表现。(请记住“图像”二字,关乎它的应用范畴与能力上限
CLIP是一个多模态学习模型,能够同时理解文本和图像,并在两种模态之间建立联系,并且在训练集数据相对较小的情况下也能够表现出色。CLIP模型是文生图的基础,让我们可以通过简单敲入几个文字,就能与海量的图像数据产生关联。文字是高级的、抽象后的信息传达。通过文字介入,内容创建的过程更加高效和易于操作,从而使得以更快的速度制作图像内容变为可能。

(根据相关资料翻译绘制)
一系列模型及相关产品都能实现图像生成,例如DALL·E、IMAGEN、SD、Muse、Dreamfusion等等,扩散模型只是其中的一种。当然,得益于Stable Diffusion的出色表现及其开源生态,从小红书、B站到公众号、短视频平台,目前随手都可以搜索到大量的应用及教学视频,甚至还有很多的单独的知识付费教程,花上几百块钱,就有人手把手带教学会SD模型及其常用的controlnet、lora等插件的部署、使用、训练全套流程。得到自己的“AI绘画师”的门槛已经大幅降低了。

技术来袭,最好的防浪堤就是“先用起来”

在一个新工具来临时,最好的方式不是道听途说,而是自己上手用用看,真伪自辩。事实上,国内已经有不少的设计公司在开展这方面的尝试,开展的方式不局限于以下内容:
1. 成立或者筹划成立单独的AIGC小组
2. 在实际工作中,安排设计师用AIGC方案参与比选
3. 研究AI辅助设计工作流,并以推向全公司应用为目标
4. 基于SD模型,积极自主开发AIGC应用
5. 同步采购相关硬件设备,如高端显卡等
上述内容不分高低前后,也说明了行业对新事物的切入点各有不同。例如,已有一些大师工作室(不管是外企、国企、民企)在实际工作中,安排设计小组(人类设计师)不仅要手动完成方案创意的建模,还要同步使用MJ和SD模型(AI算法)生成若干个效果图,供方案主创作为设计参考,以期在方案早期将更多的“创意”纳入设计思考中。再例如,头部设计公司陆续成立了AIGC技术小组,考量的是要从人员组织上安排优势的精锐力量优先突破,寻找合适的落地方式。工具落地的核心内容其实就是工作流的嵌入,即到底应该在什么环节如何使用这个新工具。得益于SD模型的开源,各公司的AIGC小组都以极快的速度上手了,很多团队都已经在开发自己公司的AIGC应用了。目前行业主要探索出的应用场景有以下几种:

1、灵感派:这块有两个工作场景。一个场景是,利用MJ的高质量图像生成能力,快速生成想要的情绪板/概念氛围图/意向图,一方面规避了版权问题,一方面也减少找到合适图片所消耗的大量精力(很多设计师想起了熬夜给方案文本找配图花上好几个小时的痛苦回忆)。另外一个场景,则是利用ai的泛生成能力,轻控制甚至不输入底图,给AI更多发挥空间,实现概念阶段的多方向对比。当然,也有人在质疑用Pinterest这样的网站寻找灵感其实效率更高。因为如果在Pinterest/Archidaily/谷德网上找到了合适的案例,还可以更进一步深入看不同角度的设计效果、建筑平面、设计细部等内容,参考更加全面。毕竟目前AI还只能生成图像,无法建模,而建筑设计明显不是仅靠图像就能搞定的。


2、方案派:这种场景其实也很明晰,就是把方案这一步真正交给AI去做。通过简单的体量模型/手绘图,快速利用AI生成方案。这种应付的场景就是,当不知道这个项目是否能拿下的时候(或者说从甲方获取信息不足、对项目后续进展不明确的早期阶段),可以快速利用AI生成内容来推进项目沟通进展,避免投入过量的设计资源。当然,局限也很明显。因为SD无法生成设计模型,所以精细调整比较困难。所以目前行业的设计师普遍共识是,如果项目一旦进入了严肃的方案设计阶段,需要量化、精细化调整设计时,SD带来的工作提效就十分有限、甚至几乎没有了。


3、渲染派:顾名思义,就是纯粹当渲染器来用,通过对已完成方案设计的模型进行处理,导入SD从而实现极高程度的控制,实现比较好的表达效果。这种操作路径上也有很多教程,具体来讲就是利用controlnet的相关功能,把设计模型的颜色与SD模型的材质表现进行关联。目前来看,室内设计领域会率先落地这种工具。
目前来看,SD无法在方案投标环节中完全替代效果图公司。一些主要的鸟瞰、主透视是需要极高的控制的(建筑细部、玻璃反射/透射、多灯光的布局/色温、配景人树车的位置、姿态等),依旧需要渲染器来做。但是有可能一些“小透”,不太重要的角度,可能得到提效。例如原来会让效果图公司多渲几张满足各角度表达(有时候单纯是凑数量),有的时候也会是设计师个人使用Photoshop实现风格化表现,如水彩、油画、水墨等风格来表现。这些场景可能会被新的AI渲染器加持,从而降低成本。

(图片来源:B站UP主“壮三斤xq”的视频截图)
为了方便阅读,chatGPT帮助我们把上述信息做了整理。
这所有的一切都离不开Stable Diffusion模型的开源及其生态,越来越多的先行者无私分享自己的模型、训练集及心得。例如下文这样的共享文档,分享整合了近百个模型,简直就是行业红宝书。

https://docs.qq.com/sheet/DRXF5cXNlVUpKUnVL?tab=BB08J2&scode=
B站上例如AI建筑师、建筑研究室、AI建筑研究室-帆哥、AAE建筑自编码研究组等,都发布很多文章教程及相关模型资源,方便快速入手SD模型。(真的,现在大概率招个建筑院校的实习生,都会使用SD模型及controlnet功能,甚至相当一部分人已经掌握了如何训练自己想要的lora模型)相信最近几个月,在开源生态的辅助下,各公司的AIGC团队都会总结出完整的工作手册,包括提示词工程、lora模型训练及触发等方方面面的应用细节,赋能项目团队落地使用。

狂欢后的沉思:创意真的可以被生成么?

目前这个阶段,AI在方案侧的应用被上述三个流派概括了。在体验过AI生成方案/效果图之后,很多人会惊呼“创意”的门槛被拉低了,似乎AI已经可以做出很好的创意了,但是很多业内人士也提出了自己的观点,认为AI目前在方案阶段应用有限。指望靠AI能做出以前自己团队做不出的方案、中以前得不到的标,似乎也并不现实。因为“得体的建筑”更重要,一个建筑的实用性,这些目前还是要靠建筑师去判断。而这种实用性,本身就是创意的一部分。所以在概念阶段的灵感之后,方案阶段的扎实落地,目前更多还是靠原有的工作流程更加细致可控,因为方案阶段中与业主方沟通需求、探求落地方式、逐步明晰目标,本事就是建筑设计服务的一部分
此外,每个团队会有自己的设计风格,这种设计风格本身是“客户筛选器”,所谓慕名而来的客户往往是有所偏好的。长远来看,每个团队如果应用SD模型来赋能设计效率,拥有团队独有的SD模型是必不可少的。对设计的独特理解与差异性,是设计团队取胜的法宝。

当下:左手拥抱AIGC,右手挥舞AGI

GPT让我们看到了AGI的曙光

在MJ已经让大量平面设计师面临失业的危机时,GPT其实对全人类产生了更加深远的影响。近日,数以千计的好莱坞编剧工会(WGA)成员走上街头举行罢工示威活动,抗议收入过低和AI越来越多地取代人类参与剧本写作的现象。他们担心AI既抢走了编剧们的饭碗,同时也贬低了“人类劳动的尊严和价值”。美国作家协会也因此提议在合同中定义,由ChatGPT等人工智能生成的材料不能成为文学材料或原材料。这样一来,如果制片方将AI生成的剧本交给编剧润色的话,编剧获得的稿酬不会变少。据某些媒体报道,这或许是人类历史上第一次因AI而发生的罢工运动。

(图片来源:新浪财经)

这背后的浪潮在于3月份的GPT-4发布。GPT是一种基于神经网络的自然语言处理技术,它可以让机器像人类一样理解并生成自然语言文本。这是一项非常重要的技术,因为自然语言是人类交流的主要方式,它的应用范围非常广泛,涉及到自动翻译、智能客服、文本摘要、机器写作等等。
在最近的案例中,GPT已经展现出了非常惊人的表现。例如,最新的GPT-4模型可以像人类一样写作,生成高质量的文章、诗歌、故事等等。甚至有人用它来生成了小说、剧本甚至是离婚协议。这种技术的背后,其实是神经网络和深度学习的强大能力。
当然,GPT仍然存在一些局限性和缺陷。但是,这些问题都可以通过更加精细的训练和调整来解决,相信未来GPT会越来越智能,为我们带来更多的惊喜。虽然目前仍然存在很多挑战和难题,但我们相信随着技术的不断发展和突破,人类离真正的AGI也会越来越近。

AGI离设计师还有多远

对于设计公司/设计师来说,其实目前可以被学习的知识远不止那些效果图、建成照片,前文中提到的设计阶段中与业主方、建设方、运营方沟通的内容、专业设计规范、设计图纸(甚至是过程中的变更)都是可以被学习的内容。而这里存在的大量文字信息、图片信息、矢量的图纸/模型信息,都可以输入到GPT模型进行学习。
建筑师、医生、律师这类职业之所以被认为“越老越值钱”,某种意义上是我们认可这类职业的经验积累十分重要,而这种经验的学习成本是比较高的。随着大模型能够吸收处理海量的知识,越来越多的“经验型”职业一定会逐步发生变革。我们真正需要的不仅仅是一些小工具,而是更广泛全面的知识沉淀与AI助理。这种“上得了厅堂下得了厨房”的AI设计助手,能够实现图文模多模态的打通、具备“前策划-中设计-后评估”全流程的辅助能力,进而实现设计业务流程闭环。这种具有全面知识理解能力的超级AI,才能够真正意义上为设计团队/设计师沉淀工作经验,辅助设计师提高设计效率。
比如,在建筑设计的前期策划及方案设计环节中,设计团队可以输入以下知识资产来让GPT进行学习:
  1. 业主需求:设计公司可以收集业主对项目的需求,包括建筑形态、使用功能、场地条件等方面的需求并输入GPT模型
  2. 设计标准和规范:建筑设计领域的标准和规范,如建筑设计规范、结构设计规范、消防规范、绿色建筑评价标准等
  3. 设计案例:设计公司可以收集优秀的建筑设计案例,包括国内外的商业综合体、写字楼、住宅等建筑类型。
  4. 建筑知识库:设计公司可以将自身的建筑知识整理为可供GPT学习的文本资料,如建筑构造、建筑材料、建筑技术等方面的知识。
(当然3/4仅仅学习文字还不够,还需要学习图纸/模型等设计产物。这也是一个需要解决的问题)
在GPT学习完成后,未来我们可以将其应用于设计环节中,具体方式可能会包括:
  1. 需求分析:利用GPT对业主需求进行分析,辅助设计师确定项目的功能分区、空间布局等方面的设计方案。甚至可以查阅业主方的公开资料、业主决策者的过往喜好,判断其“客户画像”及更偏好的空间功能。
  2. 方案设计:利用GPT生成设计方案模型,并根据反馈决策进行调整,辅助设计师快速产出多种设计方案,提高设计效率和质量。这块需要GPT与设计平台结合,所有AI可以干预的设计内容,设计师同样可以操作。所以,这个设计工具必须满足人和AI可以协同工作,以确保设计师对方案的100%可控
  3. 标准和规范遵循、指标测算:对建筑设计标准和规范进行分析检查,辅助设计师遵循相关规范和标准进行设计。并且通过指标要求的文本输入,智能判断是否满足。
在可预见的未来,GPT+云设计平台可以在建筑设计环节中发挥重要的作用,不仅仅是辅助创意生成,更要加强对标准和规范的遵循,真正提高设计效率。

除此之外,GPT也可以用于建筑后评估环节,通过将后评估数据纳入学习,提升建筑设计的科学性。业主方、设计公司、建造方和运营方都可以提供知识资产供GPT学习,例如:
  1. 设计公司可以提供已完成项目的相关数据,如设计方案、建筑效果、使用反馈等,作为GPT学习的输入,以帮助分析和总结出成功的设计策略和技术。
  2. 业主方及运营方可以提供使用者的反馈和数据,如客流量、转化率、客户满意度等,以帮助评估建筑设计的实际效果。以及一些商业经营的数据,如销售额、客户流转、租金收益等,以帮助分析商业运营的影响因素和变化趋势。
  3. 建造方可以提供施工工艺、设备运行和维护、建设成本、管理经验和案例等,以帮助提升营造水平。

我们相信,多模态GPT(效果图/文本/视频/模型/工程图)的逐步成熟,并且与新一代云设计平台结合,一定会将建筑行业知识充分挖掘,变成能够赋能每一名设计师的超级AI助手。AI助手可以帮助设计师分析和总结已完成项目的成功经验和失败教训,提出适用于新项目的策略和技术方案;亦或是快速生成方案及所需图纸/模型;甚至是基于运营的数据,对新项目的运营模式进行预测和优化,以最大化效益。AI是个能力放大器,会让优秀的设计师扩展自己的能力边界。或许设计师不会被AI颠覆,而是被会用AI工具的设计师颠覆。而这一切,都将给未来的建筑乃至城市建设带来全新的发展机会与行业变革。

未来:筑绘通团队的探索

筑绘通是一款AI赋能的建筑设计工具,它首先是专业的面向建筑设计师的设计工具,支持在线进行建筑设计、产出符合标准的图纸与模型、多人实时编辑与评审。同时它搭载AI智能算法,用以自动深化模型,内嵌规范要求和智能审查,实现施工图10倍提效。
当前,已有多家大型设计院签约使用筑绘通,在平台中在线进行建筑设计,多人实时协作,智能翻模并自动排布楼梯,得到高质量合规的楼梯间详图图纸。中南院、中建上海院、中元国际、上海联创等都已将筑绘通嵌入生产工作流
现在,随着多模态GPT以及更多AI能力的发展,筑绘通团队基于自研的云设计平台,将更多充分学习了AI建筑专业的智能助手加入到平台当中:
  1. 筑绘通·建筑模型生成助手:通过自然语言描述建筑模型需求,快速生成多人可协作的BIM模型
  2. 筑绘通·建筑大语言模型:预先训练的建筑专业大语言模型,生成合理规范的计划书、细化设计需求、提供参考平面与素材,模型写入筑绘通继续编辑
  3. 筑绘通·建筑方案渲染助手:参数化+自然语言调整设计要求,或上传参考图纸,智能生成建筑灵感方案与渲染图

筑绘通新AI助手免费内测报名

诚邀大家加入到筑绘通新AI助手的免费内测当中,您将优先获得试用资格。




本篇文章来源于微信公众号:%品览pinlan%

Leave a Reply