Auctoria利用生成AI创建3D视频游戏模型_行业快讯_开云下载平台安装

Auctoria利用生成AI创建3D视频游戏模型

时间: 2024-01-05 21:29:47 |   作者: 行业快讯

  - Auctoria使用生成AI技术生成各种视频游戏模型,包括整个3D游戏关卡和基于上传图像和纹理的3D模型。

  - 与竞争对手相比,Auctoria的长期研发使其拥有更强大和全面的工具集。

  站长之家(9月21日 消息:波兰虚拟现实游戏开发公司Carbon Studio的联合发起人Aleksander Caban多年前观察到现代游戏设计中存在一个重要问题:手动创建视频游戏环境中的基本元素,如岩石、山丘、路径等,通常是耗时且繁琐的过程。未解决这个问题,Caban决定开发技术来自动化这个过程。

  Zając在一封电子邮件采访中表示:“我们创建Auctoria是出于对无限创造力的激情。它的初衷是支持游戏开发专业人员的工作,但任何想要创作的人都可以使用它。专业人士缺乏高级工具,大多数工具都是针对业余爱好者和业余玩家的。我们希望改变这一现状。”

  Auctoria利用生成AI技术生成各种不同类型的视频游戏模型。该平台的一个特点是尝试生成完整的3D游戏关卡,包括供玩家探索的路径(尽管相对基本),另一个特点是将上传的图像和墙壁、地板和柱子的纹理转换成相应的3D模型。用户还可以输入文本提示,让Auctoria生成资产,类似于DALL-E2或Midjourney。或者他们可以提供一个草图,平台将尝试将其转化为可用的数字模型。

  Zając声称,驱动Auctoria的所有AI算法以及用于训练它们的数据都是内部开发的。“Auctoria完全基于我们的内容,所以我们不依赖于任何其他供应商,”她说。“它是一个独立的工具,不依赖于任何外部引擎或使用开源解决方案。”

  然而,在生成游戏资产的AI工具市场中,除了Auctoria,还有3D模型创建平台3DFY和Scenario,以及像Kaedim、Mirage和Hypothetic等初创公司。甚至像Nvidia和Autodesk这样的老牌公司也开始涉足这个领域,推出像Get3D(将图像转换为3D模型)和ClipForge(根据文本描述生成模型)等应用程序。

  Meta也尝试过使用提示生成3D资产。去年,OpenAI发布了Point-E,这是一款合成3D模型的AI,可能在3D打印、游戏设计和动画制作等领域有潜在应用。

  但是Zając表示,Auctoria相对较长的开发周期——大约两年的研发阶段——使其拥有比一些竞争对手更强大和全面的工具集。“目前,缺乏基于AI的软件,可以创建完整的3D世界模型,”Zając说。“现有的解决方案通常由3D编辑器和插件组成,但它们只提供Auctoria能力的一小部分。我们的团队两年前开始开发这个工具,使我们能够拥有一个可供使用的产品。”

  11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!

  Auctoria是一家在游戏行业引领创新的初创公司,它利用先进的人工智能彻底改变了3D视频游戏资产的创建方式。这一突破是在创始人AleksanderCaban意识到手动设计视频游戏环境的基本元素既耗时又费力之后取得的。随着Auctoria的不断发展,它有潜力重塑视频游戏开发的格局。

  关于3D自然场景生成的研究已经很多,但对于3D城市生成的研究相对较少。这是因为在城市环境中,人们对结构扭曲更加敏感生成3D城市比生成3D自然场景更为复杂。这一技术的应用前景非常广阔,将在游戏、城市规划、虚拟现实等领域发挥关键作用。

  Omnimatte是迄今为止最有前景的视频抠图方法。它使用单应性建模背景,因此只适用于背景为平面或仅有旋转运动的视频。它也可助力构建沉浸式的虚拟环境。

  针对从文本提示生成视频所面临的挑战,一支研究团队引入了一种新方法,名为LLM-GroundedVideoDiffusion。核心问题在于,现有模型难以准确表示文本提示中描述的复杂时空动态。这种方法有潜力在内容创作和视频生成等各种应用中开辟新的可能性。

  【新智元导读】谷歌DeepMind提出了一个全新的优化框架OPRO,仅通过自然语言描述就可指导大语言模型逐步改进解决方案,实现各类优化任务。「深呼吸,一步一步地解决这一个问题。这项研究首次提出并验证了使用大语言模型进行优化的有效性,为利用LLM进行更广泛优化任务提供了框架和经验,是这个新的研究方向的开拓性工作,具有重要意义。

  好莱坞演员继续罢工,对抗AI技术的增长和使用,并声援“NOFAKESACT”法案。好莱坞编剧罢工已经结束,并获得了对剧本中的AI保护措施,但对于演员来说,情况却并不乐观。包括MoveAI在内的初创公司正在开发能够正常的使用单部智能手机的AI驱动的3D运动捕捉技术,这将大大降低成本和所需资源。

  3D生成领域经历了迅猛的进展,其中一个备受瞩目、在GitHubRepo上广受欢迎的项目备受关注。这个项目被认为是最为稳定和通用的,用户只需提供一张图像,模型就能自动合成多个视图并生成相应的3D模型。SyncDreamer生成的图像可以用于高质量的3D重建。

  如果能以3D方式展示矩阵乘法的执行过程,当年学习矩阵乘法时也就不会那么吃力了。矩阵乘法已经成为机器学习模型的构建模块,是各种强大AI技术的基础,了解其执行方式必然有助于我们更深入地理解这个AI以及这个日趋智能化的世界。下面的可视化显示了一个注意力头,其权重张量wQ、wK_t、wV、wO被低秩分解wQ_A@wQ_B等替换。

  Nvidia与3D软件开发商MasterpieceStudio合作发布了MasterpieceX,旨在通过使3D建模像使用MidJourney或StableDiffusion创建二维图像一样简单,革新了3D建模领域。MasterpieceStudio在官方声明中表示,“多年来,我们一直在努力创建直观的尖端3D工具,同时也使越来越多的人能够开始创建3D。从现有的模型开始更容易获得所需的结果不必从头开始创建设计。

  备受关注的大语言模型,核心是自然语言的理解与文本内容的生成,对于此,你是否好奇过它们究竟是如何理解自然语言并生成内容的,其工作原理又是什么呢?要想了解这个,我们就不得不先跳出大语言模型的领域,来到机器翻译这里。传统的机器翻译方式是采用RNN循环神经网络。以上就是大语言模型的工作原理了,强大Transformer的实用性还不止于在自然语言处理领域,包括

  DiffusionLight是一项利用扩散模型在单张输入图像中估算照明效果的技术。它利用训练好的Stable Diffusion XL模型绘制一个镜面反射球,然后将球体展开得到全景照明图。该技术解决了现有基于神经网络的方法依赖有限HDR全景数据集导致在真实复杂场景下效果不佳的问题。关键创新在于发现了扩散噪声图和镜面反射球生成质量之间的关系,迭代生成高质量镜面球;以及通过LoRA 进行多曝光训练,使LDR模型也可以输出HDR格式。该技术可产生逼真的照明估计,特别适用于野外场景。

  Rawbot是一个AI模型比较平台,帮助用户轻松比较不同AI模型,并发挥它们在项目中的全部潜力。用户可以基于准确的并排比较来选择最佳的AI模型。Rawbot与ChatGPT、Cohere和J2 Complete兼容。

  Auto Seduction AI是一款智能约会助手,通过个性化消息和完美的对话开场白,帮助用户每周获得1至4次约会。其独特的照片智能分析功能可以创建令人着迷的对话开场白,帮助用户获得更多的约会回应。用户能够正常的使用其自动化的冷读、轻微调情、邀约等功能,平均只需4-6条消息就能成功安排一次约会。该产品支持多种语言,包括英语、西班牙语、法语、德语、意大利语、俄语和印地语。

  Resume Revival是一款免费在线AI简历生成器,利用ChatGPT技术提供最高质量的简历和求职信创建。产品功能包括AI驱动的简历和求职信生成、技能缺口分析、广泛的定制选项以及职业拓展。用户可以使用直观的在线平台免费增强求职申请。

  该代码仓库包含从合成图像数据(主要是图片)进行学习的研究,包括StableRep、Scaling和SynCLR三个项目。这些项目研究了如何利用文本到图像模型生成的合成图像数据进行视觉表示模型的训练,并取得了非常好的效果。

  AIApply 是您求职过程中的 AI 助手。生成个性化求职信,优化简历,开启您成功之旅。

  vx.dev是一个开源的v0.dev替代品。它具有以下优点: - 低成本:通过提示工程技术,可以大幅度的降低使用成本 - 易于定制:提供开源的提示,可以根据需求定制UI组件或代码风格 - GitHub无缝集成:生成的代码存储在GitHub上,内置版本控制、代码审查等功能 vx.dev的工作原理是,使用GPT-4模型根据事先定义好的提示来生成代码。主要成本在于输入和补全的标记数量。提示存储在prompts/ui-gen.md中,包含shadcn/ui、lucide和nivo图表的指令。通过删除不需要的组件指令,可以降低每次生成的API成本。 vx.dev可以轻松定制。用户都能够基于现有提示进行修改,使用其他UI库或调整代码风格。生成的代码存储在GitHub上,拥有版本控制、协同等特性。私有仓库可以保证生成结果的可见性。

  Lampi 是一款由 AI 驱动的安全平台,可在您完全控制的前提下进行广泛的搜索,并生成基于知识的内容。Lampi 旨在确保您的数据保持私密和在您的控制之下。产品定价和详细信息请访问官方网站。

  AnyChat是一款AI助手应用,通过使用AI完成任务和回答问题来提高工作效率。用户都能够通过AnyChat执行各种任务,如搜索、生成文档、回答问题等。通过AnyChat,用户可以优化工作流程,提高工作效率。

  Kin是您私人生活的AI助手。它具有无限的耐心、同情心和专业知识,并全天候为您提供支持。Kin建立在语义和情节记忆之上,能够深入了解您,同时注重隐私和安全。它通过本地存储、自主数据控制以及边缘机器学习等技术,保障您的数据安全。Kin还提供任务管理、优先级组织、时间优化等功能,可帮助您更好地利用时间。Kin目前处于测试阶段,正在接受早期访问请求。

  FreeInit是一个简单有效的方法,用于提高视频生成模型的时间一致性。它不需要额外的训练,也不引入可学习的参数,可以很容易地在任意视频生成模型的推理时集成使用。

  Discoze是一个通过AI孪生模型实现社交发现和交流的APP。用户可以创建自己的AI孪生,使其学习并模仿自己的语音、照片和个性。其他用户可以通过AI孪生模型进行交流,从而快速发现共同语言的朋友。Discoze实现了零等待时间的社交,用户可以随时通过AI孪生开始交流。

  ODIN(Omni-Dimensional INstance segmentation)是一个模型,能够正常的使用转换器架构在2D RGB图像和3D点云上进行分割和标记。它通过在2D视图内和3D视图之间交替融合信息来区分2D和3D特征操作。ODIN在ScanNet200、Matterport3D和AI2THOR 3D实例分割基准上实现了最先进的性能,并在ScanNet、S3DIS和COCO上实现了竞争性能。当使用来自3D网格的采样点云代替感知的3D点云时,它超过了以往所有的作品。作为可指导的具体化代理架构中的3D感知引擎时,它在TEACh对话动作基准上树立了新的最先进水平。我们的代码和检查点可以在项目网站找到。

  LLM Augmented LLMs通过将现有基础模型与更具体的模型进行组合,实现新的能力。CALM(Composition to Augment Language Models)引入模型之间的交叉注意力,以组合它们的表示并实现新的能力。其显著特点包括:(i)通过“重用”现有LLMs以及少量额外参数和数据,在新任务上扩展LLMs的规模;(ii)保持现有模型权重不变,因此保留现有的能力;(iii)适用于不同的领域和设置。实验证明,将PaLM2-S与在低资源语言上训练的较小模型进行增强,在诸如翻译成英语和低资源语言的算术推理等任务上,结果绝对改善了高达13%。类似地,当PaLM2-S与特定于代码的模型进行增强时,在代码生成和解释任务上,相对于基础模型,我们看到了高达40%的改进,与完全微调的对应模型不相上下。

  这款产品是一种3D GAN技术,通过学习基于神经体积渲染的方法,能够以前所未有的细节解析细粒度的3D几何。产品采用学习型采样器,加速3D GAN训练,使用更少的深度采样,实现在训练和推断过程中直接渲染完整分辨率图像的每个像素,同时学习高质量的表面几何,合成高分辨率3D几何和严格视角一致的图像。产品在FFHQ和AFHQ上展示了最先进的3D几何质量,为3D GAN中的无监督学习建立了新的标准。

  Dreamy.ai是一个人工智能驱动的虚拟聊天平台。用户都能够与逼真的虚拟角色进行沉浸式对话,实现角色扮演和交流。平台提供自定义人工智能女友、选择不同人物形象与个性,打造独一无二的虚拟伴侣。核心功能有自然语言处理、情感计算等AI技术,可实现自主对话和互动。优势是个性化体验强,可提升用户想象力与情感联系。定位虚拟娱乐、陪伴市场。

  3D Fauna是一个通过学习 2D 网络图片来构建三维动物模的方法。它通过引入语义相关的模型集合来解决模型泛化的挑战,并提供了一个新的大规模数据集。在推理过程中,给定一张任意四足动物的图片,我们的模型可以在几秒内通过前馈方式重建出一个有关联的三维网格模型。

  LLaMA Pro 是一种用于大规模自然语言处理的模型。利用 Transformer 模块的扩展,该模型可以在不遗忘旧知识的情况下,高效而有效地利用新语料库来提升模型的知识。LLaMA Pro 具有出色的性能,在通用任务、编程和数学方面都表现出色。它是基于 LLaMA2-7B 进行初始化的通用模型。LLaMA Pro 和其指导类模型(LLaMA Pro-Instruct)在各种基准测试中均取得了先进的性能,展示了在智能代理中进行推理和处理各种任务的巨大潜力。该模型为将自然语言和编程语言进行整合提供了宝贵的见解,为在各种各样的环境中有效运作的先进语言代理的开发奠定了坚实的基础。

  QAnything是一个支持任意文件格式和数据库的本地知识问答系统,可以简单地导入任意本地存储的各种格式的文件,并得到准确、快速、可靠的问答。目前支持的格式包括:PDF、Word(doc/docx)、PPT、Markdown、Eml、TXT、图片(jpg、png等)、网页链接等,后续会持续新增支持的格式。QAnything具有数据安全性,支持断网安装使用;支持中英文跨语言问答;支持海量数据问答,解决大规模数据检索退化问题;直接可用于企业应用的高性能产品级系统;一键安装部署,开箱即用的用户友好体验;支持多知识库问答等功能。

  Instruct-Imagen是一个多模态图像生成模型,通过引入多模态指令,实现对异构图像生成任务的处理,并在未知任务中实现泛化。该模型利用自然语言整合不同的模态(如文本、边缘、风格、主题等),标准化丰富的生成意图。通过在预训练文本到图像扩散模型上进行两阶段框架的微调,采用检索增强训练和多样的图像生成任务微调,使得该模型在各种图像生成数据集上的人工评估根据结果得出,其在领域内与先前的任务特定模型相匹配或超越,并展现出对未知和更复杂任务的有希望的泛化能力。