站长之家(ChinaZ.com)6月3日 消息:最近,Controlnet的作者推出了一个全新的项目——Omost。这个项目对理解现有图像模型的提示词有很大的帮助。通过短提示,可以生成非常详细和准确的空间性能图片。
Omost通过三个参数简化了图像元素的描述:预定位置、偏移量和区域。这使得用户能够更直观地指定图像中每个元素的位置和大小,从而生成高质量、符合预期的图像。
使用Omost,您只需输入简单的提示,LLM就可以生成图像每个区域的简单提示和位置信息。然后继续扩展图像九宫格的简单提示,以确保每个部分都有非常详细的描述。
例如,我输入并创建了一个梦幻般的空中城堡,然后它给了我一个非常详细的图像描述:
这张照片展示了一座漂浮在高空的梦幻空中城堡,
"城堡完全由玻璃和闪闪发光的金属制成,反射出耀眼的阳光。"
“精致的桥梁与各种塔相连,每座塔都装饰着复杂的雕刻和闪亮的符文。”
“城堡周围的天空是从黎明的粉红色到黄昏的蓝色的柔和色调的渐变。”
下面是郁郁葱葱的森林,波光粼粼的河流,连绵起伏的山丘。
“整个场景笼罩在一种神奇的氛围中,柔和空灵的光束照亮了城堡,营造出一种奇妙迷人的感觉。”
然后点击生成图像,将上述提示转换为图像并返回给您:
效果很好。我们也可以在MJ中复制提示词。效果如下:
更重要的是,Omost已经完成的图像的整体布局可以保留。如果你想修改图片中的某个元素,你只需要一个提示。例如,如果你原来的图片主体是龙,你可以直接把龙变成恐龙。
项目亮点:
自动扩展提示:Omost可以将简单的提示分解成详细的描述,从图像整体到局部元素的位置和大小。例如,输入“a funny cartoon batman fights joker该系统将生成蝙蝠侠与小丑战斗的完整图像。
高灵活性:可以保留生成的图像布局,用户可以通过简单的提示来修改图像中的元素。例如,如果龙变成恐龙,系统将根据新的提示生成修改后的图像。
图像位置编码:Omost简化了图像元素的描述,将图像分为729个不同的位置。每个位置包括位置、偏移和区域等预定义参数,以确保图像生成的准确性和细节。
子提示系统:所有Omostt: 经过训练,LLM可以提供严格定义的“子提示”,可以独立描述事物,并形成完整的提示。这种设计提高了提示词的灵活性和准确性。
注意力操作:Omost利用注意力分数调整技术控制图像生成过程中的区域注意力,实现更精细的图像生成。Omost可以通过调整注意力分数来生成符合提示词描述的图像元素。
提示前缀树:Omost引入提示前缀树技术,通过合并子提示提高提示的理解和描述。例如,路径可以是“a cat and a dog. the cat on the sofa从而生成相应的图像作为提示。
Omost的实现和使用
Omost项目基于Llama3和Phi3变体模型,用户可以通过提供简单的提示来生成复杂的图像。以下是该项目的几个关键部件:
位置和偏移:将图像分为9个位置,每个位置进一步分为81个偏移,共有729个边界框,用于描述图像元素的位置。
distance_to_viewer和HTML_web_color_name:粗略的图像构图可以通过组合这些参数来调整图像元素的视觉表现来生成。
注意力操作:基于注意力分数操作的baseline渲染器,通过调整注意力分数来控制不同区域的模型注意力。
应用和前景
Omost技术的推出不仅简化了提示词的编写,而且提高了图像生成的准确性和灵活性。其应用场景包括但不限于人工智能绘画、图像设计、广告创意、教育等领域。用户可以通过简单的提示词生成复杂的图像,为创意设计提供强有力的工具支持。
项目页:https://top.aibase.com/tool/omost
试玩地址:https://huggingface.co/spaces/lllyasviel/Omost
Copyright © 2013-2023 bacaiyun.com. All Rights Reserved. 八彩云 版权所有 八彩云(北京)网络科技有限公司 京ICP备2023023517号
本站文章全部采集于互联网,如涉及版权问题请联系我们删除.联系QQ:888798,本站域名代理为阿里云