
读论文
文章平均质量分 92
tianyunlinger
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flow to the Mode: Mode-Seeking Diffusion Autoencoders for State-of-the-Art Image Tokenization
本文提出FlowMo(Flow to the Mode),一种基于Transformer的扩散自编码器,在无需卷积、对抗损失、空间对齐二维潜在码或从其他分词器蒸馏的情况下,实现了多压缩率下的图像分词任务新SOTA性能。模式匹配预训练:通过扩散损失端到端训练系统模式搜索后训练:选择性丢弃与原始图像感知距离较远的重建模式一维潜在码Transformer架构:突破传统CNN架构限制。原创 2025-04-22 02:20:43 · 753 阅读 · 0 评论 -
(未完)3D Shape Tokenization
我们引入了形状标记(Shape Tokens),这是一种连续、紧凑且易于融入机器学习模型的3D表示方法。形状标记作为3D流匹配模型中的条件向量,代表形状信息。流匹配模型通过训练来近似3D中形状表面的delta函数的概率密度函数。通过将形状标记附加到各种机器学习模型中,我们可以生成新形状、将图像转换为3D、使3D形状与文本和图像对齐,并以用户指定的可变分辨率直接渲染形状。此外,形状标记还能够系统地分析几何属性,如法线、密度和变形场。在所有任务和实验中,使用形状标记的表现与现有基线相比具有强大的性能。原创 2025-03-02 01:56:37 · 749 阅读 · 0 评论 -
StyleRF: Zero-shot 3D Style Transfer of Neural Radiance Fields
3D风格迁移的目标是在多视图一致性的情况下,渲染出具有目标风格的3D场景的新视图。然而,现有的大多数工作在精确几何重建、高质量风格化以及对任意新风格的泛化能力之间面临着三难困境。我们提出了StyleRF(Style Radiance Fields),一种创新的3D风格迁移技术,通过在辐射场的特征空间内进行风格转换来解决这一三难困境。StyleRF采用一个显式的高维特征网格来表示3D场景,通过体积渲染可以可靠地恢复高保真几何结构。此外,它根据参考风格转换网格特征,直接实现高质量的零样本风格迁移。原创 2025-02-25 11:27:22 · 629 阅读 · 0 评论 -
BAG: Body-Aligned 3D Wearable Asset Generation
本文提出了一种名为BAG(Body-Aligned Asset Generation)的方法,用于生成能够自动穿在给定三维人体模型上的三维可穿戴资产。该方法通过利用人体形状和姿态信息控制三维生成过程实现,首先构建了一个从单视图图像到一致多视图图像扩散模型,并在大规模的Objaverse数据集上进行训练以实现多样性和泛化能力。接着训练一个Controlnet来引导多视图生成器产生与人体对齐的多视图图像,这些图像随后被输入到一个原生的三维扩散模型中以生成资产的三维形状。原创 2025-02-24 00:48:16 · 1139 阅读 · 0 评论 -
(未完)Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer
生成高质量的3D资产长期以来面临挑战,主要原因在于缺乏能够捕捉复杂几何分布的可扩展3D表示方法。本文提出了Direct3D——一种原生3D生成模型,可直接从单张图像生成3D形状,无需依赖多视角扩散模型或SDS优化。D3D-VAE:通过半连续表面采样策略直接监督几何解码,将高分辨率3D形状编码为紧凑的三平面(triplane)潜在空间。D3D-DiT:专为三平面潜在空间设计的扩散Transformer,融合像素级(DINOv2)和语义级(CLIP)图像条件,实现与输入图像高度一致的3D生成。原创 2025-02-14 13:57:59 · 1104 阅读 · 0 评论 -
2024acl论文体悟
模型架构与训练方法:一些论文关注于改进大语言模型的架构和训练方法,以提高其性能和效率。例如,“Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized Large Language Models”提出了一种量化侧调优方法,通过量化模型权重和引入侧网络,实现了快速且内存高效的微调,显著降低了内存占用并加速了微调过程.模型能力与局限性:研究者们试图深入理解大语言模型的能力和局限性。原创 2025-01-09 16:44:34 · 897 阅读 · 0 评论 -
ACL2024优秀论文合集
https://2024.aclweb.org/program/best_papers/#best-theme-paper-awardsBest Paper Awards最佳论文奖Mission: Impossible Language Models使命:不可能的语言模型Chomsky and others have very directly claimed that large language models (LLMs) are equally capable of learning lan原创 2025-01-09 16:36:13 · 952 阅读 · 0 评论 -
Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances
这篇论文提出了一种新的无监督多模态聚类方法(UMC),用于在多模态话语中发现语义。该方法通过构建多模态数据的增强视图进行预训练,以获得良好的初始化表示,然后进行聚类。UMC方法在多模态意图识别和对话行为识别任务中表现出色,相较于现有方法在标准聚类指标上提高了2-6%。多模态语义发现任务的首次探索:实现方式:论文提出了一种新的无监督多模态聚类方法(UMC),通过构建多模态数据的增强视图进行预训练,以获得良好的初始化表示,然后进行聚类。原创 2025-01-08 00:40:24 · 865 阅读 · 0 评论 -
Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized Large Language Models
图片左侧展示了一个标准神经网络流程图,包含嵌入层、一系列标为f116bitf116bit到fN16bitfN16bit的层,以及一个语言模型(LM)头,从输入到输出的处理。中间部分显示这个网络被量化到4位精度,将层转换为f14bitf^{4bit}_1f14bit到fN4bitf^{4bit}_NfN4bit。原创 2025-01-07 11:51:59 · 1140 阅读 · 0 评论