- 博客(12)
- 收藏
- 关注
原创 线性整流多样化专家混合模型(RoDE)
大型多模态模型(LMMs)在多种视觉-语言任务中取得了显著进展,而高质量训练数据的可扩展性和可用性在其中扮演了至关重要的角色。在食品领域,尽管像这样的数据集提供了丰富的食材和食谱信息,它们通常难以满足的需求。虽然引入了一个包含营养信息的子集,但在数据规模和准确性上仍存在局限。为弥补这一不足,我们提出了,一个统一的食品数据集,包含超过张标注了多种食品类别、食材、食谱及其营养信息的图像。为了减轻多任务监督带来的冲突,尤其是在 LMMs 微调过程中,我们引入了一种新颖的方法。
2025-04-18 09:29:23
1038
原创 服务器下载Google Cloud Storage(GCS)数据集
在中国大陆访问 GCS 通常 速度较慢甚至访问失败,所以建议结合下列方法下载到的服务器上:下列方式将以的数据集为例:链接: link
2025-04-17 17:53:00
582
原创 LLM原理训练推理详解
特点单轮QA Q1 Q2 A1 A2 A3多轮QA Q1 A1 Q2 A2 Q3 A3目的模型仅需理解单个问题的答案模型需要在多轮对话中保持上下文问题与答案结构问题和答案交替存在每一轮的提问和回答交替存在上下文没有上下文依赖,每个问题独立每一轮的对话都依赖前面的内容,必须保持上下文示例模型任务生成单个问题的答案生成多轮对话中的每轮答案。
2025-04-14 22:38:21
1117
原创 RNN基本原理以及反向推导数学公式演练
为什么用的是隐藏层的数据做传递:因为,隐藏层数据可以认为是和其他时间步上的隐藏层数据在一个特征空间中,所包含的数据信息是最丰富的,如果选用输入层:数据未进行提取利用效率低,使用输出层:数据按照项目意图已做更改(分类,回归)数据量包含少,所以使用隐藏层是最合适的。,因此编码后每张二维表需要循环的时间步数量是相等的,因此在实际训练的时候循环神经网络是会一次性将所有的batch_size张二维表的第一行数据都放入神经元进行处理,故而rnn并不需要对每张表单一一处理,而是对全部表单的每一行进行一一处理,所以。
2025-02-28 16:57:51
1037
1
原创 QWen2-VL增强视觉语言模型在任何分辨率下对世界的感知
我们推出了 Qwen2-VL 系列,这是之前 Qwen-VL 型号的高级升级版,它重新定义了视觉处理中传统的预定分辨率方法。Qwen2-VL 引入了机制,使模型能够将不同分辨率的图像动态处理成不同数量的视觉标记。这种方法使模型能够生成更高效、更准确的视觉表示,与人类感知过程紧密结合。该模型还集成了多模态旋转位置嵌入 (M-RoPE),促进了文本、图像和视频之间位置信息的有效融合。我们采用统一的范式来处理图像和视频,增强了模型的视觉感知能力。
2024-11-02 09:38:24
1330
原创 VScode 远程 linux 免密登陆
(我们这因为有多台电脑会远程这台服务器,所以这里有多个秘钥存在,只要在新一行添加自己的秘钥就行)cd 导航至 账号 下的 .ssh 文件夹下面,因为我是root账号,所以在这,如果是其他子账号的话,就在home目录下选择对应的账号名称文件夹下的.ssh文件。注意:(如果是Mac用户的话,需要打开电脑上的终端执行这句指令,不然无法免密登录,windows用户可以忽略)13. 把私钥文件保存到自己电脑中,最好重命名一下,我这按照GPU的名称进行命名了。5. 在文件中设置ip地址,账户名称。
2024-09-11 15:25:14
369
原创 如何使用huggingface下载数据集和预训练模型
如果各位在下载huggingface上的模型和数据库也会出现“connect closed/failed”等错误,不妨试试下面的解决方案,思路大致是,通过设置镜像的方式来解决。
2024-09-11 14:59:01
1182
1
原创 亚像素检测算法
short int iCEdgeMatch::iGetTemplateEdgeInfo1(int nIndex){DV_FUNCNAME(“iCEdgeMatch::iGetTemplateEdgeInfo1”);DvReturn nReturn = DV_StsOk;Mat pEdgeGrdMatX;Mat pEdgeGrdMatY;//K = dy / dx 矩阵Mat pEdg...
2020-03-02 12:41:00
1845
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人