- 博客(3065)
- 资源 (31)
- 收藏
- 关注

原创 投稿Expert Systems with Applications历时3个月;中科院1区顶刊,有哪些技巧 Editor Assignment Pending 科研配色
有需要投稿模板和返修模板的直接订阅后私信,本人可以协助完成投稿返修;本人在科研一线,在文章架构设计,公式编辑,图片美化,语言润色。overleaf编辑方面有一定经验,直接订阅后私信本人可以协助完成投稿返修
2025-03-13 15:45:52
692

原创 腾讯的webUI怎样实现deepseek外部调用 ; 腾讯云通过API怎样调用deepseek
腾讯的webUI怎样实现deepseek外部调用腾讯云通过API怎样调用deepseekhtml方式curl方式python方式
2025-02-17 00:16:13
1378
2

原创 算力共享:环形结构的算力分配策略
因此,在这个例子中,节点将首先根据它们的内存大小进行降序排序,如果内存大小相同,则根据节点ID进行降序排序(尽管在内存大小不同的情况下,节点ID的比较通常不会影响最终排序结果)。是基于前一个分区的结束位置更新的,并且每个分区的结束位置都是基于内存比例计算的,因此所有分区的总和可能不会恰好等于 1(即整个资源池的比例)。由于元组在Python中是按位置进行比较的,因此当用作排序关键字时,会首先比较元组的第一个元素(内存大小),如果两个元素的内存大小相同,则会比较第二个元素(节点ID)。参数指定了排序的方向。
2024-07-25 11:28:08
42068
2

原创 Tinygrad,llama3,Reward Model
根据公开发布的信息,Llama 3是一款文本生成AI,与OpenAI的GPT和Anthropic的Claude模型类似,用户可以编写文本提示,然后Llama 3会生成相应的文本响应。在复杂的实际应用场景中,设计一个合适的奖励模型并非易事,因此研究如何构建有效的奖励模型成为了强化学习领域的关键技术与挑战。总的来说,Tinygrad是一个轻量级但功能强大的深度学习框架,它以其简洁的设计和易用性吸引了众多开发者的关注。Llama 3是一个“开放权重”模型,意味着模型本身是开源的,提供了一定程度的透明度。
2024-07-25 11:02:24
48634

原创 Megatron-LM在训练过程中怎么保证参数传递并保证每块GPU都在工作
Megatron-LM通过数据并行、张量并行和流水线并行等多种并行策略的综合运用,确保了训练过程中每块GPU都在工作,实现了高效的并行训练。这种分布式训练框架特别适用于训练超大规模的语言模型,如GPT-3等。
2024-07-24 23:08:30
48226

原创 区块链技术和系统;ZKRollup ;区块链交易打包和审查
区块链技术作为一种去中心化、不可篡改且高度安全的分布式账本技术,近年来在统等多个领域展现出了巨大的应用潜力。:熟悉区块链的基本概念,如等核心技术。能够解释区块链如何工作,以及它的去中心化、透明性和安全性的基本原理。:了解并实践过至少一种或多种主流区块链平台,如等。熟悉这些平台的特性、开发环境、交易模型、智能合约编写语言(如Solidity)等。:能够,理解其在区块链上自动执行合约条款的重要性。了解智能合约的安全隐患,如重入攻击、时间戳依赖等,并知道如何避免这些问题。
2024-07-19 15:15:33
43881
1

原创 算力共享方案
平台的整体方案不但包括集群系统网络、存储、安全、可视化设备、计算服务器等硬件算力资源池的构建而且包含算力调度系统、算力交互门户、算力运行基础环境和算力应用等软件系统构建,这是一个庞大而系统化的工程。在算力资源池规划中,根据需求可分为工业设计、AI研发所需的可视化资源池,科学计算资源池和AI训练推理资源池,这些资源池使用统一的存储空间,按照其业务特性进行个性化网络配置,为平台提供算力基础能力。
2024-07-15 17:01:39
48831
2

原创 有关去中心化算路大模型的一些误区:低带宽互连导致训练速度太慢;小容量设备无法生成基础规模的模型;去中心化总是会花费更多;虫群永远不够大
有关去中心化算路大模型的一些误区:低带宽互连导致训练速度太慢;小容量设备无法生成基础规模的模型;去中心化总是会花费更多;虫群永远不够大
2024-07-10 22:01:52
51922
2

原创 神经网络和算力共享结合:基于深度学习的算力资源智能分配机制;一种支持跨云、跨边缘计算平台的协同训练框架;模型自适应优化策略
神经网络和算力共享结合:基于深度学习的算力资源智能分配机制;一种支持跨云、跨边缘计算平台的协同训练框架;模型自适应优化策略
2024-07-07 15:46:57
49613
1

原创 短视频时代是靠什么赚钱的,介绍常见的5种方式,简单明了
只要我们的视频流量曝光高,就可能吸引到商家,植入广告赚取广告佣金,百万以上粉丝的号广告费也是上十万的。目前,短视频越来越火热,大家都知道做短视频可以赚钱,那么究竟是靠什么赚钱的,又有几个人知道呢?,只要通过视频可以获得他想要的,学习到技能,知识,大家都愿意付费的,因为通过知识付费可以享受到更多优质服务。看看口红一哥李佳琪,会有无数人种草他的产品,不管是短视频带货,直播带货,或是其它的方式,总会有人买单。,还是要做优质的短视频内容,可以在视频后放上商品的链接,垂直细分领域用户也相对会比较垂直,变现更容易。
2023-02-18 09:24:59
21113

原创 MATLAB for循环
MATLAB for循环MATLAB中 for 循环是一个重复的控制结构,可以有效地写一个循环,只是执行的次数是特定的。MATLAB for 循环语法:MATLAB中的 for循环的语法如下:for index = values ...endfor 循环的值有下述三种形式之一:格式 描述 initval:endval 将索引变量从初始到终值递增1,并重复执行程序语句,直到索引值大于终值。 initval:step:endval
2021-10-18 01:16:10
113953
1

原创 sci一区二区 SCI、EI、ISTP分别指什么
农业、生物环境科学辑收录950种;在ISTP、 EI、 SCI这三大检索系统中,SCI最能反映基础学科研究水平和论文质量,该检索系统收录的科技期刊比较全面,可以说它是集中各个学科高质优秀论文的精粹,该检索系统历来成为世界科技界密切注视的中心和焦点.ISTP、EI这两个检索系统评定科技论文和科技期刊的质量标准方面相比之下较为宽松.SCI(科学引文索引 )、EI(工程索引 )、ISTP(科技会议录索引 ) 是世界著名的三大科技文献检索系统,是国际公认的进行科学统计与科学评价的主要检索工具,
2021-03-20 16:52:14
61714

原创 揭秘C盘深处:Appdata、Program Files与Windows的神秘角落,你了解多少?
Appdata下有三个子文件夹local,locallow,roaming,当你解压缩包时如果知不指定路径,系统就把压缩包解到local\temp文件夹下,存放了一些解压文件,安装软件时就从这里调取数据特别是一些制图软件,体积非常大,占用很多空间。locallow是用来存放共享数据,这两个文件夹下的文件就用优化大师清理,一般都可以清道理无用的文件。roaming文件夹也是存放一些使用程序后产生的版...
2020-04-21 18:22:56
33723

原创 向量组a可由向量组b线性表示什么意思
重要性质1、向量组B=(β1,β2,……,βm)能由向量组A=(α1,α2,……,αm)线性表示的充要条件是:矩阵A=(α1,α2,……,αm)的秩=矩阵(α1,α2,……,αm,B)的秩。2、向量组B能由向量组A线性表示,则向量组B的秩不大于向量A的秩。反之不一定成立。3、一个向量可由向量组中其余向量线性表示,前提是这个向量组线性相关。线性相关的向量组中并不是任一向量都可由其余向...
2019-10-22 22:03:42
38934
1

原创 ARM架构和X86架构区别
总体还是为了在不同设备上达到性能最优,性能不仅仅是运算速度,距离,数据的增删改查在不同的数据结构中运算效率都各有不同,同样,运算速度,节电等等都是性能的范畴,综合考虑设备在不同环境,使性能达到最优,所有有不同的指令集,来部署在硬件中。ARM发热量小,不需要主动散热,X86通用性很好,ARM的通用性不太好。Intel主要有x86,EM64T,MMX,SSE,SSE2,SSE3,SSSE3 (Super SSE3),SSE4A,SSE4.1,SSE4.2,AVX,AVX2,AVX-512,VMX等指令集。
2019-05-28 17:50:37
28674
4

原创 揭秘线程控制的两大法宝:sleep()与wait(),你真的了解它们的区别吗?
都用来进行线程控制,他们最大本质的区别是:sleep()不释放同步锁,wait()释放同步缩.;sleep()是让某个线程暂停运行一段时间,其控制范围是由当前线程决定,也就是说,在线程里面决定.好比如说,我要做的事情是 "点火->烧水->煮面",而当我点完火之后我不立即烧水,我要休息一段时间再烧.对于运行的主动权是由我的流程来控制.而wait(),首先,这是由某个确定的对...
2019-04-24 21:40:01
17087
5

原创 码元与比特的简单理解 码元简单理解
码元与比特的区别:比特/秒是信息传输速率的单位,码元传输速率也称为调制速率、波形速率或符号速率。一个码元不一定对应于一个比特。1码元:在数字通信中常常用时间间隔相同的符号来表示一位二进制数字。这样的时间间隔内的信号称为二进制码元,而这个间隔被称为码元长度。2.符号:即用于表示某数字码型[据位数不同,对应不同的键控调制方式]的一定相位或幅度值的一段正弦载波[其长度即符号长度]。3.符...
2019-03-21 23:41:56
17067

原创 路由器NAT模式和路由模式的区别
1、信息交换不同路由器NAT模式不进行路由信息交换,路由模式可以进行路由信息的交换。2、原理不同路由器NAT模式是指内网与外网经过了网络地址转换,它们之间是不进行路由交换的。路由器的路由模式是路由器的各个接口与其他路由器之间可以进行路由信息的交换,从而形成完整的路由信息,是路由器的基本功能模式。3、用处不同NAT模式可以上网但是不能和宿主计算机通信,理论上是更安全的,无...
2019-03-15 11:44:41
36535
1

原创 码分多址(CDMA),码片序列简单理解
码分多址(CDMA):技术特点编辑1.CDMA是扩频通信的一种,它具有扩频通信的以下特点:⑴抗干扰能力强。这是扩频通信的基本特点,是所有通信方式无法比拟的。⑵宽带传输,抗衰落能力强。⑶由于采用宽带传输,在信道中传输的有用信号的功率比干扰信号的功率低得多,因此信号好像隐蔽在噪声中;即功率谱密度比较低,有利于信号隐蔽。⑷利用扩频码的相关性来获取用户的信息,抗截获的能力强。...
2019-03-14 21:32:46
28191
5

原创 字节、字、位、比特 还有帧的简单理解
字节B表示, 位用b表示。帧-----在网络中,网络设备将“位”组成一个个的字节,然后这些字节“封装”成帧,在网络上传输。为什么要把数据“封装”成帧呢?因为用户数据一般都比较大,有的可以达到MB字节,一下子发送出去十分困难,于是就需要把数据分成许多小份,再按照一定的次序发送出去。以太网的帧值总是在一定范围内浮动,最大的帧值是1518字节,最小的帧值是64字节。在实际应用中,帧的大小是由设...
2019-03-14 19:32:33
25885
11

原创 管程的理解
一、管程的概念1.管程可以看做一个软件模块,它是将共享的变量和对于这些共享变量的操作封装起来,形成一个具有一定接口的功能模块,进程可以调用管程来实现进程级别的并发控制。2.进程只能互斥得使用管程,即当一个进程使用管程时,另一个进程必须等待。当一个进程使用完管程后,它必须释放管程并唤醒等待管程的某一个进程。3.在管程入口处的等待队列称为入口等待队列...
2019-02-24 00:31:01
37038
9

原创 重心,形心,质心 形心质心公式之一 形心质心公式之二 转换 应用:举例:D:是圆;
2、形心:物体的几何中心。(只与物体的几何形状和尺寸有关,与组成该物体的物质无关)。一般情况下重心和形心是不重合的,只有物体是由同一种均质材料构成时,重心和形心才重合。1、重心:物体的重力的合力作用点称为物体的重心。(与组成该物体的物质有关)3、质量中心简称质心,指物质系统上被认为质量集中于此的一个假想点。
2018-12-16 15:32:48
108353

原创 年轻人,为什么我建议你远离抖音,微信,qq ; 人真正的敌人是不满 韭菜思维
目录年轻人,为什么我建议你远离抖音,微信,qq人真正的敌人是不满韭菜思维声明在先:我的分享不仅仅是共享大家,更多的是自己的一种加深,共享实际仅仅是 一种副产品而已。最近收到一个小伙伴的私信,我比年长3岁,咨询我相关问题,但是我没有直接回复,写在这里,能不能看到就是命中注定,其实生活中的一切看似自己发挥这主动权,但是由于自己的学识和环境或许早就已经命中注定。没有必要烦恼怎么走,有想法就去做,根据自己现有的学识和资源去做自己的决定,独立也是孤独的 完成。结果就是成功或者失败;但是成功是成功的经历,失败有失败的教
2018-12-13 08:22:34
3219
11

原创 绝对剩余价值和相对剩余价值举例
绝对剩余价值:你本来一天工作8小时,现在一天10小时,但工资不变,企业让你多干两小时就是绝对剩余价值相对剩余价值:你仍旧一天干8小时,比如你本来替公司养鸡,一个月养大100只鸡,现在公司有了孵化器和激素,你一个月多为公司养活50只鸡,而且你照顾的鸡多了也就更累了但工资不变,这50只鸡就是相对剩余价值;超额:由于花同样的工资比如1000,加上其它如饲料场地费用比如1000别的没激素和孵化器的公司...
2018-12-11 19:35:21
32391

原创 矩阵的等价,相似,合同,正定判定和关系
矩阵等价(秩等)定义:对同型矩阵A、B,存在可逆阵P和Q,使得B=PAQB=PAQ充要条件:A和B的秩相等补充:向量组AB等价(r(A)=r(B)=r(AB);可以相互线形表示;极大线形无关组同)转置理解:就是关于x=y对称的同体,二维是关于y=x 对称的平面图形,三维是关于f(x,y)=x-y 对称的 立方体或者图形,以此类推|A转置|=|A|:可是用行列式值对的意义理解:...
2018-11-02 11:43:52
32494
3

原创 行列式运算法则 矩阵的运算及其运算规则:
1、三角形行列式的值,等于对角线元素的乘积。计算时,一般需要多次运算来把行列式转换为上三角型或下三角型2、交换行列式中的两行(列),行列式变号(交换)3、行列式中某行(列)的公因子,可以提出放到行列式之外。(倍乘)(注:矩阵是全部元素都乘,都提取)4、行列式的某行乘以a,加到另外一行,行列式不变,常用于消去某些元素。(倍加)5、若行列式中,两行(列)完全一样,则行列式为0;可以推论,如果两...
2018-10-29 17:01:19
88053

原创 参数方程中参数的意义: 参数方程定义: 什么是参数方程: 参数方程与普通方程的公式
参数方程中参数的意义:参数方程中t的几何意义要看具体的曲线方程了,一般都是长度,角度等几何量,也有一些是不容易找到对应的几何量的。参数方程定义:一般的,在平面直角坐标系中,如果曲线上任意一点的坐标x,y都是某个变数t的函数{x=f(t),y=g(t)并且对于t的每一个允许值,由上述方程组所确定的点M(x,y)都在这条曲线上,那么上述方程则为这条曲线的参数方程,联系x,y的变数t叫...
2018-10-20 11:52:21
46938
4
原创 无标注数据如何提升LLM推理能力?熵最小化 提升LLM自信度
摘要: 研究提出**熵最小化(EM)**方法,通过降低大语言模型输出的不确定性,显著提升其在数学、编程等复杂任务中的表现,且无需标注数据。三种实现方式包括无监督微调(EM-FT)、基于负熵的强化学习(EM-RL)和推理时调整(EM-INF),其中EM-INF效率达传统方法的3倍。关键发现表明,该方法有效释放预训练模型潜力,但依赖模型基础能力且仅适用于自信度与正确性相关的任务。研究为低成本优化LLM推理性能提供了新思路,凸显模型自身能力的重要性。
2025-06-01 14:15:54
40
原创 模型警告:未设填充标记?自动用结束符有风险!Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.
摘要: 当模型检测到未设置pad_token_id时,会自动将其设为eos_token_id(如128001),但这可能导致语义冲突(如误将填充符视为结束符)。解决方案需根据模型类型调整: 支持填充标记的模型(如BERT):需显式设置pad_token,并生成attention_mask; 依赖掩码的模型(如Llama):无需pad_token_id,但必须提供attention_mask; 自定义填充标记:可手动添加[PAD]并扩展词表。 关键点:优先查阅模型文档,确保pad_token与eos_toke
2025-05-31 23:09:25
13
原创 LLm中 float16和 float32 区别,为什么训练不能采用float16--梯度消失
在深度学习中,float16(半精度)与float32(单精度)的主要区别在于数值范围和精度。float16仅有16位,数值范围较小(±6.5×10^4),精度较低(3-4位有效数字),当损失值达到0.0001时,容易出现梯度下溢或舍入误差,导致训练停滞或模型发散。相比之下,float32提供更大的数值范围和更高精度,更适合训练。解决方案包括混合精度训练、梯度缩放和优化器调整,以兼顾计算效率和稳定性。
2025-05-31 22:04:07
174
原创 Transformer模型输入处理必知要点:The attention mask and the pad token id were not set
摘要:Transformer模型处理输入时需正确设置attention_mask和pad_token_id,否则可能导致错误。未设置attention_mask会使模型无法区分有效输入与填充值,影响计算准确性;未指定pad_token_id时系统会临时用eos_token_id替代,可能引发语义冲突。解决方案包括:1)通过分词器设置pad_token_id;2)处理数据时生成并传递attention_mask;3)在模型调用中明确使用attention_mask参数。这些措施能确保模型正确识别有效输入位置,
2025-05-31 22:00:19
14
原创 qwen 2.5 并行计算机制:依靠 PyTorch 和 Transformers 库的分布式能力
Qwen2.5利用PyTorch和Transformers库实现了模型并行计算,通过device_map="auto"参数将不同模型层自动分配到多GPU上。这种层间并行机制在前向传播和反向传播时协同工作,既能优化显存使用,又能提升大型模型(如7B参数模型)的训练效率。虽然数据处理阶段未显式并行,但模型推理和训练时自动实现了多GPU并行计算。该方法避免了单GPU显存不足的问题,显著加速了计算过程。未来可考虑结合数据并行技术进一步优化。
2025-05-31 16:28:19
88
原创 训练与推理:模型精度的关键差异
深度学习训练和推理阶段对模型权重精度要求存在显著差异:训练阶段通常采用FP32或混合精度(FP16/BF16)以保证数值稳定性和梯度计算准确性,而推理阶段更注重效率,常使用FP16或INT8量化来提升速度、降低内存占用。关键差异体现在训练需要高精度防止梯度问题,推理则能容忍一定误差。实际应用中建议训练时采用混合精度,推理时根据场景选择量化方案(如云端用FP16,边缘设备用INT8),并可通过量化感知训练优化低精度模型效果。
2025-05-31 10:51:41
97
原创 DDP与FSDP:分布式训练技术全解析
DDP与FSDP是两种主流的深度学习分布式训练技术。DDP采用数据并行策略,各设备保存完整模型副本,通过梯度同步确保参数一致,适合中小规模模型。FSDP采用参数分片技术,将模型参数、梯度和优化器状态分散存储,显著降低内存占用,适用于超大规模模型训练。两者在内存占用、通信开销和适用场景上存在显著差异:DDP梯度同步通信开销较大但实现简单,FSDP内存效率更高但计算过程需频繁重构参数。PyTorch提供了两种技术的API支持,开发者可根据模型规模选择合适的并行策略。
2025-05-30 23:38:47
208
原创 多卡训练核心技术详解
本文详细介绍了多卡训练的核心技术,包括分布式环境初始化、模型并行化、数据分片和梯度同步。通过torchrun命令启动多进程训练,使用NCCL后端进行GPU通信。模型采用数据并行(DDP)自动处理梯度同步,数据通过DistributedSampler分片到不同GPU。文中还解释了广播、规约等进程同步操作,并演示了4个GPU协同训练的工作流程。这些技术确保了模型在多卡环境下的高效训练和参数一致性。
2025-05-30 23:37:22
136
原创 投稿 IEEE Transactions on Knowledge and Data Engineering 注意事项
本文总结了向IEEE Transactions on Knowledge and Data Engineering投稿的注意事项。首先需注册IEEE账户,准备符合IEEE模板的论文,所有作者需注册ORCID并关联账户。投稿需通过新系统https://ieee.atyponrex.com完成,流程包括选择文章类型、上传手稿、填写作者和项目信息、选择关键词等,并强调必须提交Cover Letter。投稿后可通过系统跟踪审稿进度,包括编辑处理、专家评审等阶段。若需修改,应认真回应审稿意见并按规范重新提交。文中还提
2025-05-30 20:51:27
188
原创 基于问题导向提示调优策略的小样本中文情感分类方法研究
本文提出了一种基于问题导向提示调优策略(QPT)的小样本中文情感分类方法。通过构建可训练连续提示模板,将分类任务转化为预训练模型擅长的完形填空任务,并动态优化提示词嵌入向量。在5-shot设置下,模型在测试集上达到89.23%的准确率,显著优于随机基准。实验表明,该方法能有效利用预训练语言模型的先验知识,提升小样本场景下的分类性能。未来可结合知识增强和低秩优化等技术进一步改进。
2025-05-30 00:52:24
25
原创 Amazon Q和悟空IM全面解析
文章摘要 Amazon Q是亚马逊推出的AI助手,包含企业版(处理内部数据)、开发者版(辅助编程)、QuickSight版(商业智能分析)、Connect版(客服支持)和Supply Chain版(供应链优化)。悟空IM则是高性能即时通讯服务,具备自研协议、百万级并发、强安全性及多场景支持(如聊天、物联网、直播弹幕等),并提供多平台SDK。两者分别聚焦AI赋能行业与通用通讯解决方案。
2025-05-29 19:15:00
51
原创 模型自学推理:自信驱动进化
INTUITOR是一种新型无监督学习框架,让大语言模型通过自我置信度驱动推理能力的提升。其核心流程分为三阶段:首先由策略模型生成多样化候选答案;接着参考模型计算每个答案的自我确定性(通过KL散度评估模型对推理步骤的置信度);最后将置信度作为奖励信号,通过强化学习优化策略模型。该方法摆脱了对人工标注或标准答案的依赖,在数学推理和代码生成任务中表现出色,甚至超越有监督方法。实验显示,经过INTUITOR训练的模型能自发形成结构化推理习惯,如分步解题、添加注释等,展现出更强的泛化能力。这一技术突破为开发自主学习的
2025-05-29 00:10:25
250
原创 Python 的 `next()`函数
这段Python代码使用了next()函数和生成器表达式从模型生成文本中提取情感预测结果。它会遍历预定义的情感标签列表,返回第一个在生成文本中出现的标签,若未找到则返回None。文章指出了当预测结果为None时会导致类型错误的问题,并提供了修复方案:将默认值改为字符串"未识别",并改进判断逻辑以避免错误。这种处理方式既保持了原代码的功能,又增强了其健壮性。
2025-05-28 22:49:37
156
jd-windows_jar.zip
2019-09-09
jd_windows.zip
2019-09-09
Activity之间使用接口传值.zip
2019-07-30
mengxueping.zip
2019-07-26
sscomassistant.2.15.0.Installer.x64.exe
2019-06-19
DebugView 支持win10.rar
2019-05-24
一个非常强大的测试工具,给大家简单的介绍一下基本使用方法 入门篇,如若不懂,请重新学习小学语文,再来阅读,谢谢!!! 1、
2022-10-08
US_export_policy.jar local_policy.jar
2022-04-23
CAJViewer7.2.0.115.self.zip
2021-12-08
sokit-1.3.zip
2020-07-13
signapk.jar
2020-03-12
usb-serial-for-android-master.zip
2019-09-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人