医疗AI强化曾小健
"强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。CSDN全站70强博客、总600w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(微chat同GitHub:ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《大模型部署实战与面试指南》
本篇将视角从单点优化转向系统工程,探讨如何将优化后的模型封装成高可用、高并发的在线服务,构建强大的AI基础设施(AI Infra)。我们将深入探讨如何将高级的模型表示,通过层层优化,转化为高效的底层硬件指令。本篇旨在夯实底层理论基础,不仅理解模型结构,更要从计算和内存的角度洞悉其性能瓶颈,这是后续所有优化的起点。本篇将理论付诸实践,深入两大主流AI硬件生态,掌握在不同平台上进行高性能部署的核心技能。本篇探讨当前最前沿的部署技术和未来发展趋势,展现你作为顶尖工程师的技术视野和深度思考。它解决了什么核心问题?原创 2025-07-03 13:59:18 · 67 阅读 · 0 评论 -
大模型中pre norm和post norm的区别和优劣是什么,以及分别在哪些情况下使用
Pre-Norm(Norm and add)在残差连接前进行归一化,使得部分参数直接参与残差连接,从而避免了梯度消失或爆炸的问题,模型训练更加稳定[2]。(Pre-Normalization)是一种归一化策略,其结构定义为:在每个子层(Sublayer)之前对输入进行归一化处理,然后将归一化后的输出与原始输入相加,形成残差连接。Pre-Norm 的最终性能通常略逊一筹,因为其等效的“深度”较低,即 L 层的 Pre-Norm 模型在实际效果上可能不如 L 层。练深层网络时表现更优。①中与②中的核心区别。原创 2025-07-02 06:26:21 · 55 阅读 · 0 评论 -
面试2000人后发现:能力差的人都有这3种表现!
用户量上涨但营收没涨,我排查出3个可能原因,逐一排除后,找到了核心矛盾,通过xxx方式。面试中,其实只用几个问题,就能快速判断一个人能力强不强。能力差的人像复读机,要么“背诵”,要么“墙头草”,没有主见。当时是领导让我这么做的吧……难搞”“我每天加班到凌晨”“项目推不动”……能力强的人,就算紧张,也能让面试官听出他的。HR愿意听、也会记住的那种“能力型故事”这些“可能”“也许”“大概”式的词语。2025年06月21日 23:46。能力强的人像个医生,他讲的是:“赶紧关注 了解一手职场资讯~原创 2025-07-01 17:07:07 · 41 阅读 · 0 评论 -
面试问“你手上几个 offer?”你要是这么答,薪资直接翻倍!
你是不是“香饽饽”。我们既要判断自己眼光没看走,还得提防你拿我当“备胎”练手。的潜台词是:“你太晚到岗,我可能就要选下周就能上班的人。这句话基本可以理解为:你还不错,但我们还想多看看。对方心里也有数,只是想听你怎么说。,则意味着你已经挺靠前了,我们需要处理内部流程。HR问这个问题,其实说明对你很满意,想确认。“面试时,HR常问这些问题,你是。,HR也愿意把你纳入人才储备池。‘薪资谈判’,到‘为何离职’,听好了,千万别说“没拿过”。“蹭个样本”来压你的薪资预期。接下来,我会一步步教你,7-10 天内通知你”原创 2025-07-01 11:03:29 · 39 阅读 · 0 评论 -
请详细列举llama1、llama2和llama3、llama4的升级和改进
请详细列举llama1、llama2和llama3、llama4的升级和改进3:41Llama系列模型自发布以来,经历了多次迭代,每一代都在模型架构、训练数据、性能和功能等方面进行了显著的升级和改进。原创 2025-07-01 03:45:38 · 165 阅读 · 0 评论 -
为什么大模型的输出 要比输入占用更多的时间? 请详细说明
大模型的输出比输入占用更多时间,主要是由于生成机制的差异、计算资源的瓶颈、输出长度的不确定性以及模型规模的限制。这些因素共同导致了输出阶段的计算成本显著高于输入阶段。因此,在实际应用中,优化大模型的输出效率和降低输出成本是提升用户体验和降低成本的关键。原创 2025-06-30 16:30:15 · 52 阅读 · 0 评论 -
AI Agent面试入门核心知识专题(一) |【三年面试五年模拟】
在AIGC时代,Rocky认为AI Agent是一个非常重要的方向,也是AIGC技术发展的大势所趋。那么,AI Agent到底是什么呢?Rocky首先给大家讲解一下非AI Agent(Non-Agent),即常规AIGC大模型的运行逻辑,然后我们就能从两者的对比中恍然大悟。我们以经典的文本内容创作为例子🌰,非智能体、智能体以及人类创作者的工作流呈现显著差异:主体类型执行特征流程剖析Non-Agent(非智能体)线性单次输出用户输入提示词→大模型直接生成终稿(无迭代过程)原创 2025-06-30 04:37:06 · 285 阅读 · 0 评论 -
Python C扩展模块实例:spam
当 Python 导入spam模块时,会根据这些结构完成模块的注册、初始化自定义异常、方法绑定等工作。{0, NULL}:模块执行槽数组,指定模块导入时要执行的函数(这里是,用于初始化自定义异常)。:模块定义结构体,包含模块名、文档字符串、方法表、执行槽、清理函数等信息。:模块初始化函数,Python 导入模块时会调用,返回模块对象。原创 2025-06-27 02:47:13 · 40 阅读 · 0 评论 -
PPO论文解读
这篇论文介绍了一种新的策略优化算法——近端策略优化(PPO),旨在提高强化学习中策略优化的效率和稳定性。这篇论文提出了PPO算法,用于解决强化学习中的策略优化问题。具体来说,这篇论文提出了近端策略优化(PPO)算法,通过交替采样数据和优化代理目标函数,实现了策略优化的稳定性和可靠性。PPO简化了实现过程,适用于更广泛的架构,并在样本复杂度和整体性能上优于其他在线策略梯度方法。这篇论文为强化学习领域提供了一种高效且易于实现的策略优化算法,具有重要的理论和实践意义。这篇论文提出了近端策略优化(Proximal原创 2025-02-12 02:27:27 · 821 阅读 · 0 评论 -
你知道ppo的两个主要版本:PPO-Penalty 和 PPO-Clip的区别和优劣吗? 请列举你所知道的其他ppo变体或改良版本
PPO 的基础版本(PPO-Penalty 和 PPO-Clip)各有优劣,PPO-Clip 因其简单高效更常用。而基于 PPO 的变体则针对不同场景和问题进行了优化,比如稀疏奖励(PPO-ICM)、高维动作空间(PPO-CMA)或样本效率(PPO-SIL)。PPO-Clip 以其简单性和有效性而著称,而PPO-Penalty则试图更直接地控制策略更新的大小。除了 PPO-Penalty 和 PPO-Clip,还有许多基于 PPO 的改良版本,它们在不同任务中表现更优。旧策略的相对熵(KL散度)。原创 2025-02-12 02:17:26 · 1063 阅读 · 0 评论 -
ppo openai官方文档-近端策略优化
之所以收录 Heess 2017,是因为它对 PPO 代理在复杂环境中学习到的行为进行了大规模实证分析(尽管它使用的是 PPO-penalty 而不是 PPO-clip)。虽然这种裁剪对于确保合理的策略更新大有裨益,但最终的新策略仍然可能与旧策略相差太大,不同的 PPO 实现使用了许多技巧来避免这种情况。在我们的实现中,我们使用了一种特别简单的方法:提前停止。可以使用 加载 PyTorch 保存的模型,从而生成一个具有 文档字符串中描述的属性的actor-critic 对象 ( )。原创 2025-02-12 02:17:43 · 624 阅读 · 0 评论 -
deepseek v1 到v3
deepseek v1 到v3原创 2025-02-18 15:30:08 · 136 阅读 · 0 评论 -
一种可解释的人工智能体,整合了强化学习(RL)和主动推理的关键要素
在过去的十年中,自由能量原理(FEP)和主动推理(AIF)在将学习和认知的概念模型与感知和行动的数学模型相结合方面取得了许多成功。这一努力是由多学科对自组织复杂适应性系统(包括主体性元素)的兴趣推动的。许多执行主动推理的强化学习(RL)模型已经被提出,并使用深度神经网络在标准RL任务上进行训练。最近的研究集中在通过引入最新的机器学习技术来提高这些智能体在复杂环境中的表现。在这篇论文中,我们采取了一种替代方法。原创 2025-02-19 09:40:41 · 1123 阅读 · 0 评论 -
详细解释稀疏奖励中的逆向奖励传播
逆向奖励传播通过逆向推理和伪奖励分配,为稀疏奖励环境下的强化学习提供了高效的探索机制。尽管存在设计复杂性等挑战,其在机器人控制、游戏AI等领域的应用已显示出显著优势。未来研究可进一步优化伪奖励生成机制,提升算法的普适性和鲁棒性。GPT-4oPoe在强化学习中,稀疏奖励问题是指智能体在大部分时间无法获得有意义的奖励信号,使得有效学习变得困难。这种问题在许多实际任务中常见,例如机器人导航(只有到达目标时才有奖励)或游戏中的复杂目标(只有完成目标时才得分)。原创 2025-02-20 03:05:37 · 1352 阅读 · 0 评论 -
请找到life2vec的相关方法,并比较word2vec方法,在嵌入方法上,嵌入token等等有什么区别和联系
life2vec的创新性:将NLP中的嵌入和Transformer技术扩展至结构化生活数据,引入时间编码和事件级上下文建模,为社会科学研究提供新工具。word2vec的局限性:缺乏对时间、位置等元数据的显式建模,难以直接应用于时序事件预测。技术趋势:未来嵌入方法可能进一步融合多模态信息(如文本+时序+空间),并增强可解释性以支持伦理审查。原创 2025-02-20 04:27:21 · 670 阅读 · 0 评论 -
为什么 LLMs 在 OCR 任务中表现不佳
考虑"rn"和"m"这样的序列,对于快速浏览的人类读者或处理图像块的 LLM 来说,这两者看起来几乎一模一样。更令人震惊的是,我们在最新的 SOTA 模型上运行了相同的测试,包括 OpenAI 的 o1、Anthropic 的 3.5 Sonnet(新版本)和 Google 的 Gemini 2.0 flash,它们都犯了。毕竟,这些基础模型每个月都在突破各项基准测试的记录,开源模型的性能也已经追平了最好的专有模型。你的任务是仔细分析提供的开源文档,并将其所有内容提取为详细的 Markdown 格式。原创 2025-02-20 02:38:44 · 954 阅读 · 0 评论 -
深度强化学习中加速收敛的办法是什么,原理是什么
加速深度强化学习收敛的核心思想是减少无效探索、提升样本效率和优化学习结构。具体方法包括改进探索策略、设计更好的奖励信号、利用先验知识、优化算法结构以及引入辅助任务或分层策略。这些方法从不同角度提升了强化学习算法的性能和效率,使其在复杂环境中更快地找到最优解。原创 2025-02-20 02:51:51 · 1002 阅读 · 0 评论 -
大模型中的 Reward Model:ORM、PRM、PPO、DPO
PPO 和 DPO 的最大区别是 PPO 是强化学习的两阶段范式,先生成,再判别,再根据判别结果优化,但 DPO 其实是离线生产了一批正样本数据集,还是监督学习范式,所以 PPO 又被称为 On-policy,而。显然,PRM 的上限更高(ORM 甚至可能存在结果正确但过程不正确的情况),但同时要求 Reward Model 能够正确的判别每一步的结果,显然对 Reward Model 的要求更高。可以在大模型输出的多个结果中选择更好的一个,更重要的是,判别结果可以某种损失的形式回传,优化大模型。原创 2025-02-21 05:31:14 · 472 阅读 · 0 评论 -
【手撕NSA】DeepSeek新作-原生稀疏注意力-超长文(附代码)
花了半天时间按照原论文公式手撕了核心算法NSA,将本文对应的notebook分享到git,希望能帮助大家理解:NSA精度优于MHA相当,那么NSA大概率是DeepSeek-V4 base的一个核心设计NSA速度在64k inference相较 Flash Attention 前向加速9倍,反向加速6倍。NSA原生稀疏性对于pretrained是必要的,我认为**NSA。原创 2025-02-20 09:36:53 · 925 阅读 · 0 评论 -
DeepSeek-R1技术剖析:没有强化学习基础也能看懂的PPO & GRPO
在强化学习里,我们把每一周看作一个时间步。我的当前状态(State)可能包括:我当前的学习水平、疲劳程度、对下一次考试范围的掌握度;我上一场考试的得分;甚至我当前的心情(如果要更真实的话……)。然后,我做出的动作(Action)可以是:“去参加某辅导班”、“自主复习”、“放空休息”等等。当。原创 2025-02-22 22:19:02 · 1131 阅读 · 0 评论 -
请详述rlhf和ppo、dpo的异同和优劣
DPO(Direct Preference Optimization)是一种优化方法,旨在直接优化模型以符合人类偏好,而无需依赖复杂的强化学习框架。它通过最小化损失函数来学习直接偏好数据,从而优化模型的表现。原创 2025-02-22 22:30:47 · 816 阅读 · 0 评论 -
请解释q learning时序差分(TD)更新规则,具体是怎么更新的?用到了哪些技术,用到了贝尔曼方程吗?请详细推导
Q-Learning 的 TD 更新规则可以总结如下:对于每个从环境获得的样本 (s, a, r, s'),更新公式为:该公式直接利用了 Bellman 最优性方程,并通过时序差分方法(TD)来逐步逼近最优的价值函数。通过不断的采样、不断更新,理论上在合适的条件下,Q-Learning 可收敛到最优策略对应的价值函数。原创 2025-02-24 15:52:28 · 1021 阅读 · 0 评论 -
一文说清楚什么是预训练(Pre-Training)、微调(Fine-Tuning)
原创 AI取经路AI取经路2025年02月19日 20:09山西-正文-预训练和微调是现代AI模型的核心技术,通过两者的结合,机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力,而微调则确保了模型能够根据特定任务进行细化和优化。1. 什么是预训练?1.1 预训练的关键点1.2 通俗类比2. 什么是微调?2.1 微调中的关键点2.2 通俗类比3. 预训练与微调的区别4. 总结-- 领取学习资料大礼包,见文末。原创 2025-02-24 11:56:42 · 1098 阅读 · 0 评论 -
请详述dqn中的bellman方程的详细推导以及td时间差分的详细推导
Bellman方程:描述了值函数的递归关系,是强化学习中的基础。TD学习:通过时序差分来更新值函数,结合了蒙特卡洛和动态规划的优点。DQN:使用深度神经网络来近似Q函数,通过最小化TD误差来学习最优策略。希望这个详细的推导能帮助你更好地理解DQN中的Bellman方程和TD学习。如果你有任何问题,欢迎继续提问!好的,我将详细推导DQN(Deep Q-Network)中的Bellman方程和TD(时间差分,Temporal Difference)学习的过程。原创 2025-02-24 16:00:27 · 922 阅读 · 0 评论 -
机器学习中的6种优化方法
原创 数据侠2025年02月25日 13:25河北机器学习中的6种优化方法所有机器学习模型都涉及优化。作为一名从业者,我们会优化最合适的超参数或特征子集。决策树算法优化分割。神经网络优化权重。最有可能的是,我们使用计算算法进行优化。有许多方法可以进行数值优化,SciPy有许多函数可供使用,我们也可以尝试自己实现优化算法。在这个速成课程中,您将发现如何在七天内开始并自信地运行算法,以便用Python优化一个函数。原创 2025-02-25 13:48:41 · 739 阅读 · 0 评论 -
DeepSeek 背后的数学:GRPO
是一种专为提升大语言模型推理能力设计的强化学习(RL)算法。与传统方法不同,GRPO 不依赖外部评估器(critic)来指导学习,而是通过对比一组回答之间的相对优劣来优化模型。这种相对评估机制不仅简化了训练过程,还大幅提高了效率,特别适用于需要复杂问题求解和长推理链的任务。1.为查询生成一组回答2.基于准确性、格式等标准计算每个回答的奖励3.在组内比较回答,计算每个回答的相对优势(Ai)4.更新策略,优先保留优势较高的回答,同时通过剪枝确保更新稳定5.原创 2025-02-28 01:19:18 · 616 阅读 · 0 评论 -
DouZero中的深度蒙特卡罗方法
深度蒙特卡罗(DMC)在DouZero系统中通过深度神经网络、动作编码和并行训练实现了高效的斗地主AI训练。其具体实现包括设计LSTM+MLP的Q网络、使用ε-贪心策略生成数据、通过MSE损失更新网络,以及将动作编码为4×15矩阵以处理复杂动作空间。在斗地主中的应用体现为通过自我对弈优化策略,适应不完全信息和多智能体协作/竞争场景。DMC之所以有效,是因为它提供了无偏估计、适应稀疏奖励、利用动作特征,并通过并行化克服了高方差问题。原创 2025-02-27 15:03:40 · 673 阅读 · 0 评论 -
面试官:Adam和AdamW有什么区别?
AdamW目前是大语言模型训练的默认优化器,而大部分资料对Adam跟AdamW区别的介绍都不是很明确,在此梳理一下Adam与AdamW的计算流程,明确一下二者的区别。TLDR:AdamW将优化过程中使用的针对网络权重的衰减项(或者叫正则项)从loss中单独拿了出来,不参与Adam中一二阶动量的计算。一阶矩估计:计算梯度的一阶指数滑动平均二阶矩估计:计算梯度的二阶指数滑动平均偏差校正:对一阶和二阶矩进行偏差校正参数更新:结合动量和自适应学习率进行更新。原创 2025-02-28 00:57:18 · 602 阅读 · 0 评论 -
请详细解释sgd、adam、adamw优化器的异同与优劣,并距离他们的应用领域有什么不同
优化器收敛速度泛化性能超参敏感度适合任务典型应用SGD慢高高图像分类、大规模训练ResNet、DenseNet、ConvNext等Adam快中等低NLP、强化学习、GAN、快速实验BERT早期版本、GANAdamW快较高中NLP/CV领域的大型Transformer模型。原创 2025-02-28 10:18:24 · 567 阅读 · 0 评论 -
请解释均方误差mse和均方根误差的区别和优劣? 以及具体典型应用场景距离
GPT-4oPoe这是一个非常好的问题!从理论上来说,MSE 是凸函数,而RMSE 并不是严格意义上的凸函数。以下将通过凸函数的定义和公式推导来详细解释。1. 凸函数的定义在数学中,一个函数 f(x)f(x)f(x) 是凸函数,当且仅当对于任意两个点 x1x_1x1 和 x2x_2x2 以及任意 λ∈[0,1]\lambda \in [0, 1]λ∈[0,1],满足以下条件:这意味着,函数图像在任何两个点之间的连线都不会高于函数本身的图像。如果目标函数是凸函数,那么局部最小值一定是全局最小值。原创 2025-02-27 13:47:09 · 656 阅读 · 0 评论 -
面试官问:为什么深度学习需要tensor 而不是numpy array?
至于为什么叫它“张量”,其实也与领域的文化和认同感有关。就像很多流行的术语一样,“张量”这个名称增加了一些“学术感”,使其在深度学习领域中更具权威性和辨识度。相比之下,numpy 并没有这样的自动化功能,完全依赖于手动计算。优化损失函数的核心PyTorch 中的 Tensor 和 numpy 的最大区别就是,这对于深度学习尤其重要,因为它使得我们能够轻松地进行复杂的梯度计算,而不需要。Tensor 的本质区别在于它支持计算图,而 numpy 只提供。计算图是 Tensor 强大的优势。原创 2025-02-28 00:41:40 · 172 阅读 · 0 评论 -
详细说说VIT架构和Transformer架构的异同
ViT是将Transformer架构应用于视觉领域的一种创新尝试,它通过自注意力机制对图像进行建模。然而,由于两者在输入数据结构、架构设计及应用场景上的不同,导致它们各自在各自领域内有着不同的优势和劣势。Transformer更适合处理序列数据,而ViT则为视觉任务提供了一种新的思路和方法。ViT(Vision Transformer)和Transformer架构在计算机视觉和自然语言处理领域都有广泛的应用。它们虽然共享一些核心组件,但在设计和应用上存在显著差异。通过上述步骤,ViT将。原创 2024-12-11 09:56:09 · 1330 阅读 · 0 评论 -
详解transformer中的kv cache,和rwkv的cache有什么异同
Transformer中的KV Cache和RWKV的Cache在机制和应用上有显著的异同。原创 2024-11-22 11:44:28 · 1017 阅读 · 0 评论 -
详解BFLOAT16精度,和fp32和fp16的优缺点和异同
BFLOAT16通过增加指数位数来扩大数值范围,同时牺牲尾数精度以节省存储空间和提高计算效率。它在处理大规模神经网络时表现出色,但在需要高精度的小范围计算任务中可能不如FP32和FP16合适。选择合适的浮点数格式需要根据具体任务的需求、硬件支持以及对精度和资源消耗的权衡来决定。BFLOAT16和FP32各有其优缺点。BFLOAT16通过牺牲一些精度来保持与FP32相同的数值范围,同时减少内存占用和提高计算效率。这使得BFLOAT16特别适合于深度学习等需要大量计算资源的应用场景。原创 2024-12-11 15:19:10 · 1341 阅读 · 0 评论 -
Megatron训练框架和deepspeed训练框架的异同和优劣[大模型面试]
AnswerMegatron和DeepSpeed是两个用于大规模深度学习模型训练的框架,它们各有特点,但也存在一些共同之处。原创 2024-07-17 16:17:33 · 3259 阅读 · 0 评论 -
micro f1 和macro f1的异同
权重分配不同:micro f1对所有样本赋予相同权重,macro f1对每个类别赋予相同权重。应用场景不同:micro f1适用于类别数量差异不大的情况,macro f1更适用于不平衡数据集。数值大小不同:macro f1通常比micro f1大,因为它不受大类别的主导影响。此外,还有一种weighted f1,它根据每个类别的样本数量进行加权平均。在类别分布极度不平衡时,可以考虑使用weighted f1。原创 2024-05-27 17:26:56 · 1722 阅读 · 0 评论 -
LoRa微调和prefix微调还有adapter微调最大的区别和异同是什么,最好详细说明,最后能以表格显示
特性LoRa微调Prefix微调Adapter微调核心机制引入低秩矩阵添加可学习前缀向量插入适配器模块参数调整方式更新低秩矩阵优化前缀向量冻结大部分参数,仅调整适配器计算效率高效,减少更新参数高效,不修改模型结构高效,减少训练成本保留预训练知识部分保留完全保留大部分保留应用灵活性较高非常高较高推理性能影响较小较小可能增加延迟这些方法各有优势和局限,选择合适的方法通常取决于具体任务需求、计算资源及性能要求。原创 2024-11-20 16:30:07 · 453 阅读 · 0 评论 -
Mixtral 8x7B的原理解读:Mixtral of Experts
原创 NatureAI2024年01月16日 22:29北京。原创 2024-07-06 19:23:07 · 1063 阅读 · 0 评论 -
flash attention原理
在深度学习中,注意力机制(Attention Mechanism)广泛用于自然语言处理(NLP)、图像处理等领域。注意力机制的核心思想是根据输入序列中的每个元素的重要性来动态调整它们的权重,从而更好地捕捉序列中的依赖关系。自注意力(Self-Attention)是其中的一种常见形式,它用于计算输入序列中每个元素对其他元素的影响。Flash Attention 是通过引入分块计算、内存访问优化和并行计算等技术来提高注意力机制效率的一种方法。原创 2024-06-06 23:19:14 · 1686 阅读 · 0 评论 -
图解大模型RLHF系列:人人都能看懂的PPO原理与源码解读
智能体(Agent)与环境(Environment)状态空间S:S即为State,指环境中所有可能状态的集合动作空间A:A即为Action,指智能体所有可能动作的集合奖励R:R即为Reward,指智能体在环境的某一状态下所获得的奖励。以上图为例,智能体与环境的交互过程如下:在时刻,环境的状态为,达到这一状态所获得的奖励为智能体观测到与,采取相应动作智能体采取后,环境状态变为,得到相应的奖励找到一个策略,这个策略根据当前观测到的环境状态和奖励反馈,来选择最佳的动作。原创 2024-05-21 23:18:48 · 981 阅读 · 0 评论