- 博客(143)
- 收藏
- 关注
原创 macOS 上安装 Kubernetes(k8s)
已安装 Docker Desktop,追求快速启用(需 4-8GB 内存)。:需要接近生产环境的多节点模拟(需 4GB+ 内存)。:学习、开发测试、资源有限(需 2-4GB 内存)。若需进一步管理集群,推荐安装。(以 Docker 驱动为例)命令行工具提升效率。
2025-07-21 14:52:53
534
原创 **vLLM**、**SGLang**、**KTransformers** 和 **TensorRT-LLM** 四大主流 LLM 推理框架的深度对比分析
以下是针对 vLLM、SGLang、KTransformers 和 TensorRT-LLM 四大主流 LLM 推理框架的深度对比分析,结合核心技术、性能表现、适用场景及行业应用进行系统性总结:
2025-07-19 10:35:51
735
原创 Alibaba-NLP/WebAgent 项目总结
构建面向信息检索的网页智能体(Web Agent),实现复杂任务中的自主搜索、推理与决策。此项目标志着大模型在网页信息检索领域的重大进展,尤其在高难度任务上实现了开源模型的性能飞跃。:阿里巴巴集团通义实验室(Tongyi Lab)
2025-07-17 13:48:42
565
原创 Sketch 与 Figma
试用建议:Figma 免费版 + Sketch 7 天试用,根据项目压力测试决策。Sketch 本地设计 → 导入 Figma 协作是常见工作流。
2025-07-16 17:26:52
321
原创 Traefik 中实现流量治理3种方式和场景选择
中间件防刷接口,敏感操作(如支付回调)通过 WASM 插件添加审计日志,全局路由由 Gateway API 统一声明。:声明式配置、与 K8s 生态无缝集成、支持高级路由规则(如 HTTP 方法匹配)。:动态安全策略(如 WAF)、自定义协议解析、AI 边缘过滤等。:语言无关(支持 Go/Rust)、沙箱隔离、热加载。:基础流量治理(如请求头修改、身份认证、限流等)。:K8s 环境中的多租户路由、跨命名空间服务引用。运维提示:生产环境建议组合使用——例如用。:配置简单、无需编码、原生集成。
2025-07-16 16:55:17
884
原创 yield与return
您的理解方向是对的!return: “一锤子买卖” - 给你全部结果,然后下班回家yield: “分期付款” - 给你一部分结果,暂停等待,随时可以继续给更多流式效果只是yield的一个强大应用场景,但yield的能力远不止于此。它是Python中实现生成器、协程、状态机等高级编程模式的核心机制!yield暂停后的触发机制:自动触发for循环、FastAPI框架会自动调用next()按需触发: 只有当消费者准备好接收下一个数据时才触发背压控制: 如果消费者处理慢,自然会减慢生成速度异步协调。
2025-07-04 14:07:58
618
原创 PO→DO→DTO→VO 和 DAO → DTO → VO
在分层架构设计中,PO→DO→DTO→VO 和 DAO → DTO → VO 是两种常见的数据流转模型,分别对应和。
2025-06-30 15:49:45
670
原创 ubuntu安装docker遇到权限问题
Snap 的沙盒规则仍可能阻断非标准路径的访问,导致权限失效。若上述步骤无效,说明 Snap 版存在兼容性缺陷,建议。,容器无法直接访问宿主机的绝对路径(如。Snap 版 Docker 默认启用。手动授权 Docker 访问。
2025-06-26 14:45:19
692
原创 Traefik和Spring Cloud Gateway接口级限流和熔断对比
接口级限流和熔断支持情况Traefik: ✅ 支持但配置复杂,适合简单接口级需求: ✅ 原生支持且非常灵活,适合复杂接口级需求建议🔹当前项目: 继续使用Traefik的服务级配置🔹简单接口级需求: 可以考虑扩展Traefik配置🔹复杂接口级需求: 这时Spring Cloud Gateway会更有优势。
2025-06-25 16:37:12
322
原创 Ceph 和 MinIO
维度CephMinIO本质存储操作系统对象存储专家选型口诀“一池多用,企业全能手”“云原生S3,快简专精”关系竞争 & 互补(混合架构中可协同)需块/文件/对象统一存储→Ceph需高性能S3对象存储→MinIO。
2025-06-24 14:40:42
779
原创 vLLM、Triton Inference Server 和 Ray
vLLM:核心推理引擎 →“肌肉”(高效计算)Triton:服务包装框架 →“骨骼”(稳定托管)Ray:分布式调度器 →“神经系统”(智能调度)完整技术链价值用 Ray 调度集群资源 → 部署 Triton 实现生产级服务 → 通过 vLLM 释放 GPU 潜力 =高吞吐、低延迟、可扩展的 LLM 服务。Triton 的本质:AI 模型的“高性能执行引擎”(类似 Kubernetes 之于容器)LiteLLM 的本质:AI 模型的“标准化接入网关”(类似 API Gateway 之于微服务)
2025-06-24 14:08:39
1106
原创 vLLM能否用于模型训练?
尽管 vLLM 不参与训练,但可与训练框架配合实现。但其推理优化技术可显著提升训练后模型的部署效率。vLLM 是推理专用引擎,
2025-06-24 11:58:10
626
原创 数据血缘定义与价值
层次目标衡量指标基础层保障数据链路可靠运行数据事故下降率(如 -70%)进阶层建立全域数据知识图谱字段平均可解释率(如 95%+)战略层成为企业数据信任基石数据驱动决策占比(如 80%+)结论最小化修改影响是数据血缘的显性价值,而终极目标在于将数据从“不可控的黑盒”变为可信赖的核心资产—— 这才是企业在数字化竞争中的底层优势。
2025-06-24 09:49:38
638
原创 SSE和Kafka应用场景对比
维度SSEKafka核心价值浏览器实时推送分布式可靠消息管道是否可替代❌ 完全不可替代对方❌ 定位本质不同协作建议用作Kafka数据的最终展示层出口用作SSE背后的数据支撑引擎✅如果你需要让用户的浏览器实时更新数据 →SSE如果你需要在后端服务间传递海量数据 →KafkaKafka处理数据流 + SSE推送到前端= 🚀 完整解决方案。
2025-06-24 08:56:22
603
原创 TRL技术成熟度评估
TRL(Technology Readiness Level,技术成熟度等级)是一种国际通用的技术发展阶段评估体系,由NASA于20世纪70年代提出,后经美国国防部(DoD)等机构标准化为9级框架,广泛应用于科研管理、国防采办及产业研发。
2025-06-23 17:42:13
1061
原创 Elasticsearch(ES)与 OpenSearch(OS)
开源信仰 vs 商业创新:OpenSearch 坚守开源普惠,Elasticsearch 深耕企业场景,两者已形成差异化竞争格局未来趋势OpenSearch 正加速补齐功能(如向量检索 k-NN 插件),但性能与生态成熟度仍需追赶Elasticsearch 凭借 Lucene 原生优化和商业投入,持续领跑复杂查询与智能化能力建议技术决策者根据合规需求、功能优先级、云生态绑定三维度绘制评估矩阵,避免陷入“技术宗教战争”,用数据而非口碑做选择[citation:3][citation:4]。
2025-06-23 16:15:29
889
原创 微软ASR与开源模型分析
您指的是 微软语音识别(Automatic Speech Recognition,ASR)技术方案,这是微软人工智能服务中的核心能力之一,主要集成在 Azure Cognitive Services(认知服务) 的 Speech Service 中。以下是深度解析:音频输入Azure Speech Service语音识别ASR说话人识别语音合成TTS文本输出/分析2. 接入方式方式适用场景工具REST API简单异步识别(<60秒音频) + 认证密钥SDK实时流/复杂应
2025-06-23 11:39:43
1078
原创 DeepEP开源MoE模型分布式通信库
该库以 Apache 2.0 许可证发布,代码完全开放,是全球首个专注于优化 MoE(Mixture-of-Experts)模型分布式通信的高性能库。· 2025 年 3 月:推出 v0.4.0,新增对 FP8 低精度计算支持和 Hopper 架构(H100/NVIDIA H800)优化;· 2025 年 5 月:发布 v0.8.0,大幅提升 推理端到端效率、RDMA 通信性能,开始支持 多节点大规模集群训练;· 当前最新版本(2025年6月):DeepEP v0.9.1,提供更多文档、教程及配套工具链。
2025-06-21 12:01:25
259
原创 Menlo/Jan-nano-gguf:优化工具调用方向的热门模型
基于 Qwen3-4B 模型微调,采用 DAPO技术(Domain-Adaptive Pretraining Optimization)提升工具调用与信息关联能力。· 工具调用能力:在 Hugging Face 工具使用评测中超越 DeepSeek-R1-671B 等大模型,成为小型模型中的性能标杆。· 在同等任务下,40亿参数的 Jan-nano 推理效率显著高于百亿级模型,适合预算有限的科研场景。· MCP(模型上下文协议)架构:支持自主调用搜索工具,实现实时信息检索与跨源数据关联分析。
2025-06-21 08:48:27
383
原创 ubuntu添加域名解析服务器地址
方法适用场景生效范围持久性/etc/hosts本地开发/域名拦截单机生效立即生效resolvconfUbuntu ≤16.04 系统全局生效永久Ubuntu ≥18.04 系统全局/按网卡永久Netplan 配置多网卡需不同 DNS 的服务器按网卡指定永久优先使用/etc/hosts本地测试修改配置全局 DNS。
2025-06-19 09:24:38
515
原创 Operator相关知识
fill:#333;color:#333;color:#333;fill:none;部署应用运维指令状态反馈自动修复/扩缩容用户HelmK8s。
2025-06-19 09:16:22
858
原创 pip初始化安装依赖报错:error: resolution-too-deep解决办法
现在您的虚拟环境已经配置好了,可以正常使用ADK Python项目了。如果遇到特定功能需要额外依赖,可以按需安装对应的extras。错误,这是因为尝试一次性安装所有依赖(包括。)导致依赖解析过于复杂。
2025-06-18 16:12:42
339
原创 Google ADK开源项目分析
ADK 是 Google 开发的一个开源、代码优先的 Python 工具包,专门用于构建、评估和部署复杂的 AI 智能体。虽然为 Gemini 和 Google 生态系统进行了优化,但 ADK 是模型无关的,支持多种部署方式。
2025-06-18 09:42:43
355
原创 ubuntu运行cursor
解决:默认使用Cursor.AppImage 会自动挂载临时目录在/tmp目录下,出现没有权限挂载的报错问题。直接从 https://www.cursor.com/en/download下载最新版本。增量更新的方式没有尝试成功;
2025-06-17 09:58:33
221
原创 LangGraph支持的核心设计模式及对应代码示例
模式核心机制适用场景复杂度顺序执行固定节点链路线性流程任务⭐监督模式动态路由(Command)多智能体分工⭐⭐⭐Map-ReduceSend对象分发批量并行处理⭐⭐人机协同中断(interrupt)高风险操作审核⭐⭐反思优化条件循环边迭代优化输出⭐⭐⭐LangGraph官方示例库提示:结合可强化结构化输出能力(见的JSON模式)。
2025-06-17 09:24:46
383
原创 Kubernetes架构解析
Kubernetes 技术栈的深度解析,涵盖架构设计、核心组件、生态工具及二次开发实践,结合实战案例说明其内在关联:调度运行容器Control PlaneWorker NodesPodDocker/containerd1. 控制平面(Control Plane)API Server:唯一入口,RESTful 接口,认证/授权(如 RBAC)etcd:分布式键值存储,保存集群状态(唯一有状态组件)Scheduler:调度策略(Bin packing/Spread 等),通过 Watch 机制监听未绑
2025-06-15 10:56:04
1298
原创 Remmina远程访问如何开启本地音频?
要在使用 Remmina 远程连接 Windows 主机时接收会议声音(如 Teams、Zoom 等音频),需确保 功能正确配置。
2025-06-10 15:49:20
1226
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人