AI系统的测试入门与实践-《大模型测试技术与实践》续写

文章平均质量分 69

《大模型测试技术与实践》出版期间，我亲眼见证了大模型技术的飞速突破。基础模型能力突飞猛进，LLM应用蓬勃发展，MCP、A2A、AG_UI等协议日益丰富。这些前沿进展让我深感振奋！出版后，我决定在专栏中继续补充书中未尽的内容，与大家分享最新洞见，力求让这门技术的精髓更生动、更接地气地传递给每一位读者！

文章数：98 文章阅读量：99480 文章收藏量：96

作者: 质问

前京东测试架构师、阿里云MVP、华为云MVP、中国商业联合会互联网应用工作委员会智库专家、中关村智联软件服务业质量创新联盟软件测试标准化技术委员会委员、极*客时间命题专家，极*客时间《接口测试入门课》作者、《接口测试方法论》《持续测试》《京东质量团队转型实践》《软件研发效能权威指南》《现代软件测试技术》等书作者、拉钩教育《软件测试第一课》作者，《软件质量白皮书》、《测试敏捷化白皮书》、《DB51T1998-2015移动智能终端应用软件(APP)产品通用技术要求及测试规范》主编或者编委、多次受邀参与TID、NCTS、MAD、MPD、TICA、DevOpsDys等技术峰会以及参出品人。

展开

专栏收录文章

AI系统的测试入门与实践-《大模型测试技术与实践》续写

作者: 质问

QAGenerationChain从知识库生成大模型应用测试的问题对

query改写：大模型应用测试离不开的实践

BLEU Score详解和代码实现

ROUGE详解和代码实现

大模型评测指标：ROUGE详解和代码实现

Chat、Agent和Workflow以及相关测试的思考

AI赋能软件工程让测试左移更加可实施

LLM评测框架Ragas:通用指标和其他一些任务指标（解决了Ollama推理框架不支持的问题）

LLM评测框架Ragas:SQL指标（解决了Ollama推理框架不支持的问题）

LLM评测框架Ragas:Natural Language Comparison指标（解决了Ollama推理框架不支持的问题）

LLM评测框架Ragas Agents or Tool Use Cases指标（解决了Ollama推理框架不支持的问题）

LLM的测试框架Ragas中Nvidia指标详解（可运行代码+Ollama支持）

LLM评测框架Ragas:RAG测试用例集的构造（Ragas的用法）

LLM评测框架Ragas:Ragas的核心概念Evaluation

LLM评测框架Ragas:Ragas的Prompt Object

LLM评测框架Ragas:测试RAG的性能出现TimeoutError()的解决办法（Ragas+langchain+ollama）

开发MCP Server的Agent：从任何一个api自动转成stdio模式的MCP Server

BleuScore性能指标的介绍以及测试代码实现（langchain+ollama+qwen3+ragas）

父文档检索器引和RAG的context precision性能指标

Rerank的评测

RAG中的chunk以及评测方法

MCP协议的核心机制和交互过程

使用unsloth对Qwen3在本地进行微调

Agentic Pattern ：Planning Pattern （基于Ollama、langchain、qwen3的代码实现）

Agentic Pattern ：Reflection（基于Ollama、langchain、qwen3的代码实现）

Agentic Pattern ：Parallelization(基于Ollama、langchain、qwen3的代码实现）

Agentic Pattern ：Routing（基于Ollama、langchain、qwen3的代码实现）

Agentic Pattern ：Prompt Chaining（基于Ollama、langchain、qwen3的代码实现）

一些模型测试中的BUG和可能解决方法

LLM 采样参数超详细解释

LoRA微调的一些术语：“q_proj“, “k_proj“, “v_proj“, “o_proj“, “gate_proj“, “up_proj“, “down_proj“

LLM的min_p 参数详

每一个LLM的使用者都应该能了解的超参详细说明和推荐配置

通过java 代码的生成接口测试jmeter的脚本

大模型格式化输出的几种方法

兼容性测试设计提示词

直接从SUT的源代码生成JMeter测试脚本的提示词

测试用例生成的Prompt

Python开发MCP Client

Python的MCP Server开发实战