
👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!
🉑 头脑风暴 Brainstorm AI搜索引擎:三个臭皮匠,胜过诸葛亮

https://brainstorm.cool | ⋙ 开发者即刻主页
日报已经介绍过很多AI搜索引擎啦!Perplexity、Arc Search、Lepton Search、天工AI搜索、简单搜索、秘塔搜索、Devv,还有周鸿祎最近发布的360 AI搜索… 甚至还有消息说 OpenAI 也要涉足搜索领域,抢占这个巨大的流量入口~
上面提到的这些AI搜索引擎,整体技术架构和产品体验都差不多。所以看到 👆 Brainstorm AI 搜索引擎时,有眼前一亮的感觉,觉得开发者非常明聪!
Brainstorm AI 把「AI搜索」和「Agent」两个元素整合在了一个产品里:在搜索一个问题时,会有多个 Agent 角色共同参与回答,给到同一个问题的不同视角答案。

Agent 可以在左下角「Agent 商店」选择、添加、移除、创建等。目前商店内的 Agent 还不够丰富,但整体的产品布局已经显露出来:通过调度多个 Agent 参与,基本实现 AI Agent 的分工-协作功能。
比如:你是一名自媒体工作者,想要打造一个爆款账号,可能需要一个专业团队才能实现。但是在BrainstormAI,你可以创建一支AI角色团队,让它们帮你找话题,写大钢,写稿子,做运营策划。
👀 Patronus X Hugging Face 企业场景排行榜: 6个细分应用领域里的最强大模型

https://huggingface.co/blog/zh/leaderboard-patronus
Patronus 团队与 Hugging Face 共同开发了一个新的大语言模型排行榜,可以展示 LLM 在以下6种常见企业应用场景下的表现。也就是说,有业务需求时可以参照这个榜单直接选择最合适的大模型,不用自己再吭哧吭哧测评一大圈啦!🎉🎉🎉
以下是6个业务场景的测评任务及其评价指标,点击 👆 上方链接可以查看关于数据集、排行榜提交的更多信息:
FinanceBench:使用150个提示来评估模型根据检索到的上下文回答财务问题的能力 [⋙ 评估指标] Correctness 正确性
Legal Confidentiality 法律保密:从 LegalBench 中选取100个已标注的提示,用于评估 LLM 对法律条款进行因果推理的能力 [⋙ 评估指标] Accuracy 准确率
Creative Writing 创意写作:使用100个提示来评估 LLM 的故事写作和创意能力 [⋙ 评估指标] Coherence 连贯性,Engagingness 吸引度
Customer Su