- 博客(25568)
- 资源 (971)
- 问答 (2)
- 收藏
- 关注
原创 布客社区及饱和式翻译计划 Q&A
A1:如果你现在,在AIGC大爆发之后问我这个问题,我只想告诉你们,翻译是 AIGC 中一种重要的形式,输出稳定,没有幻觉,比什么扩写仿写之类的好多了。当然我也尝试过很多其他的AIGC形式,比如源码解析、课程笔记之类的,但都没有翻译方便省事。翻译一定是未来几年技术自媒体 AIGC 的主流形态。
2024-08-06 13:52:20
1258
13
原创 Quant文艺复兴计划正式启动!
此时此刻恰如彼时彼刻,所以我深知,如果我不自己动手写出一批教程,中文互联网就永远没有面向新手的开放教程可用。幸好现在我们有了ChatGPT,它减轻了我的主业工作量,让我有时间投入这个方面;同时,它也大大减轻了编写教程的工作量,能让这些想法迅速实现。再者,良好的量化实现是保证回测准度和自动化的前提之一。总结paperwithbacktest上的Quant前沿论文【自动】,解析代码【自动】寻找gh上的机器学习或深度学习的Quant代码,做源码解析【自动】挑选主流量化框架,翻译文档【自动】,做源码解析【自动】
2024-04-10 22:56:08
1224
60
原创 一些用 GPT 翻译的计算机科学/人工智能 PDF 讲义
3D成像.pdf3D成像.pdf3D成像技术.pdf3D成像技术.pdf3D点云分析.pdf3D点云分析.pdfAAAI 2019 笔记.pdfAAAI 2019 笔记.pdfCMU 10.708 概率图模型讲义.pdfCMU 10.708 概率图模型讲义.pdfCMU 15-312 编程语言基础讲义.pdfCMU 15-312 编程语言基础讲义.pdfCMU 15-411 编译器设计讲义.pdfCMU 15-411 编译器设计讲义.pdfCMU 15-819 同伦类型论讲义.
2024-02-20 22:59:55
2407
原创 环材化生劝退文章汇总 2019.3
本人的 CSDN 博客、简书专题和博客园正式加入“环材化生劝退”计划,接受相关内容的投稿。ApacheCN 开源社区接受各种环材化生转行咨询。写给分子科学与工程大一大二的学弟学妹们为什么要劝退分子科学与工程?是什么让你开始劝退的?(@韩冬)现在学生物出路真有那么不济吗?(@Mengjie Chen)盘点2018年化工行业大事故!回顾那些令人心痛的瞬间…触目惊心!2017年化工行...
2019-03-28 21:31:02
41278
原创 模拟数据,真实学习:模拟系统
我们可以模拟任何我们可以想象到的有效输入,并且我们可以得到在模拟输入下观察到的 KPI 的估计。如果我们对它们的有效性有信心,我们可以立即实施我们创建的见解,或者我们可以使用它们来制定测试策略,以收集更多关于见解的信心。记住,我们产生的见解只与我们创建的模拟一样好。即使我们对自己的模拟并不完全满意,我们仍然可以使用我们的学习成果来指导我们在现实世界实验中如何收集更多数据。因此,代码将填充队列或队列中的顾客,这些顾客有随机的结账时间(扫描项目和付款所需的时间),然后跟踪最后一位排队顾客的等待时间。
2026-04-10 00:25:41
40
原创 模拟数据,真实学习:情景分析
如果我们的模型不好,或者我们的成本估计不准确,那么我们再怎么聪明地优化,也会得到不良的结果。如果在我们的风险模拟分析中,我们看到具体的风险水平是不可接受的,我们可以采取措施来减轻我们的风险暴露。这些缓解策略将带来额外的成本,但我们的风险评估(估计我们的风险暴露水平)以及我们的风险承受能力将帮助我们决定额外的成本是否值得减轻我们的风险暴露。对于优化,我们将(1)模拟代表我们可以做出的各种战略选择的数据,(2)使用已经在真实数据上训练好的机器学习模型来预测关键指标,(3)根据预测的关键指标来优化我们的策略。
2026-04-10 00:25:11
32
原创 模拟数据,真实学习:功效分析
由于这不是一篇关于实验设计的文章,我们将做出简化的假设,即我们决定采用简单的差分-差分(DID)方法进行分析(我不会过多地深入这个方法——再次提醒,谷歌是你的朋友!绿色分布是我们的零分布;在计算功效时,我们创建两个分布——一个分布的平均值为零(解释为我们的实验变量与响应变量没有关系)和另一个分布具有非零平均值(解释为我们的变量与响应变量有正相关关系)。在 5%的显著性水平下,样本量为 1500,影响大小为 5%,我们的功效约为 63%——这意味着在模拟条件下,我们有 63%的几率会得出项目存在差异的结论。
2026-04-10 00:24:40
26
原创 模拟数据,真实学习:第一部分
数据模拟的定义相当简单——它是指创建模仿现实世界数据特性的虚构数据。我们何时想要模拟数据?当我们想要得到那些在现实世界中不可观察的问题的“答案”时——即使用现实世界的数据,我们只能推断 X 和 y 之间的关系;但使用模拟数据,我们则是创建X 和 y 之间的关系——有了这个“答案”,我们可以测试我们的机器学习和分析方法,看看它们是否发现了我们模拟的关系当我们没有真实数据或数据非常有限时当我们想要模拟从未发生过的东西时模拟数据通常是通过一定程度的随机性来创建的。
2026-04-10 00:24:08
41
原创 模拟时尚零售中的循环经济挑战
为了减少供应链的环境影响,公司在10 家商店进行了循环租赁模型的试验。模拟的物流参数 — (图像由作者提供)这些地点将向客户提供租赁订阅模式,涵盖400 个物品的有限范围。在实施该服务之前,物流和可持续发展团队要求支持模拟这些额外流程的处理过程。作为输入数据,我们使用了实际的销售交易数据,如下所示。商店 1 的‘服装 1001’的销售交易 — (图像由作者提供)模拟涵盖了十家商店,持续时间为365 天。我们假设这些“销售交易”是“租赁交易”,意味着顾客去商店租赁某个特定物品,租期为 n 天。
2026-04-10 00:23:03
29
原创 简化 Python 代码以应对数据工程项目
我们遇到了数据工程项目中的几个关键方面,并探索了如何简化和优化 Python 代码以提高效率和可读性:数据摄取,使用yield处理大数据集,同时实现高效的内存使用。数据验证,利用Pydantic根据模式和自定义值模式验证数据字段。数据处理,通过应用 Python 装饰器和内置库来启用额外的功能,而无需重复代码。通过使用Pytest进行管道测试,以确保工作流中各个环节的函数输出质量。
2026-04-10 00:22:32
31
原创 简化信息提取:GPT 模型的可重复使用提示模板
如果我告诉你,我创造了终极提示模板,用于信息提取任务,这将保证你每次都能获得精确的性能,具有惊人的召回率和精确度,以及保证的输出格式,你可能只会嘲笑。并且这是合理的——因为没有人能保证这些复选框,因为 LLMs 的性质是不可预测的。融化面部表情符号然而,我可以说的是:经过对十几个细微的医疗信息提取任务的广泛研究——每个任务都需要深厚的领域专业知识——我开发了一个提示模板,该模板利用了我使用的提示技巧,显著提升了性能并最小化了错误输出。
2026-04-10 00:22:00
22
原创 加速你的 PyTorch 模型训练的简单方法
原文:towardsdatascience.com/simple-ways-to-speed-up-your-pytorch-model-training-9c9d4899313d?
2026-04-10 00:21:29
160
原创 通过 GitHub Actions 实现简单模型重新训练自动化
原文:towardsdatascience.com/simple-model-retraining-automation-via-github-actions-b0f61d5c869c机器学习模型可以为业务创造巨大的价值。然而,开发它们不是一次性的活动。相反,这是一个持续的过程,以便模型能够持续提供价值。这就是 MLOps 的来源。将 CI/CD 原则与机器学习开发相结合,我们称之为 MLOps,其目的是通过模型提供持续的价值。
2026-04-10 00:20:58
134
原创 检索增强生成简易指南(二)
纳维亚 RAG 遵循简单的“检索然后阅读”过程。这种方法存在精度低和检索不完整的问题。检索通常会错过相关信息,并拉入不相关的内容。在增强阶段,通常存在来自类似检索文档的冗余。当从多个文档中获取时,上下文可能会变得不连贯。生成阶段面临幻觉和有偏的输出。模型可能会过度依赖检索数据,而忽略其内部知识。此层负责使 RAG 系统对应用层可用。它处理模型的底层基础设施。它还确保模型可以可靠地访问。模型可以通过以下四种主要方法进行部署:完全托管部署。
2026-04-10 00:20:26
63
原创 检索增强生成简易指南(一)
机器如何理解人类意图一直是我深感兴趣的主题。虽然我在 2007 年开始踏上 AI 和机器学习之旅,但直到 2016 年初,在构建一个虚拟数据分析师时,我对自然语言处理(NLP)产生了浓厚的兴趣。当谷歌在 2018 年发布 BERT 时,我坚信 NLP 正站在革命的边缘。在 2022 年,随着 OpenAI 的 GPT-3 系列模型 text-davinci-002 的发布,我决定加入基于生成式 AI 的内容营销平台 Yarnit,构建应用的 AI 核心。
2026-04-10 00:19:18
103
原创 协程与流式安卓开发简化指南(三)
本章重点介绍了 Kotlin Flow 的取消操作。您了解到 Flows 遵循协程的协作取消。flow{}构建器和StateFlow以及SharedFlow实现默认可取消。您可以使用操作符使其他 Flows 可取消。我们接着学习了使用 Kotlin Flow 重试任务。您可以使用retry和retryWhen函数根据尝试次数和 Flow 遇到的异常来重试 Flow。然后,我们学习了在 Flow 中的数据发射或收集过程中可能发生的异常处理。你可以使用try-catch块或catch。
2026-04-10 00:18:13
139
原创 协程与流式安卓开发简化指南(二)
本章重点介绍了在 Android 应用程序中测试协程。你从学习如何设置 Android 项目以准备添加协程测试开始。协程测试库()帮助你为协程创建测试。你学习了如何为你的挂起函数添加单元测试。你可以使用和runTest来测试调用挂起函数的代码。runTest立即运行代码,没有延迟。然后,你学习了如何测试协程。你可以通过或)更改测试中的调度器。允许你控制协程任务的执行。最后,你完成了一个练习,在该练习中,你为现有的 Android 项目中的协程添加了单元测试。
2026-04-10 00:17:42
314
原创 协程与流式安卓开发简化指南(一)
Kotlin 协程和流允许开发者使用简单、现代且可测试的代码在 Android 中进行异步编程。这本书侧重于通过实践学习协程和流。您将从异步编程的基础开始,包括对协程和流的概述,同时将它们集成到您的 Android 项目中。您将了解如何管理取消和异常,然后探索如何测试您的协程和流。在本书结束时,您将能够使用 Kotlin 协程和流来简化 Android 中的异步编程。有些 Android 应用程序可以独立工作。但大多数应用程序从本地数据库或后端服务器检索数据或发送数据。
2026-04-10 00:16:35
319
原创 你应该从 VSCode 切换到 Cursor 吗?
作为开发者,我们一直在寻找工具来提高我们的生产力和使编码更加愉快。我已经使用 Visual Studio Code (VSCode)超过六年,它几乎是我所合作的几乎所有开发者的首选集成开发环境(IDE)。在 2023 年,Cursor(由 Anysphere 研究实验室设计)从 OpenAI 筹集了800 万美元并总共筹集了 1100 万美元,他们传达的信息是:在接下来的几年里,我们希望构建一个比世界上任何所见都更有帮助、更令人愉悦、更有趣的代码编辑器。
2026-04-10 00:15:31
319
原创 你在下一个十年里应该学习如何编码吗?
原文:towardsdatascience.com/should-you-learn-how-to-code-in-the-next-decade-5ed58206291e今天许多人面临着一种困境:如果你年轻,你应该追求软件工程学位吗?如果你已经在另一个职业中站稳了脚跟,你应该转向涉及编码的工作吗?这些问题源于一个更大的问题:在大型语言模型(LLMs)的兴奋氛围中,学习编码真的值得吗?最近。我们是否正在见证我们所知道的编码的终结?这些问题不仅仅是由进入该领域的人提出的。
2026-04-10 00:15:01
370
原创 作为数据科学家,你应该加入 FAANG 还是创业公司?
在小型初创公司、成长型公司或 FAANG 科技公司工作,并不本质上比其他更好或更差。每个公司阶段都有其优缺点;你需要自己决定你看重什么,什么样的环境最适合你。欲了解更多关于如何在数据与分析领域扩展职业生涯的实用建议,考虑在这里关注我,或在LinkedIn上关注我,或在Substack上关注我。
2026-04-10 00:14:30
20
原创 最短路径算法:如何使用数据导航和优化
你有一系列点,并想找出它们之间的最短路径。+](https://unsplash.com/photos/top-view-of-unrecognizable-young-couple-with-maps-planning-vacation-trip-holiday-desktop-travel-concept-w98knetr8EA) 在 Unsplash 上提供。Bellman-Ford 算法可以根据几个不同的特征找到最优路线——这可以是一个很有用的工具,同时也是一个很好的展示在您的作品集中的工具!
2026-04-10 00:13:04
23
原创 简短而精炼:通过约束思维链提高 LLM 性能
原文:towardsdatascience.com/short-and-sweet-enhancing-llm-performance-with-constrained-chain-of-thought-c4479361d995。
2026-04-10 00:12:34
347
原创 潮流转变:开源 LLM 相对于闭源 LLM 的竞争优势
原文:towardsdatascience.com/shifting-tides-the-competitive-edge-of-open-source-llms-over-closed-source-llms-aee76018b5c7图片由在提供自从 ChatGPT 发布激发了开发者使用大型语言模型(LLM)构建应用程序的兴趣以来,特别是 OpenAI 的专有闭源基础模型,一直在市场上占据主导地位。
2026-04-10 00:00:00
403
原创 共享最近邻:一种更强大的距离度量
原文:towardsdatascience.com/shared-nearest-neighbors-a-more-robust-distance-metric-064d7f99ffb7?
2026-04-09 00:51:09
32
原创 Shapley 值清晰解释
原文:towardsdatascience.com/shapley-values-clearly-explained-a7f7ef22b104照片由在提供你上次和朋友们一起合作取得巨大成功是什么时候?无论是赢得比赛、在工作中掌握一个项目,还是在 Kaggle 竞赛中名列前三。如果你什么都想不起来(真可怜你),那么和朋友们度过的美好夜晚呢?想象一下:一个美妙的夜晚,随后一起乘坐出租车回家,却遇到了一笔不小的出租车账单。在这样的时刻,你可能会发现自己想知道:我们如何公平地将团队结果分配给每个成员?一个。
2026-04-09 00:50:37
36
原创 SFMl 游戏开发示例(五)
在当今这个人人互联、事事相连的世界里,和朋友一起玩游戏已经不再是什么新鲜事了。它已经成为许多群体中的标准。像“击杀”或“露营”这样的表达已经成为游戏玩家的流行语。无论是 2-4 人的局域网聚会还是大型多人在线游戏,网络显然在游戏圈中扮演着巨大的角色。引入其他玩家的元素增加了游戏内容,同时也让游戏的宇宙看起来更加生动和繁荣。在许多情况下,这种现象实际上将人们聚集在一起,并提供了一种非常愉快的体验,只要它不卡顿。现在是时候利用多人游戏的核心,也许甚至传播六度分隔理论了。在本章中,我们将介绍以下内容:网络应用程序
2026-04-09 00:47:48
49
原创 SFMl 游戏开发示例(四)
在非图灵意义上,人类和机器真正有什么共同之处?如今,普通人的日常生活几乎与操作我们物种创造的大量装置同义,然而,我们中的大多数人甚至不说我们使用的设备的语言,这产生了对某种翻译的需求。现在并不是我们不能学会如何直接与机器交流,但鉴于我们的大脑与通用处理器完全不同的工作方式,这太繁琐、太耗时了。存在一个灰色区域,其中人类执行的相对直观的动作也可以被机器理解和解释,而无需涉及任何底层复杂性——即接口的方式。在本章中,我们将涵盖以下主题:实现所有 GUI 元素的核心数据类型利用 SFML 的渲染纹理实现 GUI
2026-04-09 00:46:42
35
原创 SFMl 游戏开发示例(三)
编程模式,或称为设计模式,是针对特定问题的可重用和广泛实施的解决方案。这并不是说这些模式作为某种库存在,尽管基于它们的库是存在的。相反,编程模式更多的是一种想法或策略。它是对解决某个问题的精心设计的计划,是对给定问题情境的最佳可能答案,这是经过时间和经验证明的,这也是它们应该被使用的一个最好的理由。现在有很多设计模式,以及书籍、教程甚至专门用于理解和实现它们的课程。为了我们的目的,我们将介绍四种:实体组件系统、事件队列、观察者和工厂模式。我们将分别讨论每一个,尽管它们在功能上不重叠,但它们可以一起工作。
2026-04-09 00:45:39
28
原创 SFMl 游戏开发示例(二)
一款软件,如视频游戏,很少像术语所暗示的那样简单。大多数时候,你不仅要处理游戏机制和渲染,还要处理这种应用程序。如今,行业标准的产品在游戏开始之前还包括一个很好的开场动画。它还有一个菜单,玩家可以用来开始游戏,管理它提供的不同设置,查看版权信息或退出应用程序。除此之外,本章标题还暗示了暂停游戏一会儿的可能性。事后看来,这样的简单便利性正是区分早期游戏(操作尴尬,可能令人困惑)和提供与市场上大多数游戏相同控制水平的产品之间的界限。为了为这样的想法提供支撑,在本章中,我们将涵盖以下内容:实现状态管理器升级事件管
2026-04-09 00:44:38
21
原创 SFMl 游戏开发示例(一)
游戏开发是目前最有趣的职业选择之一。除了在这个过程中融入的许多其他领域,它也是一个纯粹想象得以实现的世界。即使在人们可能认为太阳之下无新事的时候,突破性的想法仍然在这个媒介中得以巩固,既作为革命性的里程碑,也是令人兴奋的冒险,将再次让我们感到童真的兴奋。开始游戏编程比以往任何时候都要容易!除了文档和教程之外,甚至存在一些爱好者,他们实际上整理了代码库,可以用来消除构建不同类型应用程序的冗余或困难部分。碰巧的是,这些库中的一个名为“简单快速多媒体库”,正是本书的重点。
2026-04-09 00:43:35
151
原创 SFML 蓝图(三)
在本章中,我们介绍了不同的事情,例如创建动画。这个类使我们能够在屏幕上显示动画角色。然后,我们构建了一个Map类,其中包含了一些实体。我们还学习了如何通过创建一些组件和系统来使用实体系统构建我们的游戏逻辑。最后,我们将所有积累的知识结合起来,构建了一个包含一些人工智能、用户界面、声音和动画的完整游戏。拥有所有这些知识,你现在可以轻松地基于拼图系统构建任何类型的游戏。在下一章中,我们将通过使用网络将这个游戏转变为多人游戏。
2026-04-09 00:42:33
133
原创 SFML 蓝图(二)
在上一章中,我们构建了几个游戏,包括一个俄罗斯方块克隆版。在本章中,我们将向这个游戏添加物理效果,使其变成一个新的游戏。通过这样做,我们将学习:什么是物理引擎如何安装和使用 Box2D 库如何将物理引擎与 SFML 配合进行显示如何在游戏中添加物理效果在本章中,我们将学习物理的魔法。我们还将做一些数学,但请放心,这只是转换。现在,让我们开始吧!在本章中,我们将讨论物理引擎,但首先的问题是“什么是物理引擎?”让我们来解释一下。物理引擎是一种能够模拟物理的软件或库,例如描述刚体运动的牛顿-欧拉方程。物理引擎还能
2026-04-09 00:41:31
19
原创 SFML 蓝图(一)
在整本书中,我将尝试分享我制作视频游戏的知识,并与你分享。本书将涵盖五个不同的项目,包括许多游戏开发中常见问题的解决技术和方法。使用的编程语言是 C++(2011 标准)和 SFML 库(版本 2.2)。游戏编程的许多方面在不同的章节中都有所阐述,为你提供了所有必要的钥匙,让你能够在 2D 空间中构建你想要的任何类型的游戏,唯一的限制是你的想象力。第一章, 准备环境,帮助你安装本书所需的所有内容,并使用 SFML 构建一个小型应用程序来测试一切是否正常。第二章, 通用游戏架构、用户输入和资源管理,解释了通用
2026-04-09 00:40:28
131
原创 从数据科学到应用的七个必备技能
将数据科学项目转变为生产就绪应用程序需要干净的代码和高效的部署。本文将引导你通过从代码管理到云部署的几个关键部分。每个部分介绍核心思想和相应的工具。遵循这些部分后,入门级数据科学家可以开发健壮、可扩展和可扩展的应用程序,使他们的模型能够快速对公众开放。每个主题的更多详细信息可以在每个部分的扩展阅读中找到。我也很期待了解更多关于你在旅途中可能遇到的任何额外技能。从数据科学到生产:自动数据验证从数据科学到生产:模型部署的抽象类从数据科学到生产:ML 代码的配置管理。
2026-04-09 00:39:27
326
原创 七个您应该知道的在 Plotly 中创建专业可视化的重要特性
原文:towardsdatascience.com/seven-key-features-you-should-know-for-creating-professional-visualizations-with-plotly-f89558de5d0c在 Unsplash我们习惯于在网上报纸中看到交互式可视化,我们常常可能会想知道数据记者使用什么工具来创建这些看起来专业的可视化。现实是,创建这类可视化不需要特殊的软件;Python 中的大多数交互式可视化库都高度可定制,从设计角度允许创建高质量的可视化。
2026-04-09 00:04:37
34
原创 机器学习中七种常见的数据泄露原因
原文:towardsdatascience.com/seven-common-causes-of-data-leakage-in-machine-learning-75f8a6243ea5当我在评估 ChatGPT、Claude 和 Gemini 等 AI 工具用于机器学习用例时,如我在中所述,我遇到了一个关键陷阱:机器学习中的数据泄露。这些 AI 模型在将数据集分成训练集和测试集之前,使用了整个数据集来创建新的特征——这是数据泄露的常见原因。然而,这不仅仅是一个 AI 错误;人类也常常犯这样的错误。
2026-04-09 00:04:05
332
公司的自建邮件服务器投不进 163,显示“451 DT:SPM”
2020-02-19
imagemagick 从 png 转换的 pdf 太大了
2020-02-19
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅