import os import pandas as pd # 设置目录路径 input_dir = r'E:\hulin' output_file = r'E:\hulin\merged_filtered.csv' # 定义需要排除的文件名（如许可证、README等） excluded_files = { 'LICENSE.txt', 'README.txt', 'API_CHANGES.txt', 'umath-validation-set-README.txt', 'entry_points.txt', 'vendor.txt', 'AUTHORS.txt', 'top_level.txt' } # 定义必要的列名（统一转换为小写并去除空格，以便进行匹配） required_columns = { '对手方id', '交易金额(分)', '交易用途类型', '用户银行卡号', '对手侧账户名称', '用户侧账号名称', '借贷类型' } # 初始化一个空的列表，用于存储每个文件处理后的DataFrame df_list = [] # 遍历目录中的所有TXT文件 for root, dirs, files in os.walk(input_dir): for filename in files: if filename.lower().endswith('.txt') and filename not in excluded_files: file_path = os.path.join(root, filename) try: # 尝试读取TXT文件，假设使用制表符分隔 df = pd.read_csv(file_path, sep='\t', encoding='utf-8', low_memory=False) except: # 如果读取失败，尝试其他编码 try: df = pd.read_csv(file_path, sep='\t', encoding='gbk', low_memory=False) except Exception as e: print(f"无法读取文件 {file_path}: {e}") continue # 标准化列名：去除前后空格并转换为小写 df.columns = df.columns.str.strip().str.lower() # 确保必要的列存在 if not required_columns.issubset(df.columns): missing_cols = required_columns - set(df.columns) print(f"文件 {filename} 缺少必要的列: {missing_cols}，跳过处理。") continue # 数据清洗：去除“用户银行卡号”中的空格和特殊字符 df['用户银行卡号'] = df['用户银行卡号'].astype(str).str.replace(r'\s+|[^0-9Xx]', '', regex=True) # 筛选“交易用途类型”为“转账” df = df[df['交易用途类型'] == '转账'] # 筛选“交易金额(分)”大于9900 df = df[df['交易金额(分)'] > 9900] # 统计“对手方ID”出现次数，并筛选出出现超过2次的ID id_counts = df['对手方id'].value_counts() valid_ids = id_counts[id_counts > 2].index df = df[df['对手方id'].isin(valid_ids)] # 新增条件：排除“对手侧账户名称”和“用户侧账号名称”相同的记录 df = df[df['对手侧账户名称'] != df['用户侧账号名称']] # 获取上两级文件夹名称 relative_path = os.path.relpath(root, input_dir) folder_name = os.path.join(*relative_path.split(os.sep)[-2:]) if relative_path != '.' else '' # 添加新列“文件夹路径”到首列 df.insert(0, '文件夹路径', folder_name) # 将“交易金额(分)”转换为元，并根据“借贷类型”调整正负 # 使用向量化操作替代 apply df['交易金额(元)'] = df['交易金额(分)'] / 100 # 先转换为元 df.loc[df['借贷类型'] == '出', '交易金额(元)'] *= -1 # 如果“借贷类型”为“出”，则转为负数 # 插入“交易金额(元)”列到“交易金额(分)”右侧 # 获取“交易金额(分)”的列位置索引 amount_col_idx = df.columns.get_loc('交易金额(分)') # 创建新的列顺序 new_order = list(df.columns[:amount_col_idx + 1]) + ['交易金额(元)'] + list(df.columns[amount_col_idx + 1:]) df = df[new_order] # 确保“交易金额(元)”为数值型（已经通过上述操作确保） # 可选：如果需要，可以再次确认 # df['交易金额(元)'] = pd.to_numeric(df['交易金额(元)'], errors='coerce') # 将处理后的DataFrame添加到列表中 df_list.append(df) # 在合并之前，移除所有 DataFrame 中全为空的列 if df_list: # 移除所有列均为NA的列 df_list_clean = [] for df in df_list: df_clean = df.dropna(axis=1, how='all') df_list_clean.append(df_clean) # 合并所有DataFrame merged_df = pd.concat(df_list_clean, ignore_index=True) # 确保“交易金额(元)”列为数值型 merged_df['交易金额(元)'] = pd.to_numeric(merged_df['交易金额(元)'], errors='coerce') # 可选：根据需要选择是否去重 # merged_df = merged_df.drop_duplicates() # 保存为新的CSV文件，确保编码正确 merged_df.to_csv(output_file, index=False, encoding='utf-8-sig') print(f"所有符合条件的数据已成功合并并保存到 {output_file}") else: print("没有符合条件的数据需要保存。") 出现”借贷类型“列下是”出“但是”交易金额(分)“列没有转成负值的形况

(完整版)基因工程药物干扰素的制备.ppt

建施-拓力泰-施工图.dwg

(完整word版)基于STC89C52单片机的数字时钟设计.doc

no-client子项目的资源文件

包含 element-plus-2.4.2.css 文件，element-plus-2.4.2.js 文件和 vue-3.3.7.js 文件

(完整版)房建项目进度网络图.xls

Web2.0新特征图解解析

Web2.0是互联网发展的一个阶段，相对于早期的Web1.0时代，Web2.0具有以下显著特征和知识点： ### Web2.0的定义与特点 1. **用户参与内容生产**： - Web2.0的一个核心特征是用户不再是被动接收信息的消费者，而是成为了内容的生产者。这标志着“读写网络”的开始，用户可以在网络上发布信息、评论、博客、视频等内容。 2. **信息个性化定制**： - Web2.0时代，用户可以根据自己的喜好对信息进行个性化定制，例如通过RSS阅读器订阅感兴趣的新闻源，或者通过社交网络筛选自己感兴趣的话题和内容。 3. **网页技术的革新**： - 随着技术的发展，如Ajax、XML、JSON等技术的出现和应用，使得网页可以更加动态地与用户交互，无需重新加载整个页面即可更新数据，提高了用户体验。 4. **长尾效应**： - 在Web2.0时代，即使是小型或专业化的内容提供者也有机会通过互联网获得关注，这体现了长尾理论，即在网络环境下，非主流的小众产品也有机会与主流产品并存。 5. **社交网络的兴起**： - Web2.0推动了社交网络的发展，如Facebook、Twitter、微博等平台兴起，促进了信息的快速传播和人际交流方式的变革。 6. **开放性和互操作性**： - Web2.0时代倡导开放API（应用程序编程接口），允许不同的网络服务和应用间能够相互通信和共享数据，提高了网络的互操作性。 ### Web2.0的关键技术和应用 1. **博客（Blog）**： - 博客是Web2.0的代表之一，它支持用户以日记形式定期更新内容，并允许其他用户进行评论。 2. **维基（Wiki）**： - 维基是另一种形式的集体协作项目，如维基百科，任何用户都可以编辑网页内容，共同构建一个百科全书。 3. **社交网络服务（Social Networking Services）**： - 社交网络服务如Facebook、Twitter、LinkedIn等，促进了个人和组织之间的社交关系构建和信息分享。 4. **内容聚合器（RSS feeds）**： - RSS技术让用户可以通过阅读器软件快速浏览多个网站更新的内容摘要。 5. **标签（Tags）**： - 用户可以为自己的内容添加标签，便于其他用户搜索和组织信息。 6. **视频分享（Video Sharing）**： - 视频分享网站如YouTube，用户可以上传、分享和评论视频内容。 ### Web2.0与网络营销 1. **内容营销**： - Web2.0为内容营销提供了良好的平台，企业可以通过撰写博客文章、发布视频等内容吸引和维护用户。 2. **社交媒体营销**： - 社交网络的广泛使用，使得企业可以通过社交媒体进行品牌传播、产品推广和客户服务。 3. **口碑营销**： - 用户生成内容、评论和分享在Web2.0时代更易扩散，为口碑营销提供了土壤。 4. **搜索引擎优化（SEO）**： - 随着内容的多样化和个性化，SEO策略也必须适应Web2.0特点，注重社交信号和用户体验。 ### 总结 Web2.0是对互联网发展的一次深刻变革，它不仅仅是一个技术变革，更是人们使用互联网的习惯和方式的变革。Web2.0的时代特征与Web1.0相比，更加注重用户体验、社交互动和信息的个性化定制。这些变化为网络营销提供了新的思路和平台，也对企业的市场策略提出了新的要求。通过理解Web2.0的特点和应用，企业可以更好地适应互联网的发展趋势，实现与用户的深度互动和品牌的有效传播。

【C++编程新手必看】：一步步带你制作出风靡全球的“别踩白块儿”游戏

# 摘要本文全面介绍C++编程在游戏开发中的应用，涵盖了从基础概念到具体实现的多个方面。首先，文章提供了游戏开发环境的搭建指南，包括编译器配置和开发工具的选择。随后，重点介绍了游戏主循环和基本框架的构建，强调了事件处理和渲染技术。在游戏逻辑和交互设计方面，本文阐述了界面布局、事件响应和游戏状态管理的核心实现。为了提升游戏体验，本文还探讨了添加音效和背景音乐以及开发高级游戏特性的方法。最后，文章介绍了性能优化和跨平台发布的过程，包括游戏的打包和针对不同平台的发布策略。本文旨在为C++游戏开发者提供一个实用的开发指南，帮助他们从零开始构建出性能优化、跨平台兼容的游戏。 # 关键字 C++编程；

使用scikit-learn训练模型来预测鸢尾花种类

<think>我们使用scikit-learn库来训练一个分类模型预测鸢尾花种类。鸢尾花数据集是scikit-learn内置的经典数据集，包含三种鸢尾花的四个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度）和对应的类别标签。步骤：1.导入必要的库和数据集2.数据探索（可选，但建议了解数据）3.数据预处理（如划分训练集和测试集、标准化等）4.选择模型（例如KNN、随机森林等）5.训练模型6.模型评估7.使用模型进行预测下面以KNN（K近邻）算法为例，展示完整流程。</think>### 使用 scikit-learn 训练鸢尾花分类模型以下是基于 scikit-learn 训练鸢尾花分类模型的

WWF工作流设计器C#源码解析及演示

### WWF工作流设计器控件C#源码知识点 #### 1. WWF（Windows Workflow Foundation）概述 WWF是微软公司推出的一个工作流框架，作为.NET Framework的一部分。它提供了一套丰富的API，用于设计、执行和管理工作流。工作流可以用于各种应用程序，包括Web应用、服务和桌面应用，使得开发者能够将复杂的业务逻辑以工作流的形式表现出来，简化业务流程自动化和管理。 #### 2. 工作流设计器控件（Workflow Designer Control）工作流设计器控件是WWF中的一个组件，主要用于提供可视化设计工作流的能力。它允许用户通过拖放的方式在界面上添加、配置和连接工作流活动，从而构建出复杂的工作流应用。控件的使用大大降低了工作流设计的难度，并使得设计工作流变得直观和用户友好。 #### 3. C#源码分析在提供的文件描述中提到了两个工程项目，它们均使用C#编写。下面分别对这两个工程进行介绍： - **WorkflowDesignerControl** - 该工程是工作流设计器控件的核心实现。它封装了设计工作流所需的用户界面和逻辑代码。开发者可以在自己的应用程序中嵌入这个控件，为最终用户提供一个设计工作流的界面。 - 重点分析：控件如何加载和显示不同的工作流活动、控件如何响应用户的交互、控件状态的保存和加载机制等。 - **WorkflowDesignerExample** - 这个工程是演示如何使用WorkflowDesignerControl的示例项目。它不仅展示了如何在用户界面中嵌入工作流设计器控件，还展示了如何处理用户的交互事件，比如如何在设计完工作流后进行保存、加载或执行等。 - 重点分析：实例程序如何响应工作流设计师的用户操作、示例程序中可能包含的事件处理逻辑、以及工作流的实例化和运行等。 #### 4. 使用Visual Studio 2008编译文件描述中提到使用Visual Studio 2008进行编译通过。Visual Studio 2008是微软在2008年发布的集成开发环境，它支持.NET Framework 3.5，而WWF正是作为.NET 3.5的一部分。开发者需要使用Visual Studio 2008（或更新版本）来加载和编译这些代码，确保所有必要的项目引用、依赖和.NET 3.5的特性均得到支持。 #### 5. 关键技术点 - **工作流活动（Workflow Activities）**：WWF中的工作流由一系列的活动组成，每个活动代表了一个可以执行的工作单元。在工作流设计器控件中，需要能够显示和操作这些活动。 - **活动编辑（Activity Editing）**：能够编辑活动的属性是工作流设计器控件的重要功能，这对于构建复杂的工作流逻辑至关重要。 - **状态管理（State Management）**：工作流设计过程中可能涉及保存和加载状态，例如保存当前的工作流设计、加载已保存的工作流设计等。 - **事件处理（Event Handling）**：处理用户交互事件，例如拖放活动到设计面板、双击活动编辑属性等。 #### 6. 文件名称列表解释 - **WorkflowDesignerControl.sln**：解决方案文件，包含了WorkflowDesignerControl和WorkflowDesignerExample两个项目。 - **WorkflowDesignerControl.suo**：Visual Studio解决方案用户选项文件，该文件包含了开发者特有的个性化设置，比如窗口布局、断点位置等。 - **Thumbs.db**：缩略图缓存文件，由Windows自动生成，用于存储文件夹中的图片缩略图，与WWF工作流设计器控件功能无关。 - **WorkflowDesignerExample**：可能是一个文件夹，包含了示例工程相关的所有文件，或者是示例工程的可执行文件。 - **EULA.txt**：最终用户许可协议文本文件，通常说明了软件的版权和使用许可条件。综上所述，该文件集包含了WWF工作流设计器控件的完整C#源码以及相应的Visual Studio项目文件，开发者可以利用这些资源深入理解WWF工作流设计器控件的工作机制，并将其应用于实际的项目开发中，实现工作流的设计和管理功能。

CAD数据在ANSA中：完美修复几何数据的策略与方法

# 摘要 CAD数据的准确性和几何完整性对于产品设计和工程分析至关重要。本文首先强调了CAD数据和几何修复的重要性，随后介绍了ANSA软件在处理CAD数据中的角色。通过详细的分析，本文探讨了几何数据的常见问题，以及有效的手动和自动修复技术。文中还提供了几何修复在实际应用中的案例分析，并讨论了行业未来对几何修复技术的需求和新兴技术趋势。文章旨在为CAD数据几何修复提供全面的理论知识、诊断方法和修复策略，并

大家在看

超实用zimo21取字模软件.7z

AAA2.5及汉化补丁

MultiModalSA:CMU-MOSEI的多模态情感分析架构

MMC.rar_NEC mmc-1_nec-m

TI-LP5009.pdf

最新推荐