活动介绍

def parse_args(): parser = argparse.ArgumentParser( description='Convert images to coco format without annotations') parser.add_argument('img_path', help='The root path of images') parser.add_argument( 'classes', type=str, help='The text file name of storage class list') parser.add_argument( 'out', type=str, help='The output annotation json file name, The save dir is in the ' 'same directory as img_path')

时间: 2023-06-10 19:08:03 浏览: 275
这是一个 Python 脚本中的函数,用于解析命令行参数。函数会返回一个 `argparse.Namespace` 对象,其中包含了解析后的参数。 函数使用 `argparse` 模块来解析参数。在函数中,首先创建了一个 `ArgumentParser` 对象,用于定义脚本可以接受的参数。`description` 参数用于设置脚本的描述。接着,使用 `add_argument` 方法来添加参数。其中,`img_path`、`classes` 和 `out` 分别表示三个必须的参数。`type` 参数用于指定参数的类型,`help` 参数则用于设置参数的帮助文档。 最终,函数会返回一个包含解析后的参数的 `argparse.Namespace` 对象。
相关问题

# coding:utf-8 import os import random import argparse parser = argparse.ArgumentParser() #xml文件的地址,根据自己的数据进行修改 xml一般存放在Annotations下 parser.add_argument('--xml_path', default='Annotations', type=str, help='input xml label path') #数据集的划分,地址选择自己数据下的ImageSets/Main parser.add_argument('--txt_path', default='ImageSets/Main', type=str, help='output txt label path') opt = parser.parse_args() trainval_percent = 1.0 # 训练集和验证集所占比例。 这里没有划分测试集 train_percent = 0.9 # 训练集所占比例,可自己进行调整 xmlfilepath = opt.xml_path txtsavepath = opt.txt_path total_xml = os.listdir(xmlfilepath) if not os.path.exists(txtsavepath): os.makedirs(txtsavepath) num = len(total_xml) list_index = range(num) tv = int(num * trainval_percent) tr = int(tv * train_percent) trainval = random.sample(list_index, tv) train = random.sample(trainval, tr) file_trainval = open(txtsavepath + '/trainval.txt', 'w') file_test = open(txtsavepath + '/test.txt', 'w') file_train = open(txtsavepath + '/train.txt', 'w') file_val = open(txtsavepath + '/val.txt', 'w') for i in list_index: name = total_xml[i][:-4] + '\n' if i in trainval: file_trainval.write(name) if i in train: file_train.write(name) else: file_val.write(name) else: file_test.write(name) file_trainval.close() file_train.close() file_val.close() file_test.close() 请根据以上代码修改,增加分配测试集,优化测试集、训练集、验证集的比例

<think>好的,用户想要优化他们的Python脚本,以便将数据集按指定的比例划分为训练集、验证集和测试集。我需要先理解他们的需求。他们可能是在进行机器学习项目,通常数据集划分是模型训练的重要步骤。用户提到了参考的引用内容,其中涉及YOLO模型的训练和测试命令,所以可能他们正在使用类似YOLO的目标检测框架,需要调整数据划分比例。 首先,我需要回忆常见的数据集划分方法。通常,数据会被分成训练集、验证集和测试集,常见的比例比如70-20-10或者60-20-20。用户需要按指定比例划分,所以脚本需要允许自定义这三个部分的比例。 接下来,考虑如何修改Python脚本。通常,数据集划分可以使用scikit-learn的train_test_split函数,但需要分两次进行。第一次分割出训练集和临时集(验证+测试),然后第二次分割临时集为验证和测试。不过,如果用户的数据结构特殊,比如每个类别需要分层抽样,可能需要使用分层分割。同时,用户可能在处理图像数据,需要保持文件目录结构,所以可能需要移动文件到对应的文件夹中。 然后,我需要检查用户提供的引用内容。引用3提到了YOLOv7的数据集准备,可能涉及到数据集的结构,比如images和labels文件夹,每个集合下面有train、val、test子目录。因此,在划分数据时,不仅要处理图像文件,还要处理对应的标注文件(如.txt文件)。同时,确保图像和标注文件一一对应,文件名一致。 用户可能需要一个脚本,输入数据集的路径,然后按照指定比例分配,并生成对应的目录结构。此外,可能需要随机打乱数据,并保持一致性,确保图像和标注的对应关系。同时,考虑是否需要在划分时保持类别的平衡,即使用分层抽样,这在分类任务中很重要。 然后,我需要考虑代码实现。使用Python的os和shutil库来处理文件和目录操作。使用random.shuffle来打乱数据,或者使用sklearn的train_test_split。需要注意随机种子,确保可重复性。另外,如果数据集很大,可能需要高效地移动文件,避免内存问题。 可能的步骤是:1. 读取所有数据文件的列表;2. 打乱列表;3. 根据比例计算各集合的大小;4. 分割列表为训练、验证、测试;5. 创建目标目录;6. 复制或移动文件到对应的目录。 需要处理的情况包括:比例总和是否为1,路径是否正确,文件是否存在等错误处理。此外,用户可能需要保留原始数据,所以建议在脚本中复制而非移动文件。 现在,结合用户提供的引用,特别是引用3中提到的YOLOv7数据集结构,可能需要在划分后生成对应的train.txt、val.txt、test.txt文件,或者直接组织到对应的文件夹中。例如,YOLO通常需要每个集合的图片路径在一个txt文件中,或者在数据配置文件中指定各个集合的目录。 因此,脚本可能需要不仅划分文件,还要生成相应的目录结构,并将文件放入images和labels下的train、val、test子目录中。此外,可能需要更新数据配置文件(如data.yaml),指定train、val、test的路径,如引用1中的--data参数。 总结,用户的脚本需要: 1. 指定原始数据集路径和输出路径。 2. 接收训练、验证、测试的比例。 3. 遍历原始数据集,获取所有图像和对应的标注文件。 4. 打乱数据并分割。 5. 创建目标目录结构。 6. 复制文件到相应目录。 7. 生成数据配置文件(如data.yaml)指向这些目录。 现在,需要将这些步骤转化为Python代码。需要处理可能的异常,例如文件不存在,比例不正确等。另外,确保图像和标注文件正确配对,可能通过检查文件名(无扩展名)是否相同。 可能的代码结构: - 导入必要的库(os, shutil, random)。 - 定义划分函数,参数包括原始路径、输出路径、比例。 - 收集所有图像文件,假设图像在images目录,标注在labels目录。 - 打乱文件列表。 - 计算各集合的数量。 - 分割列表。 - 创建输出目录。 - 复制文件到对应的train、val、test下的images和labels。 - 生成data.yaml文件。 测试这个脚本可能需要用户指定正确的路径,并验证输出目录结构是否正确,文件是否被正确分配,以及比例是否正确。 用户可能的问题包括如何处理不平衡的数据集,是否支持分层抽样,或者如何处理不同的文件格式。但根据问题描述,用户主要需要按比例划分,因此基础功能即可满足。 最后,需要确保代码示例中的路径处理和文件操作正确,特别是在Windows系统下(如引用3提到用户使用Windows10),需要注意反斜杠和正斜杠的问题,使用os.path.join来处理路径,避免错误。</think>以下是使用Python实现数据集按比例划分的详细解决方案: ### 一、数据集划分原理 1. 需要同时处理图像和标注文件,保持路径一致性 2. 使用两次`train_test_split`实现三组划分[^1] 3. 推荐使用8:1:1黄金比例(可自定义) ### 二、代码实现(兼容YOLO格式) ```python import os import shutil from sklearn.model_selection import train_test_split def split_dataset(source_dir, output_dir, ratios=(0.8, 0.1, 0.1)): """ :param source_dir: 原始数据集路径(需包含images和labels目录) :param output_dir: 输出目录路径 :param ratios: 训练/验证/测试集比例(总和<=1) """ # 创建目录结构 for subset in ['train', 'val', 'test']: os.makedirs(os.path.join(output_dir, 'images', subset), exist_ok=True) os.makedirs(os.path.join(output_dir, 'labels', subset), exist_ok=True) # 获取图像文件列表 image_files = [f for f in os.listdir(os.path.join(source_dir, 'images')) if f.lower().endswith(('.png', '.jpg', '.jpeg'))] # 第一次分割:训练集+临时集 train_files, temp_files = train_test_split(image_files, train_size=ratios[0], shuffle=True) # 第二次分割:验证集+测试集 val_ratio = ratios[1]/(ratios[1]+ratios[2]) val_files, test_files = train_test_split(temp_files, train_size=val_ratio) # 复制文件到目标目录 def copy_files(files, subset): for f in files: # 复制图像 src_img = os.path.join(source_dir, 'images', f) dst_img = os.path.join(output_dir, 'images', subset, f) shutil.copy2(src_img, dst_img) # 复制对应标注 base_name = os.path.splitext(f)[0] src_label = os.path.join(source_dir, 'labels', f"{base_name}.txt") if os.path.exists(src_label): dst_label = os.path.join(output_dir, 'labels', subset, f"{base_name}.txt") shutil.copy2(src_label, dst_label) copy_files(train_files, 'train') copy_files(val_files, 'val') copy_files(test_files, 'test') # 生成data.yaml data_yaml = f'''train: {os.path.join(output_dir, 'images/train')} val: {os.path.join(output_dir, 'images/val')} test: {os.path.join(output_dir, 'images/test')} nc: [你的类别数量] names: [你的类别名称列表] ''' with open(os.path.join(output_dir, 'data.yaml'), 'w') as f: f.write(data_yaml) # 使用示例 split_dataset( source_dir='path/to/original_dataset', output_dir='path/to/split_dataset', ratios=(0.7, 0.2, 0.1) # 自定义比例 ) ``` ### 三、使用方法 1. 准备原始数据集目录结构: ``` original_dataset/ ├── images/ # 存放所有图像文件 └── labels/ # 存放对应标注文件 ``` 2. 修改参数后运行脚本,将生成: ``` split_dataset/ ├── images/ │ ├── train/ │ ├── val/ │ └── test/ ├── labels/ │ ├── train/ │ ├── val/ │ └── test/ └── data.yaml # 数据集配置文件 ``` 3. 训练时指定配置文件路径: ```python python train.py --data path/to/split_dataset/data.yaml ``` ### 四、注意事项 1. 比例参数会自动归一化,总和可以小于1(剩余数据将被忽略) 2. 建议保持随机种子一致性(可在代码中添加`random_state=42`参数) 3. 支持增量数据更新,重复运行前需清理输出目录[^3]

#!/usr/bin/env python from __future__ import absolute_import from __future__ import division from __future__ import print_function from __future__ import unicode_literals import os, sys import numpy as np import json import time from datetime import timedelta from collections import defaultdict import argparse import multiprocessing import PIL.Image as Image from panopticapi.utils import get_traceback, rgb2id OFFSET = 256 * 256 * 256 VOID = 0 class PQStatCat(): def __init__(self): self.iou = 0.0 self.tp = 0 self.fp = 0 self.fn = 0 def __iadd__(self, pq_stat_cat): self.iou += pq_stat_cat.iou self.tp += pq_stat_cat.tp self.fp += pq_stat_cat.fp self.fn += pq_stat_cat.fn return self class PQStat(): def __init__(self): self.pq_per_cat = defaultdict(PQStatCat) def __getitem__(self, i): return self.pq_per_cat[i] def __iadd__(self, pq_stat): for label, pq_stat_cat in pq_stat.pq_per_cat.items(): self.pq_per_cat[label] += pq_stat_cat return self def pq_average(self, categories, isthing): pq, sq, rq, n = 0, 0, 0, 0 per_class_results = {} for label, label_info in categories.items(): if isthing is not None: cat_isthing = label_info['isthing'] == 1 if isthing != cat_isthing: continue iou = self.pq_per_cat[label].iou tp = self.pq_per_cat[label].tp fp = self.pq_per_cat[label].fp fn = self.pq_per_cat[label].fn if tp + fp + fn == 0: per_class_results[label] = {'pq': 0.0, 'sq': 0.0, 'rq': 0.0} continue n += 1 pq_class = iou / (tp + 0.5 * fp + 0.5 * fn) sq_class = iou / tp if tp != 0 else 0 rq_class = tp / (tp + 0.5 * fp + 0.5 * fn) per_class_results[label] = {'pq': pq_class, 'sq': sq_class, 'rq': rq_class} pq += pq_class sq += sq_class rq += rq_class return {'pq': pq / n, 'sq': sq / n, 'rq': rq / n, 'n': n}, per_class_results @get_traceback def pq_compute_single_core(proc_id, annotation_set, gt_folder, pred_folder, categories): pq_stat = PQStat() idx = 0 for gt_ann, pred_ann in annotation_set: if idx % 100 == 0: print('Core: {}, {} from {} images processed'.format(proc_id, idx, len(annotation_set))) idx += 1 pan_gt = np.array(Image.open(os.path.join(gt_folder, gt_ann['file_name'])), dtype=np.uint32) pan_gt = rgb2id(pan_gt) pan_pred = np.array(Image.open(os.path.join(pred_folder, pred_ann['file_name'])), dtype=np.uint32) pan_pred = rgb2id(pan_pred) gt_segms = {el['id']: el for el in gt_ann['segments_info']} pred_segms = {el['id']: el for el in pred_ann['segments_info']} # predicted segments area calculation + prediction sanity checks pred_labels_set = set(el['id'] for el in pred_ann['segments_info']) labels, labels_cnt = np.unique(pan_pred, return_counts=True) for label, label_cnt in zip(labels, labels_cnt): if label not in pred_segms: if label == VOID: continue raise KeyError('In the image with ID {} segment with ID {} is presented in PNG and not presented in JSON.'.format(gt_ann['image_id'], label)) pred_segms[label]['area'] = label_cnt pred_labels_set.remove(label) if pred_segms[label]['category_id'] not in categories: raise KeyError('In the image with ID {} segment with ID {} has unknown category_id {}.'.format(gt_ann['image_id'], label, pred_segms[label]['category_id'])) if len(pred_labels_set) != 0: raise KeyError('In the image with ID {} the following segment IDs {} are presented in JSON and not presented in PNG.'.format(gt_ann['image_id'], list(pred_labels_set))) # confusion matrix calculation pan_gt_pred = pan_gt.astype(np.uint64) * OFFSET + pan_pred.astype(np.uint64) gt_pred_map = {} labels, labels_cnt = np.unique(pan_gt_pred, return_counts=True) for label, intersection in zip(labels, labels_cnt): gt_id = label // OFFSET pred_id = label % OFFSET gt_pred_map[(gt_id, pred_id)] = intersection # count all matched pairs gt_matched = set() pred_matched = set() for label_tuple, intersection in gt_pred_map.items(): gt_label, pred_label = label_tuple if gt_label not in gt_segms: continue if pred_label not in pred_segms: continue if gt_segms[gt_label]['iscrowd'] == 1: continue if gt_segms[gt_label]['category_id'] != pred_segms[pred_label]['category_id']: continue union = pred_segms[pred_label]['area'] + gt_segms[gt_label]['area'] - intersection - gt_pred_map.get((VOID, pred_label), 0) iou = intersection / union if iou > 0.5: pq_stat[gt_segms[gt_label]['category_id']].tp += 1 pq_stat[gt_segms[gt_label]['category_id']].iou += iou gt_matched.add(gt_label) pred_matched.add(pred_label) # count false positives crowd_labels_dict = {} for gt_label, gt_info in gt_segms.items(): if gt_label in gt_matched: continue # crowd segments are ignored if gt_info['iscrowd'] == 1: crowd_labels_dict[gt_info['category_id']] = gt_label continue pq_stat[gt_info['category_id']].fn += 1 # count false positives for pred_label, pred_info in pred_segms.items(): if pred_label in pred_matched: continue # intersection of the segment with VOID intersection = gt_pred_map.get((VOID, pred_label), 0) # plus intersection with corresponding CROWD region if it exists if pred_info['category_id'] in crowd_labels_dict: intersection += gt_pred_map.get((crowd_labels_dict[pred_info['category_id']], pred_label), 0) # predicted segment is ignored if more than half of the segment correspond to VOID and CROWD regions if intersection / pred_info['area'] > 0.5: continue pq_stat[pred_info['category_id']].fp += 1 print('Core: {}, all {} images processed'.format(proc_id, len(annotation_set))) return pq_stat def pq_compute_multi_core(matched_annotations_list, gt_folder, pred_folder, categories): cpu_num = multiprocessing.cpu_count() annotations_split = np.array_split(matched_annotations_list, cpu_num) print("Number of cores: {}, images per core: {}".format(cpu_num, len(annotations_split[0]))) workers = multiprocessing.Pool(processes=cpu_num) processes = [] for proc_id, annotation_set in enumerate(annotations_split): p = workers.apply_async(pq_compute_single_core, (proc_id, annotation_set, gt_folder, pred_folder, categories)) processes.append(p) pq_stat = PQStat() for p in processes: pq_stat += p.get() return pq_stat def pq_compute(gt_json_file, pred_json_file, gt_folder=None, pred_folder=None): start_time = time.time() with open(gt_json_file, 'r') as f: gt_json = json.load(f) with open(pred_json_file, 'r') as f: pred_json = json.load(f) if gt_folder is None: gt_folder = gt_json_file.replace('.json', '') if pred_folder is None: pred_folder = pred_json_file.replace('.json', '') categories = {el['id']: el for el in gt_json['categories']} print("Evaluation panoptic segmentation metrics:") print("Ground truth:") print("\tSegmentation folder: {}".format(gt_folder)) print("\tJSON file: {}".format(gt_json_file)) print("Prediction:") print("\tSegmentation folder: {}".format(pred_folder)) print("\tJSON file: {}".format(pred_json_file)) if not os.path.isdir(gt_folder): raise Exception("Folder {} with ground truth segmentations doesn't exist".format(gt_folder)) if not os.path.isdir(pred_folder): raise Exception("Folder {} with predicted segmentations doesn't exist".format(pred_folder)) pred_annotations = {el['image_id']: el for el in pred_json['annotations']} matched_annotations_list = [] for gt_ann in gt_json['annotations']: image_id = gt_ann['image_id'] if image_id not in pred_annotations: raise Exception('no prediction for the image with id: {}'.format(image_id)) matched_annotations_list.append((gt_ann, pred_annotations[image_id])) pq_stat = pq_compute_multi_core(matched_annotations_list, gt_folder, pred_folder, categories) metrics = [("All", None), ("Things", True), ("Stuff", False)] results = {} for name, isthing in metrics: results[name], per_class_results = pq_stat.pq_average(categories, isthing=isthing) if name == 'All': results['per_class'] = per_class_results print("{:10s}| {:>5s} {:>5s} {:>5s} {:>5s}".format("", "PQ", "SQ", "RQ", "N")) print("-" * (10 + 7 * 4)) for name, _isthing in metrics: print("{:10s}| {:5.1f} {:5.1f} {:5.1f} {:5d}".format( name, 100 * results[name]['pq'], 100 * results[name]['sq'], 100 * results[name]['rq'], results[name]['n']) ) t_delta = time.time() - start_time print("Time elapsed: {:0.2f} seconds".format(t_delta)) return results if __name__ == "__main__": parser = argparse.ArgumentParser() parser.add_argument('--gt_json_file', type=str, help="JSON file with ground truth data") parser.add_argument('--pred_json_file', type=str, help="JSON file with predictions data") parser.add_argument('--gt_folder', type=str, default=None, help="Folder with ground turth COCO format segmentations. \ Default: X if the corresponding json file is X.json") parser.add_argument('--pred_folder', type=str, default=None, help="Folder with prediction COCO format segmentations. \ Default: X if the corresponding json file is X.json") args = parser.parse_args() pq_compute(args.gt_json_file, args.pred_json_file, args.gt_folder, args.pred_folder) 调用pq_compute,不修改源码,如何多进程池中pq_compute_single_core的print 重定向

<think>我们面对的核心挑战是:在不修改 `pq_compute_single_core` 函数源码的前提下,在多进程池中重定向其内部的 `print` 输出。由于多进程池的子进程不继承父进程对 `sys.stdout` 的运行时修改,我们需要寻找其他方法。 ### 解决方案:使用进程初始化钩子(initializer)重定向整个子进程的标准输出 这种方法不需要修改 `pq_compute_single_core` 的代码,而是通过创建进程池时设置初始化函数,在子进程中全局重定向标准输出。 ```python import sys import os from multiprocessing import Pool # 初始化函数,每个子进程启动时都会调用 def init_worker(): # 将标准输出重定向到空设备(或自定义文件) sys.stdout = open(os.devnull, 'w') # 创建进程池时指定初始化函数 with Pool(initializer=init_worker) as pool: # 使用pool.map或apply_async等提交任务 # 注意:这里提交的任务函数内部的所有print都会被重定向 results = pool.map(pq_compute_single_core, args_list) ``` **原理说明**: - 每个子进程在启动时都会执行 `init_worker` 函数,该函数将子进程的 `sys.stdout` 重定向到一个空设备(`os.devnull`),从而抑制所有输出。 - 由于是在子进程内部进行重定向,因此不影响父进程的输出。 ### 替代方案:使用 `contextlib.redirect_stdout` 装饰任务函数 如果不希望全局重定向子进程的所有输出,而是仅针对特定函数,可以创建一个装饰器: ```python from contextlib import redirect_stdout import io def suppress_stdout(func): def wrapper(*args, **kwargs): with redirect_stdout(io.StringIO()): return func(*args, **kwargs) return wrapper # 使用装饰器包装任务函数(注意:这里包装了任务函数,而不是修改原函数) decorated_func = suppress_stdout(pq_compute_single_core) # 然后在进程池中提交装饰后的函数 with Pool() as pool: results = pool.map(decorated_func, args_list) ``` **注意**:这种方法要求我们能够控制提交给进程池的函数,即我们可以将 `pq_compute_single_core` 替换为装饰后的版本。如果原代码是直接提交 `pq_compute_single_core`,那么我们需要在提交前进行包装。 ### 针对原代码的适配 假设原代码如下: ```python with contextlib.redirect_stdout(io.StringIO()): for proc_id, annotation_set in enumerate(annotations_split): p = workers.apply_async(pq_compute_single_core, (proc_id, annotation_set, gt_folder, pred_folder, categories)) ``` 由于进程池在父进程中创建,但实际执行在子进程,上述重定向只对父进程有效。我们需要修改进程池的初始化方式: ```python # 修改进程池创建方式,使用initializer workers = Pool(processes=num_workers, initializer=init_worker) # 然后提交任务(注意:此时不需要用contextlib包裹) for proc_id, annotation_set in enumerate(annotations_split): p = workers.apply_async(pq_compute_single_core, (proc_id, annotation_set, gt_folder, pred_folder, categories)) ``` ### 输出重定向到文件 如果需要将子进程的输出重定向到文件(而不是丢弃),可以修改初始化函数: ```python def init_worker(): # 每个子进程打开自己的文件,注意使用追加模式,避免覆盖 # 文件名可以包含进程ID以区分 output_file = open(f'output_{os.getpid()}.log', 'a') sys.stdout = output_file # 注意:这里不要关闭文件,因为后续输出还需要 ``` ### 注意事项 1. **子进程安全性**:如果多个子进程写入同一个文件,需要确保文件写入的同步(例如使用进程锁),否则可能发生内容交错。建议每个进程写入单独的文件。 2. **恢复标准输出**:在子进程结束时,我们不需要手动恢复 `sys.stdout`,因为进程结束会关闭所有资源。 3. **父进程输出**:此方法只影响子进程,父进程的标准输出不受影响。 ### 性能影响 重定向操作发生在子进程初始化阶段,每个子进程只执行一次,因此对性能影响极小。文件写入的性能取决于磁盘速度。 ### 相关问题 1. 如何将多进程池中所有子进程的输出重定向到同一个文件而不产生混乱? 2. 在多进程环境下,如何捕获异常并输出到日志文件? 3. 除了重定向标准输出,如何同时重定向标准错误(stderr)? 4. 在分布式训练框架(如PyTorch DDP)中,如何统一管理多个进程的日志输出? [^1]: Python多进程文档: [https://docs.python.org/3/library/multiprocessing.html](https://docs.python.org/3/library/multiprocessing.html) [^2]: 文件描述符重定向原理: `man 2 dup2`</think>### 在不修改源码的情况下重定向多进程池中的输出 您需要在不修改 `pq_compute_single_core` 源码的前提下,重定向多进程池中的 `print` 输出。核心解决方案是使用**操作系统级的文件描述符重定向**,因为子进程会继承父进程的文件描述符状态。以下是具体实现方案: #### 最佳解决方案:文件描述符重定向 ```python import sys import os from multiprocessing import Pool # 保存原始标准输出的文件描述符 original_stdout_fd = sys.stdout.fileno() # 创建备份文件描述符 saved_stdout_fd = os.dup(original_stdout_fd) # 创建空设备或输出文件 devnull = os.open(os.devnull, os.O_WRONLY) # 或使用输出文件: os.open('output.log', os.O_CREAT|os.O_WRONLY) # 重定向当前进程的文件描述符 os.dup2(devnull, original_stdout_fd) try: # 创建进程池 - 子进程将继承重定向后的文件描述符 with Pool() as workers: for proc_id, annotation_set in enumerate(annotations_split): workers.apply_async(pq_compute_single_core, (proc_id, annotation_set, gt_folder, pred_folder, categories)) finally: # 恢复原始文件描述符 os.dup2(saved_stdout_fd, original_stdout_fd) os.close(saved_stdout_fd) os.close(devnull) ``` #### 工作原理 1. **文件描述符继承** 子进程通过 `fork()` 创建时,会继承父进程的所有文件描述符[^1]。 数学表示:$ \text{child\_fds} = \text{parent\_fds} $ 2. **重定向机制** - `os.dup2(oldfd, newfd)` 将 `newfd` 复制到 `oldfd`,关闭原来的 `oldfd` - 公式:$ \text{dup2}(fd_{\text{target}}, fd_{\text{stdout}}) : fd_{\text{stdout}} \leftarrow fd_{\text{target}} $ 3. **进程隔离性** $$ \begin{cases} \text{父进程} & : \text{显式重定向} \\ \text{子进程} & : \text{继承重定向状态} \end{cases} $$ #### 替代方案:使用 `multiprocessing` 的初始化函数 ```python def init_worker(): # 在子进程初始化时打开空设备 sys.stdout = open(os.devnull, 'w') with Pool(initializer=init_worker) as workers: # 设置初始化函数 for proc_id, annotation_set in enumerate(annotations_split): workers.apply_async(pq_compute_single_core, ...) ``` #### 方案对比 | 方法 | 是否需要源码修改 | 作用域 | 输出控制精度 | |--------------------------|------------------|--------------|--------------| | 文件描述符重定向 | ❌ 否 | 操作系统级 | 全局 | | 进程池初始化函数 | ❌ 否 | 进程级 | 全局 | | 装饰器包装 | ✅ 是 (需包装) | 函数级 | 精确 | | 上下文管理器包裹任务提交 | ❌ 否 (仅父进程) | 仅父进程有效 | 无效 | #### 注意事项 1. **文件描述符泄露** 必须确保关闭所有创建的文件描述符,使用 `try/finally` 保证资源释放: $$ \text{资源安全} = \text{open}() + \text{try} + \text{finally} + \text{close}() $$ 2. **多进程日志合并** 如需收集所有子进程输出,改用命名管道: ```python mkfifo = os.mkfifo('output_pipe') output_fd = os.open('output_pipe', os.O_RDWR) os.dup2(output_fd, sys.stdout.fileno()) ``` 3. **Windows 兼容性** Windows 使用 `CreateProcess` 而非 `fork()`,需改用: ```python from multiprocessing import set_start_method set_start_method('spawn') # 确保继承文件描述符 ``` ### 总结 通过操作系统级的文件描述符重定向 (`os.dup2`),可以强制子进程继承输出重定向状态,无需修改 `pq_compute_single_core` 的源码。此方法利用了 Unix 系统的文件描述符继承机制,是解决多进程输出重定向问题的底层可靠方案[^2]。
阅读全文

相关推荐

import os import xml.etree.ElementTree as ET # 定义类别顺序 categories = ['hat','nohat'] category_to_index = {category: index for index, category in enumerate(categories)} # 定义输入文件夹和输出文件夹 input_folder = r'f:\data\Annotations' # 替换为实际的XML文件夹路径 output_folder = r'f:\data\labels' # 替换为实际的输出TXT文件夹路径 # 确保输出文件夹存在 os.makedirs(output_folder, exist_ok=True) # 遍历输入文件夹中的所有XML文件 for filename in os.listdir(input_folder): if filename.endswith('.xml'): xml_path = os.path.join(input_folder, filename) # 解析XML文件 tree = ET.parse(xml_path) root = tree.getroot() # 提取图像的尺寸 size = root.find('size') width = int(size.find('width').text) height = int(size.find('height').text) # 存储name和对应的归一化坐标 objects = [] # 遍历XML中的object标签 for obj in root.findall('object'): name = obj.find('name').text if name in category_to_index: category_index = category_to_index[name] else: continue # 如果name不在指定类别中,跳过该object bndbox = obj.find('bndbox') xmin = int(bndbox.find('xmin').text) ymin = int(bndbox.find('ymin').text) xmax = int(bndbox.find('xmax').text) ymax = int(bndbox.find('ymax').text) # 转换为中心点坐标和宽高 x_center = (xmin + xmax) / 2.0 y_center = (ymin + ymax) / 2.0 w = xmax - xmin h = ymax - ymin # 归一化 x = x_center / width y = y_center / height w = w / width h = h / height objects.append(f"{category_index} {x} {y} {w} {h}") # 输出结果到对应的TXT文件 txt_filename = os.path.splitext(filename)[0] + '.txt' txt_path = os.path.join(output_folder, txt_filename) with open(txt_path, 'w') as f: for obj in objects: f.write(obj + '\n' ————————————————

import numpy as np from Bio import SeqIO from sklearn.preprocessing import MinMaxScaler def parse_ab1(file_path): """解析AB1文件获取四通道荧光数据,自动去除首尾25个碱基""" record = SeqIO.read(file_path, "abi") channels = ('DATA9', 'DATA10', 'DATA11', 'DATA12') # A/C/G/T通道 # 获取数据长度并计算有效区间 data_length = len(record.annotations['abif_raw']['DATA9']) start_index = 25 end_index = data_length - 25 if data_length > 50 else data_length trace = { 'A': np.array(record.annotations['abif_raw']['DATA9'][start_index:end_index]), 'C': np.array(record.annotations['abif_raw']['DATA10'][start_index:end_index]), 'G': np.array(record.annotations['abif_raw']['DATA11'][start_index:end_index]), 'T': np.array(record.annotations['abif_raw']['DATA12'][start_index:end_index]) } return trace def detect_heterozygotes(trace, window_size=5): """滑动窗口检测双峰区域""" features = [] num_points = len(trace['A']) for i in range(num_points - window_size): window = {base: trace[base][i:i+window_size] for base in 'ACGT'} # 特征工程:峰高比/标准差/极差 ratios = [ np.mean(window['A']) / (np.mean(window['G']) + 1e-6), np.mean(window['C']) / (np.mean(window['T']) + 1e-6) ] values = np.concatenate(list(window.values())) features.append([ max(ratios), np.std(values), np.ptp(values) # Peak-to-peak (max-min) ]) return np.array(features) def create_dataset(ab1_files, labels): """构建训练数据集""" X, y = [], [] scaler = MinMaxScaler() for file, label in zip(ab1_files, labels): trace = parse_ab1(file) features = detect_heterozygotes(trace) if len(features) > 0: X.append(scaler.fit_transform(features)) y.append(label) return np.array(X, dtype=object), np.array(y) # dtype=object处理不等长序列 该代码加入遍历文件夹下的ab1文件 并且增加构建数据集的启动语句。

root@autodl-container-a53a4d9718-aacfe17b:~/autodl-tmp/detr# python main.py Not using distributed mode fatal: not a git repository (or any parent up to mount point /root) Stopping at filesystem boundary (GIT_DISCOVERY_ACROSS_FILESYSTEM not set). git: sha: N/A, status: clean, branch: N/A Namespace(lr=0.0001, lr_backbone=1e-05, batch_size=1, weight_decay=0.0001, epochs=50, lr_drop=200, clip_max_norm=0.1, frozen_weights=None, backbone='resnet50', dilation=False, position_embedding='sine', enc_layers=6, dec_layers=6, dim_feedforward=2048, hidden_dim=256, dropout=0.1, nheads=8, num_queries=100, pre_norm=False, masks=False, aux_loss=True, set_cost_class=1, set_cost_bbox=5, set_cost_giou=2, mask_loss_coef=1, dice_loss_coef=1, bbox_loss_coef=5, giou_loss_coef=2, eos_coef=0.1, dataset_file='coco', coco_path=None, coco_panoptic_path=None, remove_difficult=False, output_dir='', device='cuda', seed=42, resume='', start_epoch=0, eval=False, num_workers=2, world_size=1, dist_url='env://', distributed=False) /root/miniconda3/lib/python3.12/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead. warnings.warn( /root/miniconda3/lib/python3.12/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or None for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing weights=ResNet50_Weights.IMAGENET1K_V1. You can also use weights=ResNet50_Weights.DEFAULT to get the most up-to-date weights. warnings.warn(msg) number of params: 41302368 Traceback (most recent call last): File "/root/autodl-tmp/detr/main.py", line 248, in <module> main(args) File "/root/autodl-tmp/detr/main.py", line 142, in main dataset_train = build_dataset(image_set='train', args=args) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/root/autodl-tmp/detr/datasets/__init__.py", line 20, in build_dataset return build_coco(image_set, args) ^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/root/autodl-tmp/detr/datasets/coco.py", line 148, in build root = Path(args.coco_path) ^^^^^^^^^^^^^^^^^^^^ File "/root/miniconda3/lib/python3.12/pathlib.py", line 1162, in __init__ super().__init__(*args) File "/root/miniconda3/lib/python3.12/pathlib.py", line 373, in __init__ raise TypeError( TypeError: argument should be a str or an os.PathLike object where __fspath__ returns a str, not 'NoneType' root@autodl-container-a53a4d9718-aacfe17b:~/autodl-tmp/detr#

最新推荐

recommend-type

将labelme格式数据转化为标准的coco数据集格式方式

parser.add_argument('output_coco', type=str, help='Path to save COCO formatted JSON.') args = parser.parse_args() labelme_to_coco(args.labelme_json, args.output_coco) ``` 这段代码首先打开LabelMe...
recommend-type

Qt开发:XML文件读取、滚动区域控件布局与多Sheet Excel保存的界面设计实例

内容概要:本文介绍了基于Qt框架的界面设计例程,重点讲解了三个主要功能模块:一是利用XML文件进行配置信息的读取并初始化界面组件;二是实现了滚动区域内的灵活控件布局,在空间不足时自动生成滚动条以扩展显示范围;三是提供了将界面上的数据导出到带有多个工作表的Excel文件的功能。文中还提及了所用IDE的具体版本(Qt Creator 4.8.0 和 Qt 5.12.0),并且强调了这些技术的实际应用场景及其重要性。 适合人群:对Qt有初步了解,希望深入学习Qt界面设计技巧的开发者。 使用场景及目标:适用于需要快速构建复杂用户界面的应用程序开发,特别是那些涉及大量数据展示和交互的设计任务。通过学习本文提供的案例,可以提高对于Qt框架的理解,掌握更多实用技能。 其他说明:为了帮助读者更好地理解和实践,作者推荐前往B站观看高清的教学视频,以便于更直观地感受整个项目的开发流程和技术细节。
recommend-type

Web前端开发:CSS与HTML设计模式深入解析

《Pro CSS and HTML Design Patterns》是一本专注于Web前端设计模式的书籍,特别针对CSS(层叠样式表)和HTML(超文本标记语言)的高级应用进行了深入探讨。这本书籍属于Pro系列,旨在为专业Web开发人员提供实用的设计模式和实践指南,帮助他们构建高效、美观且可维护的网站和应用程序。 在介绍这本书的知识点之前,我们首先需要了解CSS和HTML的基础知识,以及它们在Web开发中的重要性。 HTML是用于创建网页和Web应用程序的标准标记语言。它允许开发者通过一系列的标签来定义网页的结构和内容,如段落、标题、链接、图片等。HTML5作为最新版本,不仅增强了网页的表现力,还引入了更多新的特性,例如视频和音频的内置支持、绘图API、离线存储等。 CSS是用于描述HTML文档的表现(即布局、颜色、字体等样式)的样式表语言。它能够让开发者将内容的表现从结构中分离出来,使得网页设计更加模块化和易于维护。随着Web技术的发展,CSS也经历了多个版本的更新,引入了如Flexbox、Grid布局、过渡、动画以及Sass和Less等预处理器技术。 现在让我们来详细探讨《Pro CSS and HTML Design Patterns》中可能包含的知识点: 1. CSS基础和选择器: 书中可能会涵盖CSS基本概念,如盒模型、边距、填充、边框、背景和定位等。同时还会介绍CSS选择器的高级用法,例如属性选择器、伪类选择器、伪元素选择器以及选择器的组合使用。 2. CSS布局技术: 布局是网页设计中的核心部分。本书可能会详细讲解各种CSS布局技术,包括传统的浮动(Floats)布局、定位(Positioning)布局,以及最新的布局模式如Flexbox和CSS Grid。此外,也会介绍响应式设计的媒体查询、视口(Viewport)单位等。 3. 高级CSS技巧: 这些技巧可能包括动画和过渡效果,以及如何优化性能和兼容性。例如,CSS3动画、关键帧动画、转换(Transforms)、滤镜(Filters)和混合模式(Blend Modes)。 4. HTML5特性: 书中可能会深入探讨HTML5的新标签和语义化元素,如`<article>`、`<section>`、`<nav>`等,以及如何使用它们来构建更加标准化和语义化的页面结构。还会涉及到Web表单的新特性,比如表单验证、新的输入类型等。 5. 可访问性(Accessibility): Web可访问性越来越受到重视。本书可能会介绍如何通过HTML和CSS来提升网站的无障碍访问性,比如使用ARIA标签(Accessible Rich Internet Applications)来增强屏幕阅读器的使用体验。 6. 前端性能优化: 性能优化是任何Web项目成功的关键。本书可能会涵盖如何通过优化CSS和HTML来提升网站的加载速度和运行效率。内容可能包括代码压缩、合并、避免重绘和回流、使用Web字体的最佳实践等。 7. JavaScript与CSS/HTML的交互: 在现代Web开发中,JavaScript与CSS及HTML的交云并用是不可或缺的。书中可能会讲解如何通过JavaScript动态地修改样式、操作DOM元素以及使用事件监听和响应用户交互。 8. Web框架和预处理器: 这本书可能会提到流行的Web开发框架和预处理器,比如Bootstrap、Foundation、Sass和Less等,它们是如何简化和加速开发流程的。 9. 测试和维护: 书中也可能包含关于如何测试网页以及如何持续优化和维护CSS和HTML代码的章节。例如,使用断言测试、自动化测试、性能分析工具等。 最后,鉴于文件名称列表中的“压缩包子文件”的表述,这可能是对“压缩包”文件的一种误译或误用,此处“压缩包”应该指的是包含该书籍PDF文件的压缩文件格式,如ZIP或RAR。而“Pro CSS and HTML Design Patterns.pdf”指的就是该书籍的PDF格式电子版文件。 以上所述,构成了《Pro CSS and HTML Design Patterns》一书可能包含的核心知识点。通过学习这些内容,Web前端开发者可以掌握更为高效和优雅的设计模式,从而在日常工作中更高效地解决实际问题。
recommend-type

Zotero 7数据同步:Attanger插件安装&设置,打造文献管理利器

/i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2018/L/j/ipKA8TRPyt4ptaG1DGww/t-m-01.png) # 1. Zotero 7数据同步简介 在数字时代,管理研究数据变得日益重要,而Zot
recommend-type

卷积神经网络的基础理论200字

<think>我们正在回答用户关于卷积神经网络(CNN)基础理论的询问。根据提供的引用资料,我们可以概述CNN的基本结构和工作原理。引用[1]提到CNN是一种前馈神经网络,信息从输入单向流动到输出。引用[2]指出CNN在图像处理等领域应用广泛,通过层次结构和参数调整实现模式识别。引用[3]说明CNN包含卷积层,使用卷积核提取局部特征,减少参数量,提高效率。引用[4]则提到了训练过程,包括前向传播、误差计算和反向传播(梯度下降)。因此,我们将从以下几个方面概述CNN:1.CNN的基本结构(卷积层、池化层、全连接层)2.卷积操作的工作原理(局部感受野、权重共享)3.训练过程(前向传播、损失函数、反
recommend-type

轻便实用的Java库类查询工具介绍

标题 "java2库类查询" 和描述表明,所提及的工具是一个专门用于查询Java库类的应用程序。此软件旨在帮助开发者快速地查找和引用Java的标准开发工具包(SDK)中包含的所有应用程序编程接口(API)类。通过这样的工具,开发者可以节省大量在官方文档或搜索引擎上寻找类定义和使用方法的时间。它被描述为轻巧且方便,这表明其占用的系统资源相对较少,同时提供直观的用户界面,使得查询过程简洁高效。 从描述中可以得出几个关键知识点: 1. Java SDK:Java的软件开发工具包(SDK)是Java平台的一部分,提供了一套用于开发Java应用软件的软件包和库。这些软件包通常被称为API,为开发者提供了编程界面,使他们能够使用Java语言编写各种类型的应用程序。 2. 库类查询:这个功能对于开发者来说非常关键,因为它提供了一个快速查找特定库类及其相关方法、属性和使用示例的途径。良好的库类查询工具可以帮助开发者提高工作效率,减少因查找文档而中断编程思路的时间。 3. 轻巧性:软件的轻巧性通常意味着它对计算机资源的要求较低。这样的特性对于资源受限的系统尤为重要,比如老旧的计算机、嵌入式设备或是当开发者希望最小化其开发环境占用空间时。 4. 方便性:软件的方便性通常关联于其用户界面设计,一个直观、易用的界面可以让用户快速上手,并减少在使用过程中遇到的障碍。 5. 包含所有API:一个优秀的Java库类查询软件应当能够覆盖Java所有标准API,这包括Java.lang、Java.util、Java.io等核心包,以及Java SE平台的所有其他标准扩展包。 从标签 "java 库 查询 类" 可知,这个软件紧密关联于Java编程语言的核心功能——库类的管理和查询。这些标签可以关联到以下知识点: - Java:一种广泛用于企业级应用、移动应用(如Android应用)、网站后端、大型系统和许多其他平台的编程语言。 - 库:在Java中,库是一组预打包的类和接口,它们可以被应用程序重复使用。Java提供了庞大的标准库,以支持各种常见的任务和功能。 - 查询:查询指的是利用软件工具搜索、定位和检索信息的过程。对于Java库类查询工具来说,这意味着可以通过类名、方法签名或其他标识符来查找特定的API条目。 最后,压缩包文件列表包含了两个文件:“java.dit”和“Java.exe”。其中“Java.exe”很可能是程序的可执行文件,而“java.dit”可能是一个数据文件,用于存储Java类的索引或数据。由于文件名后缀通常与文件类型相关联,但“dit”并不是一个常见的文件扩展名。这可能是一个特定于软件的自定义格式,或是一个打字错误。 总结来说,"java2库类查询" 是一个针对Java开发者的实用工具,它提供了一个轻量级、易用的平台来查询和定位Java标准库中的所有类和API。此工具对优化开发流程,减少查找Java类文档的时间大有裨益,尤其适合需要频繁查阅Java API的开发者使用。
recommend-type

【Zotero 7终极指南】:新手必备!Attanger插件全攻略与数据同步神技

# 1. Zotero 7与Attanger插件的介绍 在当今的学术研究和知识管理领域,高效的文献管理工具至关重要。Zotero 7作为一个流行的参考文献管理软件,因其强大的功能和用户友好的界面而受到专业人士的青睐。而Attanger插件则为Zotero 7带来了更多定制化和高级功能,极大地增强
recommend-type

MATLAB整段注释快捷键

<think>首先,用户的问题是:“MATLAB整段注释快捷键”,意思是“MATLAB整段注释快捷键”。我需要用中文回答。 根据规则: - 回答必须用中文。 - 回答完问题后,必须在末尾输出“§§相关问题§§”,然后提出3-5个相关问题。 - “§§相关问题§§”必须完整输出在第一行,禁止换行分散。 - 相关问题必须基于用户的问题和我的回答。 现在,回忆MATLAB的快捷键:在MATLAB中,整段注释通常使用快捷键Ctrl + R来注释选中的代码行,使用Ctrl + T来取消注释。用户问的是“整段注释”,所以我应该确认快捷键。 在MATLAB中: - 注释选中的行:Ctrl + R -
recommend-type

Eclipse Jad反编译插件:提升.class文件查看便捷性

反编译插件for Eclipse是一个专门设计用于在Eclipse集成开发环境中进行Java反编译的工具。通过此类插件,开发者可以在不直接访问源代码的情况下查看Java编译后的.class文件的源代码,这在开发、维护和学习使用Java技术的过程中具有重要的作用。 首先,我们需要了解Eclipse是一个跨平台的开源集成开发环境,主要用来开发Java应用程序,但也支持其他诸如C、C++、PHP等多种语言的开发。Eclipse通过安装不同的插件来扩展其功能。这些插件可以由社区开发或者官方提供,而jadclipse就是这样一个社区开发的插件,它利用jad.exe这个第三方命令行工具来实现反编译功能。 jad.exe是一个反编译Java字节码的命令行工具,它可以将Java编译后的.class文件还原成一个接近原始Java源代码的格式。这个工具非常受欢迎,原因在于其反编译速度快,并且能够生成相对清晰的Java代码。由于它是一个独立的命令行工具,直接使用命令行可以提供较强的灵活性,但是对于一些不熟悉命令行操作的用户来说,集成到Eclipse开发环境中将会极大提高开发效率。 使用jadclipse插件可以很方便地在Eclipse中打开任何.class文件,并且将反编译的结果显示在编辑器中。用户可以在查看反编译的源代码的同时,进行阅读、调试和学习。这样不仅可以帮助开发者快速理解第三方库的工作机制,还能在遇到.class文件丢失源代码时进行紧急修复工作。 对于Eclipse用户来说,安装jadclipse插件相当简单。一般步骤包括: 1. 下载并解压jadclipse插件的压缩包。 2. 在Eclipse中打开“Help”菜单,选择“Install New Software”。 3. 点击“Add”按钮,输入插件更新地址(通常是jadclipse的更新站点URL)。 4. 选择相应的插件(通常名为“JadClipse”),然后进行安装。 5. 安装完成后重启Eclipse,插件开始工作。 一旦插件安装好之后,用户只需在Eclipse中双击.class文件,或者右键点击文件并选择“Open With Jadclipse”,就能看到对应的Java源代码。如果出现反编译不准确或失败的情况,用户还可以直接在Eclipse中配置jad.exe的路径,或者调整jadclipse的高级设置来优化反编译效果。 需要指出的是,使用反编译工具虽然方便,但要注意反编译行为可能涉及到版权问题。在大多数国家和地区,反编译软件代码属于合法行为,但仅限于学习、研究、安全测试或兼容性开发等目的。如果用户意图通过反编译获取商业机密或进行非法复制,则可能违反相关法律法规。 总的来说,反编译插件for Eclipse是一个强大的工具,它极大地简化了Java反编译流程,提高了开发效率,使得开发者在没有源代码的情况下也能有效地维护和学习Java程序。但开发者在使用此类工具时应遵守法律与道德规范,避免不当使用。
recommend-type

【进阶Python绘图】:掌握matplotlib坐标轴刻度间隔的高级技巧,让你的图表脱颖而出

# 摘要 本文系统地探讨了matplotlib库中坐标轴刻度间隔的定制与优化技术。首先概述了matplotlib坐标轴刻度间隔的基本概念及其在图表中的重要性,接