- 博客(43)
- 收藏
- 关注
原创 Doris-2:单虚拟机上非docker化安装Doris实验环境
本文详细介绍了在CentOS Stream 10虚拟机上非docker化安装Apache Doris 2.1.10单机实验环境的步骤。内容包括:1) 准备OpenJDK 8环境;2) 操作系统配置(修改文件句柄数、虚拟内存区域、关闭swap和防火墙);3) 创建专用doris用户;4) 部署FE和BE节点,配置元数据和存储路径;5) 启动服务并验证运行状态;6) 通过MySQL客户端注册BE节点;7) 创建测试数据库和表验证安装。该环境适合学习使用,需要至少4核CPU、8GB内存和50GB磁盘空间,重点解决
2025-06-08 15:37:05
560
原创 Doris-1:Doris简介
Apache Doris 是一款基于 MPP 架构的高性能、实时分析型数据库。它以高效、简单和统一的特性著称,能够在亚秒级的时间内返回海量数据的查询结果。Doris 既能支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于这些优势,Apache Doris 非常适合用于报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等场景。用户可以基于 Doris 构建大屏看板、用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用。
2025-06-08 15:34:39
533
原创 clickhouse-1-特性及docker化安装
主要介绍CK的特性,并采用docker安装单节点环境。ClickHouse 是一款由俄罗斯 Yandex 公司开发的开源列式数据库管理系统(DBMS),专为 在线分析处理(OLAP) 场景设计,以极致的查询性能和海量数据处理能力著称。
2025-05-25 23:37:52
1143
原创 MCP-1:MCP组件与工作流程
MCP(Model Context Protocol)是由Anthropic推出的开放标准协议,旨在为大型语言模型(LLM)与外部数据源、工具之间提供标准化的交互方式。MCP通过定义统一的接口和通信机制,使AI模型能够安全、灵活地访问外部资源,如数据库、API和文件系统,从而提升模型在复杂任务中的实用性。MCP架构包括三个主要组件:MCP Hosts(用户与AI模型交互的入口)、MCP Clients(负责与MCP Server建立连接并管理通信的中间件)和MCP Server(功能提供层,封装数据、工具和
2025-05-21 23:34:13
812
原创 数据要素及征信公司数据要素实践
数据要素是数字经济时代的新型生产要素,指以电子形式存在、通过计算方式参与生产经营活动并创造价值的数据资源。新型生产要素地位:与劳动力、资本、土地等传统要素并列,成为现代经济体系中的基础性战略资源。例如,国家数据局的成立(2023年)标志着数据要素在政策层面的战略地位提升价值创造方式:通过数据加工、共享和流通,赋能生产优化、风险管理、决策支持等场景。例如,制造业通过IoT数据优化设备维护周期,金融业通过信用评估模型降低信贷风险特殊属性:非竞争性:数据可被多主体重复使用且价值不减;
2025-05-19 23:47:16
1099
原创 企业信息化的“双螺旋”——IT治理和数据治理
数据治理•定位:以数据为核心的资产管理体系,聚焦于数据全生命周期的价值创造与风险控制。•核心目标:保障数据的可用性、可靠性、安全性,推动数据驱动决策,并满足合规要求(如GDPR、CCPA)。•典型内容◦ 数据标准与元数据管理;◦ 数据质量管理(清洗、稽核);◦ 数据安全与隐私保护;◦ 数据权限与合规审计;◦ 数据共享与生态合作。IT治理•定位:组织对IT资源的战略性管理,旨在通过协调技术、流程和人员,支撑业务目标实现。•核心目标。
2025-03-21 23:29:17
780
原创 数据治理下半场:如何用文化变革撬动企业数字化转型?
在数字经济浪潮中,企业的数据治理已从技术命题升级为战略必答题。但当某零售巨头投入千万搭建数据中台后,却发现业务部门仍习惯凭经验决策;某金融公司引入AI风控模型后,数据质量差导致30%的预警失效——这些真实案例揭示了一个残酷现实:技术再先进,没有文化基因的变革,终将沦为华而不实的"数据摆件"。。
2025-03-16 19:54:56
969
原创 单机上使用docker搭建minio集群
这里在ubuntu上单机安装一个minio集群,可以作为比如GIT-LFS的存储,用于存放大模型权重文件等。
2025-02-23 23:20:48
1134
1
原创 CDSN 2024博客之星总评选-主题文章创作,我的AI之路-起手篇
这种转变不仅拓宽了语言模型的应用场景,也使其变得更加智能,成为了连接多种信息形式的桥梁,为未来的人工智能发展开辟了新的可能性。到了2020年,我有幸主导了AI中台的研发工作,这使我对数据标注流程、训练工艺、AI平台架构等及其在企业级应用中的重要性有了更加深刻的理解。希望我的经历能给同样热爱AI的朋友们带来些许启发,让我们携手共进,在追逐梦想的路上越走越远。除了核心的大模型外,书生浦语还配备了一整套完善的工具链,涵盖了从模型部署、模型推理优化、模型量化、模型评测、Agent、多模型支持等的各个环节。
2025-01-24 21:47:48
957
原创 Ubuntu下安装Harbor
Harbor 是一个开源的 Docker registry 服务器,由 VMware 开源并捐赠给 CNCF(云原生计算基金会),它基于 Docker 分布式应用程序框架构建。Harbor 扩展了 Docker Registry 的功能,增加了安全性、标识和管理特性,使其更适合企业使用。
2025-01-11 23:25:19
1446
原创 Ubuntu24.04安装NVIDIA驱动及工具包
NVIDIA 驱动程序(NVIDIA Driver)是专为 NVIDIA 图形处理单元(GPU)设计的软件,它充当操作系统与硬件之间的桥梁,使得计算机能够正确识别和使用 GPU 的功能。为了使用 CuDNN,你需要先安装 CUDA Toolkit,然后下载并安装与你的 CUDA 版本相匹配的 CuDNN 库。ubuntu 24.04与nvidia有专门的支持,若通过到nvidia官网下载的版本来安装,不能使用,需要通过系统的软件和升级功能来安装 ,Additional Drivers,选择一个版本来安装。
2024-12-27 00:30:42
5126
1
原创 LangChain 1:langchain调大模型对话
本文基于langchain 0.3.4,使用langchain_openai连接大模型,调用大模型对话功能。
2024-10-20 22:17:34
825
原创 MindSearch CPU-only 版部署
MindSearch 是一个由上海人工智能实验室推出的开源 AI 搜索引擎框架,具有与 Perplexity.ai Pro 相同的性能。本文以 InternStudio 算力平台为例,来部署 CPU-only 的 MindSearch。
2024-10-07 16:10:26
490
原创 使用LlamaIndex构建RAG
LlamaIndex是一个数据框架,它主要用于连接大型语言模型(LLMs)与外部数据源,例如API、PDF文档、SQL数据库等。这个框架的设计目的是为了增强LLM的能力,使其能够理解和生成更准确、更有上下文关联的文本,尤其是在涉及私人数据或特定领域知识的情况下。LlamaIndex通过创建索引结构来组织和访问数据,这样可以更高效地检索相关信息并将其提供给LLM。这些索引可以是列表索引、向量索引、树索引或关键词索引等,具体取决于数据类型和需求。
2024-10-05 17:09:53
1353
2
原创 PMP与CMMI:两种管理方法的对比
尽管PMP和CMMI都对项目管理和组织绩效有积极影响,但它们的作用范围不同。PMP专注于单个项目的有效管理,而CMMI则着眼于整个组织的过程改进。实际上,在许多成功的组织中,两者往往是相辅相成的。拥有PMP认证的专业人员可以在具体项目中运用他们的技能,而CMMI则为这些项目提供了一个更广泛的、持续改进的环境。
2024-09-17 23:12:44
868
原创 使用LangGPT提示词让大模型比较浮点数
LLM在对比浮点数字时表现不佳,经验证,internlm2-chat-1.8b (internlm2-chat-7b)也存在这一问题,本文采用LangGPT 进行结构化提示词设计,让internlm2-chat-1_8b能够正确比较浮点数。(注意:估计1.8B的对话能力比较弱,别把模型带偏了:))本文使用书生浦语的开发机环境InternStudio来部署模型与实验。
2024-09-17 22:33:03
662
原创 散文集-秋晨之韵
走在这样的清晨,每一步都踏着柔软的落叶,每一步都感受着大自然赋予的美好。无论是那一缕温暖的阳光,还是那片轻柔的云朵,亦或是那阵轻轻的微风,都在提醒我们:珍惜此刻,享受生活中的每一个瞬间。阳光透过树梢,斑驳地洒在地上,形成一片片温暖的光影。那些云,不再是夏天厚重的积雨云,而是轻盈飘逸的白云,它们在空中悠闲地漫步,时而聚拢,时而散开,像一群群自由的旅者,在蔚蓝的天幕上演绎着无声的故事。天空还残留着夜色的余温,但东方的地平线上已经泛起了淡淡的橙黄,如同画家在画布上轻轻点染的第一笔,预示着新的一天即将拉开序幕。
2024-09-01 11:12:01
238
原创 关卡1-2:Python关卡
此时会有弹窗提示输入ssh链接命令,回车后还会让我们选择要更新那个ssh配置文件,默认就选择第一个就行(如果你有其他需要的话也可以新建一个ssh配置文件)。点击VSCode侧边栏的“Run and Debug”(运行和调试),然后点击“Run and Debug”(开始调试)按钮,或者按F5键。打开vscode,点击左侧的extensions菜单,在搜索框中输入remote-ssh,选择第一个,点击“install”点击代码文件的左侧,要打断点的行,点击后,出现红点,即可。选择后,执行一遍,确认可以运行。
2024-07-21 00:25:32
1015
原创 关卡1-1:Linux + InternStudio
InternStudio 是大模型时代下的云端算力平台。基于 InternLM 组织下的诸多算法库支持,为开发者提供开箱即用的大语言模型微调环境、工具、数据集,并完美兼容 🤗 HugginFace 开源生态。端口映射是一种网络技术,它可以将外网中的任意端口映射到内网中的相应端口,实现内网与外网之间的通信。通过端口映射,可以在外网访问内网中的服务或应用,实现跨越网络的便捷通信。那么我们使用开发机为什么要进行端口映射呢?
2024-07-14 00:19:08
1074
原创 数据产品赋能数字化转型
数据产品是指利用现代信息技术,如大数据、云计算、人工智能等手段,对原始数据进行采集、清洗、整合、分析,并封装成易于使用的服务或应用的产品形态。高度集成化,将复杂的数据处理流程封装,提供简单易用的界面;智能化,内置高级分析算法,能自动发现数据规律和洞察;定制化,可根据不同行业和企业需求进行灵活配置。
2024-06-27 10:29:02
1154
原创 lmdeploy部署chatglm3模型并对话
模型会下载到 /root/.cache/modelscope/hub/ZhipuAI/chatglm3-6b-32k。使用30% A100 来运行chatglm3模型,采用lmdeploy来启动。启动后,运行在127.0.0.1的23333端口,使用的是fastAPI服务器。直接采用lmdeploy chat启动并对话交互。注:具体的API可以访问23333端口来查看。requirenments.txt 内容。用于从魔搭下载chatglm3模型。通过curl来方式这个api。
2024-06-26 00:16:07
530
原创 7-OpenCompass 大模型评测实战
上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系 “司南” (OpenCompass2.0),用于为大语言模型、多模态模型等提供一站式评测服务。开源可复现:提供公平、公开、可复现的大模型评测方案全面的能力维度:五大维度设计,提供 70+ 个数据集约 40 万题的的模型评测方案,全面评估模型能力丰富的模型支持:已支持 20+ HuggingFace 及 API 模型分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测。
2024-06-11 18:43:02
939
原创 6-LAgent & AgentLego 智能体应用搭建
幻觉:模型因为训练数据的不能全覆盖性,导致模型可能会生成虚拟信息时效性:用于模型训练的数据过时了,无法反馈最新的趋势和信息等。可靠性:当模型遇到复杂任务式,可能出现错误输出,无法被信任智能体定义智能体能够感知环境中的动态条件,进而能采取动作影响环境,同时能够运用推理能力理解信息、解决问题、生成推断、决定的动作。智能体的范式:AutoGPT、ReWoo、ReAct这里我们使用天气查询API,为了获得稳定的天气查询服务,我们首先要获取 API KEY。
2024-06-10 21:41:42
842
原创 5-LMDeploy量化部署 LLM 实践
同样,在https://studio.intern-ai.org.cn/console/instance上做实验,使用50%的A100来实验。
2024-06-08 23:38:47
499
原创 4-XTuner微调LLM1.8B模型,实现模型自我认知的改造等
使用书生·浦语的XTuner对书生·浦语 LLM 1.8B模型进行微调,实现其自我认知的改造;并将微调合并后的模型提交到openxlab仓库中;基于书生·浦语LLM1.8B,训练一个llava模型,能够对图片进行解读(注意不是生成图片)
2024-06-07 11:15:26
890
原创 2-轻松玩转书生·浦语大模型Demo
整个过程,建议直接使用0.5卡的,实验比较快一些。通过这次实战,熟悉了studio平台的使用,熟悉了相应的工具,收获蛮大。
2024-05-26 23:36:04
857
原创 1-书生·浦语发展历史(截止202405)及其开源工具链
全链路的开源体系,是覆盖MLOps的全生态的链路的工具链,支持从数据获取、预训练、微调、部署、模型评测、场景应用支撑的工具链条。在github上的项目:AI工程也是工欲善其事,必先利其器的一个大工程,能够从某种程度、某个方面降低人工智能工程化的门槛,相信业内也会出现类似的更多、更好的平台,为人工智能的市场化应用提供有力支撑。
2024-05-24 17:44:46
1074
1
原创 TEXT2SQL工具vanna本地化安装和应用
在待连接的mysql数据库的,demodb数据库中新建表和记录,当然可以在不同数据库里面创建表,并插入不同的数据,根据实际情况可以调整SQL,并调整后续步骤的python代码中连接数据库的内容。这里的脚本chroma使用的local的模型,运行了以下脚本后,会在运行的目录下生成chroma.sqlite3文件,存放训练的数据,别删了,删了那训练数据就没了,要重新来。这里使用的是centos7 ,并有一块11G显存的GeForce GTX 1080 Ti,本文编制的时候,使用的是vanna 0.5.4版本。
2024-05-10 18:48:09
9619
34
原创 在demo数据集上微调PaddleSpeech
在centos7 (CentOS Linux release 7.6.1810 (Core))下,git clone paddlespeech项目,checkout r1.4.1,并安装微调中文环境,进行微调。微调PaddleSpeech遇到的This dataset has no examples与解决。以上在运行run.sh的时候,报错This dataset has no examples。下载后解压后,有200个wav和lables.txt文件。预训练的hifigan 模型。
2024-04-27 09:32:31
1644
2
原创 语音处理时centos7安装ffmpeg
FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库libavcodec,为了保证高可移植性和编解码质量,libavcodec里很多code都是从头开发的。FFmpeg在Linux平台下开发,但它同样也可以在其它操作系统环境中编译运行,包括Windows、Mac OS X等。
2024-04-26 17:24:16
423
1
原创 OLLAMA部署qwen:7b,与fastgpt集成
它帮助用户快速在本地运行大模型,通过简单的安装指令,可以让用户执行一条命令就在本地运行开源大型语言模型,例如 Llama 2。这里使用的是4.6.8的版本,这里是从github上拉了分支,直接部署在操作系统上的,如果是docker安装,那么请修改对应映射出来的config.local.json,然后重启fastgpt容器即可。注:本文章默认之前fastgpt都已经配置好了,这次只是新增一个qwen:7b的模型对接。在渠道清单中,点击刚才创建的渠道条目的“测试”按钮,如果配置没问题,那么测试可以通过。
2024-04-18 16:31:04
4593
1
原创 FLink-CDC部署(S4:flink-cdc配置)
如果没什么异常,那么可以登录doris里面,看app_db下有新生成了表,且已经将数据同步过来,接着可以在mysql中做数据更新、删除、插入等操作,会发现,数据会同步更新到doris中。其中table.create.properties.replication_num设置成1,默认是3,因为这里的doris BE只有一个节点。在flink-cdc下执行如下,提交CDC任务,其中的cdcjob.yaml即为CDC的配置文件,可以使用绝对路径。具体的日志,也可以在flink的log目录下去查看。
2024-03-26 16:44:07
2570
3
原创 FLink-CDC部署(S3:Flink部署)
在普通用户下(这里用datatech,HOME=/home/datatech)解压(直接在$HOME下解压),解压后生成flink-1.18.1 目录,做一个软链接,方便后续换版本,同时也可以少输入一些内容,根据习惯,也可以不做。直接到https://flink.apache.org去下载编译好的tar包即可,这里用的是1.8.1的版本。包名 flink-1.18.1-bin-scala_2.12.tgz。可以修改下JobManager和TaskManager的内存。日志在flink/log下。
2024-03-26 16:19:31
907
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人