- 博客(5)
- 收藏
- 关注
原创 python 写数据入文件碰见的bug:UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xee‘ in position 21865:
问题描述 获取网页数据时,避免多次获取被封ip,先将获取的数据给存成文件,发现解码后存入报错了 data = respon.read().decode("utf-8") file = open("data.html", "w") file.write(data, encodings = "utf-8") file.close() Traceback (most recent call last): file.write(data) UnicodeEncodeErro
2022-04-26 22:30:12
3069
1
原创 java为什么能跨平台
java跨平台扩展 提问1:为什么java语言有跨平台特性 1、因为是运行在JVM虚拟机上的,而不是CPU上的 2、一次编译,多次运行的,就是说java编译器会将源文件编译为二进制字节码(class),然后拿这字节码去jvm上直接运行(解释执行)的 3、主要是在jvm上运行的,那么有jvm就可以四处运行(而jvm是安装jre或jdk就有的,window或unix不自带) 以上三点baidu下就有了,但我理解的还有一点都没说出来,即 4、那么主要是java是运行在jvm上的,所以它的代码就能不经修改在不同平台
2020-10-13 20:11:01
2133
原创 使用java编写MR的单词统计wordcount
假设需要统计本文文档a.txt 内容如下: I love china I love java I love U 1、总共需要三个类,一个执行主类,一个继承Mapper类,一个继承Reduce类 一、配置pom.xml 新建一个maven工程 maven依赖如下: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="...
2019-01-21 19:32:53
816
1
原创 消息队列ActiveMQ的简单使用
什么场景需要使用消息队列(MessageQuery) 1、解耦 2、异步,查询数据库需要有4次查询,1次10秒,2次4秒,3次3秒,4次10秒(同步就需要28秒,而异步要10秒) 3、削峰,某个时间用户量特大,其他时间用户量不大 一、因为上面的问题,所以来引申出了消息队列,而只有应用了消息队列,该项目才不算**玩具 本篇学了ActiveMQ,上activemq.apaqi下载对应的zip或者tar...
2019-01-21 18:06:48
337
1
原创 基于hadoop的hive安装
基于hadoop的hive安装一、hive的软件安装二、修改配置文件三、进行相关文件夹配置四、进行临时目录配置五、对hive初始化六、进行测试,是否安装并配置成功 本篇使用的是本地模式(即本地安装mysql 替代derby存储元数据) 操作系统:Ubuntu-16.04.2-server-amd64.iso;MySql版本为5.7;hadoop版本为:2.9.1; Hive 基于hadoop的安装...
2019-01-21 17:48:24
1095
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人