解决读取文件乱码问题

==> 学习汇总(持续更新)
==> 从零搭建后端基础设施系列(一)-- 背景介绍


一般在windows上的txt文本文件要么以ANSI编码要么以Unicode编码,而用C ,C++,MFC编写的程序一般人只会处理一种编码格式的文本,因为不懂怎么判断读取的文件是以哪种编码格式存储的。那么重点就是判断读取的文件是以哪种方式存储的!有两种方式解决。

一.用二进制方式打开文件,前两个字节为FFFE就是Unicode文件,ANSI则无格式定义.
如图:
这是以16进制打开Unicode文件,很明显看到前两个字节是FFFE

再来,用C语言读取文件,如图:
把buf的地址在内存中显示出来,其内容是FFFE两个字节

因为编译器是32位的,所以最后显示如图:

所以现在基本确定判断Unicode的方法了.
例如:

int main(void)
{
	if (IsUnicode("H:\\Unicode.txt"))
		printf("打开的是Unicode文件\n");
	else
		printf("打开的是ANSI文件\n");
	return 0;
}

IsUnicode函数实现如下:

bool IsUnicode(char* fileName)
{
	FILE* fp = fopen(fileName, "rb");
	if (!fp)
	{
		printf("打开文件失败!\n");
		return 1;
	}
	char buf[2] = { 0 };
	fread(buf, 1, 2, fp);
	char byte1[10] = { 0 };
	char byte2[10] = { 0 };
	sprintf(byte1, "%X", buf[0]);
	sprintf(byte2, "%X", buf[1]);
	int iLen1 = strlen(byte1);
	int iLen2 = strlen(byte2);
	if (byte1[iLen1 - 2] == 'F'&&byte1[iLen1 - 1] == 'F'&&
		byte2[iLen2 - 2] == 'F'&&byte2[iLen2 - 1] == 'E')
		return true;
	else
		return false;
	fclose(fp);
}

判断完之后就是用相应的方法进行读写了,这样一个程序就能实现两种文件的读写。有兴趣的还可以判断UFT-8的。

二.用ANSI方式读写,如果读到Unicode的,就会出现乱码,并且截断,我试了很多,发现不管多大文件,都出来的长度都是10以下,所以根据这个性质,可以判断读出来的是哪种方式编码.但是记住,不能用Unicode方式读写来判断,因为它读出来的虽然是乱码,但是长度却是不确定的.

这里我用文件映射的方法读取,这个比较方便转换编码方式.直接上代码吧,也没有什么可以说的了。如果不懂文件映射的,可以看看前面的文章.

/*
@function    ReadFileOfMapping 以内存映射的方式读取文件
@param       strFileName       要读取的文件名称
@param       strContent        存放读取出来的内容
@return      TRUE OR FALSE     成功返回TRUE,失败返回FALSE
*/

BOOL ReadFileOfMapping(_In_ const CString strFileName,
	_Out_ CString& strContent)
{
	BOOL bRet = FALSE;
	CStringA strA;
	do
	{
		//创建文件对象
		HANDLE hFile = ::CreateFile(strFileName, GENERIC_READ, FILE_SHARE_READ, 0,
			OPEN_EXISTING, FILE_FLAG_SEQUENTIAL_SCAN, 0);
		if (hFile == INVALID_HANDLE_VALUE)
		{
			AfxMessageBox(TEXT("Open file faile!"));
			break;
		}
		//创建文件映射对象
		HANDLE hFileMapping = ::CreateFileMapping(hFile, 0, PAGE_READONLY, 0, 0, nullptr);
		if (!hFileMapping)
		{
			AfxMessageBox(TEXT("Mapping faile!"));
			break;
		}
		//将文件的数据映射到进程的地址空间
		void* basepointer = ::MapViewOfFile(hFileMapping, FILE_MAP_READ, 0, 0, 0);
		if (!basepointer)
		{
			AfxMessageBox(TEXT("View faile!"));
			CloseHandle(hFile);
			CloseHandle(hFileMapping);
			break;
		}
		//将进程空间的数据读到编辑框中
		strA = (char*)basepointer;
		strContent = strA;
		if (strContent.GetLength() < 10)    //如果是Unicode则把它转换为LPTSTR
			strContent = (LPTSTR)basepointer;
		//从进程的地址空间撤销对文件数据的映射
		UnmapViewOfFile(basepointer);
		//关闭文件映射对象
		CloseHandle(hFileMapping);
		//关闭文件对象
		CloseHandle(hFile);
	} while (FALSE);

	return bRet;
}

这个函数自我觉得封装得还不错,可以直接用于各种场合.这个函数有两个版本其实,一个是MFC的CString版本和C++的string版本.

还有一个需要注意的问题就是,因为Unicode多了两个字节的标记,所以Unicode比ANSI多一个字(Unicode是双字节编码),就是文本头,有兴趣的可以去试试.

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值