Java读取网页HTML 汉字乱码 (已解决，bufferedReader中编码改成跟网页的一致即��?)

最新推荐文章于 2025-07-28 11:48:24 发布

原创

最新推荐文章于 2025-07-28 11:48:24 发布 · 1.3k 阅读

2 ·

CC 4.0 BY-SA版权

本文介绍了如何处理Java在用utf-8编码读取GB2312编码的网页HTML时出现的汉字乱码问题。通过在BufferedReader中设置正确的编码方式，即改为与网页相同的GB2312编码，可以成功解决乱码问题，确保内容正确输出��?

摘要生成��? C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#网页HTML的编码是gb2312

<meta http-equiv="Content-Type" content="text/html; charset=gb2312">

#Java用utf-8 读取汉字乱码，读取网页HTML内容后输出汉子乱��?
乱码截图

 URLConnection urlConnection = new URL(url).openConnection();
        HttpURLConnection connection = (HttpURLConnection) urlConnection;
        connection.setRequestMethod("GET");
        //连接
        connection.connect();
BufferedReader bufferedReader = new BufferedReader(new InputStreamReader
                    (connection.getInputStream(), StandardCharsets.UTF_8));
            StringBuilder bs = new StringBuilder();
            String l;
            while ((l = bufferedReader.readLine()) != null) {
                if(l.indexOf("<P align=center><IMG style=")>-1){
                    System.out.println(l);
                    bs.append(l).append("\n");
                }