23. (程序题, 40分) 编写程序统计英文文本中单词的出现次数。用Java 文本中单词以空白符和可打印标点符号（包括~`!@#$%^&*()_-+=[]{}\|:;"'<>?,./）分隔。单词须以字母开头，单个字母除了i和o之外不认为是单词。单词不区分大小写（比如Good和good认为是同一个单词）。有些频繁出现的介词、冠词等不具有特别大的意义，这样的词称为排除词，排除词不做统计。本题中的排除词仅包含以下词汇： "a","an","the","and","to","of","at","on","in","for","be","is","are","am","was","were","did","do","does","this","that" 为简单起见，单词的复数、时态以及复合词（如isn't, don't, it's）等不做额外处理，认为它们和原词是不同的单词。请以出现次数降序的方式输出前5个单词及其出现次数，以逗号(,)分隔，每个单词一行。如果有多个单词出现的次数相同，则以单词的自然顺序排序。注意：数字或以数字开头的不认为是一个单词。示例输入： Your voice(noise) is to loud, most| "carefully"; upon {your} voice. 'test' this? {hello} you! 输出： voice,2 your,2 carefully,1 hello,1 loud,1

时间: 2025-06-02 07:00:47 浏览: 49

<think>嗯，用户需要编写一个Java程序来统计英文文本中的单词出现次数，并按照特定规则输出前五个高频词。我需要仔细看看用户的具体要求。首先，用户提到单词的分隔符是空白符和可打印标点符号，包括很多符号，比如~`!@#$%^&*()这些。所以分割单词的时候，需要用这些标点作为分隔符。但要注意，这些标点可能出现在单词周围，比如“voice(noise)”中的括号，应该分割成voice和noise两个单词。然后，单词必须以字母开头，单个字母除了i和o不算。比如“a”或者“b”这样的单个字母，除非是i或o，否则不被视为单词。因此，在分割之后，需要检查每个候选单词是否符合这个条件。比如，检查字符串是否以字母开头，并且长度大于1，或者如果是单个字符的话，只能是i或o。接下来，单词不区分大小写，所以需要将所有单词转为小写或大写，比如将“Good”转为“good”来处理。这样统计的时候就不会区分大小写了。排除词列表包含很多常见的介词和冠词，比如“a”、“an”、“the”等。在统计的时候，需要过滤掉这些词。需要注意的是，排除词列表中的单词已经是小写形式，所以在处理输入单词时，应该先将单词转为小写，再检查是否在排除列表中。另外，数字开头的字符串不算单词，比如“123abc”或者“4th”这样的需要被排除。所以需要检查单词是否以字母开头，而不是数字。现在，如何处理标点符号呢？用户提到的分隔符包括各种标点，所以可能需要用正则表达式来分割文本。例如，使用split("[^a-zA-Z]")，但这样可能不够，因为标点可能出现在单词中间，比如“don't”会被分成“don”和“t”，但根据题目要求，复合词如“isn't”被视为与原词不同，所以不需要特殊处理，直接按分割后的结果处理即可。但题目中的分割规则是使用标点作为分隔符，所以可能需要将标点替换为空格，然后按空格分割。或者，使用正则表达式来匹配单词，即匹配以字母开头，后跟字母或数字的字符串。比如，使用Pattern和Matcher类，用正则表达式\b[a-zA-Z][a-zA-Z0-9]*\b来匹配单词。但需要注意，题目中要求单词以字母开头，但后面的字符是否允许数字？题目中说明数字开头的不算单词，但后面的字符是否有数字？比如“hello123”是否算单词？根据题目描述，“数字或以数字开头的不认为是一个单词”，所以单词必须以字母开头，后面可以是字母或其他字符吗？题目中的分隔符是标点和空白符，所以单词的组成可能包含字母和可能的其他字符，但题目中并没有明确说明，可能需要根据示例来判断。比如示例中的输入包括“voice(noise)”，分割后得到“voice”和“noise”。所以标点符号被作为分隔符，所以单词只能由字母组成。因此，正确的正则表达式可能是匹配以字母开头，后跟字母的字符串，并且排除包含数字的情况。因此，正确的正则表达式应该是：以字母开头，后面跟着零个或多个字母，并且不包含数字。例如：\b[a-zA-Z][a-zA-Z]*\b，但这样可能无法匹配像“test123”这样的字符串，但根据题目要求，这样的应该被排除，因为数字开头的不算，但这里的“test123”是以字母开头，后面有数字，是否算单词？题目中说明数字开头的不算，但后面的字符是否有数字没有明确说明。根据问题描述中的示例，比如输出中的“carefully”是有效的，而输入中的“noise”被分割出来，所以可能单词只能由字母组成，不能包含数字。因此，正确的正则表达式应该是匹配以字母开头，仅包含字母的字符串，并且长度至少为1，但如果是单个字符的话只能是i或o。所以，正确的处理步骤可能是： 1.将文本转换为小写。2.使用正则表达式匹配所有符合单词规则的字符串。 3.过滤掉排除词列表中的单词。 4.统计出现次数。5.排序并输出前五名。那么，如何用正则表达式来提取正确的单词？可能需要使用正则表达式：\b[a-zA-Z][a-zA-Z]*\b，但这样会匹配所有以字母开头，后面跟着字母的单词。但还要处理单个字母的情况，即除了i和o外，其他单个字母不算单词。因此，正则表达式可能需要分成两种情况：要么是长度大于1的以字母开头的单词，要么是i或o的单字母。例如，正则表达式可以写成：\b([a-zA-Z][a-zA-Z]+|i|o)\b，但这里可能需要注意大小写的问题，因为在处理之前已经将文本转为小写，所以可能不需要处理大写的情况。或者，在提取单词的时候，先转为小写，然后用正则表达式匹配，例如：^[a-z][a-z]*$，并且长度大于等于1，但如果是单个字符的话必须是i或o。可能更有效的方式是，先分割出所有可能的候选单词，然后逐一检查是否符合规则。例如，使用split方法将文本按非字母字符分割，然后遍历每个候选词，进行过滤：-候选词必须转换为小写。 -候选词必须以字母开头。 -候选词不能是数字开头。-候选词如果是单个字符，必须是i或o。-候选词不能是排除词列表中的词。所以，步骤可能如下：1.将整个文本转为小写。 2.使用正则表达式分割出所有可能的单词，例如，使用split("[^a-zA-Z]+")，这样可以将所有非字母字符作为分隔符，分割出由字母组成的字符串。3.遍历每个分割后的字符串，过滤掉空字符串。4.检查每个字符串是否符合单词规则：a.是否以字母开头（已经是小写，所以检查首字符是否是a-z）。b.长度是否为1时是否是i或o。c.长度是否大于1。 5.过滤掉排除词列表中的单词。 6.统计剩下的单词的出现次数。然后，统计完成后，按照出现次数降序排序，次数相同的按自然顺序（字典序）排列，输出前五名。现在，关于分割的问题，例如，输入中的“voice(noise)”会被分割成“voice”和“noise”，这可以通过split("[^a-zA-Z]+")实现，因为括号属于非字母字符，作为分隔符。然后，对于每个分割后的字符串，需要检查是否符合单词规则。比如，“voice”符合，“noise”符合，而如果是“a1b”，则会被分割为“a”，然后“1”被分割掉，接着“b”，所以“a”和“b”可能被分割出来，但根据规则，如果“a”是排除词，则会被过滤掉，“b”作为单个字母，不是i或o，所以被排除。因此，正确的分割方法是使用正则表达式将非字母字符作为分隔符，得到所有连续的字母序列，然后对这些序列进行过滤。接下来，代码的步骤：1.读取输入文本，转为小写。 2.使用正则表达式分割出所有可能的候选单词。3.过滤候选单词：a.长度至少为1。b.以字母开头（实际上分割后的已经是字母了）。c.如果是单个字母，必须是i或o。d.不在排除词列表中。 4.统计词频。5.排序：先按次数降序，次数相同的按单词字典序升序。 6.输出前五名。现在，排除词列表中的词都是小写的，所以在过滤时，将候选词转为小写即可。关于正则表达式分割，Java中的split("[^a-zA-Z]+")会将连续的字母作为单词，非字母作为分隔符。例如，输入中的“your”后面跟着括号，分割后得到“your”。例如，示例输入中的“voice(noise)”会被分割为“voice”和“noise”。然后，对于每个分割后的字符串，转为小写，然后检查是否符合条件。例如，分割后的字符串可能为空字符串，所以需要过滤掉空字符串。然后，检查每个单词： -是否以字母开头：因为分割后的都是字母组成的字符串，所以可以认为满足。-长度是否为1且是i或o，或者长度大于1。 -不在排除词列表中。例如，示例中的“this”会被过滤掉，因为属于排除词。现在，排除词列表中的词包括“a”,“an”,“the”等，所以当候选词是这些时会被排除。接下来，统计词频，可以使用HashMap，键是小写的单词，值是对应的次数。然后，排序时，需要将HashMap的entry转换为列表，然后自定义比较器：-首先比较出现次数的降序。-次数相同的情况下，按单词的自然顺序（字典序）升序排列。例如，使用Java的流处理或者Collections.sort方法。最后，输出前五个条目。现在，编写代码的步骤： 1.读取输入文本。假设输入是字符串，或者从文件读取，这里可能需要用户输入或者文件读取。但根据问题描述，示例中的输入是一个字符串，所以可能程序需要从标准输入读取，或者从文件读取。假设用户希望从控制台输入，或者可能从文件读取，但问题中示例给出的是输入内容，所以可能程序需要处理字符串输入。2.处理输入文本：a.将文本转为小写。b.使用正则表达式分割出候选单词。 3.过滤候选单词：a.过滤空字符串。b.检查长度是否为1且是否是i或o，或者长度大于1。c.排除停用词。 4.统计词频。5.排序。 6.输出结果。现在，代码实现：首先，处理文本：例如，输入文本是：Yourvoice(noise) isto loud, most| "carefully"; upon{your} voice. 'test'this?{hello} you! 转为小写后：your voice(noise)is toloud,most|"carefully";upon {your}voice.'test' this? {hello}you!分割后得到数组： "your","voice", "noise", "is","to", "loud", "most","", "carefully", "","upon", "your","voice", "","test", "this","", "hello","", "you"注意，这里split("[^a-zA-Z]+")会分割非字母的连续字符为分隔符，所以例如，两个连续的分隔符会导致空字符串，比如“;;”分割后会产生空字符串。所以在分割后需要过滤掉空字符串。所以，候选单词数组中的元素需要过滤掉空字符串。然后，检查每个单词是否符合条件：例如，“is”是排除词，所以被过滤掉。“to”是排除词，被过滤掉。“your”长度大于1，且不在排除词列表中，所以保留。“voice”保留。“noise”保留。“loud”保留。“most”保留。“carefully”保留。“upon”是否在排除词列表中？根据题目中的排除词列表，排除词包括“on”，“in”等，但“upon”不在列表中，所以保留。“test”保留。“this”是排除词，被过滤掉。“hello”保留。“you”不在排除词列表中，所以保留。但根据示例的输出，排除词中的“this”被过滤，所以示例中的输出里“this”没有出现。示例的输出中，“voice”出现两次，“your”出现两次，剩下的如“carefully”、“hello”、“loud”各出现一次。现在，代码中的排除词列表需要正确包含所有给定的单词。用户给出的排除词列表是："a","an","the","and","to","of","at","on","in","for","be","is","are","am","was","were","did","do","does","this","that" 所以在代码中需要将这些词放入停用词集合。例如：Set<String> stopWords =Set.of("a", "an","the", "and","to", "of","at", "on","in", "for","be", "is","are", "am","was", "were","did", "do","does", "this","that"); 注意，这些词都是小写形式，所以候选词转为小写后，直接检查是否在集合中。现在，处理每个候选词：例如，候选词“your”符合条件，不是停用词，长度大于1，保留。候选词“is”属于停用词，被过滤掉。候选词“to”属于停用词，被过滤掉。候选词“this”属于停用词，被过滤掉。所以，在示例中，处理后的有效单词列表包括： "your","voice", "noise", "loud", "most","carefully","upon", "your","voice", "test","hello", "you"但需要检查每个单词是否符合单词规则：例如，“noise”符合，长度大于1；“most”符合；“carefully”符合；“upon”符合；“test”符合；“hello”符合；“you”符合，但“you”是否在停用词列表中？根据给定的停用词列表中没有“you”，所以保留。但示例的输出中没有“you”，可能因为示例中的输入中“you”出现了一次，但根据示例的输出，前五名中的最后一个词是“loud”出现一次，所以可能“you”的出现次数可能与其他词相同，但字典序靠后，所以没进入前五。现在，统计这些单词的出现次数： your:2voice:2noise:1loud:1most:1carefully:1upon:1test:1hello:1you:1所以，按照次数降序排列后，前两个是your和voice各两次，然后是其他各一次的词。但按字典序排列，所以输出中的顺序是：voice,2your,2carefully,1hello,1loud,1因为当次数相同时，按自然顺序排列，所以“carefully”在“hello”、“loud”等前面。现在，如何实现排序？在Java中，可以通过将Map的entry转为List，然后使用自定义的Comparator进行排序。例如：List<Map.Entry<String,Integer>>entries =new ArrayList<>(frequencyMap.entrySet()); entries.sort((e1,e2) ->{int compare= e2.getValue().compareTo(e1.getValue());if (compare ==0){return e1.getKey().compareTo(e2.getKey());}return compare; });这样，先按值降序，值相同时按键升序排列。然后，取前五个元素输出。现在，编写完整的Java代码： importjava.util.*; importjava.util.regex.*; publicclass WordCounter{public staticvoid main(String[]args){String input= "Your voice(noise)is toloud,most|\"carefully\"; upon{your} voice. 'test'this?{hello} you!";//转为小写String text= input.toLowerCase();//分割单词String[] candidates= text.split("[^a-z]+"); //使用小写字母分割，非字母字符作为分隔符List<String> validWords =new ArrayList<>();//停用词集合Set<String> stopWords =newHashSet<>(Arrays.asList("a", "an","the", "and","to", "of","at", "on","in", "for","be","is","are", "am","was", "were","did", "do","does", "this","that"));for(Stringword: candidates) {if(word.isEmpty())continue;//检查单词规则if (word.length() ==1) {if(!word.equals("i")&& !word.equals("o")) {continue;}}else {if(!Character.isLetter(word.charAt(0))) {//这里其实可以不需要，因为分割后的单词已经是字母组成continue;}}//排除停用词if(stopWords.contains(word)){continue;}validWords.add(word);}//统计词频Map<String, Integer> frequencyMap =new HashMap<>();for (String word: validWords){frequencyMap.put(word, frequencyMap.getOrDefault(word,0)+1);}//转换为列表并排序List<Map.Entry<String,Integer>>entries= newArrayList<>(frequencyMap.entrySet());entries.sort((e1, e2)-> {intcompare =e2.getValue().compareTo(e1.getValue());if(compare==0){return e1.getKey().compareTo(e2.getKey());}return compare;});//输出前五名int count=0;for(Map.Entry<String, Integer> entry: entries) {if(count>=5)break;System.out.println(entry.getKey() +"," +entry.getValue());count++;}}} 不过，上述代码可能存在一些问题需要测试。例如，分割后的候选词是否正确？输入中的“voice(noise)”转为小写后是“voice(noise)”，使用split("[^a-z]+")的话，分割后的数组是["","voice", "noise", ...]，因为第一个字符是字母，但可能开头有非字母字符导致空字符串？比如，输入的开头是否有非字母字符？例如，输入中的第一个词是“Your”，转为小写后是“your”，分割后的数组可能以空字符串开头，如果输入的开头是非字母字符的话。比如，输入字符串以非字母字符开始，split后的数组的第一个元素可能是空字符串。所以在遍历候选词时需要过滤掉空字符串。例如，代码中的循环： for(Stringword :candidates){if (word.isEmpty()) continue;//处理逻辑}这样就能过滤掉空字符串。在示例中，输入字符串转为小写后是“yourvoice(noise) isto loud,most|"carefully";upon {your}voice.'test' this? {hello}you!”，分割后的数组是：["","your", "voice","noise","is", "to","loud","most", "carefully", "upon","your", "voice","test", "this","hello", "you"]因为split("[^a-z]+")会将连续的非小写字母作为分隔符，所以第一个字符是字母的话，split后的第一个元素可能为空吗？例如，如果输入字符串以字母开头，split后的第一个元素是否为空？例如，字符串“abc123def”分割后得到["abc","def"]。而如果字符串以非字母开头，例如“123abc”，分割后得到["", "abc"]。所以在示例中，输入字符串的开头是“your”，即字母开头，所以分割后的数组的第一个元素是“your”？或者可能因为正则表达式的问题，分割后的第一个元素为空？需要测试split的正则表达式行为。Java中的split方法，当正则表达式匹配到开头时，分割后的数组的第一个元素会是空字符串。例如，字符串“test123abc”分割后使用split("\\d+")得到["test","abc"]。而字符串“123test”分割后得到["", "test"]。所以，在示例中，输入转为小写后的字符串是“your voice(noise)is toloud,most|"carefully";upon {your}voice.'test' this? {hello}you!”，分割后的数组可能如下：第一个字符是字母，所以split("[^a-z]+")后的第一个元素是“your”，然后接下来的分隔符是空格，所以下一个元素是“voice”，然后是“noise”等。所以数组中的第一个元素是“your”，不会有空字符串？或者可能取决于正则表达式是否匹配到开头。例如，如果正则表达式是匹配一个或多个非字母字符，那么如果字符串以字母开头，split后的第一个元素就是该字母序列，而不会产生空字符串。例如，字符串“a,b,c”分割后得到["a","b", "c"]。而字符串“,a,b”分割后得到["","a", "b"]。所以，如果输入字符串以字母开头，split后的数组的第一个元素是字母序列，不会有空字符串。因此，在示例中，分割后的数组中的第一个元素是“your”，没有空字符串。但代码中的循环处理了空字符串的情况，所以即使出现空字符串，也会被过滤掉。现在，回到候选词的处理：例如，候选词“is”属于停用词，被过滤掉。“to”同样被过滤。“this”被过滤。所以，在示例中，validWords列表中的单词包括："your","voice", "noise", "loud", "most","carefully","upon", "your","voice", "test","hello", "you"然后统计后： your:2voice:2noise:1loud:1most:1carefully:1upon:1test:1hello:1you:1然后排序时，按次数降序，次数相同按字典序：voice（2次）和your（2次）的字典序中，voice的字母顺序在your之前吗？比较“voice”和“your”的字母顺序：v在字母表中位于y之前，所以“voice”排在“your”前面。所以输出中voice排在your前面。所以，示例中的输出顺序是： voice,2your,2然后是其他各一次的词，按字典序排列：carefully, hello, loud, most, test, upon, you等。所以前五个中的三个是carefully,hello,loud。但示例的输出是： voice,2your,2carefully,1hello,1loud,1所以在代码中，排序后的顺序是否正确？在代码的排序逻辑中，当次数相同时，按键的升序排列。例如，voice和your的次数都是2，voice的字母顺序在your之前，所以voice排在前面。因此，输出的顺序正确。现在，代码中的正则表达式可能存在问题。例如，分割后的候选词是否包含数字？例如，如果有单词包含数字，如“hello123”，会被分割为“hello123”，但是根据题目要求，数字开头的单词不算，但hello123以字母开头，后面的数字是否允许？题目中的描述是“数字或以数字开头的不认为是一个单词”，所以单词可以由字母开头，后面跟着其他字符吗？或者是否必须全部是字母？根据题目中的规则，单词由分隔符分割，但单词本身可以包含其他字符吗？例如，用户给出的分割规则是“单词以空白符和可打印标点符号分隔”，所以单词的定义是连续的字母，因为标点符号作为分隔符被分割。所以，正确的单词只包含字母，不会有数字或其他字符。因此，分割后的候选词是正确的，不需要处理数字，因为分割时已经排除了非字母字符，所以候选词只包含字母。例如，输入中的“test123”会被分割为“test”，因为后面的数字被作为分隔符处理。例如，split("[^a-z]+")会将“test123”分割为“test”，因为后面的数字属于非字母字符，作为分隔符。所以，代码中的分割方式是符合要求的。现在，代码中的单词过滤条件是否正确？对于长度1的单词，代码检查是否是i或o：if (word.length() ==1) {if(!word.equals("i")&& !word.equals("o")) {continue;} }所以，只有i或o的单字母单词被保留，其他单字母被过滤掉。例如，单词“a”会被过滤，因为长度为1且不是i或o，同时它属于停用词，所以会被两次过滤：首先在单词规则检查时被过滤，或者在停用词检查时被过滤。但根据代码中的逻辑，单词“a”在分割后会被处理，但在单词规则检查时，因为长度是1且不是i或o，所以被跳过，不会被添加到validWords列表中。因此，停用词中的单字母如“a”实际上已经被过滤掉，无需在停用词检查时处理。因此，代码中的条件是正确的。现在，测试示例输入：输入文本处理后，分割后的候选词列表包括：your, voice, noise, is, to, loud, most, carefully, upon, your, voice, test, this, hello, you过滤停用词和无效单词：is →停用词，过滤。to →停用词，过滤。this →停用词，过滤。剩下的单词：your,voice,noise,loud,most,carefully,upon,your,voice,test,hello,you然后统计次数： your→2voice →2noise →1loud→1most→1carefully →1upon →1test →1hello →1you →1排序后的顺序：voice（2次），your（2次），carefully（1次），hello（1次），loud（1次），most（1次），test（1次），upon（1次），you（1次）因此，输出前五名是： voice,2your,2carefully,1hello,1loud,1与示例一致，所以代码正确。现在，总结代码的步骤：1.将输入文本转为小写，以统一处理。2.使用正则表达式分割出由字母组成的候选词，排除非字母字符。3.过滤候选词，只保留符合规则的单词（长度大于1，或单字母为i/o）。 4.过滤停用词。5.统计词频。 6.排序：次数降序，次数相同按字典序升序。 7.输出前五名。现在，编写代码时需要注意：-正则表达式分割的正确性：使用split("[^a-z]+")，因为输入已经转为小写，所以只需要分割非小写字母。-停用词集合的正确性：必须包含所有给定的停用词。-单词规则的检查：特别是单字母的情况。现在，可能存在的错误点： -正则表达式分割后的数组包含空字符串，需要过滤。-停用词集合中的词是否全小写，候选词是否转为小写后比较。 -排序逻辑是否正确，先次数降序，次数相同按字典序升序。综上，代码应该能够正确实现需求。</think>### 分步解决方案 #### 1. 文本预处理与单词分割使用正则表达式`[^a-z]+`分割非字母字符，将文本转为小写并提取候选单词： ```java String text = input.toLowerCase(); String[] candidates = text.split("[^a-z]+"); // 分割非字母字符 ``` #### 2. 过滤无效单词通过条件判断过滤不符合规则的单词： ```java if (word.length() == 1) { if (!word.equals("i") && !word.equals("o")) continue; // 单字母过滤 } else if (!Character.isLetter(word.charAt(0))) { continue; // 排除数字开头 } ``` #### 3. 排除停用词使用HashSet快速过滤停用词： ```java Set<String> stopWords = new HashSet<>(Arrays.asList( "a","an","the","and","to","of","at","on","in","for","be", "is","are","am","was","were","did","do","does","this","that" )); if (stopWords.contains(word)) continue; ``` #### 4. 词频统计与排序通过HashMap统计词频，并按频率降序和字典序排序： ```java entries.sort((e1, e2) -> { int compare = e2.getValue().compareTo(e1.getValue()); return (compare != 0) ? compare : e1.getKey().compareTo(e2.getKey()); }); ``` #### 5. 输出结果取前5个高频词并按格式输出： ```java for (int i = 0; i < Math.min(5, entries.size()); i++) { Map.Entry<String, Integer> entry = entries.get(i); System.out.println(entry.getKey() + "," + entry.getValue()); } ``` --- ### 完整代码实现 ```java import java.util.*; public class WordFrequencyCounter { private static final Set<String> STOP_WORDS = new HashSet<>(Arrays.asList( "a","an","the","and","to","of","at","on","in","for","be", "is","are","am","was","were","did","do","does","this","that" )); public static void main(String[] args) { String input = "Your voice(noise) is to loud, most| \"carefully\"; upon {your} voice. 'test' this? {hello} you!"; String text = input.toLowerCase(); // 分割单词并过滤无效项 List<String> validWords = new ArrayList<>(); for (String word : text.split("[^a-z]+")) { if (word.isEmpty()) continue; if (word.length() == 1 && !"io".contains(word)) continue; if (STOP_WORDS.contains(word)) continue; validWords.add(word); } // 统计词频 Map<String, Integer> frequencyMap = new HashMap<>(); for (String word : validWords) { frequencyMap.put(word, frequencyMap.getOrDefault(word, 0) + 1); } // 排序并输出 List<Map.Entry<String, Integer>> entries = new ArrayList<>(frequencyMap.entrySet()); entries.sort((e1, e2) -> { int compare = e2.getValue().compareTo(e1.getValue()); return (compare != 0) ? compare : e1.getKey().compareTo(e2.getKey()); }); for (int i = 0; i < Math.min(5, entries.size()); i++) { Map.Entry<String, Integer> entry = entries.get(i); System.out.println(entry.getKey() + "," + entry.getValue()); } } } ``` --- ### 关键点说明 1. **正则分割**：使用`[^a-z]+`确保只保留字母组合，避免数字干扰[^1] 2. **停用词过滤**：通过HashSet实现$O(1)$时间复杂度的查询[^2] 3. **排序优化**：双重排序条件（频率降序、字典升序）确保结果符合要求 4. **边界处理**：对单字母单词进行特殊判断，避免无效统计 --- ###

阅读全文

相关推荐

JAVA基础。入门单词

Google Java 编程规范（中文版）.pdf

2021-2022计算机二级等级考试试题及答案No.14852.docx

西门子1200多轴伺服步进FB块程序详解及其工业自动化应用 - 工业自动化 实战版

【C语言编程】函数调用规则与实现：函数声明、调用方式及参数传递详解

MATLABSimuLink环境下三相STATCOM无功补偿技术的研究与仿真

基于CNN-LSTM-Attention神经网络的高精度时间序列预测程序：风电功率与电力负荷预测应用 - 深度学习

MATLAB滑动窗口函数：高效生成机器学习样本数据的技术实现与应用

APDL在起重机结构设计与参数建模中的应用及优化分析

S7-200 PLC与MCGS组态炉温控制系统的设计与实现：梯形图程序、接线图及IO分配详解 · PID控制

S7-200 PLC与组态王混合物料搅拌控制系统：梯形图程序、接线图及组态画面详解

【java毕业设计】雪都出行二手车交易系统源码（springboot+mysql+说明文档+LW+PPT）.zip

深度学习（深度之眼 paper 课）、编程（leetcode）及 PMP 学习笔记

西门子200SMART加显控触摸屏水处理程序案例：30吨双级反渗透+EDI工艺实现高度自动化控制系统，保障超纯水质量高、稳定性强

蒙特卡洛算法在电动汽车负荷预测中的应用：基于多场景多时间纬度的仿真分析与优化，出图美观实用，负荷峰谷特性显著 电动汽车 教程

清华大学AI入门到精通教程.zip

基于MATLAB的图像裂缝检测技术的研究与应用

【java毕业设计】全屋家具定制网源码（ssm+mysql+说明文档+LW+PPT）.zip

Numpy入门指南：从零开始掌握Python数据处理的基石

Fluent仿真技术在滑动轴承空化、油膜温度与压力分析中的应用及对承载力和摩擦力的影响

解决参数依赖，接口之间传递数据——apipost

图匠对话式图像创意室_一个基于人工智能的在线图像处理与创意设计平台_提供图像美学评估_智能修图_创意生成三大核心功能_支持用户上传图片获取专业质量评分_通过自然语言交互实现智能图像.zip

大家在看

MqttAndroidClient

Cisco Enterprise Print System-开源

数字图像处理matlab版配套资料（图片和源码）

appserv2.5.10_64位

2.QuartusII 软件的基本使用.doc

最新推荐

西门子1200多轴伺服步进FB块程序详解及其工业自动化应用 - 工业自动化 实战版

【C语言编程】函数调用规则与实现：函数声明、调用方式及参数传递详解

MATLABSimuLink环境下三相STATCOM无功补偿技术的研究与仿真

基于CNN-LSTM-Attention神经网络的高精度时间序列预测程序：风电功率与电力负荷预测应用 - 深度学习

MATLAB滑动窗口函数：高效生成机器学习样本数据的技术实现与应用

Notes App API开发与使用指南

【PMSM建模与测试最佳实践】：MATLAB电机仿真模型的权威指导

如何通过四元数避免万向节死锁？

Python实现Couchbase大规模数据复制技术

【MATLAB电机性能评估案例】：仿真环境下的深度研究

西门子1200多轴伺服步进FB块程序详解及其工业自动化应用 - 工业自动化实战版

蒙特卡洛算法在电动汽车负荷预测中的应用：基于多场景多时间纬度的仿真分析与优化，出图美观实用，负荷峰谷特性显著电动汽车教程

西门子1200多轴伺服步进FB块程序详解及其工业自动化应用 - 工业自动化实战版