一些日文处理的正则表达式(Perl)

本文详细介绍了不同字符编码方式,包括半角和全角字符的区别,以及EUC-JP编码下的具体字符表示方法。对于理解文本在计算机中的存储形式具有重要价值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

# 半角スペース
$spc = '/x20';

# 全角スペース
$eSpc = '(?:/xA1/xA1)'; # EUC-JP
$sSpc = '(?:/x81/x40)'; # SJIS


# 全角数字 [0-9]
$eLng = '(?:/xA3[/xB0-/xB9])'; # EUC-JP
$sLng = '(?:/x82[/x4F-/x58])'; # SJIS


# 全角小英字 [a-z][/COLOR]
$estr = '(?:/xA3[/xE1-/xFA])'; # EUC-JP
$sstr = '(?:/x82[/x81-/x9A])'; # SJIS


# 全角大英字 [A-Z]
$eStr = '(?:/xA3[/xC1-/xDA])'; # EUC-JP
$sStr = '(?:/x82[/x60-/x79])'; # SJIS


# 全角ひらがな [ぁ-ん]
$eHira = '(?:/xA4[/xA1-/xF3])'; # EUC-JP
$sHira = '(?:/x82[/x9F-/xF1])'; # SJIS


# 全角カタカナ [ァ-ヶ]
$eKana = '(?:/xA5[/xA1-/xF6])'; # EUC-JP
$sKana = '(?:/x83[/x40-/x96])'; # SJIS


# 半角カタカナ [ヲ-゜]
$ekana = '(?:/x8E[/xA6-/xDF])'; # EUC-JP
$skana = '[/xA6-/xDF]'; # SJIS


# EUC-JP文字
$euc1 = '[/x00-/x7F]'; # 1byte EUC-JP文字
$euc2 = '(?:[/x8E/xA1-/xFE][/xA1-/xFE])'; # 2byte EUC-JP文字
$euc3 = '(?:/x8F[/xA1-/xFE][/xA1-/xFE])'; # 3byte EUC-JP文字
$euc = "(?:$euc1|$euc2|$euc3)"; # EUC-JP文字

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值