2010年12月16日星期四

使用正则表达式查找源码包中包含中文字符的文件, grep perl regex sources chinese characters

列出所有包含中文的行(含文件名):
grep --color=auto -Pr '[^\x00-\x7f]+' src/

只列出文件名,去除重复项:
grep --color=auto -Pr '[^\x00-\x7f]+' src/ | awk -F: '{print $1}' | sort | uniq | sort

事实上,正则表达式(Perl) [^\x00-\x7f]+ 可以匹配任何非 ASCII 字符,不止中文字符,日文,韩文等非 ASCII 字符一样可以匹配。
--
yaoms