C#移除字符串中的不可见Unicode字符

来源：cnblogs　　作者：程序设计实验室　　时间：2023/2/2 11:39:19　　对本文有异议

背景

最近发现某个数据采集的系统拿下来的数据，有些字段的JSON被莫名截断了，导致后续数据分析的时候解析JSON失败。

类似这样

{"title": "你好

或者这样，多了个双引号啥的

{"title":""你好"}

因为数据库是Oracle，起初以为是Oracle这老古董出问题了，结果一番折腾，把每条写入数据的SQL语句都拿出来，看起来里面的JSON格式都没问题。

这也太诡异了吧，看起来没毛病，但就为啥JSON被随机截断呢？

最后我试着把整段SQL放在Rider的 query console 里面执行，然后再去数据库里读取这段JSON，居然发现变成这样了：

{"title":"？你好"}

啊这，看到这个大大的问号，立刻就能知道这个“你好”里面不止是这两个字，肯定含有不可见的Unicode字符。

然后把这段JSON复制出来，用16进制模式打开，果然看到在“你好”前面有一个 \u0020 的字符…

Unicode码表

0000-007F：C0控制符及基本拉丁文 (C0 Control and Basic Latin)
0080-00FF：C1控制符及拉丁文补充-1 (C1 Control and Latin 1 Supplement)
0100-017F：拉丁文扩展-A (Latin Extended-A)
0180-024F：拉丁文扩展-B (Latin Extended-B)
0250-02AF：国际音标扩展 (IPA Extensions)
02B0-02FF：空白修饰字母 (Spacing Modifiers)
……

这里再附上部分 Unicode 表格

U+	0	1	2	3	4	5	6	7	8	9	A	B	C	D	E	F
0000	NUL	SOH	STX	ETX	EOT	ENQ	ACK	BEL	BS	HT	LF	VT	FF	CR	SO	SI
0010	DLE	DC1	DC2	DC3	DC4	NAK	SYN	ETB	CAN	EM	SUB	ESC	FS	GS	RS	US
0020		!	"	#	$	%	&	'	(	)	*	+	,	-	.	/
0030	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
0040	@	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O
0050	P	Q	R	S	T	U	V	W	X	Y	Z	[	\	]	^	_
0060	`	a	b	c	d	e	f	g	h	i	j	k	l	m	n	o

可以看到上面那个 \u0020 在第三行第一列，是一个不可见字符，躲在标题的前面

也就是因为这个 Unicode 字符，Oracle无法正确解析，所以导致了插入数据的时候错乱了

所以破案了，就是系统前台使用人员，在输入的时候不知道咋滴搞了个Unicode字符进去…

解决方法就是我这边采集的时候再做一次过滤…

没想到C#要搞个过滤 Unicode 还挺折腾的，资料太少…

最后还是参考了Java的资料搞的。= =...

代码

代码如下

写了个扩展方法来过滤

public static class StringExt { 
    // 控制字符
    private static readonly Regex ControlCharRegex = new Regex(@"[\p{C}]", RegexOptions.Compiled);
    /// <summary>
    /// 移除控制字符
    /// </summary>
    public static string RemoveControlChars(this string text) {
        return ControlCharRegex.Replace(text, string.Empty);
    }
}

要使用的时候就这样

var outStr = "带有Unicode的字符串".RemoveControlChars();

搞定。

参考资料

UniCode编码表及部分不可见字符过滤方案 - https://www.cnblogs.com/fan-yuan/p/8176886.html
https://stackoverflow.com/questions/6198986/how-can-i-replace-non-printable-unicode-characters-in-java

原文链接：https://www.cnblogs.com/deali/p/17085516.html

友情链接：直通硅谷　点职佳　北美留学生论坛

C#热门文章

NPOI的Excel的读取和写入

事务在c#中的使用

基于欧姆龙PLC#FinsTcp协议上位机通讯(二)-C#通讯模块开发

C# 当前 .NET SDK 不支持将 .NET Core 2.1 设置为目标。请将 .NET Core 2.0 或更低版本设置为目标，或使用支持 .NET Core 2.1 的 .NET SDK 版本。

C#读写Excel的几种方法

C#NPOI操作Excel，实现Excel数据导入导出（支持多个sheet）

c#中token的使用方法实例

OrderBy和OrderByDescending排序

C#中的modbus Tcp协议的数据抓取和使用解析

C#Aspose操作Word & Excel简版（后会研究补充更多功能）

C#推荐文章

.NET 9 优化，抢先体验 C# 13 新特性

使用C#爬取快手作者主页，并下载视频/图集(附源码及软件下载链接)

聊一聊 C# 中让人惶恐的 Bitmap

C#/.NET/.NET Core技术前沿周刊 | 第 2 期（2024年8.19-8.25）

Elsa V3学习之Flowchart详解（上）

C#模拟键盘输入、键状态和监听键盘消息

可以调用Null的实例方法吗？

SemanticKernel/C#：实现接口，接入本地嵌入模型

C#.Net筑基-解密委托与事件

C#/.NET/.NET Core优秀项目和框架2024年7月简报