第2章数据迷雾
(1)
会议室的窗帘没关严,斜射进来一束光,劈在长条桌边沿上,像一把哑了的刀。
艾尔肯·托合提上来了,他惯常挑靠门的位子坐,背后朝着那道光,十二年前刚入系统时,带他的老处长说过一句话,千万别让光照在脸上,那样你瞧不见别人,别人却能看见你。
这话他记了十二年。
八点整,林远山推门进来。
四处处长的脚步声很重,皮鞋底子硬,踩在地胶上咚咚响,他手里拎着个牛皮纸袋,封口处的火漆还没干。
“老马呢?”
“在路上,刚从南疆那边发过来的材料,他去档案室拿的。”
林远山点下头,把纸袋扔到桌上,拽过椅子坐下,他没有立刻开口,而是从口袋里掏出一包皱巴巴的烟,抽出一根叼在嘴上,却不点燃。
艾尔肯知道他三年前就戒烟了,但是这个叼烟的动作却一直没有变,林远山说嘴里不叼点东西,脑子就不转。
“厅里的意见下来了。”林远山开口,声音像是砂纸打磨木板,“成立专案组,代号‘长风’,我当组长,你当副组长,也是主办侦查员,技术科调古丽娜过来,外线组调老马,周敏副厅长直接分管,一周两次汇报。”
“规格不低。”
“事儿不小。”
林远山把那个牛皮纸袋推过来,艾尔肯拆开,里面是一摞打印材料,最上面一张纸上印着四个大字,暗影计划。
“你先看,等会古丽娜来汇报技术分析。”林远山站起来走到窗边,拉开窗帘的一角往外看,天色很亮,他眯了眯眼,“上面的判断是,这不是单独的事件,境外有组织在搞鬼,而且是有系统的搞鬼。”
艾尔肯翻开材料。
第一份舆情监测的简报最近3个月曲线数据某论坛节点、某短视频平台节点和某境外即时通讯软件节点上的红色虚线在二月十几号突然升高。
第二页是截图,标题名为《我在南疆的真实见闻》《一个维吾尔族青年的心里话》《他们不想让你知道的真相》……挤满了整张纸。
艾尔肯盯着一条帖子。
可是这次却不一样。
这次的文本太“干净”了,干净得不像人写的。
门开,古丽娜·阿不都进。
28岁数据分析员,浅灰色西装外套,黑色高领衫,简单马尾辫,怀里抱着笔记本电脑,腋下夹着文件夹。
“林处,艾哥,不好意思,我来迟了,刚才机房那边正在跑最后一轮的数据。”
艾尔肯注意到她用了“艾哥”这个称呼,单位里古丽娜对他的称呼一直在这两个词之间徘徊,“艾处”和“艾哥”,正式场合就用“艾处”,私下或者小范围讨论的时候就会变成“艾哥”。
也就是说她今天带过来的东西不适合用太正式的话说出来。
“坐,先说你的发现。”林远山转过身,把窗帘重新拉上。
古丽娜打开电脑,投影仪嗡嗡响了几秒,白墙上出现了一张数据图表。
“这是最近四十五天的舆情分析结果。”她拿起激光笔,红点落在图表的第一个峰值上,“从二月十六号开始,境内外多个平台几乎同时出现了一批涉疆负面帖文。表面看,这些帖子的内容各不相同——有说宗教问题的,有说就业问题的,有说文化传承问题的。但我们做了语义分析之后发现,它们有一个共同的特点。”
“什么特点?”林远山问。
“结构高度相似,”古丽娜切换到下一张幻灯片,屏幕上出现两段文字对比,关键词用红色标注,“你们看,这篇讲清真寺的,这篇讲棉花采摘的,表面上风马牛不相及,但是如果我们把它们的句式结构提取出来,就会发现——”
她敲了几次键盘,文字就消失了,出现的是两条几乎重合在一起的曲线。
“叙事节奏一模一样,都是先用第一人称建立可信度,然后铺垫情绪,三到四个‘个人经历’,最后抛出一个开放式的问题引导讨论,这不是人写东西的方式。”
艾尔肯看着那两条曲线,沉默了几秒。
“你的意思是,它们都是机器生成的?”
“不只是机器生成。”古丽娜的脸色变得严肃起来,“我们拿当下主流的检测工具试了试,结果显示这些文本人工参与度极高,就是说,并不是让程序简单地写一段话这么简单粗暴,而是——”
“人机协同。”艾尔肯接过话,“有人先设定好模板、关键词,让生成式程序出个底稿,然后人工润色,加点本土化的细节,对吧?”
古丽娜点头,眼睛里有一种被理解的释然。