生活是如何变成数据的?
-应用大数据研究人类的“原罪”
潘绥铭|中国人民大学社会学系
近年来,出现了对大数据的盲目崇拜,即不质疑不反思地跟风,无限推广自己。本文不涉及大数据及其在任何自然科学领域的应用,只讨论一个基本问题:大数据能否应用于人类的研究?
虽然中国学术界对这一问题存在一定的质疑,但不仅少见,而且在理论上也在可操作性层面进行了论证,并未切中要害。事实上,大数据最值得质疑的,既不是它的定义,也不是它的功能或意义,更不是方法论层面“一切都可以量化”的核心口号和基本理论。它表达了大数据的三层含义:一是没有量化就没有数据,更不可能有任何大数据;第二,物质世界当然可以量化,但如果仅限于此,那么所谓的大数据只是数量上的增加,其本质并没有改变。纯属炒作。比如天气预报一直在分析海量数据,却没有成为大数据,没有形成崇拜;第三,现在崇拜大数据的原因,只有一个关键点:它量化了人类的行为及其结果,号称包罗万象。
由此,大数据的本质发生了变化,从自然科学入侵到人文社会研究,从科学走向“科学主义”。这不仅仅是一个研究工具的问题,而是一个认识论的根本问题。批评这一点的人文社会科学,著作甚多。本文不会一一列举,只分析人类无限丰富的生活实践从“科学主义”向“数据主义”转化的过程中发生了什么。
▍现实生活被切割
大数据崇拜者极力鼓吹“4V”,却刻意回避一个根本性的问题:当初你收集的是可以用来分析的数据?
在社会学问卷调查中,这是可能的;但是在所谓的大数据中,这是绝对不可能的。因为大数据不是研究人员收集的人类行为及其结果,而是各种所谓的“客观记录”,也就是人类生活中“可利用信息”的极小一部分,比如网络活动留下的痕迹、监控记录等等。
然而,众所周知,在人类活动的所有信息中,可用的远远少于不可用的。后者是人类所有精神活动中最典型的信息。在可预见的未来,它不仅不可用,而且根本不可能被监控。这样,所谓的大数据所获取的信息是极其片面的;其次是无边无际;三是碎片化;第四是没有意义;它不能直接用于任何定量分析。
那么,如何将这些信息转化为可分析的数据呢?首先必须“界定”,即保留什么,抛弃什么;二是要“分门别类”,即什么属于什么;第三步是“定义”,即赋予某种信息特定的人的意义;最后一步是“赋值”,即将不同的定义转化为可计算的值。
以网络活动的痕迹为例,大数据生产者如何界定那些痕迹是有意还是无意、闲着还是盯着、主动寻找还是被引导?定义之后,是根据停留的时间长短还是活动的频率来创造“活跃”还是“不活跃”
这一类呢?为什么“活跃”被定义为“需求”?最后,“需求”的赋值是什么?从“无需求”到“强需求”,不同作业之间的数量关系是怎样的?
显然,在这个三部曲的过程中,完全是研究者自己在主观地、人为地、强行地“整理”着“可获得的信息”,把人类生活的痕迹完全变成自己世界观和价值观所能接受的“数据”。这充其量叫做必然处理;最坏的情况是,这是赤裸裸的伪造。
也就是说,所谓大数据并没有超出“小数据”原本的局限性:切割生命,粉碎生命;我们必须把作为一个整体生活的“人民”当作一堆零零碎碎的东西。在现实生活中,人类肯定不是,也不可能以这种方式认知和行动。因此,大数据实际上并不是在帮助人类思考,而是在试图取代和控制人类的生活经验,这对人工智能来说是一个不好的预兆。
▍的社会状况被忽视了
有人发现大数据记录了个体个体的行为,找不到不同行为者之间的关系;那么问题来了:在这个现实世界中,真的存在与他人无关的个人行为吗?不是所有的个人行为都是在一定的人际关系中产生的,会带来一定的结果吗?
社会不是个人的简单集合,而是通过各种关系把人有机地组织起来。同时,人在特定的社会环境下会做出各种各样的行为,所以不能独断独行空。因此,人类活动留下的一切痕迹必然包含着无限丰富的社会内容。如果我们抛弃了它,无论是什么样的数据,它都不仅仅是一瞥,更是一个盲人。
特别是每个人都是在特定的社会中一点一点成长为“这种情况下的这个人”,然后做出“这种行为”。这是每个人的社会历史建构过程,其中最重要的是我们所有的社会背景、生活状态和成长经历。
但这一切往往只存在于我们自己的经验和记忆中;往往难以描述,也往往无法记录。从“客观监控”的角度来看,就是“风过无痕”。那么,即使没有隐私,即使监控能被重围,所谓的大数据信息源从何而来?因此,对于理解人类生活来说,大数据其实是空中的一座城堡。
如上所述,这样的批评还是很中肯的:“不了解社会和背景的数据,会制造更多的噪音,错过真正有价值的东西。大数据解决不了大问题。”
▍学科建设被抹去
大数据崇拜者大概不知道也不敢承认,人类生活中还有一种现象叫“学科建设”。也就是说,人们对自己行为的解释可能与监视器的解释大相径庭,甚至相反。最常见的是,所有的人际误解都源于此。
那么,无论有多少人类行为被大数据监控,它是如何区分学科建设的组成部分的呢?首先以网购大数据为例。即使你收集了所有的网上痕迹,而且都是数字可见的,你怎么知道人们真的这么想?这种“客观判定”很接近矿物学,但人是有主观意愿的。你是怎么监控的?连物理都有“测不准原理”,更别说人的主观意志了。其次,你知道人类会“呈现自己”吗?说得好听点,就是演戏。如果连测谎仪的结果都不被法律接受,你怎么能屏蔽掉被监控对象的表现呢?第三,不找被监控对象验证一下吗?在司法审判中,即使是证据确凿的罪犯,法官也必须听取他的陈述才能做出正确的判断。但是大数据的崇拜者完全忽略了主体意志的存在。这不是自欺欺人吗?第四,你听说过弗洛伊德吗?你知道“动机”之外还有“无意识”吗?
即使通过询问对方的意愿获得了一些数据,仍然存在这样一个问题:对方是否有足够的能力表达自己的意愿?我们不应该忘记弗洛伊德,不应该忽视无意识行为的广泛存在,也不应该否认人类行为的所有痕迹,无论多么庞大,都不能实际包含和表达人类生命的意义。所以,如果演员自己都不知道是怎么回事,怎么验证呢?根据什么来判断真伪和程度?
综上所述,一切试图用自然科学或数字化来理解人类及其社会的尝试,不一定都是失败的,但也不能否认人类“主体建构”的重要性,其结果必然是切割现实生活。
所以,大数据获得的所有“发现”,其实都只是一些人在描述别人的生活。其他人不知道他们已经被描述了,他们没有办法纠正这种描述。因此,大数据实际上只是一群技术专家构建的新认知霸权,其崇拜者只是渴望利用这种霸权。
▍生命的意义被取消了
至少两千年的人文社会研究史告诉我们,人类的一切行为不仅包含着生命的意义,而且是为了追求生命的意义而行动的。这就是人和物的根本区别。
然而,所有所谓的大数据的“可记录痕迹”如果没有得到对方的主要投诉,就无法包含行为意义的信息。比如,在所有的网络活动中,演员不会表达他们寻求做什么,也不能表达他们带来了什么价值和意义。
以购物网站上记录的数据为例,确实可以容纳千万人在购物时不自觉留下的几乎无穷无尽的痕迹;但这能反映出这些人的购物偏好吗?这些人不在实体店买东西了吗?难道他们没有表现出片刻的偏爱吗?他们每次网上购物都会自我满足吗?
那么,你怎么确定他们会在不同的渠道、不同的情况下做出同样的选择呢?如果你不能证明这一点,那么你的“大数据”只能是“大垃圾”。
交通监控录像、病历、通讯记录等。都足以自称“大数据”。然而,所有这些数据只记录了人们生活中分散的方面。所以,这样的“大数据”再大,也解决不了以下常识性问题:第一,一个人在生活某一方面的表现,与他/她的整个人格和生活,不是有着密切的关系吗?农民工太贵,20元吃午饭;有钱人买几千万的车都不眨眼。这只是所谓的“消费选择”吗?其次,人类生活的方方面面不都是相互影响的吗?农民工吃午饭20元,但能接住200元的礼金;有钱人买几千万的车却拒绝做任何慈善,难道只是所谓的“购买习惯”吗?第三,难道没有人的生活受到社会、文化、历史因素的制约吗?农民工之所以想吃20元盒装饭,不仅仅是因为工资低,还因为他们的抚养系数、失业可能性、职业风险都远高于富人。这也是“可支配资本”吗?
这样,数据越大,误差越大。
▍结语:原罪就是原罪
本文所讨论的一切,其实都来源于长期以来对人文社会研究中“定量研究”的批判。大数据崇拜只是这种思潮的最新体现,只是披上了更光鲜的外衣。
在基督教教义中,原罪不仅是天生的,而且是终身背负的,不能通过自己的救赎来消除。
不幸的是,定量研究也是如此。无论它的技术手段多么发达,无论它的数据多么庞大,一旦应用到人文社会的研究中,它的缺陷和弊病是根本无法避免的,充其量只是程度上的降低。归根结底,“大数据崇拜”实际上是“科学主义”在人类历史面前被击败后的末日哀悼。如果科学无法阻止希特勒的统治,无法预测此后人类的一切发展,那么就不是“艺术拙劣”的问题,而是用错了地方,越过了国界,跑到了一个什么都做不了的领域。
当然,这并不意味着定量研究和大数据一定不能用,而是表达了三层含义:一是不能质疑,不能替代各种非定量的人文社会研究;其次,只有深刻反思这些先天缺陷,充分论证量化研究,才能在人文社会研究中保留一席之地;第三,两个研究就像两条轨道,缺一不可,但平行延伸,永不交叉。
热门文章精选