胡凌：大数据革命的商业与法律起源

By 胡凌 @ 2014-9-6. 5,006

大数据伴随着互联网产业的发展而产生，特别是移动互联网和物联网的兴起，使得数据搜集更为便利和广泛。同时，数据分析业务开始成为互联网行业的特色和主营业务，它可以更为精准地分析和预测消费者与客户的行为，带来更多价值，从而迫使传统行业纷纷向互联网靠拢。大数据革命作为一种被投资人追捧、被媒体炒作的概念还将持续升温，但人们往往忽视大数据在中国成为现实的历史进程和诸多条件，特别是网络经济作为一种新兴的经济力量如何借助成熟的商业模式和不完备的旧法律制度来开拓疆域。

本文将简要讨论这些因素，试图帮助理解未来如何发生。首先，作为一个整体的互联网行业发现了免费模式，在吸引消费者的同时获得了大量数据资产，这一过程伴随着互联网平台和移动互联网的兴起变得更加明显。其次，新经济通过生产工具的变革重塑了互联网的架构，从更多的免费劳动力手中攫取有价值的生产资料。第三，无论是免费内容还是消费者数据，互联网都没有受到强大的法律约束。而商业模式、技术变迁和用户协议中体现的所有权和使用权的分离原则为大数据时代铺平了道路。最后，互联网带来的由商品到服务的转变，进一步扩展了新经济对数据的占有和使用，并对保护旧生产方式和生产力的传统法律提出挑战。

免费商业模式与数据资产

免费内容与服务基本上已成为互联网行业的标准模式，通过免费来吸引用户，赚取广告收入和增值收入。如果说最早的门户网站还秉持着传统媒体经营的思路，那么从电子邮件、即时通讯到安全软件、网络游戏等行业纷纷实行免费，都证明了这一逻辑的势不可挡。

免费商业模式的影响是巨大的，它将传统垄断经济学上的“双边市场”理论推到极致，依托多个免费的产品市场吸引用户，而通过少数市场获取增值收入；因为可以向无数用户同时提供低成本的服务，只要有少数人付费即可获利。这就是为什么很多互联网公司在提供一项主要服务以外，都逐渐扩展至各种服务。互联网公司之间的竞争也不仅仅局限在单项产品市场中进行，而是跨越多个市场的综合竞争。（Evans, 2011）这一点最近在腾讯垄断案中得到广东省高级法院的确认，拓展了人们对新经济本质的认识。

这些免费服务被一些互联网公司视为“基础服务”，与“增值服务”相对应。它们不靠一次性出售书籍、光碟、报纸、流量获利，因而是对传统文化产品、媒体和电信服务生产方式的反动。消费者享受了免费而便捷的基础服务之后，才有动力留在互联网上进一步消费。可以看到，基础服务的范围在不断扩大，从信息内容逐渐扩展至金融、保险、医疗、教育和邮政领域。用户使用的基础服务越多，互联网企业对其偏好和信息的了解就越广泛，并通过大量用户类似行为进行相关性分析，而非因果分析。（Schönberger & Cukier, 2013）

在这一过程中，数据本身对这类轻资产公司而言越来越重要，其价值可以得到二次或多次挖掘，本身成为一种宝贵资产。基础服务本身要求被免费提供，而基于数据分析提供的增值服务才是互联网价值链上最耀眼的一环。从这个意义上讲，互联网并非传统媒体和文化行业的竞争者；它们需要把后者纳入其平台，承认自身的地位，并迫使其合作。互联网十余年来同音乐界、文学界、影视界和电信业的战争已经无数次说明了这一点。（Levine, 2012）

这也是为什么互联网内部的不正当竞争越来越围绕数据资产展开，例如大众点评网和爱帮网的诉讼，以及最近的360综合搜索与百度的纠纷。越来越多的互联网公司开始通过技术手段保护自己的数据资产不被恶意复制和侵占，这些信息内容可以免费被消费者使用，却不能被其竞争对手轻易获取，反过来同自己展开竞争。为完美地实现这一点，互联网平台的兴起在所难免。通过对内容、服务、应用、操作系统、硬件终端甚至是管道的垂直整合，互联网公司可以排他地向用户提供一站式服务。苹果公司的产品就是一个极好的例子，也成为众多互联网公司效仿的榜样。上世纪九十年代中期微软因在windows操作系统上捆绑独家IE浏览器和媒体播放器而受到反垄断指控并受处罚，但十余年后终端捆绑现象无处不在，说明了互联网架构从开放转向封闭已经深入人心。（Zittrain, 2008）

无处不在的计算、终端和劳动力

在发展过程中，互联网形象在人们心目中经历了不同的想象：从新媒体、信息服务到现在的数据分析业。前两者甚至决定了国家管理互联网的基本思路：归口和属地化管理。但数据分析业务将真正超越条块分割的现状，以各种渠道和方式获得价值。一旦互联网行业无法被封杀打压，在积累了海量数据的基础上，它们就会减少对纯粹吸引用户的基础服务的需求（均可以同传统行业展开合作或者外包），减少对盗版内容的需求，从而向更加精细的大数据分析进发。

海量数据的获取离不开数据聚合处理的平台，以及生产数据资产的劳动力和工具。随着移动终端的大规模普及和背后云计算的支撑，个人电脑不再是用户接入互联网的唯一方式，甚至不再是主要方式。未来的眼镜、手表、汽车、各种可佩带物品均可成为人们相互沟通、获取信息的媒介和硬件。人们通过这些信息终端使用在线服务的时间和地点都不像台式机时代那样固定了。当人们可以在盈余时间中使用无处不在的互联网服务时，大量个人数据就可以更容易地得到深度记录和分析，生产工具的廉价和普及为大数据时代奠定了物质基础。（Shirky, 2010）

从数据生产的意义上讲，用户和互联网的关系不仅仅是消费者和服务提供者的关系，或者反对传统利益和权力的同盟军的关系，而是可以被看成是免费劳动力和工厂的关系。互联网时代预示着人们不再是被动的文化产品消费者，他们通过创生性的终端同样可以成为文化的生产者和创造者。对新经济而言，用户不仅仅是他们自身文化的生产者，同时也在为互联网企业生产信息内容。（Scholz, 2012; Boutang, 2012）每时每刻都有大量的文字、图片、视频上传至网上，在用户之间分享。信息传播和流通的速度越来越快（请比较一下早期的BBS和“共时性”的微博），同信用货币一样，能够转化为更多的价值。同时，在一系列意识形态的鼓舞下（言论表达自由、信息自由流通、礼物经济、分享、合作、积极行动），用户对群体生产者的身份引以为傲，这进一步推动互联网经济的发展。

如果说用户是初级生产资料（非结构化数据）的生产者，第三方应用开发者（或者参与QQ互联的网站）则是大数据时代新经济生态系统的次级生产者和初级挖掘者。他们从平台提供商那里获得开放API接口和不同目标用户的信息，开发各种应用服务，获得的收入与后者分成，反过来又增加了平台的整体价值。平台免除了中小开发者自己开办网站积累流量、从头搜集用户数据的不确定性，允许他们有条件地使用自己的海量数据。未来随着平台和终端可以扩展至对一切事物的控制，用户越来越难以转换到另一个竞争性的平台，从而成为某一割裂的互联网帝国的忠实属民。

所有权与使用权的分离

上述围绕数据展开的复杂权力结构和利益关系的法律基础常常被忽视，这一基础可以归纳为法律学者耳熟能详的“所有权与使用权的分离”。尽管很多学者还在探讨信息所有权的法律结构，现实已经清楚地表明：互联网时代的信息所有权并不重要，重要的是谁有权使用各种信息和数据，能够产生何种价值。

首先，如前所述，终端经历了从台式机到无处不在的信息设备的演化。当人们的文档、图片、音乐还能够储存在本地、通过本地计算使用的时候，很容易将其比拟成可以支配和控制的“财产”。然而，当越来越多的个人文档被鼓励上传至云端，能够通过移动终端随时访问时，它们将脱离拥有者的控制，并可以被云储存服务商进行使用和分析。通行的用户协议要求至少以分析的方式永久使用用户上传的个人文档，要求获得这种使用权是大数据产生价值的必然要求。

其次，类似地，当人们通过磁盘或光盘安装某种软件或游戏的时候，对物理实体的认知容易将这类产品视为和鞋子一样的“财产”，因为可以自行掌控。然而当越来越多的软件、信息内容和游戏通过在线方式提供，并可以随时更新的时候，它们不再被看成产品，而是一种源源不断的服务。用户需要容忍它们的质量瑕疵，甚至无法获赔由此造成的损失。通过用户协议进行的这种约定有利于向大规模用户同时提供服务，并将互联网公司自身的风险降至最低。它们不会授予用户所有权，而只是免费的无保障的使用权。类似的机制还普遍体现在网络游戏中的虚拟物品和企业虚拟货币上面，它们迎合了人脑对金钱和实物财产的敏感和本能欲望，却绝不通过用户协议为用户创设财产权利，从而并不保护这类“虚拟（illusionary）”产权。

再次，像百度MP3或文库那样的利用盗版作品的服务模式一度促成了互联网的“非法”兴起。这可以部分归因为互联网公司从免费使用盗版作品获得的可能收益远远超过侵权损害赔偿数额，部分归因为各种官办著作权集体管理组织维权的低效。同时由于存在“避风港”规则的庇护，作家或音乐人长期以来只能要求互联网公司被动地删除侵权作品，而不能强制其主动监控侵权内容。因而在大量盗版作品被通知删除之前，互联网公司事实上通过使用而获得了非法收益。“避风港”规则意在平衡新旧利益，但实际上保护了作为一个整体的靠免费信息内容为生的互联网行业。更重要的是，互联网免费模式要求在生产方式上（opt-out）改变传统的授权模式（opt-in），进一步凸显了使用权的重要性。（胡凌，2013）

第四，互联网还通过各种机制鼓励用户为其生产信息内容。这一生产活动的最终分配通过用户协议明确约定，即用户仍然对其发表在某一互联网服务公开区域上的内容享有所有权，然而同时授予互联网公司享有永久和免费的使用权。这一条款能够确保互联网上永远有信息存在和不断流通，即使用户注销其账户，也无权要求从服务器上彻底删除全部个人活动和信息。这是两权分离带给互联网的最大好处。同时，关于用户隐私的约定也仅限于那些能够直接识别出用户身份的基础信息，对于能够从用户网络行为中发掘出的大量有价值的数据则无需用户同意即可使用，这就为大数据分析扫清了法律障碍。

最后，从平台提供商和第三方开发者的关系来看，也存在两权分离的广泛实践，即第三方中小开发者作为外包的劳动力可以免费使用平台的API接口和某种特定类型的用户信息，产生出的价值再和平台提供商分成。《互联网周刊》主编姜奇平先生很早就看到了两权分离作为新经济模式的核心特征，（姜奇平，2012）然而他始终强调的是这最后一点，却没有提及大量用户在所谓“分享型经济”中初级生产资料提供者的地位。再次回到前述观点，用户帮助互联网战胜了传统利益群体，同时也将自身牢牢捆绑在新经济的机器上，通过集体行为像农民一样不断为领主生产食粮，或者更不恰当地，像蜜蜂一样不断为养蜂人生产蜂蜜。

大数据的法律障碍

至此可以看出，大数据革命的重要现实条件是拥有海量数据的平台出现，围绕互联网平台及其封闭价值链产生了一系列初级和次级的资产提供者。因此，围绕数据资产的争夺就成了互联网治理中重要的争论议题，我们由此可以理解为什么谷歌联合创始人会把苹果公司和facebook同中国与好莱坞放在一起批评，因为它们都阻碍了数据在世界范围内自由流通，从而阻止其从中获利。（Katz, 2012）我们同样也可以理解互联网公共领域的实质和局限，例如，尽管社交网络允许人们迅速发布传递消息和真相，挑战传统权力和媒体，但社交媒体的架构仍然从属于商业化盈利的需求，进而影响甚至决定网络言论和表达的效果。

未来的大数据发展面临着一系列约束数据和信息流通的障碍，而互联网巨头一直要求打破这些障碍，解放各种信息，并在自己的势力范围内重组。中国目前和互联网相关的法律仍然是以原子时代的思维方式，一味依靠政治逻辑进行治理，而没能够从商业逻辑角度思考互联网的本性，由此不仅没能有效规制互联网产业的有序竞争，还影响了其他重要社会价值的实现。

在商业逻辑看来，约束个人信息流通的法律至为关键。隐私保护在中国的法律制度中一直处于灰色地带，因为中国幅员辽阔，又处于从农业熟人社会向工商业陌生人社会的急剧转变当中，很难统一人们对隐私权的认识和实践。互联网第一次用实践强行统一了标准，即通过用户协议将互联网隐私界定为可以追溯和识别个人身份的基础信息。无论用户是否真正阅读，这都是一种进步，它适应了信息技术的现实，取消了传统的空间隐私权的地位，并承诺未经用户许可不向第三方出售或转让用户隐私。缺陷在于没有赋予用户对个人数据的控制权，加之大部分用户对个人数据安全的无谓心态，都直接造成了个人信息无序搜集、买卖和盗窃的泛滥。

巨头平台的兴起可能对个人数据利用的混乱状态是一个纠偏，允许第三方开发者有效有序地开发，却默认了自身的合法性。如果中国未来的个人信息保护法像欧盟一样严厉，那么很难设想现有的巨头还会继续存在。鉴于互联网经济的持续影响，基本上可以肯定中国不会效仿欧盟的实践，而很可能进一步区分属于人格权和基于空间形态的传统隐私与更加中立的个人数据，从而为新经济的发展保驾护航。消费者们也可能继续拥护这个二分法，允许互联网创新进一步发掘波兰尼意义上的默会知识和情境知识，从而更好地满足自身的需求。（Weinberger, 2012）而且通过算法和机器对个人信息进行的分析和预测，似乎也不同于以往人为地侵犯个人尊严的行为，例如搜查和监视。

研究已经表明，即使经过匿名化处理的数据仍然可以追溯至具体的个人，可见以“是否能够直接识别”为标准不足以保护用户的隐私。（Ohm, 2010）更何况用户完全失去了对个人数据的控制，并不能知晓这些数据在未来能够以何种方式被创造性地挖掘和利用。问题的实质仍然在于用户的自主选择，是否有意愿自己掌控数据的流向与使用。对于掌握大数据的企业，同样有必要对其使用用户数据的行为进行监管，但无论如何，上述历史反映了互联网企业如何通过用户协议和隐私法律的模糊利用用户数据进行搜集和使用，而讨论任何未来的法律，都不会实质性地损害到新经济的根本。

版权法则是阻碍大数据革命的另一个障碍。和隐私相似，如果版权法过于严格，则会影响依靠海量信息生存的互联网发展。中国互联网的历史已经基本排除了这种可能性，作为一个整体的互联网行业不会因为盗版的“原罪”而被摧毁，更何况它们正在努力漂白，不仅为自己的合法性宣传，也为拓展业务同旧利益群体开展合作，更为新的生产方式而游说立法者，试图将法律体系按照它们的意愿重新塑造，例如网络广告、反垄断、在线交易征税、电子货币、投资结构等等。围绕信息网络传播权展开的大量诉讼都表明法律最终没能解决盗版侵权问题，真正解决问题的毋宁是新旧利益之间的密切合作，互联网产业真正做到了让自己成为旧法律的“例外”。

新经济的一个更为长远的意图在于将我们日常生活的世界全部数字化，从而可以交由某一个先进的算法进行处理，当算法可资处理的数据足以反映人类社会最为基本的关系和行为的时候，真正意义上的人工智能就诞生了。但这个过程并非田园诗般美妙，而是伴随着利益的争斗和权力关系的消长。本文指出，大数据革命是我们过去的互联网时代的延续，而非某种“惊人的一跃”。塑造互联网过去发展的商业模式和法律制度仍将影响未来大数据的实践。可以预见的未来将是互联网产业进一步破除阻碍信息流通的种种障碍，获得更多可分析的数据，并不断从传统法律保护的种种利益和价值中获利。本文还试图将劳动重新引入法律分析，因为传统法律保护的利益在互联网时代全都可以转化为点滴的集体劳动，并可以成为赢利的资产，例如言论、隐私、版权和信息财产，否则就无法理解用户在互联网崛起的过程中扮演的关键角色。

限于篇幅，本文无法讨论数据挖掘和预测的工具（“算法”）的历史及其社会效果，读者可以参考两本新近出版的著作进一步思考。（Schönberger & Cukier, 2013; Gitelman, 2013）

参考文献

胡凌（2013），“谁拥有互联网信息？”《北大法律评论》，北京大学出版社。
姜奇平（2012），《新文明论概略》，商务印书馆。
Boutang, Yann Moulier (2012), Cognitive Capitalism, Polity.
Evans, David S. (2011), Platform Economics: Essays on Multi-Sided Businesses, CreateSpace Independent Publishing Platform.
Gitelman, Lisa (2013), “Raw Data” Is an Oxymoron, MIT Press.
Kats, Ian (2012), “Web freedom faces greatest threat ever, warns Google’s Sergey Brin,” Guardian, Sunday 15 April.
Levine, Robert (2012), Free Ride: How Digital Parasites Are Destroying the Culture Business, and How the Culture Business Can Fight Back, Anchor.
Ohm, Paul (2010), “Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization, ” 57 UCLA Law Review 1701.
Scholz, Trebor (2012), Digital Labor: The Internet as Playground and Factory, Routledge.
Schönberger, Viktor Mayer & Cukier, Kenneth (2013), Big Data: A Revolution That Will Transform How We Live, Work, and Think, Eamon Dolan/Houghton Mifflin Harcourt.
Shirky, Clay (2010), Cognitive Surplus: Creativity and Generosity in a Connected Age, Penguin Press.
Weinberger, David (2012), Too Big to Know: Rethinking Knowledge Now That the Facts Aren’t the Facts, Experts Are Everywhere, and the Smartest…, Basic Books.
Zittrain, Jonathan (2008), The Future of the Internet–And how to stop it, Yale University Press.

（本文原载《文化纵横》2013年6月号）

智识@IdeoBook™

胡凌：大数据革命的商业与法律起源

Leave a Reply