半岛彩票_甲小姐对话Serge Belongie:送你一颗可证伪性的“”|甲子光年

  卡尔·波普尔在1934年提出,如果一个理论或假设可以被现有技术的实证检验在逻辑上抵触,那么它就是的。而如果一个表达无懈可击,以至于让世界没有置喙余地,那往往只能让所有人敬而远之,对推动科学进展无益。

  科学家们能够或应该研究的问题,或多或少要有罩门,即让别人有机会攻击甚至推翻。可证伪性的目的,是使理论具有预测性和可测试性,从而在实践中有用。

  社交媒体平台充斥着大量帖子和评论,许多主张无法被证伪。然而,事实核查工具不足、社交网络讨论缺乏结构、叙事识别存在困难、公共讨论缺乏质量等,造成诸多困扰。

  论文研究了如何在社交媒体上识别和理解那些无法被证伪的主张(unfalsifiable claims),并将这些主张归纳为有限几种叙事(narratives),以便更好地促进社交媒体上的讨论和辩论。

  有趣的是,作者构建了一个名为PAPYER的数据集,包含针对公共洗手间的干手方式(纸巾与空气干燥器)的辩论,600个短文本摘录,31种叙事,4个超级类别,以理解和发现在线讨论中的主流叙事。

  该论文引入了一种超越现有事实核查技术能力的新方法,为管理和理解数字通信环境中不可证伪声明的影响提供了重要贡献——使用这个流程可以发现主流叙事,并且表明这个流程的表现超过了最近的大尺寸变换模型和最先进的无监督主题模型。

  通过实验,作者发现使用现代句子转换器(如T5模型)进行初始句子嵌入是关键。他们还发现,采样策略对于生成高质量的嵌入至关重要,特别是“Distance-Rnd”策略表现最佳。

  虽然上述论文鲜为人知,但Serge本人是计算机视觉和机器学习领域极具影响力的科学家,主要研究对象识别和图像分割,他各类论文引用总量为178971万次。

  MSCOCO数据集是最著名的计算机视觉大规模数据集之一。2000年,Serge与Jitendra Malik(现加州大学伯克利分校计算机科学系教授,计算机视觉领域著名学者)共同提出了“形状上下文”(Shape Context)概念,是计算机视觉和对象识别领域应用十分广泛的形状特征描述方法。

  2004年,Serge被《麻省理工学院技术评论》评为35岁以下的青年科技创新者;2007年,他和Jitendra Malik获得了马尔奖荣誉提名;2015年,Serge获得了ICCV亥姆霍兹奖,该奖项主要颁发给在计算机视觉领域做出根本性贡献的论文作者。

  目前,Serge团队正在开拓社交网络分析的全新维度——从此前未被关注的,不适合做传统事实核查的大量琐碎言论切入,分析社交网络上的议题设置和“叙事操纵”。

  世界反法西斯战争后,无论技术突破和瓶颈交替,都随着时间在历史画卷中跌宕起伏地推移。如同在时空坐标系中展开的《清明上河图》,充斥着千万种光景和古今众生相。

  关注公众号「甲子光年」,后台回复“可证伪”,即可获得文中所提到的《寻找不可证伪声明中的结构》及MSCOCO数据集两篇论文。

  1.可证伪性正在经受挑战研究人员在实践中通常会受到他们喜欢或不喜欢的叙述的影响——有点类似于Instagram上的热门话题。

  甲小姐:“不能证伪,不成科学”已成为一个科学界的普遍共识。但许多哲学家对此提出了质疑,认为可证伪性原则可能导致科学争论变得永无止境。可证伪性是否是科学进步的必要条件?

  Serge:机器学习文献在过去15年出现了爆炸式增长,每天都有大量论文发表、引用。在这些论文中,相关工作的部分往往会引用其他文献,但引用的未必是与其工作最相关的文献。这是因为文献数量巨大,研究人员实际上是在回应该领域的主导叙述。

  我们通常认为自己是卡尔·波普尔传统中的科学家,只受可证伪断言的影响。然而,科学研究也有潮流,比如生成对抗生成网络和Transformers等技术。尽管这些论文的目标是遵循科学传统,研究人员在实践中通常会受到他们喜欢或不喜欢的叙述的影响——有点类似于Instagram上的热门话题。

  Serge:科学家们往往会宣称自己不受这些影响,认为自己是客观的,但他们毕竟是人类,会被这些流行的观点所左右。这是我们认为不科学的东西,更多的是直觉和观点。

  Serge:我们首先需要讨论关于事实核查的文献。比如哥本哈根大学的伊莎贝尔·奥根斯坦(Isabelle Augenstein )教授开发了一种从确定声明的核查价值开始的方法。我们会将一个声明进行核查,并在0到1的范围内确定其核查价值。

  例如,有关加利福尼亚首府是萨克拉门托的声明,因为可以在多个结构化知识库中找到,非常适合进行语法和句法检查。我们可以检查这样的声明:“加利福尼亚州的首府是萨克拉门托”,并将其可检验性评分可能接近0.99。然后,我们将其提交至结构化知识库确认答案。这种基于深度学习的可检验性系统处理大量声明和训练数据,评估不同声明的核查价值。

  但有些声明,如“移民到加利福尼亚州是不好的”,更多反映个人观点,不适合事实核查。相对地,如“自2020年以来,加利福尼亚州的移民数量持续增加”这类声明则具有高核查价值。

  所以我们特别关注那些难以验证的声明——这些声明无法直接验证,但它们在社交媒体上引发的讨论颇具意义。多次核查可能帮助我们更好地判断。

  这些技术和工具的结合,使我们能够更好地理解和处理大量的叙事内容,间接地帮助识别不可证伪的声明。

  我们能够分析各种形式的文本。无论是推文还是Reddit评论,我们用NLP技术提取和理解这些内容中的叙述和主题。

  其次,我们使用了聚类和分组算法。这些算法帮助我们将大量的社交媒体内容按照不同的主题或叙述进行组织。

  通过叙事聚类和断言分组,我们将大量的内容组织成较小的集群,让事实核查人员更高效地处理这些内容,而无需逐一检查每个项目。这样即使是不可证伪的声明,也可以通过聚类和分组的方式被识别和分类,便于进一步的分析和处理。

  我们会考虑两个输入,比如两篇推文,然后根据不同叙事方面来衡量它们的相似性——这些内容可能涉及的话题包括核能与绿色能源之间的辩论,或者婴儿配方奶粉与牛奶的讨论。

  网上有许多激烈争议的话题,通常是虚假信息活动的结果。这些活动可能非常模糊。我们试图理解的是,这些不同的陈述如何以语言或模因的形式表现出来,它们可能包含图像、文字、音频陈述等,看起来是完全不同的内容片段。你可能在社交媒体平台上收集了数百万个关于某个话题的讨论,但所有数据蕴含的观点可能只有几十个。我们通过大型语言模型、深度度量学习等技术,试图理解这些现象。

  人类注释对的可视化,子图(a) 展示了正面对,即人类标注的相似或一致的叙事对。子图(b) 展示了负面对,即人类标注的不相似或不一致的叙事对。来源:《Searching for Structure in Unfalsifiable Claims》

  2.“真假”之外并不是所有声明(claim)都值得事实核查,也并非所有事实核查都能得到真或假的结果。

  Serge:我们在15年前开始进行物体检测研究,起初只有一个包含200多种鸟类的小型数据集CUB200。COCO数据集最初是我的博士生Tsung-Yi Lin在微软研究院的暑期实习项目,他当时的mentor是我的另一位博士生Piotr Dollá。这个项目逐渐演变成一个由学术界和工业界的研究人员组成的联盟。他们希望创建一个能详细描绘出自然环境中的日常物体的数据集,并对这些物体的名称和空间位置进行精确地标注。

  Serge:是这样的,我们围绕它组织了越来越多的知识社区,COCO已经被数百万人使用。我们从小范围做起,最终发展出了一个带来深刻影响的研究领域。

  我参加的第一次计算机视觉会议是CVPR 1994,也是在西雅图。那是三十年前了,当时大约有300人参会。而现在,2024年的西雅图CVPR,有一万两千人参加会议。

  Serge:从我记事起,我就对模式和事物分类很感兴趣。中学时我做过关于对螺丝、螺栓和其他紧固件进行分类的课堂项目。上大学时我对音频模式产生了兴趣,特别是生物声学、比如鸟类或鲸鱼的叫声。而在图像方面,是指纹和人脸深深吸引了我。

  我曾研究过如何从视频中读唇语。这个问题的各个方面都令我着迷:音频与视觉的融合、不同说话者之间的差异和计算上的挑战。在90年代初,数码相机刚刚问世,但它们还没有任何形式的计算理解功能。如今,你可能理所当然地认为取景器中会出现面部检测框,或拥有能够智能组织你整个家庭照片的相册软件,但那时候还不存在这些。

  我当时就感觉这种技术的需求会非常大,同时我也喜欢技术背后的数学原理。我喜欢这些领域使用的技术,但我并不想主修数学或物理。如在声音、视频和图像处理中使用复杂的数学方法来解决问题。

  Serge:我的团队在CVPR主会议上提交了多篇论文,我也在两个研讨会做了分享。其中一个报告是关于专注于计算机视觉研究的历史,主要为了帮助年轻学者了解经典的计算机视觉技术,即在深度学习和变换器之前的技术。同时我还介绍了Visipedia项目,它始于2011年发布的CUB200数据集的扩展版本。目前,Visipedia的研究内容已经扩展到数以万计的植物、动物和真菌,为自然界中的物体识别提供了重要的研究基础。

  另一个报告是我在今天的采访中想着重分享的内容,跟叙事(narrative)、、虚假信息有关,尤其在社交媒体发达的背景下。

  Serge:虚假信息和社交媒体领域里的经典问题是事实核查。比如哥本哈根大学就有大量相关工作。一般做法是对于某些需要核查的言论,我们用人工智能系统搜索相关事实,并且根据事实预测一个0至1之间的真实性评分。

  Serge:这个方法本身没有太大问题,挑战来源于问题本身。并不是所有声明(claim)都值得事实核查,也并非所有事实核查都能得到真或假的结果。比如 “熊猫是中国的国宝” 是一个能够通过结构化知识库和大量数据训练模型、核查真实性的声明。而 “搬家到加利福尼亚” 这句话则不然。

  Serge:后者这类声明没有被大量研究过,却是同等重要的问题。这些言论或许没有严格的真实/虚假定义,却会在社交媒体上引发大量讨论。在只需要对新闻媒体做事实核查的时代并不存在这个挑战,而在社交媒体高度发达的今天,一类引发激烈讨论,难以科学定性,或无法证伪的话题变得非常值得研究。

  Serge:很高兴你提了这个问题,让我们举一个有趣的例子。你在公共洗手间洗完手,有两种擦干手的选择。我不确定中国常用什么方式,在欧洲,你可以拿出纸巾,也可以使用热风烘干机。

  Serge:生产烘干机的厂家和生产擦手纸的厂家与任意的连锁饭店签约,都能赚很多钱,整个市场大概会产生数十亿美元的收入。但欧洲现在很多人对这两种方式的区别有非常强烈的看法。很多人说其中一种方法可能会传染疾病,而另一部分人说,大量用电或造纸会浪费树木造成环境破坏。大多数持有这些观点的人都不是公共卫生或者环境专家。

  Serge:我们其实并不在乎言论的真实性,因为社交媒体里很多话题是无法严格证明或证伪的。但这个话题被提出来是因为一小部分人希望让大众相信,一种方法比另一种方法好。他们可能创建了数十万个机器人生成相关内容。现在你在社交网络上搜索关于纸巾和空气干燥器的讨论,你会发现数百万条评论。我们的研究不关注严格比较两种方法的利弊并给出事实核查结果。我们更关心探测到这类被设计的议题。

  甲小姐:你的研究开拓了另一个维度。传统的事实核查关注语义(semantics)的真实性,而你的研究关注陈述或声明的语用(pragmatics)——预测的目标不仅限于真实与否,而是拓展到社交网络上由部分用户或者大量机器人营造的,为了实现特定目的话题讨论。这个研究你知道意味着什么吗?

  Serge:是的,我们在创造全新的东西。我们知道的多数相关研究只关注事实核查。但是我们在尝试用话题相关的自然语言技术对社交媒体上的讨论进行分组和聚类,帮助个人、企业、策略制定者了解社交媒体上正在发生的事情。我们不对这些话题和讨论内容作价值判断,只客观显示每个议题以何种形式被提出。

  甲小姐:为了实现这个目标,我们首先需要一个数据集。建设这个数据集应该是个很大的挑战。在开创计算机视觉研究的时候,你们从一个小型的鸟类数据集拓展到COCO。这次你们是怎样切入的?

  Serge:这类社交网络行为通常有一个特征。某个话题可能有一百万条相关推文,看起来有成千上万个账户在参与讨论。但是通过分析,我们可能发现其中有十万个推文实际上发表了完全相同的东西,有非常相似甚至一样的叙述。不过仍然请记住,这并不意味着这些讨论是正确或错误。我们让用户看到不同言论的聚类和分组,使得事实核查、社交网络分析工作者能更容易处理和理解大量内容,而不必处理突然涌入的几百万条推文。

  Serge:我认为它能,也希望如此。假设在地中海,俄罗斯和美国的两艘舰船相遇了。社交网络便会开始讨论,一组叙事便就此诞生。每几个小时都会有新的信息出现,其中可能一方舰长发表了声明,或者又有人发表一段手机录音。这种情况下,某些叙事和议题得到关注,另一些可能会变得无关紧要。

  Serge:以及信息。为了给专业外交官提供帮助,我们希望制作一个仪表盘(Dashboard),提供全面的相关信息,也将这些事件放入世界背景中。这种系统可以让人们避免草率地做出决定。我想强调,系统本身不决定哪方是对的,而是全面组织信息。

  举例来说,《小美人鱼》和《丑小鸭》都是丹麦作家的作品,但它们迪士尼电影版的故事都做了符合美国文化的调整。由于在社交网络上美国叙述相对于丹麦叙述的更为主导,许多其他国家的网络用户中几乎鲜有人知安徒生故事的原版。

  在数据标注过程中,尤其是对社交网络数据做标注更会受到语言和文化的左右。再比如情感分析已经是事实核查中的重要部分,而情感预测模型本身在训练中可能存在大量偏见和刻板印象。AI模型训练是垃圾进、垃圾出的过程,本身难以解决训练数据带来的问题,因此我们必须了解模型使用了什么训练数据。我们可以说,没有人类参与的事实核查是不存在(不可靠)的。

  Serge:语言模型生成的虚假内容是我们面临的新挑战。此前的社交媒体虚假账号往往有非常简单的模式可循。但是有了GPT和图片生成模型后,虚假账户创建者可以生成更复杂和自然地虚假个人资料,进而伪造看起来很真实的社交媒体账户。这些账户不容易被传统的虚假账户识别模型找到。这些生成式AI模型也给传统的事实核查任务带来了相应的挑战。因此,生成式AI创建虚假信息和识别虚假信息,会是这个时代的猫鼠游戏。

  甲小姐:这些挑战看起来不是单纯能通过模型能解决的,可能会上升到AI与人类合作这个维度。你似乎总是在新的维度上发现新的问题,然后从简单切入去解决。

  Serge:是的。我们的新想法可以与维基百科类比。人们曾经认为维基百科同一个节点只需要语义相同的不同语言页面就好。实际情况是,不仅仅是语言不同。

  同一词条的不同页面的语言、文化、价值观、传统,所有因素混合在一起。例如原子能和化石燃料,它在不同语言和世界不同地区的覆盖方式非常不同。所以这提醒我们,我们试图建设的AI系统并不是纯粹自动化的,也不是一个独立运行的模型。这是一个人类参与的系统,意味着你需要世界各地许多不同的人类社区来标注和组织数据,并考虑所有不同的部分。这是一个很深刻的大问题,因为偏见总是存在的。

  Serge:这是组织所有不同类型社区的过程。世界上不同地区,不同年龄段的人们学习文学、历史、科学等不同专业,每个领域都有自己的故事。为了让我所描述的研究获得成功,我们需要大量了解各种议题的标注者。他们不必是专家,但他们需要对所须标注的内容,例如核能、创业,或者加密货币有一定的知识,才能知道叙事和议题的相似性。因此最大的挑战是社区的组织,而非AI基础计算和储存设施。

  Serge:如果我们开发这种关于议题检测的基础设施,就像很多技术一样,它可能被用于好事或者坏事。因此与很多商用AI不同,我们试图开发公开、透明和可审计管理的系统。因此,我们将有一个完全透明的知识库,用户可以看到数据的编辑历史,包括数据是什么时候被收录的,被哪些标注者标注而已。

  但我们能做的最大努力是创建一个吸引数以万计不同讨论领域感兴趣的人来对系统进行标注。尽量多的标注者可以帮我们带来统计意义上的客观。维基百科也有一些设计透明度和问责的机制,我们也会做同样的事情。

  假设一家公司想要提高自身的多样性、公平性和包容性。于是他们的董事会召开会议,讨论雇佣更多女性或少数族裔。这类讨论在许多公司中都很常见,例如在某所大学里,学习电气工程的女性可能不多,该系希望采取措施改变这一现状。在这些会议中,可能会出现很多没有知识或信息支撑的讨论。

  有些人会带有偏见地表达女性不擅长数学这样的观点。这时就需要一个系统可以帮助系主任、CEO或需要领导这些讨论的老师,他们可以从系统中提取一套叙述来构建讨论。此外一旦系统开始工作,它会将语句索引并解析为预先存在的叙述。这样,CEO、老师或会议主持人就能避免质量低或混乱的对话,拥有一个有效的结构和分类系统,引导讨论并防止冗余的对话。

  Serge:不同的领域都有其独特的挑战。其中一些是经典问题,例如处理大量数据以及如何标记它们,如何减轻偏见等。但在可视化方面,我们也面临着大挑战。

  刚我们提到不同语言文化所面临的差别。每一个特定话题都有许多不同角度的表述,不同标注者也会由于各自的偏见提供不同的标注。从信息理论的角度来看,试图压缩这些多样化的账目可能会导致信息的丢失或损坏。这类问题将贯穿整个项目,并且我们将频繁遇到这些问题。

  Serge:现在越来越多的研究者开始关注多模态数据,一个模型中同时处理图像、文本和音频等多种数据类型,这种方法通常使用如Transformer这样的模型架构来解决复杂的实际问题。我相信这种趋势会持续下去,未来的人工智能领域新人会发现,同时掌握多种专业技能比单独深入一个领域,如自然语言处理或计算机视觉,更为自然。

  个人认为,尽管有人声称人工智能将完全取代医生,这种说法夸大其词了。但我确信,在放射学、皮肤病学和组织病理学等领域,人工智能辅助系统将会普及并受益每个人。

  至于无人驾驶汽车,尽管过去有预测称视觉技术和人工智能的进步将实现无人驾驶汽车的普及,但我认为这种情况不太可能发生。除非政府采取措施限制传统汽车在某些车道上行驶或完全禁止使用传统汽车,否则在美国,无人驾驶汽车成为常态的可能性极小。

  甲小姐:我喜欢你的论文。我的想法也有类似之处。技术发展同步并举地解锁着新的认知维度,最有价值的方恰是有极简切入点却可辐射全局的方。

  甲小姐:举个小小的例子。沿着可证伪性走,科学会自己走上否定之否定的迭代之路……回到我们万般熟悉的,科学的结构。

  张一甲,甲子光年创始人,2013年毕业于北京大学数学科学学院,获国家发展研究院经济学双学位;曾获中国数学奥林匹克金牌,入选国家集训队;研究方向为金融数学和博弈论,兼任北京大学数学科学学院理事。