为推动大规模跨语言数据库和常模的发展,2025年5月31日至6月1日,跨语言数据库与常模国际研讨会在华东师范大学普陀校区逸夫楼报告厅和儿童脑成像中心顺利举办。本次会议由华东师范大学蔡清教授、香港理工大学李平教授共同发起,旨在通过推动跨语言数据库的建设和共享、探讨人类语言与认知理解的核心问题、促进跨语言、跨学科的深入合作。会议由华东师范大学主办,香港理工大学、中国心理学会语言心理学专委会和上海市心理学会协办,并得到脑动极光医疗科技有限公司支持。来自美国、比利时、澳大利亚、新加坡、中国香港、中国澳门以及内地的百余位知名高校和科研机构的学者、师生和相关人士参加本次会议。在两天的会议中,与会者充分交流并展望了相关研究领域的发展前景。王穗苹教授出席此次研讨会,并主持报告。
在开幕式致辞中,华东师范大学心理与认知科学学院院长周晓林教授代表学院向远道而来的海内外专家学者致以诚挚欢迎。他指出,在当今国际和时代背景下,开展跨语言和跨文化研究具有重要意义。周晓林院长强调,作为中国心理学研究的重镇,华东师大心理与认知科学学院将充分发挥学科优势与平台作用,为推动该领域研究创新发展贡献智慧与力量。
比利时根特大学的Marc Brysbaert教授首先作了题为“What Language Researchers Must Learn from the Engineering Approach”的大会主旨报告,探讨了大语言模型对语言研究的助益。从多语言词频分析切入,Brysbaert教授引入基于语言模型估计的词汇熟悉度指标,系统比较了其与传统词频统计方法的差异,并分析了该指标与抽象度等词汇特征的关系。此外,展示了多语言词汇熟悉度评估数据库的建设进展,强调优秀研究工具开发、严谨的逐步验证及大规模数据建设对语言研究的基础性支撑作用。
美国卡内基梅隆大学的Brian MacWhinney教授作题为“TalkBank Resources for Studying Spoken Languages”的主旨报告。作为儿童语言数据交换系统(CHILDES)创始人,他系统展示了其团队构建的全球语言数据共享平台TalkBank的最新进展,并进行了现场功能演示。依托四大核心原则,该平台已整合32种语言、5000万词次口语数据、9TB音视频,支撑超1.2万篇论文产出,内含6大临床诊疗库、4大儿童语言发展库及多语言研究库等14个领域。MacWhinney教授提出,未来将通过Docker容器化全球部署,“以儿童语言学习能力为新图灵测试标准”,引领语言科学向开放协作范式转型。
澳大利亚墨尔本大学的Simon De Deyne博士作题为“Measuring Cross-linguistic Semantic Alignment between Minds: Insights from the Small World of Words Project” 的主题报告,介绍了多语言SWOW (Small World of Words) 词联想项目与跨语言语义对齐的最新结果。其研究发现联想关系中包含语义、视觉与情感等多维信息,以及从强到弱的不同程度的关联性。相比大语言模型 (LLMs) 与词嵌入向量,词联想更贴近人类认知;而不同语言同一概念的差异逾五成。报告深入探讨了联想多样性及标注标准化等挑战,并展望了SWOW平台在认知建模与跨文化研究中的应用潜力。
新加坡国立大学的Cynthia Siew博士作题为“Insights from Developing Psycholinguistic Norms for the Singaporean Mental Lexicon”的主题报告。报告介绍了新加坡式英语(Singlish)特有词汇的心理语言学常模和词汇联想库的构建,分享了特有词汇在各项词属性上的人类评分和大语言模型评分的一致性,指出GPT-4o虽然在明确指令下可生成与人类高度相关的语义评分,但在如幽默度等高度复杂和具备人类特殊性的指标上仍与人类评分存在显著差异。报告还揭示了不同年龄和性别在新加坡式英语概念上的联想模式差异,并探讨了当前研究的挑战、开放性问题及未来发展方向。
31日下午,深圳市神经科学研究院的谭力海研究员作题为“Reading and Language Development of Chinese Children”的会议主旨报告,深入探讨了中文阅读的神经机制及其发展规律。研究展示了过去几十年中中文阅读的神经影像学研究成果,并在此基础上介绍了团队研发的《小学生汉语阅读能力标准化测评》。该测评实现了对中国儿童阅读能力的规范化评估。报告还介绍了通过纵向追踪发现的3-5岁儿童语言发展的年龄发展梯度。这些发现不仅为理解中文阅读发展提供了科学依据,也为早期语言干预提供了重要参考。
北京师范大学的李虹教授作题为“Aligning Text Complexity and Reader Ability: Development and Validation of the Chinese Leveled Reading System”的主题报告。报告聚焦儿童阅读习得过程,基于文本难度的精准评判与科学测量和儿童阅读能力的全面评估,通过文本难度与阅读水平的精准匹配构建中文分级阅读指标体系。报告介绍了基于265个语言特征建立的语料库可读性公式,通过模型预测实现文本与阅读标准的量化对齐;同时创新性采用Maze score建立年级常模,精准衡量同年级儿童阅读水平差异,为个体化阅读方案提供科学支撑。
上海交通大学的徐旴教授作题为“Lexicalization in the Mental Lexicon of L1 and L2 Speakers”的主题报告。从“词汇是什么”这一主题切入,关注复合词从“复杂的语义组合”到“语义单元”这样的词汇化过程。 报告分享了母语者对汉语双字词和二语者对复合词的词汇化水平评分,揭示了语言中词汇化水平的分布规律,探究了词汇化和词频、熟悉度、抽象度等常用指标的关系,以及对词汇加工的影响。徐旴教授使用问卷和听众进行了词汇化判断的互动,体现了语言研究根植于日常生活的生命力和趣味性。
在青年学者讲坛环节中,上海交通大学的李鸾副教授、北京大学的覃朗助理教授、华东师范大学的张义宾副研究员、南方医科大学的邹来泉副教授、多伦多大学的Mia Zhang 等分别从儿童语言习得和认知发展、跨语言、多模态以及大模型应用等各方面分享了他们的近期研究成果。
6月1日上午和下午的报告分别由华南师范大学的王穗苹教授和江苏师范大学的朱祖德教授主持。
香港理工大学的李平教授首先作题为“From Child Language to AI: Large-Scale Multimodal Data for Cognitive Research and Application”的主旨报告。报告分享了对于儿童语言习得和大模型的思考,介绍了团队在模型-人脑对齐方面的新进展,揭示了句子级的训练对于语言模型和人类对齐方面的影响,并考察了个体差异在其中发挥的作用。在大语言模型发展日新月异的背景下,李平教授分析了人脑的特殊性,强调大规模多模态数据与神经科学数据对于科学研究的重要性,介绍了团队在多模态神经数据库建设方面的关键工作。报告现场,李平教授就模型和人类的感知、认知和动作三层面的科学议题与听众展开深度互动交流。
美国普林斯顿大学的Uri Hasson教授作题为“Deep Language Models as a Cognitive Model for Natural Language Processing and Its Development in the Human Brain”的会议主旨报告。针对"深度神经网络能否模拟人脑语言处理"的关键问题,团队通过对比深度语言模型与人脑处理过程发现:二者在基础计算原则相似,但高级认知功能上仍存在差异。为实现精准模拟,其团队采用皮层电图技术记录100小时真实对话神经活动,构建整合声学-语音-语言层级的创新模型,可准确预测未经训练的语言层级神经响应,为类人的语言模型提供新路径。报告还特别介绍了团队近年正在进行的"First 1000 days Project",通过在婴儿家庭部署多模态、高密度数据采集,首次建立含环境互动信息的婴幼儿发展数据库,为理解儿童发展提供重要的建模基础。
中国科学院心理研究所的李兴珊研究员作题为“Universal and Specific Reading Mechanisms across Different Writing Systems”的主题报告,聚焦汉语阅读认知机理,系统探讨了书写系统跨语言差异对阅读机制的影响。研究提出中文不依赖词间空格标记词边界的特性,对比分析了不同书写系统中阅读机制的共性与特异性。报告强调,词间空格的使用本质反映语言系统内在需求,需通过跨语言研究深入解析阅读的普遍认知机制、书写系统特异性机制及多路径加工模型的内在关联。
华东师范大学蔡清教授作题为 “Alignment and Discrepancy in Humans, Language Models, and Words” 的主题报告,从alignment(对齐)出发,探讨了人类认知与大语言模型在语义表征上的异同。报告展示了基于人类大规模词汇联想的和语言模型对于脑活动的解释上的差异,强调了人类语言数据的贡献。报告还强调了个体差异和概念多样性的重要性,提出模型对人脑的对齐并非目标本身,更重要的是理解这种“偏离”所反映的人类认知多样性与发展特征。
北京大学的毕彦超教授作题为“Semantics across the Globe: A Universal Neurocognitive Structure that Adapts”的主旨报告,分享了关于人脑如何整合语言、感知和经验以建构世界知识的最新研究成果。通过色彩知识在视觉障碍群体中的研究,展示了语言如何成为感知经验缺失情况下的替代信息来源。报告比较不同文化和语言环境下人类对概念的共性与差异,强调了语义知识的多维度本质。毕教授指出,尽管人类经验千差万别,但大脑对世界的认知存在惊人的一致性,这为理解人类语言共同的认知机制提供了新视角。
在两天的圆桌讨论中,现场的各位专家与参会人一起就常模的跨语言对齐、文化因素在多语言常模中的作用、大语言模型和语言的认知科学间的关系与发展等问题展开了热烈而深入的探讨。
在场的参会老师和同学就讲座和圆桌的内容进行了热烈和丰富的讨论。
会议的海报展示环节在华东师范大学儿童脑成像中心与即将建成的脑磁图成像中心举办。多项最新的研究成果在现场呈现,参观者与作者们进行了深入交流,气氛热烈。
在闭幕式上,李平教授和蔡清教授就会议进行了总结和闭幕发言,对与会专家和同行在数据库的设计、跨语言和大模型相关语言研究方面的研究分享和深入探讨表示感谢,期待通过此次多元主题的报告与讨论,为跨语言和大模型背景下的语言资源设计与基于开放共享的语言相关研究提供新的视角与合作契机。
本次研讨会在推动语言资源建设、方法论创新与跨学科交流方面取得了积极进展。会议加深了学界对语言能力普遍性与特异性认知机制的理解,强化了语言数据库在理论建构与实证研究中的基础地位。会议促进了语言科学、心理学、认知神经科学与人工智能等领域的交流合作,凸显了丰富的人类行为数据和相关研究在揭示语言加工、习得与发展规律中的重要作用。此次会议不仅展示了前沿研究的广度,也为未来语言与认知研究的国际协同奠定了坚实基础。
原文链接:https://url.scnu.edu.cn/record/view/index.html?key=8806db99a6e7a253f42b0805a3ba1889