当前位置:首页 > 语文报社 > 业务培训 > 出版动态 > 正文

教育部国家语委发布2007年中国语言生活状况报告(三)

编辑:佚名 录入:dudan 来源:教育部网站 2008-12-10 10:05:35 

  

    四、语言文字使用的若干数据

  报纸、广播电视、网络(新闻)用字用词用语调查,是每年语言实态调查的基本项目。2007年调查语料10.07亿汉字、12.36亿字符次。重点进行了2005年、2006年、2007年三年数据的比较。

  (一)汉字使用情况

  对汉字使用情况的调查结果显示:

  1.高频字(覆盖率达到80%90%99%)数量稳定。低频字(频次低于10次)随机偶然出现。

  2005年、2006年、2007年的数据调查分别是在7.32亿、9.79亿、10.07亿字的语料上进行的,三年数据调查的语料量不同,总字种数也不同。2005年、2006年、2007年覆盖率达到80%的字种数分别是581591595;达到90%的字种数分别是943958964;达到99%的字种数分别是231423772394。从高频字占总字种数的比例来看,随着总字种数的增加,高频字的比例呈减小的趋势。这些数据表明高频字并不会随语料规模或字种的增加而增多,而是趋于保持稳态。这说明高频字的使用具有很强的稳定性,当语料规模达到一定的值之后,高频字的分布总是比较均匀,语料中所增加的字种数多为偶然使用,对高频常用字的分布影响不大。

  对比三年的前600(覆盖率达到80%以上)最高频率用字,可以很好地看出社会语言生活的变化。如:"涨、季、盘、楼、均"等字在2007年进入前600,而这些字在2006年、2005年均在600位之后。

  2005年、2006年、2007年低频字的数量分别是165023623147,从低频字占总字种数的比例来看,总字种数越少,低频字的比例越低。表明低频字的出现会随着语料规模的增大,随机偶然出现。

  2.与现行规范字表对比:每年的用字总表与现行规范字表之间的差异大于年度字表之间的差异。

  2005年、2006年、2007年用字总表都与现行规范字表之间存在着差异。取三年用字总表的前2500字与一级常用字比较,有差异的字数分别是357331334字;取三年用字总表的前3500字与《现代汉语常用字表》比较,差异字数分别是398388396;取三年用字总表的前7000字与《现代汉语通用字表》相比,差异字数分别是506517654。将每一年用字总表与现行规范字表之间的差异字进行比较,年度用字总表与现行规范字表之间的差异大于年度用字总表之间的差异。

  (二)词语使用情况

  对词语使用情况的调查结果显示:

  1.年度之间词语的使用变化很大,但高频词语的使用稳定,词语覆盖率的分布稳定

  年度之间的相同词种数平均占到年度词种数的22.1%。无论全部语料还是各媒体语料,年度之间的用词用语差别较大,每年都有大量的独用词语出现。这些独用词语记录着年度词语使用的变化情况。

  高频词语(覆盖率达到90%的词语)使用具有很强的稳定性。年度间词种数的变化很大,但年度间高频词语的差别不足1000条,年度间共同使用的高频词语平均占高频词语的85.76%。《中国语言生活状况报告》(2007)下编列出了2007年度高频词语表。

  高频词语中的年度独用词语,多反映了当年的社会热点。如2007年排在前面的高频独用词语"减排、炒股、嫦娥、生猪"等,与年度流行语十分类似,反映了当年的社会生活和重要事件;排在2006年高频独用词语前面的"荣辱观、馒头、核试验"等词则与当年的社会主义荣辱观教育、娱乐界的"一个馒头引发的血案"、朝鲜核武器试验等事件密切相关。

  每年的词种数无论在数量还是词形上,都有很大的差别,但从词语覆盖率的分布来看,三年表现出很强的一致性,三年不同覆盖率下的词语分布,只在覆盖率达到99%以上时略有差异。

  2.成语习用语的使用

  2007年尝试性地对语料中的成语和习语进行了调查。从调查结果来看,自动分词语标注软件还需进一步提高对成语和习语的识别。成语习语的使用无论在词种上还是词次上,比例都小于1%

  3.流行语

  2007年度流行语的提取首次融合了报纸、广播电视、网络(新闻)三种媒体语料,三个分中心采用统一的技术路线,分别自动提取各媒体上的候选流行语后,再进行整合,最终得到"2007年度中国媒体十大流行语"2008114日,年度流行语由国家语言资源监测与研究中心、北京语言大学、中国传媒大学、华中师范大学、中国新闻技术工作者联合会、中国中文信息学会六家机构联合发布。这是流行语的第十一次发布。

  流行语记录了年度的社会生活,2007年的"中国媒体十大流行语"在常规的"综合类、国内时政类、国际时政类、经济类、教育类、科技类、社会生活类、文化娱乐类"外,新增了"奥运专题、金融专题、构建和谐社会专题、民生专题"等,凸显了2007年度社会生活的主题和特色。

  4.新词语

  新词语是语言对社会变化表现最敏感的部分,它凸显了语言的动态变化,是语言监测的重要内容之一,也是人们关注的焦点。2007年的新词语监测工作,是在国家语言资源监测语料库中2007年度10.07亿字语料的基础上做的,采用先机器提取、后人工干预的方法,并通过网上公布、听取群众意见,最终采集了254条新词语。

  这些新词语表现出的特点有:第一,多字词语占优势。其中三字词语36.61%,四字词语28.35%,两者合计近65%。第二,大量使用词语模类推构词,词族化表现明显,运用较多的类后缀有"~族、~客、~奴、~友、~门、~吧、~日"等。词族化的新词语占27.55%。第三,名词性词语最多,占91.33%。第四,构成材料以汉字为主,兼有别样。254个新词语中有13个字母词。第五,新词语来源于多个渠道,分布在不同领域,反映了社会生活的方方面面。其中生活、文化、科技和经济领域产生的新词语较多,占67.32%

  (三)网络语言使用情况

  2007年度的中文网络用字用词调查以网络媒体监测语料库2007年的语料为基础,调查对象包括汉字、符号、词语以及BBS网络用语。

  1.用字调查

  (1)汉字的覆盖率调查显示:在10%70%的各级覆盖率下,新闻语料所用的字种数都大于博客语料和BBS语料,这反映新闻类语料涉及的内容更丰富,结构更均匀、平衡,使用的高频字字种更多。

  (2)对比新闻语料、博客语料、BBS语料的共用字、独用字发现:新闻、博客和BBS三类语料的共用字种数为8460个,占全部字种数的56.74%。博客、BBS的独用字比较多,且低频。其中博客有1918个,BBS1383个,造成这种现象的主要原因为:网络上流行的"火星文"的干扰、一些由生僻字组成的网名、海外网民使用的繁体字等。

  (3)调查显示一些与外来词语相关的汉字、与网络相关的语气词进入到高频字中,如"尔、伊、迪、呵、哦"

  (4)对比2007年与2006年的高频字,新闻语料的高频字相对比较稳定,两年的数据相比,前600高频字中,只有13个不同;前1000高频字中,只有20个不同;前3500高频字中,只有74个不同,相同部分占97.89%。而BBS语料的高频字的变化较大,两年的数据相比,前600高频字中,有68个不同;前1000高频字中,有96个不同;前3500高频字中,有148个不同,相同部分占95.77%。

  (5)利用频率比值对比分析2006年与2007年的语料,2007年频率比值较大的"跌、涨、股、幅、券"几个字都和股票有关,十七大的召开使得""字的频率比值增大;2007年猪肉价格上涨,使得""字的频率比值较大。

  2.符号使用调查

  从符号的种数来看,博客所用符号的种数最多,BBS与之接近,都有900多种。从符号占语料频次的比例来看,新闻和博客中符号所占的比例相差不是太大,而BBS中符号所占的比例明显高于其他两类语料,这与BBS用字用语往往形式上比较简洁、比较随意等特点有关。另外,BBS中也包含大量的与专业技术相关的讨论,有些是直接用英文书写的;BBS中使用的网络用语也比其他两类语料多。

  3、词语调查

  (1)前100个高频词语中单字词为76,其余24个为二字词语的"是使用频率最高的一个词。

  (22007年语料中,构词数最多的字是"",分别在162个词语中出现。构词数最多的前10个字分别是:人、大、不、上、出、国、中、一、行、年。有721个字只在一个词语中出现。

  (3)高频词语中,一字词出现的总频次占全部高频词语频次的49.04%,排名第一;二字词语的词种数最多,占全部词种的70.53%,在频次上所占比例为47.86%;一至二字词语在词种上占了88.40%,在频次上占了96.90%。说明在实际应用中,主要以一至二字词语为主。

  (4)使用频次最高的成语为"一网打尽",它在网络上使用时,除了其原有的词义外,还有很多使用的是与网络有关的引申义。

  (四)基础教育语文新课标教材的语言状况

  本次调查包括了新课标九年义务教育阶段语文教材中的"用字""用词""基本句型"等内容。鉴于教材的发行时间、发行量、覆盖面及影响力等因素,选取了2001-2004年出版的人民教育出版社、江苏教育出版社、语文出版社和北京师范大学出版社的九年制义务教育新课程标准语文教材。

  1.汉字调查

  四套教材的容量人教版为48.3万字,苏教版为37.3万字,北师大版为44.9万字,语文版为52.6万字。共出现汉字字种5069个,其中四套教材共用的汉字字种3590个,占总字种的70%;部分教材共用字种905个,占17.8%;只出现于一套教材的独用字种共574个,占11.3%

  汉字使用中,覆盖率为50%时使用了127字,覆盖率为90%时使用了1164字,覆盖率为95%时使用了1712字。前3500字的覆盖率达到99.6%

  2.词语调查

  使用软件自动分词并经人工干预,得到的分词单位为1290126个,不同的词种数为50670个。在四套教材中均出现的词种数有10460个,占总词种数的20%。在各套教材中,共用词种数最高的占45%,最低的只占36%;每套教材的独用词种数在1/51/4之间。

  从词语出现的频次来看,覆盖所有语料80%时用了3320条词,覆盖90%时用了9101条词,覆盖95%时用了17505条词。

  从词语在课文篇数的分布来看,分布在51篇课文以上的只有1630个词语,占词语总数的3.22%。分布在11-50篇课文的有5297个词语,占词语总数的10.45%。二者相加,共有词种6927,占词语总数的13.67%,不足词语总数的1/7。出现1次的达23200个词,占词语总数的45.79%,出现1-5次的占77.55%。可见教材词语虽然数量多,但分布面不广,复现率不高。

  比较词语的出现频次与在课文中的分布,发现分布面广的词更容易凸显语文性词语。根据分布上的特征,再参考语义的指称性与结构的凝固性,提取了基础教育的3000条基本词。这个词表的特点是重视书面语特色,重视古今语言的学习,重视文学语言的学习,重视基本生活日语词语。

  3.句型调查

  对小学1-3年级课文的所有句子进行了句型、句式、句类的普查。发现单句中"主谓句"的比例高于"非主谓句"。主谓句是划分句子结构成分的基点,具备句子结构完整性的一切条件,对初级阶段的学习者形成句子概念具有举足轻重的作用,对学生语言结构的获得和语言能力的形成和锤炼也具有重要作用。非主谓句具有更多的语用和交际特点,口语化、叙述强。

  根据充当谓语词语性质的分类,动词谓语句占总单句的88.37%,居第二位的是形容词谓语句

  在8种特殊句式中,出现频率高的依次是"连动句""是字句""存现句""使字句""比字句""被字句"出现比较少。

  在复句中,居首位的是"顺承关系"复句,高于所有其他关系复句之和。顺承关系复句的大量存在,反映的是汉语句子总是按一定的时间、空间或事理关系的先后来叙述的,与小学生的逻辑习惯相吻合。

  在四种句类中,陈述句占70%,疑问句占约14%,感叹句占约15%,祈使句只占约1%

  《中国语言生活状况报告(2007)》,已由商务印书馆出版发行。

相关阅读

无相关信息

我要评论

共有条评论
用户名: 密码:
验证码: 匿名发表

文明上网理性发言,请遵守新闻评论服务协议