体育科学
SPORT　SCIENCE
1999年 第1期 No.1 1999



学生体质数据储存和分析软件设计的研究
吴锐创
摘要　通过分析体质调研的资料、数据分析方法、存在问题，归纳和总结解决的方法和途径，确立“学生体质数据库系统”逻辑模型，然后运用计算机科学技术进行软件设计，从软件系统的应用效果显示：既方便反映体质现象，又能深入体质本质研究：如果通过国际互联网，有很好的应用前景。
关键词　体质数据库　系统分析　系统设计　逻辑模型
1　研究目的和任务
　　体质的强弱，关系到国力强弱和民族盛衰的百年大计。经国务院批准，由国家教委联合其它部委共同组织和领导的全国学生体质调研工作，已形成制度化、规范化。从1979、1985、1991、1995年4次全国体质调研情况看，取得令人瞩目的成就。但由于当前体质资料存贮和使用方法尚比较落后，影响体质资料的完整性、正确性和利用率，而体质数据分析手段和工具还比较落后或较难掌握，制约了体质研究的深度和广度，影响体质研究和结果的科学性。随着《全民健身计划》的实施，体质研究的深入，解决这些问题显得尤其迫切。结合现代计算机科学技术和管理信息系统的软件系统开发，研究设计“学生体质数据储存和分析软件”系统，对解决上述问题是可行的，本课题的研究，首先使体质调查拥有完备、科学的体质资料存储机制――体质数据库；其二是拥有先进、易用的计算工具(软件)，为数据处理提供数据统计分析的专门程序，研究人员可直接读取体质数据库中数据，保证数据的准确性、研究结果的可靠性、科学性，提高研究效率；其三是科学的管理手段，通过设计各种管理程序，把学生体质数据系统的各组成部分有机地结合起来，构造完善的计算机软件系统，满足体质研究工作等方面的需要。
　　在不断完善“学生体质数据储存和分析软件”系统的基础上，通过网络(如Internet)连结各省市甚至各体质观测点的“学生体质数据库系统”，实现体质数据资源共享、交流研究成果，促进体质研究新的技术革命，推动体质研究工作的发展甚至飞跃。是本课题的发展方向。
2　研究设计
　　研究设计经过系统可行性分析和研究、系统分析、系统设计，找到完成研究的可行方案，建立系统逻辑模型，进行详细的课题设计和程序设计，最终完成系统的研究、设计工作，达到研究目标。
2.1　系统分析
　　体质研究涉及的对象、范围和研究领域有所不同，体质资料的收集、分析也不尽相同，影响研究结果的可比性。我们通过查阅和研究我国学生体质调研成果，总结体质研究时所需数据来源、数据分析方法、一般工作规程等普遍规律，根据计算机软件工程学原理，采用结构分析技术――“由顶向下”和“逐层分解”方法，完成系统分析资料即系统总体逻辑模型设计，确立系统的基本目标和各逻辑功能要求，找到可行的解决方案，避免现行体质研究所遇到的局限性和不足之处。系统分析是系统设计的基础和依据。
2.1.1　建立体质数据库
　　根据我国多次体质调研情况，考虑体质资料完备性，便于管理和提高利用率，建立下列数据库：(1)体质测试指标(含派生指标)集数据库；(2)省(直辖市或自治区)数据库；(3)民族数据库；(4)体质调查数据库；(5)系统体质数据存贮数据库；(6)每次体质调查省或自治区或直辖市测试资料数据库；(7)每次体质调查各民族测试数据库；(8)每次体质测试指标(含原始指标和派生指标)集数据库；(9)各次体质测试(含原始指标和派生指标)数据库；(10)各次体质测试结果(含原始指标和派生指标)数据库：(11)体质数据分析结果文件存贮数据库共11种。
2.1.2　总体逻辑结构模型
　　通过广泛查阅体质研究主要文献、资料，深入地对体质研究中所采用的资料、方法、手段进行一系列的分析、研究，归纳和总结体质必须解决的理论、技术、应用等问题，按照系统分析和系统设计的基本思想、原则和方法建立“总体逻辑结构模型”。它体现了“学生体质数据储存和分析”系统研究设计的基本思想。
2.2　系统设计
　　各种体质数据库设计：对2.1.1定义的11种数据库结构进行详细设计，即各种体质数据储存的框架结构。即使体质数据得到系统的存储，又是系统中各功能模块间联系纽带的数据接口。
　　数据分析方法设计：按照分析方法、途径的差异，分成：常规的结果统计方法、多元统计分析方法、比较分析方法和综合评价模型建立等4大类，其中每一类又包含若干种具体的数据分析方法。由于我们遵循软件设计的结构化、模块化原则，因此数据分析方法可根据需要不断地增添、修改。而且，分析结果以文本文件形式储存，便于二次处理和数据传递等。
　　系统管理和系统集成设计：根据系统总体设计逻辑模型，进行系统模块划分、程序流程图、数据接口等详细设计。
　　系统程序设计：根据上述设计的数据库结构、程序和算法流程、数据接口等设计结果，采用多种计算机编程语言编写程序，经过编译、调试、集成、检验，完成在微机Windows环境上实现“系统总体设计模型”的系统软件。经验证，达到研究目的和完成研究任务。
3　设计验证和分析讨论
　　“学生体质数据库系统”的研究设计，首先实现了各种体质资料的科学化储存，其次提供了体质数据分析方法程序。其突出特点是数据分析程序直接调用体质数据库中的数据，分析结果妥善保存、利用多样化等。这里根据我们多年参加全国学生体质调研工作经验，有针对性地选择了一些研究实例，分析和讨论“学生体质数据库系统”的应用效果。
3.1　统计图形应用
　　对体质研究工作者来讲，研究结果的直观、详细、清晰描述，莫过于绘制各种各样的统计图形，常用手段是手工描图，但容易产生错误，较难掌握。我们研究设计的“学生体质数据库系统”，提供了各种统计图形绘制软件，可绘制二维图有：条形图、面积图、折线图、柱形图、饼形图、圆环图、雷达图和XY散点图等；三维图有：条形图、面积图、折线图、柱形图和曲面图等。而且，绘图所需的数据直接从相关体质结果数据库中提取；另外，通过菜单选择方式即可完成，简单易用。
3.2　多元统计
3.2.1　聚类分析
　　研究设计提供了体质研究常用的聚类分析方法有：系统聚类、动态聚类和模糊聚类，它们均属于Q型(样本)聚类分析。其中动态聚类分析适用于大样本的Q型聚类分析。为验证其运行效果，我们从体质数据库中抽取1995年广州市7岁小学生体质调查资料，选取健康检查和机能指标：血红蛋白、左视力、右视力、脉搏、收缩压、舒张压、肺活量；形态指标：身高、坐高、体重、胸围、肩宽、骨盆宽；素质指标：50米跑、立定跳远、引体向上、1000米跑、立位体前屈共18项测试指标。按城乡男女不同情况进行聚类分析，下面选用模糊聚类分析(Fuzzy)结果进行简要说明：
　　模糊聚类分类结果：
　　当模糊隶属度取0.7738时，由模糊聚类结果表和模糊聚类谱系图排列顺序，样本分类结果：
　　共分16类，其中最后一类含81个样品，占总样品的81%；其余各类仅有19个样品，占19%。说明1995年广州市城市7岁男学生体质状况比较集中，异常情况比较少，有81%学生处于同类水平，也反映该样本倾向正态分布。
3.2.2　判别分析
　　研究设计数据分析方法软件提供的判别分析方法有两组判别分析、多组判别分析和逐步判别分析3种。体质测试工作对样本的划分有十分严格的规定，但实际上有些年龄组可能差异并不明显。我们利用本研究所设计的系统软件，从体质数据库中提取1995年广东省城乡19～22岁大学男生所有13项体质测试指标：X1左视力、X2右视力、X3收缩压、X4舒张压、X5肺活量、X6身高、X7体重、X8胸围、X950米跑、X10立定跳远、X11引体向上、X121000米跑、X13立位体前屈的原始数据，分8组每组100人进行逐步判别分析，经过7步迭代计算，得6个对分类影响最大的指标建立判别函数，然后对各组进行判别，得到判别结果。
　　为了研究不同年龄组组间差异程度，我们也用同样方法对广州市1995年城乡7～10岁小学男生所有17项体质测试指标：X1左视力、X2右视力、X3脉搏、X4收缩压、X5舒张压、X6肺活量、X7身高、X8坐高、X9体重、X10胸围、X11肩宽、X12骨盆宽、X1350米跑、X14立定跳远、X15引体向上、X161000米跑、X17立位体前屈的原始数据，分8组进行判别分析，经过12步迭代计算，可得各组的判别函数系数和各组的判别结果。
　　随着年龄的增长，体质水平与年龄组差异程度有逐渐减弱趋势，到成年阶段已经接近相同水平，因此以往体质调研把19～22合并运算是有科学依据的。同年龄组城判为乡或乡判为城同组的机会很少，反而同是城市或乡村判为相邻年龄组的机会明显增加，说明城乡差别比较明显，城乡体质数据合并运算值得探讨；回判正确率达到很高水平，客观上要求体质测试时中小学必须严格核对年龄。
3.2.3　回归分析
　　研究设计中数据分析软件提供的回归分析包括：多元线性回归分析、多元逐步线性回归分析、岭回归分析、多元三角回归分析。这里仅介绍多元逐步线性回归分析的应用效果。
　　为了研究某些体质指标对中学生1000米跑能力影响的显著程度，这里随机抽取广东省14岁乡村男生作为研究对象：从全面、系统角度考虑，选用所有测试原始指标和派生指标共36项进行多元逐步线性回归分析处理。
　　系统能根据所选定研究对象，自动抽取原始数据供系统数据分析软件的多元逐步线性回归分析程序使用，该程序经过6步回归计算，从这些体质原始指标和派生指标中挑选出“胸围、50米跑、立定跳远、(骨盆/肩宽)×100、肺活量/体重”4个对1000米跑能力影响显著的指标建立下列回归方程：
　　Y287.4571-1.1634×X11+7.2533×X14-0.2743×X15+0.8295×X24-0.2485×X32
　　其中，自由度=100-4-2=94，残差平方和Q=35241.4519，剩余标准差S=19.3626，复相关系数R2=0.5895，回归方差与剩余方差之比F=10.0125>F0.001(4,94)=4.95，故回归方程在α=0.001水平下显著。
4　结论
　　本文是为完成“学生体质数据库系统”而进行的研究设计，从研究设计和验证的应用效果看，体现主要功能如下：
4.1　采用数据库技术，运用计算机技术手段，设计了11种体质数据库，能完备而系统地储存体质数据。尤其是原始数据，它使深入进行体质研究有了前提和基础，弥补了以往仅有体质监测结果而无法开展深入研究的不足。
4.2　提供了多种多样的体质数据分析方法软件。有最基本的体质指标结果统计、常用的多元统计分析方法、能绘制出各种各样统计图表的比较分析方法、建立体质综合评价模型的体质评价方法。突出特点是：这些数据分析方法软件都直接读取有关体质数据库中的数据，既充分利用体质数据库，减少重复性工作，提高工作效率；又避免了数据重新调理的错、漏，保证研究(分析)结果的正确性。使体质研究既能揭示体质现象，又能深入本质认识的研究，把研究工作达到规律性的认识。这项成果，是以往体质调研的继承和发展，使深入研究成为可能。
4.3　体质数据资料输入和追加手段的方法多样化：有键盘输入方法、磁盘输入方法，另有数据处理过程中自动检测输入方法，避免重复性工作，而且系统中数据能自我更新和完善。
4.4　体质数据分析结果输出方法灵活，有打印、磁盘拷贝或网络传输等形式。
4.5　体质数据与数据分析软件有机结合，既有相对的独立性，又通过数据资源始终保持密切联系，相互利用，互相补充。
4.6　集成系统，方便操作、应用。在“设计验证和分析讨论”中，根据研究实际，论证了研究设计，体现了其应用效果和优越性，是过去未能做到的。
5　建议
5.1　建立标准、统一的学生体质数据库系统，为体质工作的广泛开展提供技术基础。
5.2　不断完善、补充系统功能，特别是数据分析方法；同时注意积累体质数据，尤其是原始数据，满足不同体质研究的需要。
5.3　增加体质测试原始数据的信度和效度检验环节，保证体质数据以及数据分析结果的科学性。
5.4　在包括各省、自治区、直辖市甚至各体质观测点的全国范围内推广、使用，提供统一数据储存模式和数据分析方法，既有利于交流，又能提高研究水平。
5.5　系统网络化建设。在学生体质数据库系统自身完善和发展的同时，通过互联网，连结各省市甚至各观测点的“学生体质数据库系统”，共享体质数据资源、交流研究成果等。达到既分散又集中，高度紧密地联系在一起，避免重复性研究，提高社会效益和研究效率。
作者单位：吴锐创(广州体育学院统计测量计算机教研室，广州　510076)
5　主要参考文献
　[1]　中国科学技术情报研究所，科学技术成果报告中国青少年儿童身体形态、机能与素质的研究，北京：科学技术文献出版社，1982.11
　[2]　中国学生体质与健康研究组编，中国学生体质与健康研究，北京：人民教育出版社，1987.11
　[3]　中国学生体质与健康研究组编，91’中国学生体质与健康监测报告，北京：北京科学技术出版社，1993.2
　[4]　全国学生体质、健康状况监测领导小组办公室编，中国学生体质、健康状况监测工作手册，北京：内部资料，1979、1984.1、1990、1995
责任编辑：詹　东
1998-05-04收稿
