初学者如何自己找数据分析项目来做?


如果要寻找免费的项目数据进行分析,只要肯花费时间和精力还是比较简单的。像很多回答里面都提到的Kaggle和天池,这就是两个非常典型的竞赛类网站,里面都是整理好的数据表字段,有些完全可以直接拿来进行数据分析,选择自己感兴趣的仔细研究即可。

除了这些整理完毕的数据项目,还可以挑选一些自己比较感兴趣的课题在网上直接搜索数据,虽然这种做法的数据搜寻难度会上升,但是自己找到的数据自己更加熟悉,能分析的维度也会更加丰富。例举一些网址,比如说国家统计网站、WHO世界卫生组织、还有一些主动公开数据的医疗网站等。

举个例子,因为大学某同学的妈妈曾患乳腺癌,激起了我对乳腺癌的研究,希望能够对乳腺癌的病理特征进行了解,同时研究乳腺癌的患者手术风险及生存情况。于是,从TCGA数据库中获取了一些关于乳腺癌患者的情况,包括患者的性别,年龄,术后患者的状态,肿瘤的组织学分型,肿瘤转移情况,肿瘤复发情况,患病天数等。

案例分析结果如下,案例中用到的数据分析工具是DataFocus:

1.首先计算所有乳腺癌病例的存活率与死亡率。通过饼图,观察乳腺癌通过外科手术治疗后所能达到的生存率。乳腺癌虽然作为困扰女性的恶性肿瘤之一,但其通过手术治疗所能达到的存活率与其他癌症比较仍高出很多。从图中可以观察到,乳腺癌的术后存活率达到了86.58%,死亡率仅占13.42%,也就是在此次案例中,有910名患者通过手术成功生存。

1

2.对乳腺癌病例的患病天数进行研究,通过对比存活和死亡的患者的患病天数,观察患病天数对患者死亡的影响。从上图可以看出,不是患者患病天数越长,死亡的概率就越大。患者的患病天数与死亡率没有明显的相关性,但根据临床试验的结果,仍然是尽早发现,尽早治疗。

2

3.虽然乳腺癌对女性的影响相当大,但根据此次数据发现,男性也有一定的概率患病。从上图可以观察到,在死亡的所有患者中,女性患者高达140人,但有趣的是,死亡的患者中居然有1名男性。

3

4.此次研究还是主要围绕着死亡的女性患者展开,因此对死亡的女性患者的肿瘤基本情况进行研究。通过折线图观察不同类型的肿瘤转移情况的死亡人数。从图中可以观察到,在所有死亡的女性患者中,肿瘤无远处转移的患者占据最大部分。也就是说,乳腺癌本身较不容易发生远处转移,但仍有发生远处转移的概率。

4

5.接下来对无远处转移的死亡女性患者的肿瘤组织学类型进行研究。从图中可以看出,无远处转移的肿瘤类型种,乳腺癌的组织学类型占比较大的是中低分化而非高分化,这也为乳腺癌的高生存率提供了部分解释。

5

6.同样的,对中分化的肿瘤类型的局部淋巴结进行观察。从图中可以观察到,在中分化的肿瘤中,最常见的是同侧腋淋巴结转移。

6

7.最后,对肿瘤的大小及浸润情况进行统计。从图中可以看出,患者的死亡率与肿瘤大小及浸润情况存在较大的关系。在女性死亡患者中,存在同侧腋淋巴结转移的中分化肿瘤,其肿瘤大小仅存在两种可能,分别是肿瘤浸润范围的最大直径是0.1cm-2.0cm和2.0cm-5.0cm,其中占据大部分的肿瘤浸润范围是最大直径在2.0cm到5.0cm之间的。

7

最后将这7个结果图放入“乳腺癌手术预后情况”数据看板中,结果如下:

8

为了形成一份完整的、严谨的报告,最后再对此次案例分析做出一些建议:

1、建议女性定期进行身体检查,预防各类疾病。一旦发现,一定要尽快治疗;

2、如果发现自己患有乳腺癌,一定要及时治疗,尽力配合医生手术,因为乳腺癌的手术存活率还是非常高的。

相关内容推荐

声明:DataFocus|版权所有,违者必究|如未注明,均为原创|本网站采用BY-NC-SA协议进行授权

转载:转载请注明原文链接 - 初学者如何自己找数据分析项目来做?


让数据分析像搜索一样!