Comparison of different feature extraction methods for applicable automated ICD coding

Table 5 Coding results for Fuwai dataset with \(f_s = 20\)

Feature extraction & classifiers	Macro-F1 (%)	Micro-F1 (%)	Macro-AUC (%)	Micro-AUC (%)
BoW
LR_uni	52.95	82.99	71.82	86.88
SVM_uni	47.41	82.70	70.46	86.73
LR_uni_bi	46.25	80.79	69.10	85.48
SVM_uni_bi	37.70	79.07	66.11	84.13
LR_uni_bi_tri	39.12	72.85	65.93	80.49
SVM_uni_bi_tri	27.24	67.62	61.68	76.77
W2V
LR_word	22.81	63.29	58.79	74.85
SVM_word	12.74	53.46	55.07	68.99
LR_char	19.16	58.43	57.17	72.09
SVM_char	8.16	45.92	53.19	65.40
LR_comb	29.08	69.02	61.32	78.13
SVM_comb	16.92	61.84	56.97	73.39
RoBERTa_embeddings
LR_char	34.75	69.03	63.89	79.25
SVM_char	23.41	64.75	59.58	75.74
LR_comb	39.44	74.32	66.00	82.17
SVM_comb	29.64	70.59	62.16	79.01
RoBERTa_finetune
top_layer	0.67	31.06	62.83	84.21
whole	2.43	41.25	75.00	90.26

ISSN: 1472-6947