Exploring the potential of ChatGPT in medical dialogue summarization: a study on consistency with human preferences

Table 6 Rouge and BERTScore scores for ChatGPT’s prompt model, such as Prompt_S and Prompt_T

Prompt Model	ROUGE-1	ROUGE-2	ROUGE-L	BERTScore
Prompt_S.1	43.69	21.74	35.78	71.43
Prompt_S.2	44.09	22.01	36.54	71.47
Prompt_S.3	43.92	21.69	36.59	71.31
Prompt_S.4	44.17	21.84	36.67	71.42
Prompt_S.5	44.18	21.88	36.87	71.40
Prompt_S.6	44.28	21.94	36.89	71.48
Prompt_S.7	44.27	21.95	36.91	71.49
Prompt_T.1	47.21	25.83	39.41	73.34
Prompt_T.2	47.84	26.31	40.35	73.38
Prompt_T.3	47.97	25.46	40.59	73.32
Prompt_T.4	48.07	25.50	40.57	73.36
Prompt_T.5	48.11	25.40	40.73	73.37
Prompt_T.6	48.07	25.39	40.69	73.37
Prompt_T.7	48.19	25.41	40.81	73.38

ISSN: 1472-6947