From CSBLwiki
방법
- Korea,China,Japan,USA 자료 수집 (기간: 2001.01.01~2011.05.22)
- PMID,Title,year,FAU(Full author name),AU(abbreviated name),MeSH 를 추출(자체 제작 python 스크립트,biopython 사용 안함)
- 저자가 없는 데이터 삭제
- AU와 FAU를 비교하여 같은 (각종 기호 제거후 알파벳만 비교) 데이터 삭제
- PMID \t FAUs \t #ofFAU 파일 생성: ext_*_6.txt
- FAU \t PMIDs \t #ofPMID 파일 생성: FP_*_3.txt
- author per paper 관련 수치 계산 (5번 데이터 이용)
- paper per author 관련 수치 계산 (6번 데이터 이용)
결과
| Paper | Author
|
Korea | 91,190 | 114,826
|
China | 296,626 | 413,579
|
Japan | 317,310 | 311,214
|
USA | 1,536,610 | 1,589,125
|
- Paper per author
| Min | Q1 | Median | Q3 | Max | Mean
|
Korea | 1 | 1 | 2 | 4 | 258 | 4.7
|
China | 1 | 1 | 1 | 3 | 2020 | 3.9
|
Japan | 1 | 1 | 2 | 5 | 504 | 6.1
|
USA | 1 | 1 | 2 | 4 | 659 | 4.1
|
- Author per paper
| Min | Q1 | Median | Q3 | Max | Mean
|
Korea | 1 | 4 | 6 | 8 | 5.9
|
China | 1 | 4 | 5 | 7 | 128 | 5.4
|
Japan | 1 | 4 | 6 | 8 | 160 | 6.0
|
USA | 1 | 2 | 3 | 6 | 375 | 4.3
|
데이터
data_download
- FAU: full author name
- AU: 축약된 저자 이름
- PMID: pubmed ID
- raw 데이터를 제외한 모든 데이터는 tab으로 구분
- 논문-저자 데이터
- (PMID) (FAUs) (# of FAUs)
ext_china_6.txt
ext_japan_6.txt
ext_korea_6.txt
ext_USA_6.txt
- 저자-논문 데이터
- (FAU) (PMIDs) (# of FAUs)
FP_china_3.txt
FP_japan_3.txt
FP_korea_3.txt
FP_USA_3.txt
pubmed_result_china.txt
pubmed_result_japan.txt
pubmed_result_korea.txt
pubmed_result_USA.txt
- Raw data로부터 저자명, 날짜 필터링하고 여러 데이터를 추려낸 파일 (FAU, Mesh term, AU는 "|"로 구분되어 있음)
- (PMID) (FAU) (Year) (Title) (MeSH term) (Affiliation) (AU)
ext_china_4.txt
ext_japan_4.txt
ext_korea_4.txt
ext_USA_4.txt