III. INSTITUTIONS

Tip

Раздел основан на data_website_original.xlsx, а точнее на фрaкционализованном датасете на основе data_website_original.xlsx.

Унификация связки organisation_full - country - region была осуществлена через вменение моды.

Tip

ОБНОВЛЕНИЕ III раздела

Для обновления III раздела пользоваться новым файлом data_website_revised. Однако на прошлом этапе этот файл дальше преобразовывался по следующему запросу. Если код остался, то, наверное, можно повторить.

Дублирую из телеграма. Красным мои сейчас пометки:

Изначальный датасет data_website_original (у нас сейчас data_website_revised). Прежде начала работы к нему по id добавить переменную q из data_website (думаю, что лучше брать из более полного файла full_data_precise_original переменная Q, так как в файл добавились новые строчки). - СДЕЛАНО ✅

(1) Страны и организации

Можно взять 15 стран с наибольшим вкладом. Указывается количество организаций и количество публикаций, а также процент от количества всего организаций и публикаций.

(2) Топ-институций в виде графика

  • Первый вариант графика: Давайте попробуем график со всеми точками, цветом как вы предложили > 50 и < 50. Размер кружка можно попробовать по количеству публикаций. Поделить на квадранты по средним график и показывать среднее цифрами. Из правого верхнего квадранта дать названия 10 университетам с наибольшим % в 10% публикаций.
Tip

квадрантили сделаны средними ПО ВСЕМ ИНСТИТУЦИЯМ. пока график интерактивный, красивые статичные лейблы буду рисовать руками. сейчас всплывают все названия организаций и коорединаты по которым они построены, а так же число статей у красных точек, чтобы удобно было писать текст. Все подписи / размеры / буду делать в статике после того как мы выберем окончательный вид графика

(3) Топ-институций

сами значения показателей в виде таблицы. Взять университеты, которые одновременно выше среднего по 2 нашим показателям.

среднее для двух показателей, с которыми будем сравнивать (их же мы видим как mean на рис Версия 1)
mean(top_10_fr_sh) mean(mncs_frac_mean)
13.44597 0.9430216

(4) Организации и динамика их вклада.

Important

ЗДЕСЬ ПОД ТОП ОРГАНИЗАЦИЯМИ (столбец our_top_org) имеются ввиду организации, которые отвечают трем требованиям:

  1. >= 50 публикаций

  2. top_10_fr_sh > среднего значения top_10_fr_sh для ВСЕХ ИНСТИТУЦИЙ (НЕ ДЛЯ ИНСТИТУЦИЙ С >= 50 публикаций)

  3. mncs_frac_mean > среднего значения mncs_frac_mean для ВСЕХ ИНСТИТУЦИЙ (НЕ ДЛЯ ИНСТИТУЦИЙ С >= 50 публикаций)

Взять наш топ организаций и показать, как по периодам (у нас их три) распределяются статьи. Мы отвечаем насколько заслуги распределены между периодами. Нет ли историй у которых были бы полностью заслуги в прошлом, но есть новички. 1990-2020 % pubs of total – это доля публикация организации взятая от всех публикаций в датасете Далее 3 колонки доля уже от 1990-2020 N pubs самой организации. Возможно лучше давать N и долю в скобках.

На всем датасете дать такие цифры: для каждого нашего региона посчитать среднее как для всех организаций распределяются по 3 периодам публикации. То есть будет цифра для North America сколько в среднем для ее организаций процентов публикаций вышло в первом, втором и третьем периоде.

(5) Топ организаций специализируется ли на чем-то одном?

В колонке указать – название области, по которой больше всего статей (2 и 3 место также), количество статей по этой области и доля публикаций от числа публикаций этой организации - name,N and %.

FIELDS

Research areas

Tip

важно! на третьем месте может быть сразу две области. берется только одна. первая по алфавиту. для топовых универов такое было 1 раз.

Прицепить к всплывающему лейблу название области не так просто, поэтому только смоетреть в таблице.

(6) По всем ли периодам был одинаковый топ?

Important

Для этогих задач был сделан новый датасет с фракционализацией, так как у нас показатели цитируемости и top раньше рассчитывались для всего периода 1990-2020.

Для групп 1990-2000, 2001-2010, 2011-2020 показатель total_pub >=50 на основе которого мы, в том числе определяем топ, превращается в total_pub >= 16.66 (то есть, 50 / 3) для соответствующего периода 1990-2000, 2001-2010, 2011-2020.

Если попробовать разбить датасет по нашим периодам и по нашему алгоритму найти для каждого периода свой список вузов, которые попали в четвертый квадрат (выше среднего и по нормализованной цитируемости и по доле публикаций в 10%). Тогда результат вот так можно представить. И может быть подсветить цветом название вуза (из числа наших топов за весь период), если он был в этот период в топе.

mean(top_10_fr_sh) mean(mncs_frac_mean) period
13.44597 0.9430216 1990-2020
14.43272 1.0981965 1990-2000
12.62818 0.9093282 2001-2010
12.95818 0.8252276 2011-2020

И еще нужна такая простая табличка. Дать список наших университетов и сколько раз они попали в топ за три периода (то есть максимальное количество 3 должно быть).

Tip

максимальное значение 4, так как по принятым критериям попадания в топ, попадание в топ в диапазоне, например, 1990-2000 не значит, что институция попала в топ всего периода 1990-2020.