Наукометрический минимум для ученого. Возможности и ограничения идентификационных баз

Однако кажущаяся простота наукометрических инструментов легко вводит в заблуждение тех, кто использует их в управлении наукой. В результате вульгарного и некорректного применения наукометрии к ней быстро растет недоверие, и в первую очередь у тех, кто является объектом наукометрической оценки. Пользуясь неразберихой, свою лепту в очернение наукометрии вносят и те, кто стремится под ее критикой скрыть собственную малозначимость.

Вышка на страницах своих изданий регулярно устраивает дискуссии о применимости публикационных индикаторов в управлении наукой. Как правило, они ведутся крупными учеными-специалистами, размышляющими о наукометрии свысока, через призму своих дисциплин. Однако никогда не помешает подучить матчасть. Поэтому «Академическая Среда» и Управление академической экспертизы НИУ ВШЭ подготовили небольшое введение в прикладную наукометрию для интересующихся сотрудников Вышки. Об особенностях и ограничениях основных наукометрических инструментов и индикаторов рассказывают сотрудники Управления академической экспертизы Иван Стерлигов и Виктор Трофимов.

Базы публикаций

Базы, о которых пойдет речь ниже, устроены примерно одинаково: каждая формирует список журналов, допущенных к индексации, и с некоторой периодичностью получает от них библиографические описания статей, аннотации, ключевые слова, указания аффилиации и, главное, списки литературы – те самые заветные цитирования, или ссылки. Помимо журналов индексируются книги и труды конференций. Затем система ищет в базе публикации, на которые ссылаются авторы добавленных работ, и прописывает эти соответствия, фактически выстраивая ориентированный граф, вершины которого – публикации, а дуги – ссылки. Пользователь может по каждой публикации или набору публикаций (автору, журналу, организации) посмотреть входящие и исходящие ссылки, подсчитать их число, динамику, распределение по авторам, годам и т.д.

Web of Science

Строго говоря, WoS не база, а название онлайн-платформы компании Thomson Reuters, где размещаются различные базы («индексы»), набор которых у каждого подписчика может быть разным. Основной пакет Core Collection (WoS CC) включает в себя три базы журнальных публикаций, две базы трудов конференций и две базы книг. Именно эти две последние базы традиционно используются при подсчете индикаторов «по Web of Science», однако доступ к книжным базам есть не у всех организаций, что может иногда вызывать серьезные расхождения.

Важно, что в WoS каждая публикация может одновременно присутствовать в нескольких базах и одновременно являться и статьей, и главой в книге, и трудом конференции (тогда как в Scopus, например, каждой публикации приписывается только один тип).

Глубина баз у всех подписчиков разная. У Вышки эта глубина максимальная, но у многих других вузов подписки начинаются лишь с 1985-89 годов, т.е. публикаций и цитирований до этого периода в базе нет, что отражается на индексах Хирша и прочих метриках.

Журнальные индексы WoS Core Collection – самые авторитетные из политематических наукометрических баз, попасть туда сложнее всего. Число индексируемых журналов (примерно 12 500) растет очень медленно, и это сознательная политика Thomson Reuters. Из-за такой стабильности контента журнальные индексы WoS лучше других баз подходят для измерения динамики числа публикаций и цитирований на больших временных отрезках.

База WoS формируется с конца 1950-х годов и была неплохо известна в СССР. Из примерно 170 российских журналов большинство издается в РАН и попало в WoS еще в советские годы. После краха СССР и деградации отечественной науки интерес к этим журналам существенно упал, и в WoS перестали учитывать ссылки на русские оригиналы статей при наличии переводных версий, что привело к существенному занижению значения импакт-фактора российских журналов и цитирований российских ученых старшего поколения как раз тогда, когда все вокруг стали ориентироваться на эти показатели. Подробности см. здесь: http://ufn.ru/tribune/trib124.pdf.

Еще одна важная проблема связана с тем, что отечественные журналы из-за своей технической отсталости не в состоянии представить в WoS полноценную библиографическую информацию. В основном теряются аффилиации и списки литературы. Характерный пример – журнал «Вопросы философии», почти все статьи которого в WoS являются «бомж-публикациями», которые не содержат никаких сведений о месте работы авторов и, соответственно, не учитываются при подсчете числа публикаций тех организаций и стран, в которых они трудятся.

С конференциями стабильности в WoS не наблюдается. Несколько лет назад число индексируемых конференций резко сократилось, а требования к ним ужесточились: http://wokinfo.com/products_tools/multidisciplinary/webofscience/cpci/cpciessay/.

Книг в WoS Core Collection около 66 тысяч и становится больше на 10 тысяч в год. Список издательств, книги которых индексируются WoS, размещается на сайте:http://wokinfo.com/mbl/publishers/, а с принципами их отбора можно ознакомиться здесь:http://wokinfo.com/media/pdf/BKCI-SelectionEssay_web.pdf. Две трети индексируемых WoS книг приходится на общественные и гуманитарные науки, причем иногда в базу берут и не очень свежие монографии, если они представляют большую ценность.

Тематически в журнальных индексах WoS представлены в основном естественные и точные науки (8500 журналов), на втором месте – общественные науки (3000 журналов). Для полноценной оценки гуманитариев или юристов, не тяготеющих к англо-американской традиции, WoS не подходит.

Важнейшая особенность WoS СС, а также Scopus заключается в том, что тематику отдельных публикаций эти базы определять не умеют, а просто присваивают ее в соответствии с тематикой журнала. В WoS 250 тематических областей, в Scopus их более 300, поэтому у сколько-нибудь междисциплинарного журнала их легко может оказаться четыре-пять, и все они будут присвоены каждой публикации в нем. Это играет огромную роль при расчете тематических рейтингов университетов, снижая их точность (например, в рейтинги по математике попадают публикации по биологии, и наоборот).

Доступные Вышке базы Web of Science Core Collection с указанием их глубины.

Science Citation Index Expanded (SCI-EXPANDED) – 1900-present
Social Sciences Citation Index (SSCI) – 1900-present
Arts & Humanities Citation Index (A&HCI) – 1975-present
Conference Proceedings Citation Index – Science (CPCI-S) –1990-present
Conference Proceedings Citation Index – Social Science & Humanities (CPCI-SSH) – 1990-present
Book Citation Index – Science (BKCI-S) – 2005-present
Book Citation Index – Social Sciences & Humanities (BKCI-SSH) – 2005-present

В ноябре Thomson Reuters запускает журнальный индекс Emerging Science Citation Index – «чистилище», куда будут попадать новые поступления перед включением их в основные индексы. О нем пока мало что известно:http://wokinfo.com/media/pdf/S024651_Flyer.pdf.

Scopus

База Scopus, принадлежащая крупнейшему издательству научной литературы Elsevier, является главным конкурентом WoS. Глубина ее значительно меньше, полноценное покрытие начинается с 1996 года, хотя в последнее время активно подгружаются архивы с 1970-х:http://blog.scopus.com/posts/breaking-the-1996-barrier-scopus-adds-nearly-4-million-pre-1996-articles-and-more-than-83. Scopus – единая база, никаких специальных «книжных» или «гуманитарных» подразделов в ней нет.

Главное достоинство Scopus является и основным его недостатком. В этой базе индексируется в два раза больше журналов и трудов конференций (книг примерно столько же), причем число индексируемых журналов постоянно растет. Соответственно, отбор источников при схожести критериев (http://www.elsevier.com/solutions/scopus/content/content-policy-and-selection) куда более либеральный, чем в WoS СС. Подавляющее большинство журналов WoS СС входят в Scopus и занимают там верхние строчки по числу ссылок, поэтому квартили журналов, входящих в обе базы, по WoS будут в среднем ниже. Журнал 1-го квартиля по Scopus в WoS запросто может числиться только в 4-м квартиле. Детальное описание содержимого Scopus, включая распределение по дисциплинам и типам публикаций, доступно по ссылке:http://www.elsevier.com/__data/assets/pdf_file/0007/69451/sc_content-coverage-guide_july-2014.pdf.

В последние годы серьезной проблемой стали «мусорные», недобросовестные журналы, зарабатывающие на ученых из догоняющих стран, чиновники и управленцы которых применяют примитивные индикаторы типа числа публикаций в WoS и Scopus. Такие журналы за скромную сумму от 350 долларов публикуют все что угодно. Если в WoS сомнительных изданий единицы, то в Scopus сейчас индексируется не менее ста журналов из так называемого списка Билла: http://scholarlyoa.com/publishers/.

Среди них есть журналы, входящие во 2-й и 3-й квартили. Некоторые из них публикуют более тысячи статей в год. Крайне неспешная борьба Scopus с этими жуликами приводит к падению его репутации. При этом Scopus (как и WoS) никогда не удаляет публикации в журналах из базы, а только прекращает индексацию их новых выпусков.

Российских журналов в Scopus около 350, их список размещен в открытом доступе на сайте http://elsevierscience.ru/products/scopus/. Среди них есть как ведущие российские журналы, отсутствующие в WoS (например, «Вопросы экономики» и «Вопросы языкознания»), так и относительно малоизвестные издания. Переводные версии российских журналов до 2005 года индексировались в Scopus параллельно с российскими, что приводило к массовому дублированию и неразберихе. Сейчас плодить дубликаты почти перестали, но, так же как и в WoS, ссылки на русские версии статей при наличии переводных не учитываются.

Еще одна специфическая для Scopus и неприятная для России проблема связана с тем, что часть медицинских журналов попадает в него не напрямую, а через базу MEDLINE, больше известную по названию поискового интерфейса Pubmed (https://www.ncbi.nlm.nih.gov/pubmed/) . Многие российские медицинские журналы при прохождении этой цепочки теряют аффилиации и списки литературы. В результате несколько тысяч статей российских авторов ежегодно не учитывается при измерении публикационной активности организаций, в которых они работают. Потеря списков литературы ведет к потере ссылок, которая для российских медицинских вузов и НИИ оказывается настолько серьезной, что вообще не позволяет им сейчас претендовать на какие-то места в рейтингах, считающих цитирования на одну публикацию.

Другая важная проблема, особенно волнующая сотрудников Вышки, связана со скоростью и полнотой индексирования. Некоторые журналы, особенно гуманитарные, отправляют в Scopus номера с большими задержками и\или не полностью. Ответственность за это лежит в первую очередь на редакциях самих журналов, так что, если журнал значится в Scopus Title List с пометкой «active» (http://www.elsevier.com/solutions/scopus/content) , а свою статью в нем вы в базе не обнаруживаете, обращайтесь в редакцию.

Несомненное достоинство Scopus по сравнению с WoS – наличие готовых профилей (страничек) авторов и организаций, предоставляющих возможность для быстрой аналитики. Однако точность заполнения этих профилей зависит от полноты и корректности указанных аффилиаций. Аффилиация с Вышкой должна указываться только так: National Research University Higher School of Economics.

Российский индекс научного цитирования

РИНЦ \ eLIBRARY.ru – самая популярная в России наукометрическая платформа. Она кардинально отличается от WoS и Scopus тем, что:

● бесплатна и доступна всем;

● индексирует любые журналы, сборники, книги, препринты, позиционирующие себя как научные;

● автоматически приписывает каждой публикации одну тематическую область с помощью алгоритма, детали которого не раскрываются;

● является не только библиометрической базой, но и полноценной электронной библиотекой, т.е. хранит полные тексты публикаций и предоставляет к ним доступ платно и бесплатно.

При этом по договору с Elsevier в РИНЦ регулярно подгружается информация обо всех публикациях российских авторов из Scopus. Сотрудники РИНЦ стараются избежать дублирования, но получается это не всегда.

Индексация всего подряд и массированная загрузка данных из Scopus привела к появлению национальной базы огромных размеров: в РИНЦ сейчас проиндексировано свыше 20 млн публикаций (в WoS – 40,5 млн, в Scopus – 58 млн).

Инклюзивный принцип формирования РИНЦ означает, что число публикаций и цитирований, индекс Хирша и прочие показатели, подсчитанные по этой базе, трактовать крайне сложно, а использовать их как KPI просто нецелесообразно. Однако все используют. Сообразуясь с запросами публики, eLIBRARY.RU активно развивает систему авторских профилей «Science Index для авторов», позволяющую ученым приписывать себе публикации и цитирования, по которым недостаточно информации для автоматического соотнесения. Кроме того, компания также продает сервисы для вузов и НИИ, позволяющие им загружать в базу собственные публикации. Есть такой контракт и у Вышки.

В целом РИНЦ – уникальная и богатейшая база публикаций, значение которой для российской науки трудно переоценить, но подходит она прежде всего для поиска научной литературы и осторожной академической наукометрии, а не для оценки и управления R&D.

Показатели журналов

Показатели научных журналов используются для оценки их работы и сравнения друг с другом прежде всего при помощи анализа входящих и исходящих ссылок. Впервые анализ цитируемости был применен для решения проблемы комплектования библиотек еще в 1927 году. Этот анализ основывается на предположении, что по количеству ссылок на научную работу в других публикациях можно судить о степени ее влияния на научное сообщество. Количественно оценить это влияние можно путем подсчета ссылок на статью. Следовательно, подсчитав общее количество ссылок на все статьи какого-либо журнала, можно оценить, насколько этот журнал важен для научного сообщества в сравнении с другими журналами этой же научной дисциплины.

Journal Impact Factor (http://wokinfo.com/essays/impact-factor/) – один из первых и наиболее широко используемый показатель в наукометрии. Он показывает среднее число ссылок, полученных журналом в отчетном году за публикации, вышедшие в течение двух предыдущих лет. Другими словами, это отношение количества цитирований за год к количеству публикаций в журнале за предыдущие два года. Настоящий Impact Factor рассчитывается только по WoS, так как Thomson Reuters принадлежат права на это словосочетание. Сравнивать с его помощью журналы из разных областей нельзя из-за огромных различий в средней длине списков литературы и в скорости цитирования. Для такого сравнения худо-бедно подходят квартили, которые показывают, в какую четверть распределения по импакт-фактору попадает данный журнал в данной предметной области. Напомним, журнал может попадать сразу в несколько предметных областей, и, хотя импакт-фактор у него один, квартили могут существенно различаться. База, в которой публикуются импакт-факторы и квартили по WoS, называется Journal Citation Reports. Гуманитарные журналы, входящие в A&HCI, не имеют импакт-фактора, так как в Thomson Reuters считают этот показатель для них некорректным.

IPP (Impact per Publication) – фактический аналог Impact Factor, который считается по базе Scopus. Отличие IPP от IF в том, что при его расчете учитывается количество статей за три, а не за два года (http://www.journalmetrics.com/faq.php) .

Для сравнения журналов из разных областей науки используются нормализованные индикаторы.

SNIP (Source Normalized Impact Per Paper) – нормализованный показатель цитируемости журнала, учитывающий различия между областями науки и позволяющий сравнивать журналы разных тематик. Его название можно перевести как «нормализованная по источникам ссылок цитируемость в расчете на одну статью». SNIP выражает отношение числа полученных журналом ссылок в расчете на одну статью к специальным образом вычисленному потенциалу цитируемости индивидуальной дисциплинарной области данного журнала. Он рассчитывается для изданий, входящих в базу Scopus. Подробнее об этом показателе см. здесь: http://www.journalmetrics.com/faq.php.

SJR (Scimago Journal Rank) – индикатор уровня журнала, учитывающий полученные журналом цитирования с различным весом, в зависимости от престижа источника. Так же, как и SNIP, он рассчитывается по Scopus. Вычисляется на основе итеративной процедуры, аналогичной алгоритму ранжирования поисковой выдачи Google PageRank, придуманному Ларри Пейджем и Сергеем Брином. Несколько упрощая, можно сказать, что при подсчете SJR ссылка из Nature весит в сто раз больше, чем из периферийного «Вестника».

Квартили SJR публикуются в открытом доступе и с милым графическим интерфейсом, поэтому широко используются на практике. Именно они служат «квартилями по Scopus» в системе академических надбавок НИУ ВШЭ (http://www.journalmetrics.com/sjr.php) .

Еще один взвешенный журнальный индикатор – Eigenfactor, по смыслу очень похожий на SJR и появившийся раньше него. Его главное отличие в том, что он не нормируется на число публикаций в журнале. Нормированная версия называется Article Influence. Оба эти показателя рассчитываются по Web of Science и публикуются в Journal Citation Reports.

В заключение пару слов о показателях хронологического распределения ссылок – citing half-life и cited half-life – медиане возраста входящих и исходящих ссылок. Так, сited half-lifeхарактеризует цитируемость свежих статей журнала в мировой науке. Если его величина мала, значит, чаще ссылаются на свежие публикации данного журнала, если же велика – на старые материалы. В математике и экономике этот показатель равен более десяти лет, а в нанотехнологиях – всего 4,3 года.

Продолжение следует. Во второй части статьи речь пойдет о том, какие наукометрические показатели используются для оценки ученых и организаций.

Этот выпуск «Академической среды» целиком, а также все предыдущие выпуски, читайте по этой ссылке в формате PDF

24 сентября, 2015 г.