Аналитический курьер

Продукт
Разработчики: Айтеко (Ай-Теко, iTeco), Центр когнитивных технологий АйТеко
Технологии: Data Mining,  OLAP,  Корпоративные порталы,  Офисные приложения,  СЭД,  СЭД - Системы потокового распознавания

Содержание

«Аналитический курьер» – программный продукт, инструмент аналитической разведки информационного пространства, разработанный для извлечения знаний из данных, которые поступают в режиме реального времени из огромного числа разноформатных источников. Благодаря использованию методологии семантического анализа система проводит детальный анализ неструктурированной информации, устанавливает связи между объектами, событиями, темами, строит прогнозы возникновения определенных ситуаций, а также выявляет источники информационных кампаний, атак и пр. В состав системы входит отказоустойчивое масштабируемое хранилище Big Data, которое позволяет обрабатывать миллиарды документов и может использоваться как самостоятельное решение. Продукт разработан и применяется для мониторинга сегментов рынка, анализа имиджа персон и организаций, конкурентного анализа, а также в деятельности страховых и кредитных организаций, правоохранительных органов и спецслужб. Компоненты системы используются также в системе патентного поиска Роспатента.

Функции:

  • параллельная обработка разнородной неструктурированной информации из различных источников: управленческих и юридических документов, сообщений СМИ, сообщений информационных агентств, аналитических материалов различного профиля, ресурсов сети Интернет, и др.;
  • поиск ресурсов в Интернет через поисковые сайты, или по списку исследуемых сайтов;
  • многоязычный семантический поиск с использованием современного тезауруса русского и других языков, обработка запросов на естественном языке для текста на европейских языках;
  • доставка тематически структурированного в виде дерева списка релевантных документов (онтологии);
  • автоматическое общее и тематическое реферирование коллекций или отдельных документов;
  • тематическое рубрицирование документов и публикаций;
  • определение тональной окраски документов и отдельных объектов, выделение упоминаний и цитирования;
  • определение индекса информационной значимости объекта мониторинга;
  • автоматическое выделение тематических групп внутри полученной по запросу подборки документов (кластерный анализ публикаций);
  • выявление ключевых тем документа, коллекции документов, построение их взаимосвязей в виде семантической сети;
  • построение дайджеста (обзора) по каждому объекту или теме документа;
  • частотный анализ рубрик и публикаций, многомерная аналитическая обработка данных, исследование динамики развития проблем, представленных в документах, Визуализация частотных распределений на географической карте;
  • выделение сущностей на русском и английском языках;
  • поиск в персональных библиотеках пользователей, Автоматическая доставка новых документов по выбранной тематике;
  • регламентный выпуск аналитических отчетов;
  • регистрация значимых действий пользователей.

Архитектура программного комплекса

Система «Аналитический курьер» реализована на Windows-платформе .NET. имеет трехзвенную архитектуру с «тонким» клиентом и предоставляет пользователям Web-интерфейс.

Для особо ответственных приложений реализована архитектура системы с компонентами, работающими в разделенных сетях. Например, WEB-роботы производят мониторинг сети Интернет, результаты переносятся во внутреннюю сеть и автоматически вводятся в хранилище системы, где доступны все фонды для совместной обработки закрытой и открытой информации.Станислав Обухов, Т1 Иннотех: Автоматизация меняет функцию закупок 2.4 т

=== Хранилище аналитических данных реализовано для СУБД MS SQL Server и ORACLE ===.

Система «Аналитический курьер» развивается в направлении улучшения качества анализа текстов, увеличения спектра поддерживаемых иностранных языков, поддержки большего числа серверных и портальных платформ, улучшения интерфейса аналитика и администратора.

Конкурентные преимущества

«Аналитический курьер» позволяет быстро погружаться в новые предметные области, структурировать проблематику, готовить отчёты и информационно-аналитические материалы. Уникальной особенностью системы является совместное применение различных визуальных методов извлечения знаний к одной подборке документов, например, сначала производится построение онтологии подборки документов; ее кластерный анализ, затем может строиться семантическая сеть тем для выбранного кластера, после чего — частотный анализ временного ряда документов по взаимосвязанным проблемам и т.д. В системе реализован уникальный метод определения тональности публикаций.

Широкий спектр функциональных возможностей системы обеспечили ей внедрение в организациях, обрабатывающих большие объёмы документов и сообщений различной структуры.

К важному достоинству системы относится минимальная стоимость ее эксплуатации по сравнению с наиболее известными на рынке системами.

Примеры экранных форм системы

Образец тематической кластерной карты сообщений:

Образец семантической карты взаимосвязей тем сообщений:


Примеры пользования

  • Аналитические подразделения и службы безопасности банка:

анализ кредитоспособности клиента, выявление объектов, осуществляющие подозрительные платежи, выявление случаев распространения конфиденциальной информации и т.д.

  • Страховые компании:

обнаружение мошенников, неоднократно причинивших ущерб, недобросовестных объектов-страхователей, их связей, а также закономерностей событий (по месту и времени), происходящих с клиентами страховой компании.

  • Аналитические подразделения производственных компаний:

анализ наиболее частых неполадок; анализ реакции рынка на качество товаров, помощь в принятии решений.

  • Подразделения маркетинга предприятий (анализ рынка лекарств, изделий):

обеспечение лиц, принимающих управленческие решения, информацией для выработки оптимального варианта решения стоящей проблемы.

  • Специальные службы, правоохранительные органы:

мониторинг событий, объектов, проблем и анализ взаимосвязей исследуемых сущностей.

Новые возможности

Динамическая онтология поисковой выдачи документов

Для пользователей поисковых систем весьма актуальна задача выделения «своих» документов среди всех документов в поисковой выдаче. Для этой цели в системе извлечения знаний из документов «Аналитический курьер» уже используются методы кластерного и семантического анализа. В поисковых серверах таких компаний, как Google и Vivisimo реализована возможность построения тематического дерева (онтологии), в каждом из узлов которого расположена группа тематически однородных документов выдачи.

Классические методы тематического (кластерного) анализа, основанные на мерах близости между документами, разделяют поисковую выдачу на группы сходных документов – т.н. кластеры, в которых документы попарно похожи друг на друга, но «существо» сходства может отличаться у разных пар из одного кластера, например, одна пара схожа по сущности «развитие экономики», а вторая – по сущности «демографический кризис».

Для повышения достоверности кластерного анализа мы использовали метод бикластеризации (объектно-признаковой, концептуальной кластеризации), в котором сходство объединяемых в один кластер документов выражается через общие структурные признаки (сущности, темы), выделенные из документов. Преимуществом метода является наличие всех тем кластера в каждом документе. Также важно, что он хорошо работает при небольшом числе документов в выборке. В основе бикластеризации лежит метод анализа формальных понятий (АФП) – мощный метод анализа данных, который успешно применяется на практике. Для получения тематического дерева сначала формируется решётка формальных понятий в виде двумерной матрицы, строкам которой соответствуют документы, а столбцам – сущности, извлеченные из них. Если документ содержит конкретную сущность, то на пересечении этих столбца и строки стоит частота ее появления в документе. Таким образом, решётка содержит всю информацию о взаимозависимостях, существующих между документами и сущностями. Визуальным представлением выявленных в решетке формальных понятий зависимостей является дерево кластеров документов.

Как всё работает?

Полученную по результатам поискового запроса подборку сначала обрабатывает семантический процессор, выделяющий сущности из документов. Затем аналитический процессор по документам и сущностям формирует решетку формальных понятий. На основании ее анализа, определяются и удаляются линейные зависимости между документами и сущностями: удаляются похожие документы, а также повторяющиеся или незначимые сущности, в результате остаются только документы и сущности, независимые друг от друга. На основании общих значимых сущностей документы исходной подборки разделяются на кластеры, для визуализации которых строится многоуровневое дерево.

Быстродействие программы бикластеризации практически не зависит от объема выборки документов. Скорость визуализации дерева зависит только от числа параллельно работающих пользователей. Время реакции системы при работе с документами кластеров также практически не увеличилось, поэтому мы рассчитываем на массовое использование данного инструмента нашими многочисленными пользователями.

Пример использования

Поисковая выдача примера получена в результате поиска в системе «Аналитический курьер» по запросу «[(журналист редактор корреспондент) & (гонения убийство избиение заключение "увольнение под давлением" нападение угроза репрессии арест преследование задержание уголовное давление)]».

Ниже представлен результат обработки системой «Аналитический курьер» поискового запроса. В левой части экрана пользователь может просматривать дерево кластеров, выбрать заинтересовавший его кластер, после чего в правой части система отображает входящие в него документы. Каждый документ кластера содержит все сущности, перечисленные в иерархии соответствующих ему узлов дерева. Документ может одновременно присутствовать в нескольких кластерах.

Метод концептуальной кластеризации документов доступен в актуальной версии системы «Аналитический курьер».


Развитие компонентов лингво-семантического анализа текста на русском и английском языках

Лингвистический анализ текста

Разработан программный компонент, выполняющий следующие функции:

  • лексический анализ (разбиение текста на предложения и лексемы),
  • морфологический анализ (определение морфологических характеристик слов, таких, как: часть речи, род, число, падеж и т.д., и синтез словоизменений),
  • предсинтаксический анализ (выделение групп лексем - синтагм и др.),
  • синтаксический анализ (построение дерева разбора предложения и определение синтаксических ролей слов в предложении: подлежащее, сказуемое, дополнение, обстоятельство и т.д.),
  • постсинтаксический анализ (выделение типизированных сущностей, …).

Семантический анализ текста

Последующий семантический анализ текста производит типизацию сущностей (физические, юридические лица; одушевленные предметы; даты; регионы и многие другие типы), а также их нормализацию. Для идентификации ссылочно представленных сущностей (местоимения) используются различные эвристические методы: Разрешение анафорических ссылок. Пример. Если в найденном факте присутствуют местоимения («он», «она» и т.д.), то производится идентификация объекта – источника ссылки. Разрешение аббревиатур. Пример. Если в факте встретилась аббревиатура в качестве названия объекта, то производится идентификация полного названия объекта – источника аббревиатуры. Например, если в тексте встретилась — «НЛМК», то просмотрев текст и найдя в нем «Новолипецкий меткомбинат» система сгенерирует синоним для НЛМК. Идентификация географических объектов. Пример. Если в факте встретился географический объект с названием, например, «деревня Иваново», то производится поиск других географических объектов в тексте, например, «Московская область», что позволит связать найденную деревню «Иваново» именно с той в справочнике стран и регионов, которая находится в Московской области. Поиск наиболее полного наименования персоны. Пример. Если в факте встретился объект типа «персона», то система будет искать по тексту ее более полное наименование. Например, если в факте встретилась персона «Д. Медведев», а по тексту выше есть персона «президент России Д. Медведев», то система возьмет это последнее наименование, как наиболее полное в данном тексте.

Выделение многих типов сущностей (адреса, телефоны и т.д.) производится с помощью расширяемых (в том числе и пользователем) правил.

Тезаурус русского языка

Завершена разработка нового современного тезауруса русского языка, совместимого со стандартом WordNet 3.0. Он имеет уникальный объем, в его составе более 160 тысяч групп синонимов, 700 тысяч связей между ними, 170 тысяч лексем и 13 типов семантических отношений.

Разработан web-сервис для управления тезаурусом. Он может быть использован как в системах «Аналитический курьер» и `X-Files`, так и в других системах. Его особенностью является возможность одновременной работы, как с общим, так и с тематическими тезаурусами заказчика. В поставку программного компонента входит инструмент для создания нового или редактирования существующего тезауруса.

Динамика развития функций системы «Аналитический курьер»

Ключевые темы

Search; federated search, multilingual search, content analytics, content classification, categorization and clustering, fact and entity extraction, taxonomy creation and management, information presentation (for example, visualization) to support analysis and understanding.

Поиск информации; поиск по нескольким источникам, многоязычный поиск, аналитическая обработка текстовой информации, инструменты визуальной аналитической обработки текстовой информации, классификация содержимого документов, категоризация и кластеризация, выделение сущностей, выделение отношений, выделение фактов, создание таксономий и онтологий, визуализация информации с использованием геоинформационных служб.

Заключение

Патентованный продукт компании «Ай-Теко» «Аналитический курьер» лежит в основе арсенала систем аналитической разведки компаний, обеспечивает их качественно новые конкурентные преимущества, безопасность и динамичное развитие.



ПРОЕКТЫ НА БАЗЕ (1) РЕШЕНИЕ НА БАЗЕ (2) СМ. ТАКЖЕ (6)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Directum (Директум) (906)
  Elma (Элма, Интеллект Лаб, Практика БПМ) (658)
  Haulmont (Хоулмонт) (483)
  Корпоративные Системы – Консалтинг (КС-Консалтинг) (255)
  Comindware (Колловэар) (254)
  Другие (5787)

  Elma (Элма, Интеллект Лаб, Практика БПМ) (239)
  Directum (Директум) (118)
  Синтеллект (Syntellect) (86)
  Haulmont (Хоулмонт) (82)
  QuickBPM (80)
  Другие (432)

  Elma (Элма, Интеллект Лаб, Практика БПМ) (115)
  Directum (Директум) (82)
  Haulmont (Хоулмонт) (35)
  Синтеллект (Syntellect) (34)
  Этлас-Софт (Atlas Soft) (19)
  Другие (324)

  Directum (Директум) (84)
  Elma (Элма, Интеллект Лаб, Практика БПМ) (52)
  Синтеллект (Syntellect) (28)
  СКБ Контур (13)
  Haulmont (Хоулмонт) (13)
  Другие (198)

  Directum (Директум) (18)
  HRlink (Инновации в управлении кадрами) (8)
  ЦИТ-Регион (7)
  СКБ Контур (7)
  Этлас-Софт (Atlas Soft) (4)
  Другие (68)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Directum (Директум) (37, 1936)
  Docsvision (ДоксВижн) (43, 865)
  Электронные офисные системы (ЭОС) (29, 753)
  Elma (Элма, Интеллект Лаб, Практика БПМ) (7, 744)
  1С Акционерное общество (22, 550)
  Другие (850, 3791)

  Elma (Элма, Интеллект Лаб, Практика БПМ) (1, 319)
  Directum (Директум) (7, 248)
  Синтеллект (Syntellect) (5, 87)
  Haulmont (Хоулмонт) (1, 84)
  Comindware (Колловэар) (1, 78)
  Другие (58, 193)

  Directum (Директум) (6, 245)
  Elma (Элма, Интеллект Лаб, Практика БПМ) (3, 115)
  Docsvision (ДоксВижн) (4, 50)
  Синтеллект (Syntellect) (1, 36)
  Haulmont (Хоулмонт) (1, 35)
  Другие (47, 124)

  Directum (Директум) (3, 150)
  Elma (Элма, Интеллект Лаб, Практика БПМ) (3, 52)
  Синтеллект (Syntellect) (4, 30)
  1С Акционерное общество (5, 22)
  СКБ Контур (7, 13)
  Другие (33, 114)

  Синтеллект (Syntellect) (3, 24)
  Directum (Директум) (2, 20)
  1С Акционерное общество (3, 9)
  HRlink (Инновации в управлении кадрами) (1, 9)
  СКБ Контур (2, 7)
  Другие (33, 42)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Directum RX - 888
  Directum (СЭД/ECM-система) - 861
  Docsvision (СЭД/ECM-система) - 791
  Дело (ЭОС) - 506
  ТЕЗИС Система управления документами и задачами - 504
  Другие 5089

  ELMA365 ECM - 319
  Directum RX - 233
  ТЕЗИС Система управления документами и задачами - 84
  Comindware Business Application Platform - 78
  Syntellect Tessa - 64
  Другие 315

  Directum RX - 236
  ELMA365 ECM - 108
  Docsvision (СЭД/ECM-система) - 49
  Docsvision: Кадровый электронный документооборот (КЭДО) - 40
  Syntellect Tessa - 36
  Другие 177

  Directum RX - 147
  ELMA365 ECM - 44
  Syntellect Tessa - 30
  ТЕЗИС Система управления документами и задачами - 13
  HRlink Система электронного кадрового документооборота - 11
  Другие 142

  Syntellect Tessa - 24
  Directum RX - 19
  HRlink Система электронного кадрового документооборота - 9
  Контур.Логистика - 5
  1С:Документооборот 8 КОРП - 5
  Другие 48

Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  ЭЛАР (Электронный архив, НПО Опыт) (241)
  Directum (Директум) (132)
  Smart Engines (Смарт Энджинс) (123)
  Cognitive Technologies (Когнитивные технологии) (91)
  Синтеллект (Syntellect) (78)
  Другие (745)

  Синтеллект (Syntellect) (52)
  Smart Engines (Смарт Энджинс) (14)
  ЭЛАР (Электронный архив, НПО Опыт) (10)
  Directum (Директум) (5)
  Abbyy Россия (4)
  Другие (32)

  ЭЛАР (Электронный архив, НПО Опыт) (10)
  Beorg (Биорг) (8)
  Smart Engines (Смарт Энджинс) (7)
  NVI Solutions (Норд Вижен Интелледженс Солюшенс) (3)
  Digital Design (Диджитал Дизайн) (2)
  Другие (19)

  Smart Engines (Смарт Энджинс) (21)
  ЭЛАР (Электронный архив, НПО Опыт) (13)
  Синтеллект (Syntellect) (5)
  Beorg (Биорг) (4)
  Digital Design (Диджитал Дизайн) (4)
  Другие (13)

  Smart Engines (Смарт Энджинс) (16)
  ЭЛАР (Электронный архив, НПО Опыт) (8)
  Beorg (Биорг) (2)
  Digital Design (Диджитал Дизайн) (2)
  Content AI (Контент ИИ) (1)
  Другие (5)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  ЭЛАР (Электронный архив, НПО Опыт) (11, 242)
  Directum (Директум) (6, 161)
  Smart Engines (Смарт Энджинс) (16, 130)
  Abbyy Россия (16, 111)
  Cognitive Technologies (Когнитивные технологии) (5, 96)
  Другие (171, 621)

  Синтеллект (Syntellect) (2, 52)
  Smart Engines (Смарт Энджинс) (2, 14)
  ЭЛАР (Электронный архив, НПО Опыт) (3, 8)
  Abbyy Россия (2, 7)
  Directum (Директум) (3, 6)
  Другие (16, 19)

  Smart Engines (Смарт Энджинс) (3, 11)
  ЭЛАР (Электронный архив, НПО Опыт) (3, 10)
  Beorg (Биорг) (1, 8)
  Directum (Директум) (3, 4)
  Digital Design (Диджитал Дизайн) (3, 2)
  Другие (10, 11)

  Smart Engines (Смарт Энджинс) (2, 22)
  ЭЛАР (Электронный архив, НПО Опыт) (4, 13)
  Синтеллект (Syntellect) (2, 5)
  Digital Design (Диджитал Дизайн) (2, 4)
  Beorg (Биорг) (1, 4)
  Другие (8, 10)

  Smart Engines (Смарт Энджинс) (3, 16)
  ЭЛАР (Электронный архив, НПО Опыт) (3, 8)
  Digital Design (Диджитал Дизайн) (2, 2)
  Beorg (Биорг) (1, 2)
  Content AI (Контент ИИ) (1, 2)
  Другие (4, 4)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  ЭЛАР ПланСкан - 151
  Synerdocs - 130
  Smart ID Engine (ранее Smart IDReader) - 113
  ABBYY FlexiCapture - 90
  Е1 Евфрат - 87
  Другие 775

  Syntellect Tessa Мобильное согласование - 30
  Syntellect Tessa Графический визуализатор процессов - 28
  Smart ID Engine (ранее Smart IDReader) - 12
  ABBYY FlexiCapture - 6
  ЭЛАР ПланСкан - 6
  Другие 28

  Smart ID Engine (ранее Smart IDReader) - 10
  ЭЛАР ПланСкан - 9
  Beorg Smart Vision - 8
  EasyData: EasySeparate - 2
  ЭЛАР ПауэрСкан - 2
  Другие 16

  Smart ID Engine (ранее Smart IDReader) - 18
  ЭЛАР ПланСкан - 8
  Smart Code Engine (ранее Smart CardReader, Smart BarcodeReader и Smart MRZReader) - 4
  Syntellect Tessa Графический визуализатор процессов - 4
  Beorg Smart Vision - 4
  Другие 19

  Smart ID Engine (ранее Smart IDReader) - 12
  ЭЛАР ПланСкан - 5
  Smart Code Engine (ранее Smart CardReader, Smart BarcodeReader и Smart MRZReader) - 4
  ContentReader Server - 2
  ЭЛАР СканИмидж - 2
  Другие 9