# Аналіз предметної області. Система аналізу медіа контенту
# Вступ
Насамперед, метою нашої поставленої задачі є розробка системи бази даних. Вона, в свою чергу, повинна задовільнити сервіси, які розроблені для збирання та обробки даних. Отже, розглянемо інструменти, які допомагають у їх зборі та обробці.
# Основні визначення
Медіа контент (opens new window) - матеріали які розміщені на сайті, які містять звукову, візуальну інформацію.
Соціальна мережа (opens new window) — це сервіс , призначений для підтримки соціальних зв’язків між людьми та організаціями в Інтернеті. Важливим елементом соцмережі є контент, створений користувачами.
Контент-аналіз (opens new window) — аналіз форми і змісту текстів та інформаційних джерел: їх обробка, оцінка та інтерпретація. Він дозволяє досліджувати об'єкти, явища, процеси , зміст повідомлень засобів масової інформації, записів на сайтах соціальних мереж і властивості соціальної реальності, які представлені в цих текстах.
Засоби масової інформації (opens new window) — канали та платформи, які збирають, обробляють та поширюють інформацію для масових та локальних аудиторій, використовуючи різноманітні технічні засоби. Охоплюють засоби передавання та відворення іноформації, а саме журнали, газети, радіостанції,інтернет, телеканали, інформаційні служби тощо.
Public relations (PR) (opens new window) — управління та розповсюдження інформації від людини або організації з метою вплинути cеред громадкосты на суспільне сприйняття. В основному вплив базується на засобах масової інформації.
Text Mining (opens new window) — це технологія отримання інформації з неструктурованих текстових даних через перетворення в придатний для подальшої роботи набір структурованих даних, представлених в зручному для машинної обробки вигляді.
Data Mining (opens new window) (також глиби́нний ана́ліз да́них) - процес напівавтоматичного аналізу великих баз даних з метою пошуку корисних фактів.
Big Data (opens new window) - набори інформації (як структурованої, так і неструктурованої) настільки великих розмірів, що традиційні способи та підходи (здебільшого засновані на рішеннях класу бізнесової аналітики та системах управління базами даних) не можуть бути застосовані до них.
Медіа-моніторинг (opens new window) - це діяльність з моніторингу виходу друкованих, онлайнових та телевізійних засобів масової інформації.
Дашборд (opens new window) (дешборд, інформаційна панель) - це візуальне представлення даних, згрупованих за змістом на одному екрані для більш легкого візуального сприйняття інформації.
Парсинг (opens new window) - це процес автоматичного збору даних і їх структурування. Спеціальні програми або сервіси-парсери «обходять» сайт і збирають дані, які відповідають заданій умові.
Інтернет-ЗМІ (opens new window) (інтернет-медіа) — інформаційний сайт, який регулярно оновлюється і виконує функцію засобу масової інформації (ЗМІ), користується певною популярністю і авторитетом (має свою постійну аудиторію).
PR метрика (opens new window) дозволяє кількісно виміряти аудиторію всіх публікацій, в яких компанія або бренд згадувалися за звітний період. З її допомогою ви покажете керівництву, яка кількість людей дізналася про новий продукт, послугу або бренд за місяць.
Real-time data (opens new window) - це інформація, яка надає дані в реальному часі, часто використовуються для навігації або відстеження, за допомогою обчислень у реальному часі, хоча їх також можна зберігати для подальшого офлайн-аналізу даних.
Аналітичний звіт (opens new window) - Один з найбільших типових продуктів в медіааналізі. Звичайно формати звітів можуть значно змінюватися, але у них є і загальні риси, зокрема, використання ряду параметрів, що відображають кількість і якість медіаприсутності компанії чи бренду. Характерною рисою аналітичного звіту стають розгорнуті висновки, інтерпретація отриманих статистичних даних. Висновки включають в себе рекомендації для PR-фахівців і маркетологів щодо підвищення якості медіаполя.
# Підходи та способи вирішення завдання
Методи вивчення змісту медіа-контенту - це група методів досліджень, які дозволяють інтерпретувати інформацію у медіа-контенті. Виділяють кількісні та якісні методи вивчення.
До кількісних належать:
- Текст майнінг (найпоширеніший метод дослідження)
- Контент аналіз
- Аналіз природної мови
До якісних методів належать:
- Дискурс-аналіз
- Традиційні методи аналізу
- Феноменологічний аналіз
Однією з проблем при проектуванні системи аналізу медіа-контенту є необхідність вибору правильного підходу до вирішення задачі. На сьогоднішній день існує багато напрямів і стратегій, а також сучасних рішень для завдань у цьому напрямі.
Роботу систем аналізу медіа-контенту можна поділити на 2 етапи.
Перший етап – збір інформації.
Найбільш оптимальним методом швидкого та якісного збору потрібної інформації є парсинг
(синтаксичний аналіз).
При великих потоках інформації доцільним є використання технології Big Data.
Parsing (opens new window) – послідовний синтаксичний аналіз інформації, розміщеної на веб-сторінці за допомогою спеціально написаних програм/скриптів здатних швидко аналізувати контент та знаходити необхідну інформацію.
Big Data (opens new window) – група технологій та методів, за допомогою яких аналізують та обробляють велику кількість даних (як структурованих так і неструктурованих), що не піддається обробці класичними способами через занадто великий об'єм.
Другий етап – оброка інформації.
Весь зібраний матеріал необхідно обробити (відсортувати) для того щоб його можна було
подати у зручному для сприйняття вигляді. З цією метою використовується контент-аналіз. До ефективних методів контент-аналізу можна віднести:
Data Mining (opens new window) – процес напівавтоматичного аналізу великих баз даних з метою пошуку корисних фактів. Зазвичай поділяють на задачі класифікації, моделювання та прогнозування.
Text Mining (opens new window) – напрям інтелектуального аналізу даних (англ. Data Mining) та штучного інтелекту, метою якого є отримання інформації з колекцій текстових документів, ґрунтуючись на застосуванні ефективних, у практичному плані, методів машинного навчання та обробки природної мови. Інтелектуальний аналіз тексту використовує всі ті ж підходи до перероблювання інформації, що й інтелектуальний аналіз даних, однак різниця між цими напрямками проявляється лише в кінцевих методах, а також у тому, що інтелектуальний аналіз даних має справу зі сховищами та базами даних, а не електронними бібліотеками та корпусами текстів.
Deep Learning (opens new window) – це галузь машинного навчання, що ґрунтується на наборі алгоритмів, які намагаються моделювати високорівневі абстракції в даних, застосовуючи глибинний граф із декількома обробними шарами, що побудовано з кількох лінійних або нелінійних перетворень.
Також для реалізації системи контент-аналізу доцільним є використання новітніх методів та технологій у цій галузі, таких як наприклад:
TensorFlow (opens new window) – відкрита програмна бібліотека для машинного навчання цілій низці задач, розроблена компанією Google для задоволення її потреб у системах, здатних будувати та тренувати нейронні мережі для виявляння та розшифровування образів та кореляцій, аналогічно до навчання й розуміння, які застосовують люди.
Word2vec (opens new window) – одна з методик обробки природної мови. Алгоритм word2vec використовує нейромережну модель для навчання пов'язаностей слів із великого корпусу тексту. Щойно її натреновано, така модель може виявляти слова-синоніми, або підказувати додаткові слова для часткового речення. Як випливає з її назви, word2vec представляє кожне окреме слово певним переліком чисел, званим вектором.
Apache Lucene (opens new window) – це бібліотека, що дозволяє організувати повнотекстовий пошук по безлічі документів, тобто пошук з використанням заданих ключових слів. Основна реалізація даної бібліотеки написана на Java, але в той же час існують порти цієї бібліотеки на інші мови і платформи.
Sphinx (opens new window) – система повнотекстового пошуку, відмінною особливістю якої є висока швидкість індексації та пошуку, а також інтеграція з існуючими СУБД (MySQL, PostgreSQL) та наявність API для поширених мов веб-програмування.
Elasticsearch (opens new window) – пошуковий сервер, розроблений на базі Lucene. Надає розподілений, мультиарендний повнотекстовий пошуковий рушій з HTTP вебінтерфейсом і підтримкою безсхемних JSON документів.
# Порівняльна характеристика існуючих засобів вирішення завдання
Медіалогія (opens new window) - це незалежна російська дослідницька компанія в області ЗМІ. "Медіалогія" вирішує задачі моніторингу і аналізу ЗМІ, дозволяє оцінювати ефективність PR і маркетингових комунікацій. Результати запросів клієнтів стають доступні миттєво, а аналіз проводиться більше ніж у 26 000 ЗМІ і 92 млн джерел соцмедіа. Медіалогії довіряють прес-служби публічних комерційних організацій та державних установ.
Babkee (opens new window) - це безкоштовний онлайн-сервіс, що моніторить близько 55 млн площадок. “Babkee” навчилися оцінювати значення людей, що залишили відгук про клієнта, в залежності від його репутації та авторитету. Це допомагає відсортовувати справжні негативні відгуки від упередженого ставлення.
Brand24 (opens new window) - це рішення для моніторингу ЗМІ, що підходить для підприємств будь-якого розміру. Brand24 є дуже зручним у користуванні та надає миттєвий доступ до згадувань в Інтернеті, виявляє та аналізує онлайн-розмови, що мають відношення відношення до клієнтів.
YouScan (opens new window) - постійне покращення рівня свого продукту, багатофункціональність, №1 у Східній Європі та робота з клієнтами з різних країн світу. Вони створили власну функцію розпізнавання зображення «Візуальні інсайти». Мають відповідальне ставлення до використання даних користувачів. Використовують HelpDesk системи, моніторить велику кількість джерел без втрати якості та мають зручне сортування відомостей.
BrandAnalytics (opens new window)
ПрессИндекс (opens new window) - моніторинг по великій базі ЗМІ й соціальних мережах, максимальний обхват та зручне групування інформації в файлах різних форматів(Word, Excel,PDF,HTML). Аналізує більше 90 000 джерел, виконує паралельний моніторинг та постійно оновлюють відомості. Першими об’єднали ЗМІ та соціальні мережі в одну систему моніторингу. Виконують брендування й кастомізацію звітів.
| Вимоги | Критерії | Brand Analytics | Brand24 | ПрессИндекс | Babkee | Медиалогия | Youscan |
|---|---|---|---|---|---|---|---|
| Функціональність | Моніторинг ЗМІ | + | + | + | - | + | + |
| Аналіз бренда | + | + | - | - | - | + | |
| Моніторинг соц. мереж | + | + | + | + | + | + | |
| Аналіз медіа контенту соц. мереж та виявлення трендів | + | - | + | - | - | + | |
| Сортування інформації | + | + | + | - | + | + | |
| Пошук по зображенням | + | - | + | - | + | + | |
| Моніторинг друкованих видань | + (першими запровадили моніторинг регіональних газет і журналів) | - | + | - | + | ||
| Додаткові послуги | Відповіді в соціальних мережах, які виконуються зі системи. Моніторинг по геомітках | Відстеження за хештегом; иизначення тонально тон згадування. | Оцінка ефективності PR-компанії; Моніторинг активності конкурентів | Оцінюють надходженні повідомлення щодо користі для клієнту | Аналіз аудиторіЇ; Розрахунок ЗМІ індексу, який показує наскільки бренд привернув увагу | Визначення тональності згадування будь-якої тематики(точність:90%) Трансляція згадування бренда на великих дисплеях | |
| Зручність | Презентація функціоналу | Тільки текстовий опис; візуалізація відсутня | Тестовий опис, перелік продуктів. Візуалізація у вигляді безкоштовного короткого аналізу вашого бренда після реєстрації. | Перелік продукції; Візуалізація у вигляді відео, яке є застарілим. | Текстовий опис та візуалізація платформи у вигляді слайдів презентації | Текстовий опис та візуалізація у вигляді відео. | Текстовий опис та показ платформ зі всім функціоналом у вигляді зменшеного макета програми, де можна повність протестувати всі функції. |
| Інтерфейс платформи | Зручний; зрозумілий у використанні; сучасний дизайн. | Найбільш зручний зі всіх проаналізованих; Наявні вказівки на роботу з платформою; cучасний дизайн. | Зрозумілий у використанні; Гарно структурована інформація. | Не зручний; не все загружається й виводиться на екран; застарілий дизайн. | Багато зайвої інформації; важко зрозуміти як користуватися. | Зручний у використанні; гарно структурована інформація; сучасний дизайн. | |
| Мови | Сайт російською; Клієнт має можливість обрати моаву платформи з багатьох запропонованих. | Багато різних мов. Клієнт має змогу обрати мову під час реєстрації. Сайт англійською | Російська | Російська | Російська | Англійська, російська, українська, іспанська | |
| Реєстрація | Запитують базову інформацшю. Наявна можливість зупинки роботи сайта під час реєстрації. | Запитують базову інформацію. Під час реєстрації обирається мова платформи. Реєстрація зрозуміла й швидка. | Реєстрація зрозуміла, запитують базову інформацію. У полі номера телефона автоматично встановлюєте код +7 (Росія), що унеможливлює реєстрування компаній з інших країн. | Запитують лише email, на який надсилається лист підтвердження. Швидка й зручна реєстрація. | Реєстрація зрозуміла, запитують базову інформацію. У полі номера телефона автоматично встановлюєте код +7 (Росія), що унеможливлює реєстрування компаній з інших країн. | Реєстрація зрозуміла, запитують базову інформацію. У полі електронної адреси можна вказувати лише корпоративний email. | |
| Ціни | Від 116$ | Від 49$ | - | 0$ | Від 275$ | Від 480$ | |
| Надійність | Захист інформації | Надійна компанія; за всі роки існування не було жодного випадку витоку даних клієнтів. | Тільки клієнт має доступ до результатів аналізу власної компаній, що дозволяє зберегти всю інформацію конфіденціальною. | Мають свою систему групування та зберігання інформації. Випадків втрати даних не було. | має відкритий доступ у користуванні й виконування аналізу; не є надійним у захисті конфіденціальності даних клієнтів. | Надійна компанія | Компанія має власну систему зберігання даних, що гарантує конфіденціальність та знижує цмовірність втрати інформації. |
| Довіра клієнтів | Працюють з великим різноманіттям крупних компаній (на приклад TUI - туристичне агенство); Відгуки позитивні. | Більшість компаній та партнерів залишають позитивні відгуки. Співпрацюють з великими та малими підприємствами протягом довгого періоду. | Співпрацюють з найбільшими компаніями в Росії. Клієнти та партнери залишають гарні відгуки. | Не працюють з великими компаніями. Мало відгуків. | В основному працюють із державними установами; відгуки гарні. | Працють з найбільш крупними компаніями на міжнародній основі. Клієнти залишиють гарні відгуки. | |
| Продуктивність | Кількість джерел, що моніторить компанія | 41 303 джерел | - | Більше 90 000 джерел | - | 900 млн аккаунів в соціально мережах, 66 000 джерел ЗМІ | 60 000 джерел |
| Підтримка | Наявність бота зворотнього зв'язку | + | + | + | - | - | + |
| Сповіщення | + | + | + | - | + | + |
# Недоліки
Brand Alalytics: є обмеження по кількості тем повідомлень (навіть в найдорожчому тарифі)
Brand24: проблеми з пошуком російською чи українською мовами, оскільки це англомовний сервіс
ПрессИндекс: немає пошуку по картинках
Babkee: маленька кількість вналізуємої інформації. обмеження по кількості тем та повідомлень (2 теми та до 3000 повідомлень в місяць)
Медиалогия: відсутність архівів, що зберігаються більше 1 року
Youscan: затримка повідомлень може бути від однієї години до доби
# Висновки
На основі проведеного аналізу й порівняння шести відомих компаній, які займаються моніторингом медіа контенту ЗМІ та соціальних мереж, можна зробити висновок, що компанії ПрессЕкспрес і Медіалогія орієнтовуються, в основному, на російський ринок, а інші компанії працюють на світовий ринок. Більшість компаній пропонують велику кількість функціоналу та зручний інтерфейс. Можна виділити Brand24 як компанію, яка має гарну ціну разом з високим рівнем послуг.
# Посилання
https://www.publichealth.columbia.edu/research/population-health-methods/content-analysis
https://www.historylearningsite.co.uk/sociology/research-methods-in-sociology/media-content-analysis/
https://www.affde.com/ru/meltwater-alternatives.html
https://work-info.org/otzyvy-o-kompaniyakh/60103-medialogiya
https://br-analytics.ru/blog/media-monitoring/
https://gde-saas.ru/applications/youscan-smm/tariffs/