Test wiarygodności stron internetowych
Geneza testu
Na decyzję dotyczącą przeprowadzenia testu miało wpływ zmniejszenie wiarygodności materiałów publikowanych i dostępnych obecnie w internecie:
1. Treści pisane przez automaty bazujące na sztucznej inteligencji oraz redaktorów treści, którzy często nie są autorytetem w danej dziedzinie,
2. Celowa optymalizacja treści pod wytyczne wyszukiwarki, czynniki oraz algorytmy rankujące w celu uzyskania wysokiej pozycji w rankingu wyników wyszukiwania Google, która gwarantuje większą liczbę kliknięć,
3. Celem publikowania treści coraz częściej jest komercjalizacja i chęć zarobku poprzez generowanie ruchu, emitowanie reklam i podbijanie statystyk dotyczących ruchu na stronie,
4. Generowanie treści są podyktowane głównie popularnością i częstością wyszukań poszczególnych zagadnień i słów kluczowych przez użytkowników wyszukiwarek.
Cel
Celem była analiza czynników wpływających na wiarygodność strony internetowej oraz opracowanie narzędzia wspomagającego ocenę wiarygodności strony internetowej:
1. Analiza materiałów w internecie pod kątem czynników wpływających na wiarygodność stron
2. Wyodrębnienie czynników wpływających na wiarygodność stron i ich priorytetyzacja
3. Opracowanie metody automatycznej oceny strony internetowej
4. Realizacja aplikacji implementującej tę metodę, jej testy oraz sformułowanie wniosków z przeprowadzonych testów
Czynniki wiarygodności
Wyodrębniłem 12 czynników wiarygodności, które zostały wybrane ze względu na poniższe kryteria:
1. Czynniki najmniej wrażliwie na manipulację (tutaj odrzuciłem wygląd i design strony oraz pozycje w wynikach wyszukiwania jako czynniki wiarygodności),
2. Częstotliwość wzmianek o czynnikach podczas analizy materiałów,
3. Uwzględnienie czynników społecznych i behawioralnych, które są najczęściej brane pod uwagę przy indywidualnej ocenie użytkowników odwiedzających strony pod kątem wiarygodności.
Wyodrębnione czynniki wiarygodności to:
-
- Jawny autor treści – autorytet
- Obecność daty publikacji/aktualizacji treści – aktualność
- Liczba reakcji w social media
- Liczba linków przychodzących
- Czytelność treści
- Czas ładowania
- Strona mobile-friendly
- Obecność danych strukturalnych
- Liczba podstron serwisu
- Długość treści
- Bezpieczeństwo
- Obecność i ilość reklam
Opracowane narzędzie
Aplikacja stworzona na potrzeby automatyzacji przeprowadzenia testu jest aplikacją webową uruchamianą w przeglądarce internetowej. Aplikacja została napisana w języku HTML z elementami CSS oraz Javascript. HTML z CSS są odpowiedzialne za wygląd interfejsu graficznego aplikacji dla użytkowników końcowych. Za realizacje zaplecza i uruchamianie skryptów odpowiedzialny będzie kod JavaScript. Za pomocą JavaScript jest zbudowana cała funkcjonalność aplikacji oraz komunikacja z poszczególnymi API w celu pobrania danych i przekazania ich do warstwy prezentacji wartości w celu wyświetlenia użytkownikowi. Wykorzystane API to Custom Serch REST API, Safe Browsing API, Page Speed Insights API, Search Console API oraz Facebook Graph API v13.0.
Hipotezy
Jednym z najważniejszych hipotez było sprawdzenie i skonfrontowanie behawioralnych czynników wiarygodności, które są kluczowe w ocenie internautów z rzeczywistą wiarygodnością w oparciu o czynniki, które były wyodrębnione jako w przeanalizowanych materiałach. Jako czynniki behawioralne rozumiane są wszystkie czynniki mające podłoże społeczne, psychologiczne, a także przekonania co do oceny wiarygodności witryn poszczególnych internautów.
Według badania „How Do People Evaluate a Web Site’s Credibility?” przeprowadzonego przez autorów D. Danielson, C. Soohoo, Ph.D. i B.J. Fogg wynika, że użytkownicy oceniając wiarygodność strony biorą pod uwagę następujące czynniki wiarygodności:
• 46,1% bierze pod uwagę wygląd strony, profesjonalizm, zastosowaną kolorystykę, krój czcionki, stonowanie kolorystyki, bez wodotrysków i tandetnej grafiki,
• 28,5% ocenia architekturę strony, strukturę informacji, użyteczność i nawigację witryny,
• 25,1% docenia koncentrację na informacjach, dostęp do informacji, prostotę, ukierunkowanie na przedmiot publikacji,
• 15,5% ocenia wiarygodność poprzez zastosowany motyw firmy, przewodni motyw witryny lub instytucji, zbyt komercyjny to znaczy mniej obiektywny, nie może być mocno sprzedażowy,
• 14,8% docenia przydatność informacji, konkretną odpowiedź na ich zapytanie oraz przydatność i rzetelność prezentowanej wiedzy,
• 14,3% bierze pod uwagę dokładność, rzetelność, cytaty, linkowania, powołania na źródła oraz fakt czy publikacja jest oparta tylko na osobistych opiniach, nienaukowych i przeterminowanych danych,
• 14,1% bierze pod uwagę rozpoznawalność i reputację źródła danych,
• 13,8% negatywnie ocenia obecność reklam, reklama wpływa negatywnie na wiarygodność witryny, ale w rozsądnym jej wykorzystaniu jest odbierana pozytywnie, reklamy rozpraszają uwagę, witryna bez reklam, to większa wiarygodność,
• 11,6% ocenia stronniczość informacyjną oraz docenia możliwość komentowania, opiniotwórcze, dyskusja
• 9% zwraca uwagę na ton pisania – sposób wzbudzenie emocji, sensacji, użycie slangu, zamiast przyjaznego stylu pisania, prostego przekazu, negatywnie ocenia ubogi język i sensacyjność przekazu,
• 8,8% Tożsamość autora – Kto jest autorem, , numer telefonu, imię nazwisko, możliwość kontaktu, jasny cel firmy/osoby/marki/organizacji, specjalizację czy eksperckość,
• 8,6% ocenia funkcjonalność witryny – witryna działa wolno, słabo, linki nie działają, nie ma wyszukań lub nie działa wyszukiwarka wewnętrzna, pojawiają się błędy HTML, błędy wyskakujące podczas przeglądania witryny czy słabość mechanizmu wyszukiwarki
• 6,4% docenia z kolei obsługę klienta – komentarze osób oraz opinie o samym podmiocie publikującym materiały.
Główną hipotezą badawczą jest zbadanie, które z wyłonionych czynników wiarygodności są najczęściej spełnione w kontekście wiarygodności strony, a także które z tych warunków najczęściej nie występują. Ważne będzie również określenie, które z wyżej wymienionych czynników mają największy wpływ na ocenę ewaluowanej wiarygodności witryny.
Następnie sprawdzona została korelacja pozycji w rankingu wyników wyszukiwania Google na jej ewaluowaną wiarygodność za pośrednictwem analizy wybranych czynników wiarygodności.
Na rynku istnieje wiele narzędzi analitycznych opartych na analizie dziesiątek czynników zewnętrznych (poza stroną) i wewnętrznych (na stronie) dotyczących witryn internetowych na podstawie których powstają autorskie metryki stanowiące o jakości tej witryny. Przeprowadziłem dodatkową analizę wyników i zbadałem korelację własnego, otrzymanego wyniku wiarygodności z metryką „zaufania” – Domain Authority serwisu MOZ.com.
Założenia
Głównym założeniem do przeprowadzenia testów aplikacji jest ewaluacja wiarygodności 100 wybranych witryn internetowych. Każda z wytypowanych witryn pochodzi z określonej kategorii tematycznej. Do ewaluacji wybrane zostały artykuły i wiadomości podobne, na podobne tematy znajdujące się w różnych serwisach w celu spełnienia warunku potrzebnego do sprawdzenia korelacji pomiędzy wiarygodnością strony internetowej, a jej pozycją w rankingu wyszukiwania Google.
Dla każdej z 5 wybranych kategorii tematycznych zostało wybranych 20 artykułów, które reprezentują tę kategorię. Typowanie nastąpiło z wykorzystaniem wyszukiwarki Google poprzez wybrane i zgodne z obraną tematyką wyszukiwane słowo kluczowe. Jako słowa kluczowe wybrane zostały tematy popularne wśród opinii publicznej, które cieszyły się dużą ilością wyszukań.
Wyniki
Dla przeprowadzonej ewaluacji wiarygodności 100 witryn internetowych średnia wiarygodność jest oceniana na 65. Analiza opiera się bezpośrednio na adresach URL witryn pochodzących z rankingu wyszukiwarki Google, który stanowi pierwszy istotny filtr dla stron, które nie są godne zaufania. To z kolei powoduje, że wszystkie analizowane strony spełniają czynnik związany z bezpieczeństwem. W przeciwnym wypadku nie znalazłyby się w indeksie Google. Tak więc, wynik przy wyborze innego źródła mógłby być niższy.
52% analizowanych stron posiada ocenę ewaluowanej wiarygodności niższą lub równą od uzyskanej średniej wartości wiarygodności podczas przeprowadzonych testów.
Najniższą znalezioną w przeprowadzonym teście wartością ewaluowanej wiarygodności jest 25, a najwyższą 95 punktów.
Poniżej na wykresie nr 2 widać ilość wystąpień poszczególnych czynników wiarygodności na podstawie przeprowadzonego testu ewaluacji 100 wybranych witryn internetowych w kolejności od najmniej do najczęściej występujących.
Jak widać na wykresie nr 2 najmniej spełnianym czynnikiem wiarygodności był limit związany z mało uciążliwymi reklamami i zasobami reklamowymi. Limit spełniło zaledwie 46% analizowanych stron. To znaczy, że dla 54 z analizowanych 100 stron posiadało więcej niż trzy jednostki reklamowe. Kolejnymi najmniej spełnianymi czynnikami była obecność jawnych informacji o autorze oraz dacie publikacji analizowanych artykułów. Tylko w 50% analizowanych artykułów do treści był przypisany jej autor, a w 54% z nich była obecna data publikacji. Tylko 40 na 100 analizowanych stron posiadało przypisaną tę parę informacji.
Na stronach uznanych za mniej wiarygodne ilość reklam na stronach jest znacznie niższa. W przypadku oceny wiarygodności powyżej 80 częstość występowania powyżej 3 zasobów reklamowych to 41%, a w przypadku witryn z oceną wiarygodności poniżej 50 znacznie częściej, bo aż 68% z nich posiadało mniej niż 3 zasoby reklamowe.
Analizując strony z najwyższą oceną ewaluowanej wiarygodności (strony z oceną wiarygodności – 90) można zauważyć, że te, które mają ilość reklam powyżej 3 nie spełniają warunku czasu ładowania najpewniej związany z ładowaniem tych zasobów. Spośród całego zestawienia 16 witryn ma niższą ocenę związaną z czasem ładowania i ma to korelacje z ilością reklam, ale z kolei 44 spełnia warunek związany z czasem ładowania strony i jednocześnie posiada więcej niż 3 jednostki reklamowe.
Największy wpływ na ocenę wiarygodności ma jawna informacja o autorze oraz data publikacji – wykres nr 3, które jednocześnie są najrzadziej spełnianymi czynnikami podczas przeprowadzonej analizy wiarygodności.
Z kolei największy wpływ na pozycję z czynników wiarygodności ma czytelność, linki przychodzące i czas ładowania. Tak więc wskaźniki, które odpowiadają 3 fundamentom budowania widoczności w Google to jest – Treść, Linki i Optymalizacja.
Na wyższą pozycję wprost ma przełożenie liczba linków przychodzących oraz indeks czytelności, który zmienia się proporcjonalnie do długości tekstów na stronie – wykres nr 4. Aż 69 stron zawiera indeks czytelności powyżej 12, a liczbę słów w artykułach powyżej 1000 aż 88 z nich. W tym aspekcie ważny jest również czas ładowania strony.
Nie ma jakiejkolwiek zależności pomiędzy ewaluowaną wiarygodnością analizowanych stron, a ich pozycją w wynikach wyszukiwania Google. Tak więc, wysokie pozycje w wynikach wyszukiwania nie gwarantują wiarygodności artykułów, co potwierdza nie tylko uzyskana w teście ewaluowana ocena wiarygodności, ale także alternatywna metryka Domain Authority renomowanego narzędzia MOZ.
Nie widać również zależności pomiędzy ewaluowaną oceną wiarygodności witryn, a ich tematyką (kategorią tematyczną).
Zaobserwować można korelację oceny ewaluowanej wiarygodności z metryką Domain Authority renomowanego narzędzia MOZ.com – wykres nr 6. Przełożenie czynnika Page Authority narzędzia MOZ.com na wiarygodność również jest zauważalna, ale jest nieco niższa.
Bardzo duży wpływ na samą wiarygodność artykułu mają sygnały odnoszące się do samej domeny i one są silne dla wszystkich programów/algorytmów. Z kolei czynniki, które są charakterystyczne dla samego artykułu a mniej odnoszą się do samej domeny, czyli np. jawna obecność daty publikacji, czy autora artykułu są najrzadziej występującym czynnikiem spośród analizowanej wybranej puli adresów URL. Z kolei te bezpośrednio opisujące treść na stronie mają istotny wpływ na pozycję strony w rankingu wyników wyszukiwania Google.
Wśród zestawienia witryn internetowych do oceny ewaluacji wiarygodności jest 10 domen, które wystąpiły kilka razy w poszczególnych kategoriach i z których podchodzi więcej niż jeden adres URL strony, który był poddany analizie. Taka analiza również pokazuje wpływ „mocy” samej domeny na ostateczny ewaluowany wynik wiarygodności strony.
Domena | Zakres ocen ewaluowanej wiarygodności | Różnica |
Money.pl | 90-95 | +/-5 |
Businessinsider.com.pl | 77-87 | +/- 10 |
Innpoland.pl | 45-50 | +/- 5 |
Polskatimes.pl | 75 | |
Bankier.pl | 80-90 | +/- 10 |
Rp.pl | 65 | |
Polityka.pl | 80 | |
Forbes.pl | 82-87 | +/- 5 |
Pb.pl | 72-75 | +/- 3 |
Portalspozywczy.pl | 45-50 | +/- 5 |
Z przeanalizowanych adresów URL pochodzących z tych samych domen wynika, że największa różnica wynika z braku wskazania autora (dla domen businessinsider.com.pl oraz bankier.pl) oraz indeksu czytelności (businessinsider.com.pl, forbes.pl oraz portalspozywczy.pl), czyli wskaźników bezpośrednio opisujących treść na analizowanej podstronie, a nie odnoszące się do całej domeny.
Podsumowanie
Testy ewaluacji wiarygodności 100 witryn pokazały, że niecała połowa witryn objętych analizą spełnia ocenę wiarygodności powyżej 65, co jest uzyskaną wartością średnią dla wszystkich analizowanych podstron w wykonanym teście. To znaczy, że godnych zaufania artykułów wg opracowanej metody automatycznej ewaluacji wiarygodności jest około 50%. Niecała połowa spełnia założenia dotyczące obecności poniżej 3 jednostek reklamowych, a im więcej tych jednostek jest osadzonych na stronie tym większy zauważalny wzrost czasu ładowania stron. Połowa z analizowanych podstron nie zawiera jawnych informacji o autorze artykułu, czy dacie publikacji. Tylko 40% zawiera parę tych informacji jawna data – jawny autor. Niezauważalna jest korelacja pozycji w rankingu wyszukiwarki Google analizowanych witryn do otrzymanej ewaluowanej oceny wiarygodności. Potwierdza to również alternatywny wskaźnik „zaufania” – Domain Authority pochodzącej z renomowanego na rynku narzędzia MOZ.com. To znaczy, że nie można liczyć na większą wiarygodność artykułów kierując się wyborem strony uwzględniając pierwsze wyniki rankingu wyszukiwarki Google. Na ocenę wiarygodności mocno wpływa wiarygodność samej domeny, a zwłaszcza jej reputacja i popularność, co potwierdza nie tylko korelacja ewaluowanej wiarygodności z metryką Domain Authority narzędzia MOZ.com, ale także wyniki testów i analizy różnych artykułów pochodzących z tych samych domen.