Този материал обобщава записки от първия семинар на Училището по журналистика и работа с бази данни, организиран от Европейския център за журналистика, Фондация Отворено знание и Международния фестивал на журналистиката. Сесията води Стийв Дойг, завеждащ програмата Knight по журналистика в Walter Cronkite School of Journalism and Mass Communication, специализиращ в репортажи, подпомагани от модерни технологии, а именно използването на компютри, инструменти на социалните науки за да могат журналистите да вършат по-добре работата си.
Защо изобщо да правим журналистика, която се основава на работа с данни?
Стийв Дойг вярва, че този подход към информацията позволява на журналистите да да обосноват историите си на факти и доказателства. Използвайки данни в предаването на новини, репортерът може да търси най-добрите доводи – тези, които най-добре описват дадената история.
И така, как могат журналистите да намерят идеи за журналистически материал при работа с бази данни? Първо опитайте да разгледате темите, по които вече работите, като например спорт, избори, природни бедствия, криминални разследвания, парични потоци и др. Почти всяка тема, която е обект на журналистическо внимание, произвежда данни, които могат да бъдат анализирани. Други извори на вдъхновение включват:
- Наблюдавайте какво правят други журналисти. Ако нещо се случва в един град, много възможно е то да се случва и във вашия.
- Хвърлете поглед на проектите, включени в DataDrivenJournalism.net
- Разгледайте допълнителната информация от IRE Extra Extra Feed
- Следвайте блога с бази данни на вестник The Gardian.
- Четете документи публикувани от държавни агенции I научни разботници, които събират големи обеми от данни. Обърнете внимание на бележките под линия и библиографиите, които могат да ви отведат към интересни източници на информация.
Как да стигнем от данните до историята?
Работете в обратен порядък, изхождайки от вашата идея:
- Мислете за посланията, които искате да отправите
- Започнете с хипотеза като „престъпността в моя град се повишава“. За подобна се нуждаете от следните факти: престъпността се е повишила с Х процента за периода Y, делът на криминалните атаки спрямо всеки 1000 души в град Х е най-голям за целия регион, и др.
Помислете за това какви променливи ще са ви нужни, за да направите вашите изводи
Мислете в рамките на таблица с информация (колонките са величините, а редовете – индивидуални единици данни)
Съществуват два вида променливи:
- Категоризиращи променливи: като пол, вид престъпление, пощенски код. Това са променливи, на които може да се постави етикет.
- Числови променливи: например бройки, брой престъпления, брой нещастни случаи, брой арести.
Пример за съчетаването на такива променливи е: видът престъпление, броят жители на населеното място, където се случва престъплението, датата, времето и мястото на престъплението, броят жертви, дали има задържани (да или не).
Помислете за това кой събира данните
След като вече сме се запознали с променливите, проверяваме кой ги е събрал. Агенции и организации, като правителство, корпорации и др. събират много информация, така че в повечето случаи не ни се налага сами да събираме данните.
Извличане на данните
След това ни предстои предизвикателството да извлечем данните. В Съединените щати има относително силни закони за това какви са начините за добиване на такава информация. Също и в Европа повечето страни имат закони за свободата на достъп до информация или официален път за сдобиване с информация от публичния регистър.
Не се чувствайте застрашени от различните формати. Научете се как искате да работите с данните, като ползвате например Excel. Няма нужда да се сдобивате с информацията във формата .xls, а можете да използвате програми за преформатиране на данни от един формат в друг. Намерете някой маниак на тема данни, който да ви помогне! Едно от местата, където можете да намерите запалени познавачи на света на данните, са форуми или e-mail списъци, като например:
- Nicar-l, списъци на щатите, в които журналисти, работещи с данни, си говорят помежду си
- Data-driven-journalism
- School of data
Един от форматите, които е хубаво да избягвате, е PDF; не се пренася лесно в други формати. Ако можете да се сдобиете само с PDF, има инструменти за преформатирането му в други формати, като например Tabula.
Изчистете данните
Данните понякога могат да бъдат непрегледни. Класически пример за това е информацията за финансирането на политически кампании, която е записвана изцяло от доброволци, като имената на градове винаги са записвани с правописни грешки! В този случай се налага да намерите имената на всички градове, които са сгрешени и да ги коригирате, за да може в последствие да направите изводи за това, каква сума е събрана в отделните градове. Хората, които събират данни често го правят за бюрократични цели и за тях не е особено важно колко изчистени са данните. Хората, които използват данните с цел анализ имат нужда от повече прецизност и така им се налага да изчистват данните. Някои инструменти за почистване на данни са:
- Open refine
- Notepad ++ или други добри редакторски инструменти за текст (за функции като “Търсене” и “Заместване”)
- Spreadsheets
След като вече сте почистили данните, какво правите с тях?
Вгледайте се е за генерални изводи! Покачвания, спадове, най-високи стойности, най-ниски стойности, средни стойности и т.н. Добийте идея за формата на данните, следете за отклоняващи се данни, за всичко, което изглежда странно в тези данни и се откроява. Помнете, че много от журналистическите открития са направени точно при вършенето на прости неща, като сортиране и т.н. Някои инструменти, които могат да помогнат:
- Ползвайте прости функции в spreadsheet, като сортиране, филтриране, функции и обобщаващи таблици.
- Друг инструмент е собственият ви мозък: математика и статистика са общо взето 1+1 = 2! Математически инструмент ще намерите тук: http://t.co/CaZg5qS0jM
В заключение, важно e да помните, че журналистически разкази, които се базират на данни се изработват най-добре при работа в екип. Има много роли, които трябва да бъдат заети: репортери, редактори, графични дизайнери, видеографи, страньори, уеб дизайнери, разработване на приложения, и др.
Антоан Лоран е стратег и старши мениджър проекти в Европейския център по журналистика. В миналото той е бил заместник-директор на Глобалната мрежа на редакторите и основател и директор на Журналистическите награди за журналистика основана на работа с бази данни, редактор на „Lab Hackdays и Startups новини. Статията се появява за пръв път в DataDrivenJournalism.net и е публикувана в IJNet с позволение, дадено чрез некомерсиален лиценз на Creative Commons Attribution. Създаден от Европейския център по журналистика, тази инициатива за журналистика с данни има за цел да даде възможност на повече журналисти от цял свят да използват данните, за да подобрят качеството на своите репортажи.