Evaluering af a-kasse-forsøget viser præcist… ingenting

Arbejdsmarked

19. december 2023 | Af: Asbjørn Sonne Nørgaard

INDHOLD

FORFATTER(E)

Asbjørn Sonne Nørgaard

21725413

[email protected]

METODE

NOTER

[1] Metoden og dens forudsætninger er nøje beskrevet i rapporten.

[2] Effektændringen fremgår af figur 9 i slutrapporten. Figuren viser effekten af forhold, som er forskellige i de to rapporter. Men da der er tale om en trinvis kontrol, er det svært at se, om den samlede effekt af ændringen fra 52 til 26 uger bliver insignifikant eller lige præcist stadig er signifikant.

[3] I slutevalueringen er evalueringsperioden 1. september 2020 – ultimo januar 2023, mens ”førperioden”, der bruges til at estimere effekten i et ”difference-in-differences” design er primo september 2017 – ultimo januar 2020. I midtvejsevalueringen er evalueringsperioden primo september 2020 til ultimo marts 2021, mens ”førperioden” er primo september 2018 til ultimo marts 2019. Evalueringsperioden er således ca. 22 måneder længere (marts 2021-januar 2023).

[4] Man kunne argumentere for, at man skulle måle lige efter de 13 uger, som er forsøgsperioden. Men de 26 uger giver god mening, da evt. stillinger man måtte søge i de første 13 uger, ofte først besættes på et senere tidspunkt pga. ansættelsesprocesser m.m.

[5] Særligt for 3F’s a-kasse ser valget af 52 ugers effektmåling snarere end 26 uger ud til at have ganske stor betydning. Den relativt stærke og høj-signifikante positive beskæftigelseseffekt i Midtvejsevalueringen på 6,6 pct.-point falder i slutevalueringen til 1 pct.-point og bliver lige præcis insignifikant. Konfidensintervallerne i de to analyser overlapper ikke. Forskellen i effekt kan dog også skyldes valget af evalueringsperiode; mere herom i teksten nedenfor. Effekterne for BUPL og FTF går fra at være et rundt nul i Midtvejsevalueringen, idet der ikke findes signifikante forskelle, til at være signifikant negative. Der er dog temmelig stort overlap i konfidensintervallerne i de to analyser.

[6] Samtidig viser analysen, at ledigheden er ca. 1 pct.-point højere blandt forsøgskommunerne, mens andelen, der er kommet på sygedagpenge, er 0,3 pct.-point lavere (begge signifikante effekter på 0,05-niveauet).

[7] Se Beskæftigelsesministeriet samt VIVE (2018). Benchmarking af jobcentrene

[8] For en mere detaljeret beskrivelse se Boks 1 i Slutrapporten.

[9] Den afgørende forudsætning for at kunne estimere effekter i diff-in-diff er, at disse forskelle skal være tidsinvariante i før-perioden og i forsøgsperioden.

[10] Placebo-testen viser dog, at antagelsen om parallelle trends ikke holder for FOAs vedkommende, hvilket betyder, at der ikke kan estimeres en effekt i et diff-in-diff design.

^[11] Her vælges en før-periode fra uge 1 2016 til uge 52 2017, mens placebo-’evalueringsperioden’ sættes til at være fra uge 1 i 2018 til uge 52 i 2019.

[12] Det fremgår ikke, om der i midtvejsevalueringen er lavet selvstændige tests for antagelsen om parallelle trends (herunder placebo-test) for de enkelte a-kasser hver for sig. Det antages her, at antagelsen er opfyldt for Dansk Metal i midtvejsevalueringen, sådan som den også er det i slutrapporten i henhold til de tests, der præsenteres i slutrapporten.

REFERENCER

DOWNLOAD analysen som PDF

Resumé

I de seneste uger har der været intens diskussion af evalueringen af de ni a-kasser, der siden januar 2020 på forsøgsbasis har haft kontakten med ledige de første 13 uger af deres ledighedsforløb. Et kontaktforløb som ellers ligger både i kommunernes jobcentre og i a-kasserne.

I medierne har det især været fremhævet, at en nyligt udgiven evalueringsrapport konkluderer, at a-kasserne er dårligere til at få ledige i beskæftigelse end jobcentrene. Men den konklusion er forhastet og forkert. Det fremgår faktisk også af rapporten, der påpeger, ”at der ikke er en robust entydig effekt af a-kasseindsatsen på beskæftigelsesstatus over den analyserede periode.”

Der er især fire grunde til, at rapporten ikke kan drage nogen som helst håndfaste konklusioner om beskæftigelseseffekten. De fire grunde berøres delvist i rapporten, men kun delvist.

Jobcentrenes større effekt på beskæftigelsesgraden ses 52 uger, men ikke 26 uger efter påbegyndt ledighed. Da a-kasserne kun har ledighedskontakten de første 13 uger, er den mest direkte effekt af a-kassernes indsats 26 uger og ikke 52 uger efter påbegyndt ledighed.

Den negative beskæftigelseseffekt rapporten finder for a-kasserne, der deltager i forsøget i udvalgte kommuner (ikke-landsdækkende), er ikke robuste. Beskæftigelsesgraden er alene signifikant lavere i BUPL og FTFs a-kasser end i jobcentrene, mens der ikke er signifikante effekter for HK, Min A-kasse, Magistrene og 3F. Effekterne er ikke entydige.

Forskellen i beskæftigelseseffekt mellem forsøgskommuner og kontrolkommuner kan være konjunkturafhængig, hvilket ikke undersøges tilstrækkeligt i rapporten. Forudsætningen om ’parallelle trends’ i beskæftigelsen burde undersøges nøjere for de enkelte a-kasser i en længere periode med skiftende konjunkturer.

De ledige, som jobcentrene i forsøgskommunerne overtager fra a-kasserne efter 13 uger, får en mindre indsats efter uge 13, end ledige, som sammenligningskommunerne selv har haft ansvaret for. Det kan ikke udelukkes, at denne forskelsbehandling har en negativ afsmittende effekt på a-kasseforsøget – især når der måles efter 52 uger.

Indledning

I de seneste uger har der været intens diskussion af evalueringen af de ni a-kasser, der siden januar 2020 på forsøgsbasis har haft kontakten alene med ledige de første 13 uger af deres ledighedsforløb. Et kontaktforløb som ellers ligger både i kommunernes jobcentre og i a-kasserne.

Evalueringsrapporten ”Effektstudie af forsøg med mere ansvar til arbejdsløshedskasser: Kvantitativ evaluering”, som er skrevet af professorerne Michael Rosholm og Michael Svarer, finder, at de seks a-kasser, som har været med i forsøget i udvalgte kommuner (ikke-landsdækkende indsats) er signifikant dårligere til at få ledige i beskæftigelse end jobcentrene. Målt over 52 uger efter påbegyndt ledighed er beskæftigelsesgraden i gennemsnit 1,3 pct.-point højere i jobcentrene end i kommuner med a-kasseforsøg.

For de øvrige tre a-kasser, der har været involveret i landsdækkende a-kasseforsøg, er det af metodiske grunde ikke muligt at estimere effekten af a-kassernes indsats. Dog ser det ud til, at Metals A-kasse har en signifikant positiv effekt på beskæftigelsen sammenlignet med jobcentrene.

Rapporten, som anvender et såkaldt diffference-in-differences design[1], er blevet taget til indtægt for at vise, at a-kasserne er dårligere til at få ledige i job end jobcentrene. Den konklusion er både forhastet og forkert. For som forfatterne skriver, er analysens resultater ikke entydige. Rapportens egen konklusion er derfor, at der ikke kan drages nogen konklusion (p. 24). Rapporten fremhæver;

… at der ikke er en robust entydig effekt af a-kasseindsatsen på beskæftigelsesstatus over den analyserede periode, da resultaterne ændres fra at indikere en positiv effekt fra midtvejsevalueringen til en negativ effekt i denne evaluering.

Rapporten viser også, hvad der metodisk og datamæssigt kan forklare de forskellige effekter i de to rapporter. De to vigtigste forklaringer er: (1) At beskæftigelseseffekten i den seneste rapport måles over 52 uger, hvor det i den tidligere analyse var 26 uger. Hvis man også i slutrapporten måler effekten over 26 uger, falder den negative effekt markant og ser ud til at blive insignifikant.[2] (2) At evalueringsperioden i slutevalueringen er længere end i midtvejsevalueringen.[3] Hvis man i slutevalueringen havde brugt den samme, kortere evalueringsperiode, ville a-kasserne i forsøget have haft en positiv beskæftigelseseffekt sammenlignet med jobcentrene. Der ser altså ud til, at resultaterne er følsomme overfor, hvilken periode man analyserer på.

Bør a-kassernes effekt vurderes over 26 uger eller 52 uger?

Mens man i midtvejsrapporten undersøgte mulige beskæftigelseseffekter over en 26 ugers periode, udvider man i slutevalueringen effekt-perioden til 52 uger. Det vil sige, at man følger alle nyledige uge for uge og undersøger, om de skifter status fra ledig til beskæftiget (samt andre ’tilstande’, fx på sygedagpenge, i uddannelse mv.). For at estimere effekten af a-kassernes indsats sammenligner man beskæftigelsesgraden for den gruppe af ledige (inden for den pågældende a-kasses område), som har haft kontaktforløb med a-kassen i de første 13 uger som ledig (forsøgskommunerne), med den gruppe som har haft kontaktforløbet med jobcentre (sammenligningskommunerne).

Valget af 52 uger snarere end 26 uger ser ud til at være truffet for at få så mange observationer med som muligt. Rapporten anfører:

For at sikre at der er observationer nok til at lave en robust statistisk analyse, fokuseres på arbejdsmarkedsstatus i de første 52 uger efter påbegyndt ledighed.

Det er altid bedre at have flere observationer end færre observationer. Men det forudsætter, at de ekstra observationer er ’gode’. Valget om at inkludere uge 27-52 er af to grunde problematisk, én substantiel og én metodisk.

For det første er a-kasserne, der deltager i forsøget, alene ansvarlige for kontaktforløbet i de første 13 uger som ledig (eller kortere, hvis den ledige kommer i job eller ændrer status). Derefter er det jobcentrene, som overtager kontakten og indsatsen.

Hvis der er en a-kasse-effekt, er det mest sandsynligt, at den viser sig i den periode, hvor a-kasserne har ansvaret for indsatsen eller umiddelbart efter. Der er intet, der taler for, at effekten indtræder med stor forsinkelse. Under alle omstændigheder er en eventuel senere effekt et resultat af såvel a-kassernes som jobcentrenes indsats, og jobcentrenes indsats kan af en række praktiske grunde være anderledes over for de ledige, de overtager fra a-kasserne, end de ledige, som de har haft ansvaret for i hele ledighedsforløbet. Figur 1 i slutrapporten tyder netop på, at de ledige, som jobcentrene i forsøgskommunerne overtager fra a-kasserne efter 13 uger, får en mindre indsats efter uge 13, end de ledige, som sammenligningskommunerne selv har haft ansvaret for. Man kan altså ikke antage, at jobcentrenes indsats er ’en konstant’, der bare kan lægges oveni a-kassernes indsats.

Af denne grund forekommer det mest rimeligt og retvisende at undersøge de lediges beskæftigelsesstatus 26[4] uger efter, de bliver ledige, sådan som det gøres i midtvejsevalueringen, og ikke 52 uger, sådan som det gøres slutevalueringen.[5]

For det andet er der alt andet lige større sandsynlighed for brud på forudsætningerne for den anvendte metode – difference-in-differences, hvis testperioden er længere. Jo længere tid, der går fra en indsats til, at der viser sig en eventuel effekt, jo større er sandsynligheden for, at det ikke er indsatsen men noget andet, der kan forklare effekten. Hypotetisk kunne man spørge, om det vil være bedre med en effektmåling, der dækker 104 eller 156 uger efter, at man er blevet nyledig? Det forekommer usandsynligt, at 1-3 møder inden for de første 13 uge har betydning for den lediges jobchancer halve og hele år senere.

Man kan også sige det på en anden måde: Hvis der ikke er en signifikant effekt i den periode, hvor det er mest sandsynligt, at a-kassernes indsats kan have en effekt, er det ikke overbevisende, at man finder en negativ effekt, i en senere periode, hvor det er mindre sandsynligt, at a-kassernes indsats har betydning. Af slutrapportens figur 10 fremgår det, at der ikke er en signifikant negativ effekt af a-kassernes indsats på beskæftigelsesgraden indtil uge 17, mens midtvejsevalueringen fandt positive effekter.

Dertil kommer, at forudsætningen om parallelle trends, som er afgørende for den anvendte diff-in-diff-metode, er mere tvivlsom jo længere en periode, der undersøges. Mere herom nedenfor.

Metodisk er der derfor også god grund til at undersøge eventuelle beskæftigelseseffekter under og umiddelbart efter indsatsen er sket, dvs. i 26 uger snarere end i 52 uger.

Er beskæftigelseseffekten konsistent på tværs af a-kasser?

Alene valget af afhængig variabel – altså beskæftigelsesfrekvensen i 52 uger frem for 26 uger – gør, at slutrapportens fund af negative effekter ikke er robuste. Dertil kommer, at effekterne ser ud til at være temmelig heterogene på tværs af a-kasser.

Når rapporten beskriver effekten af a-kasseforsøget, skelnes der mellem de tre a-kasser, som har deltaget i en landsdækkende indsats – Dansk Metal, Socialpædagogerne og FOA, og de seks a-kasser, som alene har haft ansvaret for kontakten med ledige i visse udvalgte kommuner. Det er 3F, HK, FTF, BUPL, Magistrene og Min A-kasse, som alene har deltaget i forsøget i udvalgte kommuner.

De tre a-kasser, som deltager i forsøget landsdækkende, står reelt for de første 13 ugers indsats i 83 kommuner, mens 15 ’fri-kommuner’ fortsat selv står for indsatsen til de ny-ledige. For de øvrige a-kasser er det kun i de udvalgte forsøgskommuner, hvor a-kassen står for indsatsen, mens indsatsen for de ny-ledige på a-kassens område fortsat sker i jobcentrene i de øvrige ikke-forsøgskommuner.

Det var a-kasserne selv, der kunne begrunde og ansøge om i hvilke kommuner, de ønskede at stå for ledighedskontakten under forsøgsordningen. Der ligger således ikke metodiske overvejelser til grund for valget af forsøgskommuner hhv. ikke-forsøgskommuner. Det betyder, at der kan være forskellige selektionsproblemer, som komplicerer analyserne.

For de deltagende a-kasser varierer forsøgsdækningen mellem fire kommuner for Magistrene og syv kommuner for BUPL til 45 for HK og 55 for 3F. FTF har forsøg i 35 kommuner og Min A-kasse i 10.

I såvel den beskrivende analyse som i effektanalysen undersøger rapporten de seks ikke-landsdækkende forsøg og de tre landsdækkende forsøg som to distinkte grupper. Da rapporten på grund af forudsætningsbrud (om parallelle trends i beskæftigelsen) ender med ikke at kunne sige noget samlet om effekten for de tre a-kasser, som har haft en landssækkende indsats, er fokus her på analysen af de seks a-kasser, som har deltaget i forsøget og stået for indsatsen i udvalgte kommuner (ikke-landsækkende).

Begrundelsen for at analysere de seks a-kasser under et er øjensynligt, at de alle har deltaget i det ikke-landsdækkende forsøg. Andre begrundelser gives ikke.

Set under ét viser rapporten, at ”beskæftigelsesgraden i gennemsnit (er) 1,3 pct.-point lavere pr. uge i de første 52 uger efter påbegyndt ledighed.”[6] Men som rapporten på forbilledlig vis også dokumenterer i figur 12 og 13, er effekterne meget forskelligartede for de seks a-kasser.

Det er alene a-kasserne for BUPL og FTFa, der har signifikant negative beskæftigelseseffekter i slutrapporten. To a-kasser har negative, men ikke signifikante effekter, HK og Min A-kasse, mens de resterede to a-kasser har ikke-signifikante, men positive effekter. Det drejer sig om Magistrenes a-kasse og 3F’s a-kasse. Særligt 3F’s a-kasse skiller sig ud ved at have ”næsten-signifikante” positive effekter. Når man ser på 95%-konfidensintervallerne i figur 12, ser det ud som om effekten vil være positiv ved et signifikans-niveau på 0,10 og dermed et konfidensinterval på 90%. I 3F’s tilfælde er der altså en betydelig risiko for, at man fejlagtigt konkluderer, at der ikke er en positiv effekt.

Når man slår forskellige dele/sub-populationer sammen i én kategori, er det altid vigtigt at undersøge, om de forskellige dele har nogenlunde samme effekter. Har de ikke det, bør man altid overveje om samlekategorien er meningsfuld.

Rapporten viser resultaterne af disse delanalyser, men det fremgår ikke klart, at disse resultater tydeligt indikerer, at man ikke har ’nogenlunde’ ens effekter på tværs af de seks a-kasser, som har deltaget i det ikke-landsdækkende forsøg. Som konfidensintervallerne i figur 12 tydeligt viser, er beskæftigelseseffekten for 3F signifikant forskellig fra BUPL og FTFa, da konfidensintervallerne ikke overlapper.

Derfor forekommer det ikke rimeligt at drage en samlet og enslydende konklusion for de seks a-kasser, der har deltaget i de ikke-landsdækkende forsøg. Konklusionen bør vel snarere være, at beskæftigelseseffekterne for nogle af a-kasserne er negative og for andre 0, mens den for én a-kasse er positiv, som dog knapt er signifikant på 0,05-niveauet. Der er altså tale om temmelig heterogene effekter.

Det er ikke overraskende, da a-kassernes struktur og målgrupper er temmelig forskellige. Også blandt kommunerne og deres jobcentre er effekterne ganske forskellige. [7]

Lokale konjunkturer og forudsætning om 'parallelle trends'

Når man laver en difference-in-differences (diff-in-diff) analyse, sammenligner man en forsøgsgruppe med en kontrolgruppe.[8] I dette tilfælde sammenlignes kommuner, hvor forsøgs-a-kasserne står for kontakten til nyledige indenfor a-kassens område de første 13 uger, med kommuner, hvor kommunerne selv står for denne indsats. Formålet med diff-in-diff er at få et bedre estimat på den kausale effekt af indsatsen på beskæftigelse mv., når man ikke kan lave et rent lodtrækningsforsøg på individniveau.

Diff-in-diff-analysen tager højde for, at forsøgs- og kontrolgruppen kan være forskellige i udgangspunktet (før-forsøgsperioden).[9] Det, man er interesseret i, er, om forskellene er blevet større eller mindre – altså om der er ”forskel-på-forskellene” efter forsøget sammenlignet med før. I dette tilfælde altså om man er blevet relativt bedre til at få ledige i beskæftigelse inden for forskellige a-kasse-områder i de kommuner, hvor a-kasserne har stået for ledighedskontakten.

En kritisk forudsætning for, at man kan estimere denne effekt, er antagelsen om, at udviklingen i beskæftigelsen ville have været den samme i forsøgs- og kontrolgruppen, som før forsøget, hvis forsøget ikke have fundet sted. Det er naturligvis en hypotetisk situation, der ikke findes og derfor ikke kan observeres. Derfor må man nøjes med at sandsynliggøre, at udviklingen ville have været den samme i fravær af forsøget: Man undersøger trenden forud for forsøget, og trenden skal over en vis periode være ens i kontrol- og forsøgsgruppen.

Alt dette forklares nøje i slutrapporten. Cadeau for det. Men af to grunde kan man alligevel være bekymret for, om antagelsen om parallelle trends holder i alle tilfælde.[10] Det er i hvert tilfælde en forudsætning, som kunne være gransket nøjere.

For det først vurderer slutrapporten rimeligheden af antagelsen om ’parallelle trends’ – herunder gennem en placebo-test[11] – over en relativt kort periode. Der burde nok være gennemført flere tests, herunder om antagelsen også holder over en længere periode med skiftende konjunkturer. Især fordi slutrapporten selv anfører, at konjunktursituationen efter forsøget blev sat i værk, var mere gunstig end før forsøget. Det betyder, at antagelsen om parallelle trend ikke er testet i en sammenligelig konjunktursituation.

Da det ikke er testet, kan man altså ikke afvise, at forskelle på beskæftigelseseffekter mellem forsøgs- og kontrolkommuner skyldes geografiske og systematiske forskelle i gennemslaget af de forbedrede konjunkturer, og at den underliggende beskæftigelsestrend derfor er forskellig under forskellige konjunkturer.

For det andet er der indikationer på, at der rent faktisk kan være tale om forskellige effekter, som kan være konjunkturfølsomme, og som rammer forsøgs- og kontrolkommunerne forskelligt.

Når man sammenligner midtvejs- og slutevalueringen, er der en række forskelle i beskæftigelseseffekterne, som er iøjnefaldende:

Den samlede effekt af a-kasse-forsøget (i udvalgte kommuner) er positiv og signifikant (2 pct.-point) i midtvejsevalueringen, mens den er signifikant negativ i slutrapporten (1,3 pct.-point), og de to konfidensintervaller overlapper ikke.
Den samlede effekt af a-kasse-forsøget i 3F er positiv og signifikant (6,6 pct.-point) i midtvejsevalueringen, og den er positiv, men knapt signifikant i slutrapporten (1 pct.-point). De to konfidensintervaller overlapper ikke, hvorfor de to estimater er signifikant forskellige.
Beskæftigelseseffekterne for Min A-kasse og BUPL er positive i midtvejsrapporten, men ikke signifikant forskellige fra 0. I slutrapporten er de begge negative, og effekten for BUPL er nu signifikant. Konfidensintervallerne overlapper dog i betydelig grad for begge a-kasser.
I Dansk Metal, der deltager i et landsdækkende forsøg, er beskæftigelseseffekten negativ i midtvejsevalueringen (-1,3 pct.-point), men ikke signifikant. I slutrapporten er effekten positiv (2,8 pct.-point) og er nu signifikant. Konfidensintervallerne overlapper til en vis grad, men forskellen ser dog ud til at være signifikante (kræver egentlig test for at kunne afgøres med sikkerhed).[12]

Udvidelsen af evalueringsperioden betyder, at nogle af disse forskelle i resultaterne kan skyldes systematisk forskellige konjunktureffekter på tværs af forsøgs- og ikke-forsøgskommuner. Den mulighed kunne være undersøgt nærmere, hvis antagelsen om parallelle trends i beskæftigelsen var blevet gransket nøjere i før-evalueringsperioden.

Afsluttende kommentar

Slutrapporten redegør i afsnit 5.3, hvorfor midtvejs- og slutrapporten finder ganske forskellige aggregerede resultater. Som nævnt i indledningen er det især, fordi beskæftigelseseffekten måles over 52 uger i stedet for 26 uger, og fordi evalueringsperioden udvides med ca. 22 måneder, at man får forskellige effekter i de to rapporter.

En tilsvarende analyse og dekomponering af effekterne for de enkelte a-kasser kunne være oplysende, da de store forskelle i beskæftigelseseffekt, man ser for visse a-kasser (især 3F og Dansk Metal) i hhv. midtvejs- og slutevalueringen, ikke forklares.

Udvidelsen af evalueringsperioden fra midtvejsevalueringen til slutrapporten betyder, at man får en betydeligt større undersøgelsespopulation, hvilket alt andet lige er at foretrække. Men alt andet er desværre ikke lige. Det er altid grund til særlig opmærksomhed, når man i to (eller flere) analyser af samme problemstilling og med samme grundlæggende metode får temmelig forskellige resultater.

Det er allerede anført ovenfor, at det forekommer mere rimeligt at fokusere på en 26 ugers beskæftigelseseffekt af en indsats, der strækker sig over maksimalt 13 uger, end en effekt, der kan vise sig helt frem til uge 52.

Det er også anført, at effekterne er heterogene på tværs af a-kasser.

Endelig er det også anført, at de forskellige beskæftigelseseffekter kan også være udtryk for konjunktureffekter, som slår systematisk forskelligt igennem i forsøgs- og ikke-forsøgskommuner (kontrolgruppen).

Som slutrapporten fremstår nu, er det uklart, hvad der forklarer de forskellige resultater på a-kasse-niveau i henholdsvis midtvejsevalueringen og slutrapporten. Dertil kommer, som dette notat viser, at enkelte metodiske valg, som har betydning for analyseresultaterne, ikke forekommer velbegrundede.

Men ret beset er rapportens konklusion ganske valid. Som anført i slutrapporten er den samlede konklusion klar, nemlig

at der ikke er en robust entydig effekt af a-kasseindsatsen på beskæftigelsesstatus over den analyserede periode

Hvad angår effekterne af a-kassernes indsats på beskæftigelsen, viser rapporten… ingenting.