ここから得られるエビデンスは特にないが。

公開

2025年3月31日

いよいよ学生が終わる

今日は3月31日ということで、今日をもって正式に学生生活が終わる。まさか大学院まで行って勉強することになるとは思っていなかったが、思ったより頑張れたし、同期や先輩後輩、先生にも恵まれてうまいことやってこれたと思う。

ところで先日の卒業式、総長が感受性の話をされていたのだが、その中でフィルターバブルの話にもなった。僕自身はこの言葉はつい最近まで全く知らなかったのだが、日経に最近は普通に使われる~といったようなことが書いてあったので焦って調べたのがつい2週間くらい前だ。まぁそんなことはどうでもよくて、ともかく最近は自分もフィルターバブルの中にいたのだと気づいて大いに反省し、スマホもあまり触らなくなった(おかげでメンタルがやられなくて幸福度が上がった気がする)。しかしどうしても最後にXで見た論調で気になることがあって、最後にどうしてもそれだけ自分でデータを集めてみたくなった。

それは、

(実質的な)移民を増やせば犯罪が増加する

というものである。保守(というよりネトウヨ)がずっと言っていることだが、特に大した根拠も示されていないのに、もしかしたらそうなのかな…とかこれまた根拠のない不安を覚えていた(大体みな敵意がすさまじく、とにかくこれがメンタルヘルスに悪い)。

僕はとにかくアカデミアの世界に疎いので、どうせこの手の研究はごまんとあるのだろうと思ってはいる。しかしデータを集める、可視化するというのがそもそも好きなのと、(おまけ程度だが)仕事でいろいろな国のデータを見ることになると思うのでその練習という意味合いもある。

直感的には日本は世界最高水準に治安が良いので、在留外国人が増えたら異なる価値基準の人が増えて犯罪は増えそうだ。しかし、実際には外国人の犯罪率は高くないという記事も見たことがある。なので根拠のない思い込みという可能性が大いにあるのかもしれないとも思う。

何はともあれ、この学生最後の春休み最終日という、明日の準備しろよと言う時間に急ぎデータを集めプロットしてみることにした。さすがに分析までは無理そうだ。開始は16時。朝早く起きていたのに思い出したのが遅かった…。

e-Statにあたってみる

犯罪のデータなど見たことがなかったので、どのデータがよいのかもわからない。とりあえずe-Statで「犯罪」と打ち込んでヒットした犯罪統計をあたってみる。

ひとまず犯罪の種類ごとにデータがあったので、(レイプなどが増えるという話が特に吹き荒れているので)ひとまず不同意性交等のデータを集めてみた。不同意わいせつもあったのだが、とにかくデータが分析に不向きで時間がないため、このデータにした。こんなExcelファイル見て「ほぉほぉなるほど!」とかなる人いないのだから、せめて分析向きにしてほしい。切実に。

元データ

とりあえずコロナ前の2018年から2024年までのデータを収集した。

あとは住民基本台帳から都道府県ごとの外国人人口を回収。同じく2018年から2024年。

取り急ぎプロット

とにかくデータ整備が煩わしく、思い立ってから整備を終えるだけで2時間近くかかってしまった。やっとデータフレーム化できたので、急いでプロットしてみよう。

コード
library(tidyverse)
library(ggrepel)
data_dir <- here::here("data/250331_hanzai")

# --------------------
# 変数の整備
# --------------------
df <- read_csv(file.path(data_dir, "dataframe.csv")) |> 
  mutate(
    group = if_else(id_pref %in% c(13, 23, 27), 
                    as.factor(name_pref), "other"), 
    group_lab = if_else(id_pref %in% c(13, 23, 27) & year == 2024, 
                        name_pref, NA_character_)
  )

# --------------------
# プロット
# --------------------
ggplot(
  df |> filter(id_pref %in% c(13, 23, 27)), 
  aes(x = year, y = ninchi_total, group = id_pref)
) + 
  theme_minimal() + 
  theme(
    panel.grid = element_blank(), 
    legend.position = "none"
  ) + 
  geom_vline(
    xintercept = seq(2018, 2024, by = 1), 
    color = "gray91", 
    linewidth = .6
  ) + 
  geom_segment(
    data = tibble(y = seq(0, 600, by = 200), x1 = 2018, x2 = 2024), 
    aes(x = x1, xend = x2, y = y, yend = y), 
    inherit.aes = FALSE, 
    color = "gray91", 
    linewidth = .6
  ) + 
  geom_segment(
    data = tibble(y = seq(100, 500, by = 200), x1 = 2018, x2 = 2024), 
    aes(x = x1, xend = x2, y = y, yend = y), 
    inherit.aes = FALSE, 
    color = "gray93", 
    linewidth = .4
  ) + 
  geom_line(
    data = df |> filter(group == "other"), 
    color = "gray75"
  ) + 
  geom_line(
    aes(color = group)
  ) + 
  geom_text_repel(
    aes(color = group, label = group_lab), 
    hjust = 0, 
    xlim = c(2024.4, NA), 
    size = 4, 
    segment.linetype = "dotted"
  ) + 
  labs(x = "年", y = "不同意性交等の認知件数") + 
  scale_x_continuous(
    expand = c(0, 0), 
    limits = c(2018, 2025), 
    breaks = seq(2018, 2024, by = 2)
  ) + 
  scale_y_continuous(
    expand = c(0, 0), 
    limits = c(0, 600), 
    breaks = seq(0, 600, by = 200)
  )

ここまでプロットして、人口当たりにするのを忘れていたことに気づく…。そりゃ東京大阪名古屋が多いに決まってるよねー…という感じではある。

しかし繰り返すが時間がない。ここで分かったこととしては、明確にコロナ以降に犯罪数が伸びていることである。東京なんかは前と比べて3倍弱になっているようだ。

コロナで何かが変わったのか?という気がするが、ここで外国人が増えたからだとは論じることはできない。とはいえインバウンドが盛んになったのもコロナ以後であるから、犯罪が増加したのと時期が被っているのは確かなようである。

ここまできたら最後までやりたいが…

今は19時15分。さっさと明日の準備して寝ないとという焦りも生じてきたので、せめて相関くらいは見ておこう。仕事が始まってもし時間ができたらさらに調べてみることにする。

コード
df_ratio <- df |> 
  filter(year %in% c(2018, 2024)) |> 
  select(id_pref, name_pref, year, ninchi_total, pop_gaikoku) |> 
  pivot_wider(
    names_from = year, 
    values_from = c(ninchi_total, pop_gaikoku), 
    names_sep = ""
  ) |> 
  mutate(
    ninchi_inc = ninchi_total2024 / ninchi_total2018, 
    fpop_inc = pop_gaikoku2024 / pop_gaikoku2018
  ) |> 
  select(ends_with(c("_pref", "_inc")))

ggplot(df_ratio, aes(x = fpop_inc, y = ninchi_inc)) + 
  geom_point() + 
  xlab("外国人人口増加率") + 
  ylab("不同意性交等罪認知件数増加率") + 
  stat_smooth(method = lm, se = FALSE, color = "darkgreen") + 
  annotate("text", x = 1.75, y = 11, label = "R^2 == 0.088", 
           parse = TRUE) + 
  theme_bw()

2018年から2024年の増加率で見た相関

まぁ、正の相関は見られるが、大して強くはないな。しかも思いついた変数同士で適当に見ただけだから特に説得力もない。やってみただけになってしまった…(はじめからそのつもりではあったのだが)。

時間も時間なのでここが限界かもしれない。

力尽きた

こんな簡単なプロットでも数時間かかると思うと恐ろしいものだ。しかも説得力を持たせようと思ったらさらに入念に変数を検討して、適切な手法を用いて分析せねばならない。

研究者とはすごいなと改めて思った。僕はどちらかというとその環境整備というか、もちろんRで分析カタカタすることもあるとは思うのだが、使いやすいデータを普及させたり、一般市民が社会問題の概要を適切に把握できるようなプロットを作成したいという思いがある。エビデンスという言葉は一見説得力があるが、なんだかほんとにわかってるのかなと、未熟な僕でも思うことがある。

今日もプロットを作っていて、これをこう切って貼ったら信じちゃう人もいるんじゃないかと感じた。上のプロットだって大した検討もしていないのに、これだけ持ってやっぱり外国人が増えると犯罪が増えるじゃないかと主張できかねない。何事も妄信はいけないなと、なぜか春休みの最後に考えることとなった。

ともかく明日からは社会人。まずは見習いだが、自分でも納得がいくいい仕事をできるように頑張っていきたい。

最後に

春休みはShinyアプリケーションも作ってみた。RESASに感化されてRでもやれたらどうかと思い、勢いで3つくらい作った(ついでに久しぶりにRESASみたらだいぶアップデートされてた)。

春休みの自由課題ということで、ここまで読んでくれた方にはぜひそちらも少し見ていってほしい。お願いします。